C++ 内存对齐：`alignas` 与 `__attribute__((aligned))` 对性能和数据结构的影响 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

哈喽，各位好！今天咱们来聊聊C++里一个有点意思，又不得不重视的话题：内存对齐。别看它平时躲在幕后，但对程序的性能、数据结构的布局，甚至跨平台兼容性，都有着深远的影响。咱们重点关注两个C++中控制内存对齐的利器：alignas 和 __attribute__((aligned))，看看它们怎么玩转内存，又有什么需要注意的地方。

啥是内存对齐？为啥要对齐？

想象一下，你开了一家银行，客户来存钱，你希望把钱整齐地摆放在保险柜里，比如100元一捆，整齐地摆放。这样不仅看起来赏心悦目，而且存取也方便快捷。

内存对齐就有点像这个意思。CPU在访问内存的时候，通常不是一个字节一个字节地读，而是一块一块地读，比如4个字节、8个字节、16个字节等等。这些“块”的大小，就叫做CPU的“字长”（word size）或者“对齐粒度”。

如果数据没有按照CPU的对齐粒度来排列，CPU可能需要多次读取才能拿到完整的数据，这就会降低效率。更糟糕的是，某些体系结构的CPU甚至不允许未对齐的内存访问，直接崩溃给你看！

举个例子：假设你的CPU是32位的，字长是4字节。

struct Misaligned {
    char a;    // 1 byte
    int b;     // 4 bytes
};

如果Misaligned结构体紧凑地排列，a占1个字节，b紧接着a，那么b的起始地址可能不是4的倍数，这就造成了未对齐访问。CPU可能需要读取两次内存才能拿到b的完整数据。

而如果进行了内存对齐：

struct Aligned {
    char a;    // 1 byte
    char padding[3]; //为了对齐补齐3个字节
    int b;     // 4 bytes
};

这样，b的起始地址就是4的倍数，CPU一次就能读取到b的完整数据，速度嗖嗖的！

alignas：C++11的对齐神器

C++11引入了alignas关键字，让我们可以更灵活地控制内存对齐。它可以用于变量、类、结构体、联合体等。

基本用法：

alignas(8) int x; // 保证x的起始地址是8的倍数
alignas(16) struct MyStruct {
    int a;
    double b;
};

指定对齐大小：

alignas 后面跟着的就是对齐大小，必须是2的幂，而且要大于等于类型本身的对齐要求。比如int类型通常要求4字节对齐，那么alignas(2)就没用，alignas(4)及以上才有效。

用于类和结构体：

alignas 可以用来指定整个结构体的对齐方式。这在一些需要高性能的数据结构中非常有用，比如SIMD（单指令多数据流）计算。

struct alignas(32) Vector4 {
    float x, y, z, w;
};

这个Vector4结构体的起始地址会是32的倍数，方便SIMD指令进行并行计算。

多重对齐：

如果一个类型有多个alignas 说明符，编译器会选择最大的那个。

alignas(8) alignas(16) int y; // y 会按照16字节对齐

对齐和继承：

alignas 对继承也有影响。派生类的对齐要求会受到基类的影响。

struct alignas(16) Base {
    int a;
};

struct Derived : Base {
    double b;
}; // Derived 的对齐要求是16，因为Base是16字节对齐的

__attribute__((aligned))：GCC的秘密武器

__attribute__((aligned)) 是GCC（GNU Compiler Collection）提供的一个扩展，用来控制内存对齐。它不是C++标准的一部分，但被广泛应用于Linux等平台上。

基本用法：

int z __attribute__((aligned(8))); // 保证z的起始地址是8的倍数

struct MyStruct2 {
    int a;
    double b;
} __attribute__((aligned(16)));

指定对齐大小：

和alignas类似，aligned 后面跟着的是对齐大小，也必须是2的幂。

用于类和结构体：

__attribute__((aligned)) 也可以用来指定整个结构体的对齐方式。

struct Vector4_2 {
    float x, y, z, w;
} __attribute__((aligned(32)));

优先级问题：

当alignas和__attribute__((aligned))同时使用时，编译器会选择更严格（更大）的对齐方式。

alignas vs. __attribute__((aligned))：选哪个？

特性	`alignas`	`__attribute__((aligned))`
标准性	C++11 标准	GCC 扩展
平台兼容性	更好，跨平台性强	较差，主要用于GCC编译器
语法	`alignas(size)`	`__attribute__((aligned(size)))`
使用场景	优先选择，特别是需要跨平台时	在GCC环境下，或者需要兼容旧代码时可以考虑使用

简单来说，如果你的代码需要跨平台，那就优先使用alignas。如果你的代码只在GCC环境下编译，或者需要兼容一些旧代码，__attribute__((aligned)) 也是可以的。

内存对齐的影响：性能、数据结构和兼容性

性能：

这是最直接的影响。正确的内存对齐可以减少CPU的访存次数，提高程序的运行速度。尤其是在处理大量数据的时候，这种提升会非常明显。

#include <iostream>
#include <chrono>

using namespace std;
using namespace std::chrono;

struct Misaligned {
    char a;
    int b;
};

struct Aligned {
    char a;
    char padding[3];
    int b;
};

int main() {
    const int N = 1000000;
    Misaligned misaligned_array[N];
    Aligned aligned_array[N];

    // 测试未对齐访问
    auto start = high_resolution_clock::now();
    int sum_misaligned = 0;
    for (int i = 0; i < N; ++i) {
        sum_misaligned += misaligned_array[i].b;
    }
    auto stop = high_resolution_clock::now();
    auto duration_misaligned = duration_cast<microseconds>(stop - start);

    // 测试对齐访问
    start = high_resolution_clock::now();
    int sum_aligned = 0;
    for (int i = 0; i < N; ++i) {
        sum_aligned += aligned_array[i].b;
    }
    stop = high_resolution_clock::now();
    auto duration_aligned = duration_cast<microseconds>(stop - start);

    cout << "Misaligned access time: " << duration_misaligned.count() << " microseconds" << endl;
    cout << "Aligned access time: " << duration_aligned.count() << " microseconds" << endl;

    return 0;
}

（请注意：这个例子在不同的硬件和编译器下，性能差异可能不同。需要根据实际情况进行测试。）

数据结构：

内存对齐会影响数据结构的布局。比如，结构体中的成员变量的顺序、类型，都会影响结构体的大小和对齐方式。有时候，为了优化内存占用，我们需要手动调整结构体成员的顺序，或者添加一些填充字节。

struct MyStruct3 {
    char a;    // 1 byte
    double b;  // 8 bytes
    int c;     // 4 bytes
}; // 默认情况下，大小可能是 16 字节 (1+7 padding + 8 + 4+4 padding)

struct MyStruct4 {
    double b;  // 8 bytes
    int c;     // 4 bytes
    char a;    // 1 byte
}; // 调整成员顺序后，大小可能是 16 字节 (8 + 4 + 1+3 padding)

兼容性：

不同的CPU架构、不同的编译器，对内存对齐的要求可能不同。如果你的程序需要在不同的平台上运行，就需要特别注意内存对齐的问题。否则，可能会出现意想不到的错误，甚至崩溃。

例如，在某些嵌入式系统中，如果数据没有按照特定的对齐方式排列，硬件可能无法正确访问。

内存对齐的坑：Padding和浪费

内存对齐虽然可以提高性能，但也会带来一些问题：

Padding（填充）： 为了满足对齐要求，编译器可能会在结构体中插入一些填充字节，这会增加内存的占用。
浪费： 如果对齐要求过高，可能会造成内存的浪费。比如，一个char类型的数据，如果按照64字节对齐，那简直是暴殄天物！

所以，在使用alignas 和 __attribute__((aligned)) 的时候，要权衡性能和内存占用，选择合适的对齐方式。

实战案例：SIMD优化

SIMD（单指令多数据流）是一种并行计算技术，可以同时处理多个数据。它在图像处理、音视频编解码等领域应用广泛。

SIMD指令通常要求数据按照特定的对齐方式排列，比如16字节、32字节等等。这时候，alignas 和 __attribute__((aligned)) 就派上用场了。

#include <iostream>
#include <immintrin.h> // 包含AVX指令集

struct alignas(32) Vector8 {
    float data[8];
};

int main() {
    Vector8 a, b, c;

    // 初始化数据
    for (int i = 0; i < 8; ++i) {
        a.data[i] = i;
        b.data[i] = i * 2;
    }

    // 使用AVX指令进行向量加法
    __m256 vec_a = _mm256_load_ps(a.data);
    __m256 vec_b = _mm256_load_ps(b.data);
    __m256 vec_c = _mm256_add_ps(vec_a, vec_b);
    _mm256_store_ps(c.data, vec_c);

    // 打印结果
    for (int i = 0; i < 8; ++i) {
        std::cout << c.data[i] << " ";
    }
    std::cout << std::endl;

    return 0;
}

在这个例子中，Vector8 结构体使用了alignas(32)，保证数据按照32字节对齐，这样才能使用AVX指令集进行高效的向量加法运算。

总结

内存对齐是一个看似简单，实则复杂的问题。alignas 和 __attribute__((aligned)) 是C++中控制内存对齐的两个重要工具。合理地使用它们，可以提高程序的性能、优化数据结构的布局，并保证跨平台兼容性。

但是，也要注意内存对齐带来的padding和浪费问题，权衡性能和内存占用，选择合适的对齐方式。

希望今天的讲解对大家有所帮助！下次再见！

C++ 内存对齐：`alignas` 与 `attribute((aligned))` 对性能和数据结构的影响

发表回复取消回复

发表回复 取消回复

发表回复取消回复