C++ `std::assume_aligned`：C++17 告诉编译器数据对齐信息以优化加载 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位观众，各位老铁，欢迎来到今天的C++大讲堂！今天咱们要聊一个C++17里的小秘密，但威力却很大的东西：std::assume_aligned。

开场白：对齐，一个被忽视的角落

话说，咱们写代码，大部分时间都在琢磨算法、数据结构，想着怎么把程序跑得更快，更省内存。但是，有一个东西，经常被我们忽略，那就是……内存对齐！

哎，别走啊！我知道，一听到“内存对齐”，很多人就开始打瞌睡，觉得这玩意儿又底层又无聊。但是，我可以负责任地告诉你，内存对齐其实是个宝藏，用好了能让你的程序性能提升一个档次！

什么是内存对齐？

简单来说，内存对齐就是指数据在内存中的起始地址必须是某个值的倍数。这个“某个值”通常是2的幂次方，比如1、2、4、8、16等等。

举个例子：

如果要求4字节对齐，那么数据的起始地址就必须是4的倍数。
如果要求8字节对齐，那么数据的起始地址就必须是8的倍数。

为什么要对齐？

你可能会问，为啥要这么麻烦呢？直接把数据一股脑儿塞到内存里不就完了吗？

原因有以下几个：

性能优化： 很多CPU在访问未对齐的内存地址时，需要进行额外的操作，比如多次读取内存，然后把数据拼起来。这会大大降低程序的性能。而访问对齐的内存地址，CPU可以一次性读取数据，效率更高。
硬件限制： 有些CPU甚至不支持访问未对齐的内存地址，会直接崩溃！所以，为了保证程序的兼容性，也需要进行内存对齐。
原子操作： 在多线程编程中，原子操作通常要求数据是对齐的。如果数据未对齐，可能会导致原子操作失败，引发数据竞争。

C++里的对齐方式

在C++中，我们可以通过以下几种方式来控制内存对齐：

alignas：这是C++11引入的关键字，可以用来指定变量或结构体的对齐方式。
编译器指令：不同的编译器可能有不同的指令来控制对齐，比如#pragma pack (Microsoft Visual C++)或者 __attribute__((aligned(n))) (GCC/Clang).
new的 align_val_t 参数 (C++17)
std::assume_aligned (C++17): 今天的主角!

std::assume_aligned：闪亮登场！

好了，铺垫了这么多，终于轮到我们今天的主角出场了！std::assume_aligned是C++17引入的一个函数模板，它的作用是：告诉编译器，某个指针指向的内存地址是按照指定值对齐的。

语法：

template <class T>
[[nodiscard]] T* assume_aligned(T* ptr, size_t alignment);

template <class T>
[[nodiscard]] T* assume_aligned(T* ptr); //C++20

ptr：要假设对齐的指针。
alignment：对齐值，必须是2的幂次方。 C++20如果没有指定，就用alignof(T)

返回值：

返回一个类型为T*的指针，指向与原始指针ptr相同的内存地址。但是，编译器会认为返回的指针已经按照alignment对齐。 [[nodiscard]]属性表示建议编译器，如果函数返回值被忽略，就发出警告。

重点：

std::assume_aligned并不会真正地对齐内存！它只是告诉编译器，内存已经对齐了。如果实际情况不是这样，那么程序的行为将是未定义的，可能会崩溃或者产生错误的结果。
编译器会利用std::assume_aligned提供的信息进行优化，比如使用更快的指令来访问内存。

代码示例：

咱们来看一个简单的例子：

#include <iostream>
#include <algorithm>
#include <memory>

int main() {
    // 分配一块未对齐的内存
    void* raw_memory = malloc(1024);
    if (raw_memory == nullptr) {
        std::cerr << "Memory allocation failed!" << std::endl;
        return 1;
    }

    // 将指针转换为int*
    int* ptr = static_cast<int*>(raw_memory);

    // 假设指针已经按照16字节对齐
    int* aligned_ptr = std::assume_aligned<int>(ptr, 16);

    // 现在，编译器会认为aligned_ptr指向的内存地址是16的倍数

    // 使用aligned_ptr进行一些操作
    for (int i = 0; i < 10; ++i) {
        aligned_ptr[i] = i;
    }

    for (int i = 0; i < 10; ++i) {
        std::cout << aligned_ptr[i] << " ";
    }
    std::cout << std::endl;

    // 释放内存
    free(raw_memory);

    return 0;
}

在这个例子中，我们先用malloc分配了一块未对齐的内存，然后用std::assume_aligned告诉编译器，这个指针已经按照16字节对齐了。接下来，我们可以放心地使用aligned_ptr进行一些操作，编译器会进行相应的优化。

更实际的例子：SIMD优化

std::assume_aligned在SIMD (Single Instruction, Multiple Data) 优化中非常有用。SIMD指令可以同时处理多个数据，但是通常要求数据是对齐的。

#include <iostream>
#include <immintrin.h> // 包含SIMD指令的头文件
#include <algorithm>

float* allocate_aligned_memory(size_t size, size_t alignment) {
    void* ptr = aligned_alloc(alignment, size * sizeof(float));
    if (ptr == nullptr) {
        throw std::bad_alloc();
    }
    return static_cast<float*>(ptr);
}

void unaligned_add(float* a, float* b, float* result, size_t size) {
  for (size_t i = 0; i < size; ++i) {
    result[i] = a[i] + b[i];
  }
}

void aligned_add(float* a, float* b, float* result, size_t size) {
    for (size_t i = 0; i < size; i += 8) { // 处理8个float，AVX2是256位寄存器
        __m256 va = _mm256_load_ps(a + i);   // 从a加载8个float
        __m256 vb = _mm256_load_ps(b + i);   // 从b加载8个float
        __m256 vr = _mm256_add_ps(va, vb);  // 向量加法
        _mm256_store_ps(result + i, vr);  // 将结果存储到result
    }
}

void assumed_aligned_add(float* a_unaligned, float* b_unaligned, float* result_unaligned, size_t size) {
    float* a = std::assume_aligned<float>(a_unaligned, 32);
    float* b = std::assume_aligned<float>(b_unaligned, 32);
    float* result = std::assume_aligned<float>(result_unaligned, 32);
    for (size_t i = 0; i < size; i += 8) { // 处理8个float，AVX2是256位寄存器
        __m256 va = _mm256_load_ps(a + i);   // 从a加载8个float
        __m256 vb = _mm256_load_ps(b + i);   // 从b加载8个float
        __m256 vr = _mm256_add_ps(va, vb);  // 向量加法
        _mm256_store_ps(result + i, vr);  // 将结果存储到result
    }
}

int main() {
    size_t size = 1024;

    //分配对齐的内存
    float* a = allocate_aligned_memory(size, 32);
    float* b = allocate_aligned_memory(size, 32);
    float* result_aligned = allocate_aligned_memory(size, 32);

    //分配未对齐的内存
    float* a_unaligned = (float*)malloc(size * sizeof(float));
    float* b_unaligned = (float*)malloc(size * sizeof(float));
    float* result_unaligned = (float*)malloc(size * sizeof(float));

    // 初始化数据
    for (size_t i = 0; i < size; ++i) {
        a[i] = static_cast<float>(i);
        b[i] = static_cast<float>(size - i);
        a_unaligned[i] = static_cast<float>(i);
        b_unaligned[i] = static_cast<float>(size - i);
    }

    // 使用SIMD指令进行向量加法
    aligned_add(a, b, result_aligned, size);

    // 使用std::assume_aligned优化
    assumed_aligned_add(a_unaligned, b_unaligned, result_unaligned, size);

    //验证结果
    float* result_serial = (float*)malloc(size * sizeof(float));
    unaligned_add(a_unaligned, b_unaligned, result_serial, size);

    for(size_t i = 0; i < size; ++i) {
        if(result_serial[i] != result_unaligned[i]) {
            std::cout << "Error at index " << i << std::endl;
            break;
        }
    }

    std::cout << "SIMD 加法结果 (部分): ";
    for (int i = 0; i < 8; ++i) {
        std::cout << result_aligned[i] << " ";
    }
    std::cout << std::endl;

    std::cout << "Assumed Aligned 加法结果 (部分): ";
    for (int i = 0; i < 8; ++i) {
        std::cout << result_unaligned[i] << " ";
    }
    std::cout << std::endl;

    // 释放内存
    free(a);
    free(b);
    free(result_aligned);
    free(a_unaligned);
    free(b_unaligned);
    free(result_unaligned);
    free(result_serial);

    return 0;
}

在这个例子中，我们使用了AVX2指令集进行向量加法。_mm256_load_ps和_mm256_store_ps指令要求内存地址是32字节对齐的。通过std::assume_aligned，我们可以告诉编译器，即使指针a, b, 和 result最初没有对齐，在assumed_aligned_add函数内部，它们可以被视为32字节对齐的。

注意事项：

不要瞎猜！ std::assume_aligned最重要的一点是，你必须确保指针指向的内存地址确实是对齐的。如果你瞎猜，后果自负！
对齐值要合理： 对齐值不能太小，也不能太大。太小了可能没有优化效果，太大了可能会浪费内存。通常情况下，选择CPU缓存行的大小作为对齐值是一个不错的选择。
性能测试： 使用std::assume_aligned并不一定能提升性能。最好的方法是进行性能测试，看看是否真的有效果。

std::assume_aligned的适用场景

总的来说，std::assume_aligned适用于以下场景：

你需要使用SIMD指令进行优化。
你需要手动控制内存对齐，但是又不想修改现有的代码结构。
你对程序的性能有极致的要求，并且愿意花时间进行优化。

对比表格：std::assume_aligned vs alignas

特性	`std::assume_aligned`	`alignas`
作用	告诉编译器指针指向的内存已经对齐	指定变量或结构体的对齐方式
使用方式	函数调用	关键字
对齐时机	运行时	编译时
是否真正对齐内存	否，只是假设	是，会影响内存布局
适用场景	现有代码优化，SIMD指令	定义新的数据结构，需要控制对齐
风险	如果假设不成立，程序行为未定义	对齐值过大可能浪费内存

C++20 的简化

C++20 引入了 std::assume_aligned(ptr) 的重载，允许省略对齐参数。在这种情况下，默认使用 alignof(T) 作为对齐值。这使得代码更简洁，但仍然需要确保指针实际上是对齐的。

struct alignas(32) AlignedData {
    int data[8];
};

int main() {
    AlignedData* aligned_ptr = new AlignedData;
    int* int_ptr = aligned_ptr->data;

    // C++20: 假设 int_ptr 按照 alignof(int) 对齐
    int* assumed_aligned_ptr = std::assume_aligned(int_ptr);

    // 现在可以安全地使用 assumed_aligned_ptr，编译器会进行优化
    assumed_aligned_ptr[0] = 42;

    delete aligned_ptr;
    return 0;
}

总结：

std::assume_aligned是一个非常有用的工具，但是使用时一定要小心谨慎。只有在确保指针指向的内存地址确实是对齐的情况下，才能使用它。否则，可能会导致程序崩溃或者产生错误的结果。

记住，优化是一个持续的过程，不要指望一个std::assume_aligned就能解决所有问题。最好的方法是进行性能测试，找到程序的瓶颈，然后有针对性地进行优化。

好了，今天的C++大讲堂就到这里。希望大家能够掌握std::assume_aligned的用法，让你的程序跑得更快，更稳！咱们下期再见！

发表回复 取消回复

发表回复取消回复