C++ 缓存行对齐对并发性能的影响：避免伪共享的极致实践

哈喽，各位好！

今天咱们来聊聊C++并发编程里一个让人又爱又恨的话题：缓存行对齐。说它爱，是因为用好了能让你的程序跑得飞快；说它恨，是因为一不小心就会掉进“伪共享”的坑里，让你的多线程程序比单线程还慢！

咱们今天就一起扒开缓存行对齐的神秘面纱，看看它到底是个什么东西，以及如何利用它来提升并发性能，顺便再踩踩那些常见的坑。

1. 缓存行：CPU的小算盘

要理解缓存行对齐，首先得知道缓存行是什么。简单来说，缓存行是CPU缓存（Cache）存储数据的最小单位。CPU访问内存的时候，不是一个字节一个字节地读，而是一次性读取一个缓存行大小的数据。

想象一下，你是个图书管理员，有人要借一本书。你不是只给他一页，而是直接给他一摞书，因为很有可能他接下来还要看同一摞里的其他书。CPU的缓存行就是这“一摞书”，目的是为了提高数据访问的效率，利用局部性原理。

不同的CPU架构，缓存行的大小可能不一样，但通常是64字节。可以通过以下方式在C++中获取缓存行的大小（这只是一个例子，不同平台获取方式可能不同）：

#include <iostream>
#include <thread>
#include <vector>
#include <chrono>
#include <numeric>

// 跨平台获取缓存行大小，这里只是一个示例，需要根据实际平台调整
#ifdef _WIN32
#include <windows.h>
size_t get_cache_line_size() {
    DWORD buffer_size = 0;
    DWORD processor_number = 0;
    GetLogicalProcessorInformation(nullptr, &buffer_size); // 获取需要的缓冲区大小

    std::vector<SYSTEM_LOGICAL_PROCESSOR_INFORMATION> buffer(buffer_size / sizeof(SYSTEM_LOGICAL_PROCESSOR_INFORMATION));

    if (!GetLogicalProcessorInformation(buffer.data(), &buffer_size)) {
        return 64; // 默认值
    }

    for (const auto& item : buffer) {
        if (item.Relationship == RelationCache && item.Cache.Level == 1) {
            return item.Cache.LineSize;
        }
    }
    return 64; // 默认值
}

#else
#include <unistd.h>
size_t get_cache_line_size() {
    long line_size = sysconf(_SC_LEVEL1_DCACHE_LINESIZE);
    if (line_size <= 0) {
        return 64; // 默认值
    }
    return (size_t)line_size;
}
#endif

int main() {
    size_t cache_line_size = get_cache_line_size();
    std::cout << "Cache line size: " << cache_line_size << " bytes" << std::endl;
    return 0;
}

2. 伪共享：并发的绊脚石

有了缓存行这个概念，我们就可以理解伪共享了。伪共享是指多个线程同时修改不同变量，但这些变量恰好位于同一个缓存行中，导致CPU频繁地进行缓存行的同步，从而降低性能。

想象一下，你和你的同事都在修改同一摞书里的不同页面。每次你修改完一页，你的同事就得把整摞书都重新拷贝一份，反之亦然。这样一来，你们大部分时间都在拷贝书，而不是真正地修改内容，效率自然就低下了。

来看一个简单的例子：

#include <iostream>
#include <thread>
#include <vector>
#include <chrono>
#include <numeric>

const int NUM_THREADS = 2;
const int ITERATIONS = 100000000;

struct Data {
    int a;
    int b;
};

void worker_thread(Data* data, int thread_id) {
    if (thread_id == 0) {
        for (int i = 0; i < ITERATIONS; ++i) {
            data->a++;
        }
    } else {
        for (int i = 0; i < ITERATIONS; ++i) {
            data->b++;
        }
    }
}

int main() {
    Data data;
    data.a = 0;
    data.b = 0;

    std::vector<std::thread> threads;
    auto start_time = std::chrono::high_resolution_clock::now();

    for (int i = 0; i < NUM_THREADS; ++i) {
        threads.emplace_back(worker_thread, &data, i);
    }

    for (auto& thread : threads) {
        thread.join();
    }

    auto end_time = std::chrono::high_resolution_clock::now();
    auto duration = std::chrono::duration_cast<std::chrono::milliseconds>(end_time - start_time);

    std::cout << "Data.a: " << data.a << std::endl;
    std::cout << "Data.b: " << data.b << std::endl;
    std::cout << "Time taken: " << duration.count() << " ms" << std::endl;

    return 0;
}

在这个例子中，Data结构体包含了两个int类型的成员变量a和b。两个线程分别修改a和b。如果a和b恰好位于同一个缓存行中，就会发生伪共享，导致性能下降。

3. 缓存行对齐：解决伪共享的利器

解决伪共享的方法很简单：让每个线程访问的数据位于不同的缓存行中。这就是缓存行对齐的意义所在。

我们可以通过在Data结构体中填充一些无用的数据，使得a和b位于不同的缓存行中。

#include <iostream>
#include <thread>
#include <vector>
#include <chrono>
#include <numeric>

const int NUM_THREADS = 2;
const int ITERATIONS = 100000000;

// 跨平台获取缓存行大小，这里只是一个示例，需要根据实际平台调整
#ifdef _WIN32
#include <windows.h>
size_t get_cache_line_size() {
    DWORD buffer_size = 0;
    DWORD processor_number = 0;
    GetLogicalProcessorInformation(nullptr, &buffer_size); // 获取需要的缓冲区大小

    std::vector<SYSTEM_LOGICAL_PROCESSOR_INFORMATION> buffer(buffer_size / sizeof(SYSTEM_LOGICAL_PROCESSOR_INFORMATION));

    if (!GetLogicalProcessorInformation(buffer.data(), &buffer_size)) {
        return 64; // 默认值
    }

    for (const auto& item : buffer) {
        if (item.Relationship == RelationCache && item.Cache.Level == 1) {
            return item.Cache.LineSize;
        }
    }
    return 64; // 默认值
}

#else
#include <unistd.h>
size_t get_cache_line_size() {
    long line_size = sysconf(_SC_LEVEL1_DCACHE_LINESIZE);
    if (line_size <= 0) {
        return 64; // 默认值
    }
    return (size_t)line_size;
}
#endif

struct alignas(std::hardware_destructive_interference_size) Data { // C++17标准推荐
    int a;
    //填充数据使得a和b位于不同的缓存行
    char padding[get_cache_line_size() - sizeof(int)];
    int b;
};

void worker_thread(Data* data, int thread_id) {
    if (thread_id == 0) {
        for (int i = 0; i < ITERATIONS; ++i) {
            data->a++;
        }
    } else {
        for (int i = 0; i < ITERATIONS; ++i) {
            data->b++;
        }
    }
}

int main() {
    Data data;
    data.a = 0;
    data.b = 0;

    std::vector<std::thread> threads;
    auto start_time = std::chrono::high_resolution_clock::now();

    for (int i = 0; i < NUM_THREADS; ++i) {
        threads.emplace_back(worker_thread, &data, i);
    }

    for (auto& thread : threads) {
        thread.join();
    }

    auto end_time = std::chrono::high_resolution_clock::now();
    auto duration = std::chrono::duration_cast<std::chrono::milliseconds>(end_time - start_time);

    std::cout << "Data.a: " << data.a << std::endl;
    std::cout << "Data.b: " << data.b << std::endl;
    std::cout << "Time taken: " << duration.count() << " ms" << std::endl;

    return 0;
}

在这个修改后的例子中，我们使用了alignas关键字来强制Data结构体按照缓存行大小对齐。std::hardware_destructive_interference_size是C++17标准中推荐使用的，它表示硬件认为可能引起性能下降的最小对齐大小，通常就是缓存行大小。padding数组填充了a和b之间的空间，确保它们位于不同的缓存行中。

4. 缓存行对齐的注意事项

对齐大小: 使用 std::hardware_destructive_interference_size 或者自己查询缓存行大小，并确保填充的数据足够填满整个缓存行。
结构体布局: 结构体成员的顺序也会影响缓存行的使用。尽量将需要并发访问的成员放在不同的结构体中，或者使用填充来分隔它们。
动态分配: 如果使用动态分配内存，需要确保分配的内存也是按照缓存行对齐的。可以使用 posix_memalign (POSIX系统) 或者自定义的分配器来实现。
编译器优化: 编译器可能会对代码进行优化，导致缓存行对齐失效。可以使用 volatile 关键字来阻止编译器优化某些变量。但过度使用 volatile 也会影响性能，需要谨慎权衡。
测试和验证: 性能优化必须经过实际测试才能验证效果。使用性能分析工具来定位性能瓶颈，并评估缓存行对齐带来的改进。

5. 缓存行对齐的适用场景

缓存行对齐主要适用于以下场景：

高并发读写: 多个线程频繁读写共享数据，且这些数据位于同一个缓存行中。
生产者-消费者模型: 生产者和消费者线程访问共享队列，队列头部和尾部指针位于同一个缓存行中。
计数器: 多个线程同时增加计数器，计数器变量位于同一个缓存行中。

6. 代码案例：线程池中的任务队列

假设我们有一个简单的线程池，线程池中的线程会从任务队列中取出任务并执行。为了避免伪共享，我们可以对任务队列的头部和尾部指针进行缓存行对齐。

#include <iostream>
#include <thread>
#include <vector>
#include <queue>
#include <mutex>
#include <condition_variable>
#include <atomic>

// 跨平台获取缓存行大小，这里只是一个示例，需要根据实际平台调整
#ifdef _WIN32
#include <windows.h>
size_t get_cache_line_size() {
    DWORD buffer_size = 0;
    DWORD processor_number = 0;
    GetLogicalProcessorInformation(nullptr, &buffer_size); // 获取需要的缓冲区大小

    std::vector<SYSTEM_LOGICAL_PROCESSOR_INFORMATION> buffer(buffer_size / sizeof(SYSTEM_LOGICAL_PROCESSOR_INFORMATION));

    if (!GetLogicalProcessorInformation(buffer.data(), &buffer_size)) {
        return 64; // 默认值
    }

    for (const auto& item : buffer) {
        if (item.Relationship == RelationCache && item.Cache.Level == 1) {
            return item.Cache.LineSize;
        }
    }
    return 64; // 默认值
}

#else
#include <unistd.h>
size_t get_cache_line_size() {
    long line_size = sysconf(_SC_LEVEL1_DCACHE_LINESIZE);
    if (line_size <= 0) {
        return 64; // 默认值
    }
    return (size_t)line_size;
}
#endif

class ThreadPool {
public:
    ThreadPool(size_t num_threads) : num_threads_(num_threads), stop_(false) {
        threads_.reserve(num_threads_);
        for (size_t i = 0; i < num_threads_; ++i) {
            threads_.emplace_back([this]() {
                while (true) {
                    std::function<void()> task;
                    {
                        std::unique_lock<std::mutex> lock(queue_mutex_);
                        condition_.wait(lock, [this]() { return stop_ || !tasks_.empty(); });
                        if (stop_ && tasks_.empty()) {
                            return;
                        }
                        task = std::move(tasks_.front());
                        tasks_.pop();
                    }
                    task();
                }
            });
        }
    }

    ~ThreadPool() {
        {
            std::unique_lock<std::mutex> lock(queue_mutex_);
            stop_ = true;
        }
        condition_.notify_all();
        for (auto& thread : threads_) {
            thread.join();
        }
    }

    template <typename F>
    void enqueue(F task) {
        {
            std::unique_lock<std::mutex> lock(queue_mutex_);
            tasks_.emplace(task);
        }
        condition_.notify_one();
    }

private:
    size_t num_threads_;
    std::vector<std::thread> threads_;
    std::queue<std::function<void()>> tasks_;
    std::mutex queue_mutex_;
    std::condition_variable condition_;
    std::atomic<bool> stop_;
};

int main() {
    ThreadPool pool(4);

    for (int i = 0; i < 10; ++i) {
        pool.enqueue([i]() {
            std::cout << "Task " << i << " executed by thread " << std::this_thread::get_id() << std::endl;
            std::this_thread::sleep_for(std::chrono::milliseconds(100));
        });
    }

    std::this_thread::sleep_for(std::chrono::seconds(2));

    return 0;
}

在这个例子中， tasks_ 队列的 push 和 pop 操作可能会引起竞争。虽然我们使用了 std::mutex 来保护队列，但是如果多个线程频繁地 push 和 pop，仍然可能因为伪共享而降低性能。

如果任务队列是一个自定义的环形队列，并且使用了头部和尾部指针，那么可以考虑对这两个指针进行缓存行对齐。但是在这个使用 std::queue 的例子中，缓存行对齐可能带来的好处并不明显，因为 std::queue 内部的实现细节我们无法控制。

7. 总结

缓存行对齐是一种有效的优化并发性能的技术，但它并非银弹。在使用缓存行对齐时，需要仔细分析代码，确定是否存在伪共享，并进行充分的测试和验证。

记住，优化是一个迭代的过程，需要不断地尝试和调整。不要盲目地应用缓存行对齐，而应该根据实际情况选择最合适的优化策略。

最后，送给大家一句并发编程的至理名言：“Talk is cheap. Show me the benchmark!” (空谈误国，实测兴邦！)

希望今天的分享对大家有所帮助！感谢各位的聆听。

表格总结

特性	描述
缓存行	CPU 缓存存储数据的最小单位，通常为 64 字节。
伪共享	多个线程修改位于同一缓存行中的不同变量，导致频繁的缓存同步，降低性能。
缓存行对齐	确保每个线程访问的数据位于不同的缓存行中，避免伪共享。
对齐方式	使用 `alignas` 关键字、填充数据、自定义分配器等。
适用场景	高并发读写、生产者-消费者模型、计数器等。
注意事项	对齐大小、结构体布局、编译器优化、测试和验证。
测试方法	使用性能分析工具定位性能瓶颈，评估缓存行对齐带来的改进。
关键点	不要盲目使用，实测为王！

希望这个总结对您有所帮助！

发表回复 取消回复

发表回复取消回复