C++ NUMA-Aware Concurrent Data Structures：针对 NUMA 架构的内存访问优化 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

哈喽，各位好！今天咱们来聊点硬核的——C++ NUMA-Aware Concurrent Data Structures，也就是针对NUMA架构的内存访问优化。简单来说，就是让你的程序跑得更快，更丝滑，尤其是在多核服务器上。

一、啥是NUMA？先来点背景知识

想象一下，你是一个图书馆管理员，要管理一大堆书（数据）。有两种方式组织这些书：

所有书都放在一个大房间里： 谁想借书都去这个房间，管理员也要跑来跑去。这就像SMP（Symmetric Multi-Processing）对称多处理系统，所有CPU核心访问同一块内存。简单粗暴，但是访问速度慢。
把书分到几个小房间里，每个房间离一些读者更近： 这些读者借书就方便多了。这就是NUMA（Non-Uniform Memory Access）非一致性内存访问。每个CPU核心有自己的本地内存，访问速度快；访问其他CPU核心的内存速度慢。

所以，NUMA的核心概念就是：访问本地内存快，访问远端内存慢。

1.1 NUMA架构的特点

多个节点 (Nodes): 每个节点包含一个或多个CPU核心和本地内存。
非一致性内存访问延迟: 访问本地内存比访问其他节点的内存快得多。延迟差异可能高达数倍。
节点间互联: 节点之间通过互联总线或其他高速互联方式连接，用于节点间的数据传输。

1.2 如何查看你的机器是不是NUMA？

Linux下，你可以用numactl --hardware命令查看。

numactl --hardware

如果输出类似下面这样，恭喜你，你的机器是NUMA架构：

available: 2 nodes (0-1)
node 0 cpus: 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
node 0 size: 32717 MB
node 0 free: 24503 MB
node 1 cpus: 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31
node 1 size: 32768 MB
node 1 free: 24576 MB
node distances:
node   0   1
 0:  10  21
 1:  21  10

available: 2 nodes (0-1)：表示有两个NUMA节点，编号为0和1。
node 0 cpus: ...：表示节点0上的CPU核心。
node 0 size: ...：表示节点0上的内存大小。
node distances: ...：表示节点间的相对访问延迟。数字越小，延迟越低。这里0: 10 21表示从节点0访问节点0的延迟是10，访问节点1的延迟是21。

二、为啥要关注NUMA？性能！

想象一下，一个线程在节点0上运行，频繁访问节点1上的数据。这就像让图书馆管理员不停地从一个房间跑到另一个房间拿书，效率肯定低。

NUMA-unaware 的程序会遇到什么问题？

远端内存访问: 线程可能分配到某个NUMA节点上，但访问的数据却在另一个节点上。
内存争用: 多个线程可能同时访问同一个远端内存，导致性能瓶颈。
线程迁移: 操作系统可能会在不同的NUMA节点之间迁移线程，导致缓存失效和性能下降。

简单来说，就是浪费了宝贵的CPU资源，程序跑得慢。

三、 NUMA-Aware 编程：让数据离CPU更近

NUMA-Aware 编程的核心思想是：尽量让线程访问本地内存，减少远端内存访问。 这就像让读者在离自己最近的房间借书，效率自然高。

3.1 NUMA API：控制内存分配和线程绑定

Linux提供了libnuma库，可以用来控制内存分配和线程绑定。

内存分配策略:
- numa_alloc_onnode(size, node)：在指定节点上分配内存。
- numa_alloc_local(size)：在当前节点上分配内存。
- numa_free(ptr, size)：释放内存。
线程绑定策略:
- numa_run_on_node(node)：让当前线程在指定节点上运行。
- numa_bind(nodes)：让当前线程在指定的节点集合上运行。

3.2 代码示例：NUMA-Aware 数组分配

下面是一个简单的例子，演示如何在指定NUMA节点上分配一个数组：

#include <iostream>
#include <vector>
#include <numa.h>

int main() {
    // 检查NUMA是否可用
    if (numa_available() == -1) {
        std::cerr << "NUMA is not available on this system." << std::endl;
        return 1;
    }

    // 获取NUMA节点数量
    int num_nodes = numa_max_node() + 1;
    std::cout << "Number of NUMA nodes: " << num_nodes << std::endl;

    // 选择一个NUMA节点（例如节点0）
    int target_node = 0;

    // 数组大小
    size_t array_size = 1024 * 1024; // 1MB

    // 在指定NUMA节点上分配内存
    void* numa_memory = numa_alloc_onnode(array_size, target_node);
    if (numa_memory == nullptr) {
        std::cerr << "Failed to allocate memory on NUMA node " << target_node << std::endl;
        return 1;
    }

    // 将分配的内存转换为int数组
    int* array = static_cast<int*>(numa_memory);

    // 初始化数组
    for (size_t i = 0; i < array_size / sizeof(int); ++i) {
        array[i] = i;
    }

    std::cout << "Array allocated and initialized on NUMA node " << target_node << std::endl;

    // 释放内存
    numa_free(numa_memory, array_size);

    return 0;
}

编译和运行：

g++ -o numa_array numa_array.cpp -lnuma
./numa_array

这个例子演示了如何在指定的NUMA节点上分配内存。实际应用中，你需要根据你的程序逻辑，合理地分配内存和绑定线程，才能充分利用NUMA架构的优势。

3.3 并发数据结构：NUMA优化的关键

对于并发程序来说，数据结构的设计至关重要。 NUMA-Aware 的并发数据结构可以减少线程间的竞争，提高程序的并发性能。

3.3.1 NUMA-Aware 队列

每个NUMA节点一个队列: 每个节点上的线程访问本地队列，减少跨节点访问。
全局队列 (可选): 如果本地队列为空，可以从全局队列获取任务。

#include <iostream>
#include <vector>
#include <queue>
#include <thread>
#include <mutex>
#include <condition_variable>
#include <numa.h>

class NUMAQueue {
public:
    NUMAQueue(int num_nodes) : num_nodes_(num_nodes), queues_(num_nodes) {}

    void enqueue(int data, int node) {
        std::lock_guard<std::mutex> lock(mutexes_[node]);
        queues_[node].push(data);
        cvs_[node].notify_one();
    }

    int dequeue(int node) {
        std::unique_lock<std::mutex> lock(mutexes_[node]);
        cvs_[node].wait(lock, [this, node]{ return !queues_[node].empty(); });
        int data = queues_[node].front();
        queues_[node].pop();
        return data;
    }

private:
    int num_nodes_;
    std::vector<std::queue<int>> queues_;
    std::vector<std::mutex> mutexes_ = std::vector<std::mutex>(num_nodes_);
    std::vector<std::condition_variable> cvs_ = std::vector<std::condition_variable>(num_nodes_);
};

int main() {
    // 检查NUMA是否可用
    if (numa_available() == -1) {
        std::cerr << "NUMA is not available on this system." << std::endl;
        return 1;
    }

    // 获取NUMA节点数量
    int num_nodes = numa_max_node() + 1;
    std::cout << "Number of NUMA nodes: " << num_nodes << std::endl;

    NUMAQueue queue(num_nodes);

    // 创建一些线程，每个线程绑定到一个NUMA节点
    std::vector<std::thread> threads;
    for (int i = 0; i < num_nodes; ++i) {
        threads.emplace_back([&queue, i]() {
            // 绑定线程到NUMA节点
            numa_run_on_node(i);

            // 生产数据
            for (int j = 0; j < 10; ++j) {
                queue.enqueue(i * 10 + j, i);
                std::cout << "Thread " << i << " enqueued " << i * 10 + j << " on node " << i << std::endl;
                std::this_thread::sleep_for(std::chrono::milliseconds(10));
            }

            // 消费数据
            for (int j = 0; j < 10; ++j) {
                int data = queue.dequeue(i);
                std::cout << "Thread " << i << " dequeued " << data << " from node " << i << std::endl;
            }
        });
    }

    // 等待所有线程完成
    for (auto& thread : threads) {
        thread.join();
    }

    return 0;
}

这个例子创建了一个NUMA-Aware的队列，每个NUMA节点都有自己的队列。线程绑定到各自的NUMA节点，并操作本地队列。这样可以减少跨节点的数据访问，提高程序的并发性能。

3.3.2 NUMA-Aware 哈希表

分片哈希表: 将哈希表分成多个分片，每个分片分配到不同的NUMA节点。
一致性哈希: 使用一致性哈希算法，将键映射到对应的分片。

3.3.3 NUMA-Aware 内存池

每个NUMA节点一个内存池: 每个节点上的线程从本地内存池分配内存，避免跨节点访问。

四、性能测试和调优：实践出真知

光说不练假把式，NUMA优化需要实际测试和调优。

4.1 工具

numactl：控制内存分配和线程绑定。
perf：性能分析工具，可以用来分析NUMA相关的性能瓶颈。
likwid：另一个性能分析工具，提供更细粒度的NUMA性能指标。

4.2 测试方法

基准测试: 编写针对性的基准测试，模拟实际应用场景。
对比测试: 对比NUMA-Aware 和 NUMA-Unaware 版本的性能差异。
参数调优: 调整内存分配策略、线程绑定策略等参数，找到最佳配置。

4.3 常见问题

False Sharing: 多个线程访问同一个缓存行中的不同变量，导致缓存失效和性能下降。
NUMA抖动: 线程在不同的NUMA节点之间频繁迁移，导致缓存失效和性能下降。

五、总结：NUMA优化，永无止境

NUMA-Aware 编程是一个复杂而有趣的话题。它需要深入理解NUMA架构的特点，合理设计数据结构，以及细致的性能测试和调优。虽然有一定的学习成本，但带来的性能提升也是非常可观的。

简而言之，NUMA优化就是：

让数据离CPU更近！
减少跨节点访问！
充分利用NUMA架构的优势！

希望今天的分享能帮助你更好地理解和应用NUMA-Aware 编程。记住，实践是检验真理的唯一标准，多写代码，多做实验，你就能成为NUMA优化的大师！

一些重要的提示：

优化策略	优点	缺点
NUMA-Aware 内存分配	减少远端内存访问，提高性能。	需要手动管理内存分配，增加代码复杂度。
线程绑定	将线程绑定到特定的NUMA节点，减少线程迁移和缓存失效。	可能导致负载不均衡，某些节点上的线程过载。
NUMA-Aware 数据结构	针对NUMA架构进行优化的数据结构，减少线程间的竞争和跨节点访问。	需要重新设计和实现数据结构，增加开发成本。
性能测试和调优	通过性能测试和调优，找到最佳的NUMA配置。	需要花费大量时间和精力，找到最佳配置可能非常困难。

最后，NUMA优化不是一蹴而就的，需要不断学习和实践。祝你在NUMA优化的道路上越走越远！

发表回复 取消回复

发表回复取消回复