C++ NUMA-Aware Allocators：针对非统一内存访问架构的分配器 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，让我们来一场关于 C++ NUMA 感知分配器的技术讲座！准备好，我们要深入到内存分配的奇妙世界，特别是那些让多核处理器“心跳加速”的 NUMA 系统。

大家好！欢迎来到 NUMA 大冒险！

今天，我们不讲“Hello, World!”，我们要讲“Hello, NUMA!”。如果你觉得内存分配只是 new 和 delete 的简单游戏，那你就大错特错了。尤其是在 NUMA (Non-Uniform Memory Access) 系统里，内存分配可是一门大学问。

什么是 NUMA？别怕，我们用人话解释

想象一下，你和你的小伙伴们（处理器核心）住在一个大房子里（一台服务器）。房子里有很多冰箱（内存），每个小伙伴都有自己专属的冰箱，取东西（访问内存）最快。但是，如果你要跑到别人的冰箱里拿东西，那就要走一段路，速度就会慢一些。

这就是 NUMA 的核心思想：

本地内存（Local Memory）： 每个处理器节点都有自己直接连接的内存，访问速度最快。
远程内存（Remote Memory）： 访问其他处理器节点连接的内存，速度较慢。

所以，如果你不小心把你的数据放在了别人的“冰箱”里，你的程序就会变得很慢。这就是为什么我们需要 NUMA 感知分配器。

为什么我们需要 NUMA 感知分配器？

简单来说，为了性能！如果我们能确保线程访问的数据尽可能地位于本地内存，就能显著提高程序的运行速度。

默认分配器的问题

C++ 的默认分配器（比如 std::allocator）通常不具备 NUMA 感知能力。它们可能会随机地在任何节点上分配内存，导致大量的跨节点内存访问，也就是我们说的“远程访问”。

NUMA 感知分配器的目标

本地化分配： 尽可能在执行线程的本地节点上分配内存。
减少远程访问： 避免线程访问位于其他节点上的内存。
负载均衡： 在多个节点之间平衡内存使用，防止某个节点耗尽内存。

实战：自己动手，丰衣足食！

理论说多了没用，我们直接上代码！

1. 确定节点 ID

首先，我们需要知道当前线程运行在哪个 NUMA 节点上。这可以通过操作系统提供的 API 来实现。在 Linux 系统上，我们可以使用 sched_getcpu() 和 numa_node_of_cpu() 函数。

#include <sched.h>
#include <numa.h>
#include <stdexcept>

int get_current_node() {
    int cpu = sched_getcpu();
    if (cpu < 0) {
        throw std::runtime_error("Failed to get current CPU.");
    }
    int node = numa_node_of_cpu(cpu);
    if (node < 0) {
        throw std::runtime_error("Failed to get NUMA node.");
    }
    return node;
}

2. 创建 NUMA 感知分配器类

接下来，我们创建一个自定义的分配器类，它会在指定的 NUMA 节点上分配内存。

#include <new> // for std::bad_alloc
#include <cstdlib> // for aligned_alloc
#include <iostream>

template <typename T>
class NumaAllocator {
public:
    using value_type = T;

    NumaAllocator() noexcept : node(get_current_node()) {}
    NumaAllocator(int node_id) noexcept : node(node_id) {}

    template <typename U>
    NumaAllocator(const NumaAllocator<U>& other) noexcept : node(other.node) {}

    ~NumaAllocator() = default;

    T* allocate(std::size_t n) {
        if (n > std::size_t(-1) / sizeof(T)) {
            throw std::bad_alloc();
        }
        std::size_t size = n * sizeof(T);
        void* ptr = numa_alloc_onnode(size, node);
        if (ptr == nullptr) {
            throw std::bad_alloc();
        }
        return static_cast<T*>(ptr);
    }

    void deallocate(T* ptr, std::size_t n) noexcept {
        numa_free(ptr, n * sizeof(T));
    }

    bool operator==(const NumaAllocator& other) const noexcept {
        return node == other.node;
    }

    bool operator!=(const NumaAllocator& other) const noexcept {
        return !(*this == other);
    }

private:
    int node;
};

这个分配器做了以下事情：

构造函数： 可以选择在当前节点或指定的节点上分配内存。
allocate()： 使用 numa_alloc_onnode() 函数在指定的节点上分配内存。
deallocate()： 使用 numa_free() 函数释放内存。
比较运算符： 用于在容器中比较分配器。

3. 使用 NUMA 感知分配器

现在，我们可以使用这个分配器来创建容器了。

#include <vector>

int main() {
    try {
        // 创建一个在 NUMA 节点 0 上分配内存的 vector
        NumaAllocator<int> allocator(0);
        std::vector<int, NumaAllocator<int>> vec(100, allocator);

        // 填充数据
        for (int i = 0; i < vec.size(); ++i) {
            vec[i] = i;
        }

        // 打印一些数据
        std::cout << "First element: " << vec[0] << std::endl;
        std::cout << "Last element: " << vec.back() << std::endl;
    } catch (const std::exception& e) {
        std::cerr << "Exception: " << e.what() << std::endl;
        return 1;
    }
    return 0;
}

在这个例子中，我们创建了一个 std::vector，并指定了 NumaAllocator<int> 作为它的分配器。这样，vector 中的所有元素都会在 NUMA 节点 0 上分配内存。

更高级的技巧：Placement new

有时候，你可能需要在已经分配好的内存上构造对象。这时，你可以使用 placement new。

#include <new> // for placement new

int main() {
    try {
        // 在 NUMA 节点 0 上分配一块原始内存
        NumaAllocator<char> allocator(0);
        char* buffer = allocator.allocate(sizeof(int));

        // 使用 placement new 在这块内存上构造一个 int 对象
        int* value = new (buffer) int(42);

        // 打印值
        std::cout << "Value: " << *value << std::endl;

        // 显式调用析构函数
        value->~int();

        // 释放内存
        allocator.deallocate(buffer, sizeof(int));
    } catch (const std::exception& e) {
        std::cerr << "Exception: " << e.what() << std::endl;
        return 1;
    }
    return 0;
}

性能测试：眼见为实！

光说不练假把式，我们来做一个简单的性能测试，看看 NUMA 感知分配器到底能带来多少提升。

测试场景：

创建一个大的数组，并对其进行读写操作。
分别使用默认分配器和 NUMA 感知分配器。
测量运行时间。

#include <iostream>
#include <vector>
#include <chrono>
#include <numeric>

const size_t ARRAY_SIZE = 1024 * 1024 * 100; // 100MB

template <typename Allocator>
long long test_allocation(Allocator allocator) {
    auto start = std::chrono::high_resolution_clock::now();
    std::vector<int, Allocator> data(ARRAY_SIZE, allocator);

    // 读写操作
    for (size_t i = 0; i < ARRAY_SIZE; ++i) {
        data[i] = i;
    }

    long long sum = std::accumulate(data.begin(), data.end(), 0LL);

    auto end = std::chrono::high_resolution_clock::now();
    auto duration = std::chrono::duration_cast<std::chrono::milliseconds>(end - start).count();

    std::cout << "Sum (to prevent optimization): " << sum << std::endl; // 确保编译器不优化掉
    return duration;
}

int main() {
    try {
        std::cout << "Testing with default allocator..." << std::endl;
        long long default_time = test_allocation(std::allocator<int>());
        std::cout << "Time with default allocator: " << default_time << " ms" << std::endl;

        std::cout << "Testing with NUMA-aware allocator (node 0)..." << std::endl;
        NumaAllocator<int> numa_allocator(0);
        long long numa_time = test_allocation(numa_allocator);
        std::cout << "Time with NUMA-aware allocator: " << numa_time << " ms" << std::endl;

        std::cout << "Potential speedup: " << (double)default_time / numa_time << "x" << std::endl;

    } catch (const std::exception& e) {
        std::cerr << "Exception: " << e.what() << std::endl;
        return 1;
    }
    return 0;
}

注意：

你需要安装 numa 库才能运行这个例子（例如，在 Debian/Ubuntu 上使用 sudo apt-get install libnuma-dev）。
性能提升的幅度取决于你的硬件配置和工作负载。
确保你的程序绑定到特定的 NUMA 节点，以便更好地观察 NUMA 感知分配器的效果。可以使用 numactl 命令来绑定程序到节点。

NUMA 感知分配器的挑战

虽然 NUMA 感知分配器有很多优点，但也存在一些挑战：

复杂性： NUMA 编程比普通的单节点编程要复杂得多。
移植性： NUMA API 在不同的操作系统上可能有所不同。
调试： 调试 NUMA 相关的错误可能会很困难。
内存碎片： 如果不小心，NUMA 感知分配器可能会导致内存碎片。

NUMA 的一些建议：

数据局部性： 尽量确保线程访问的数据位于本地内存。
避免跨节点访问： 减少线程访问其他节点上的内存。
负载均衡： 在多个节点之间平衡内存使用。
使用 NUMA 感知的库： 许多库（例如，Boost.Interprocess）都提供了 NUMA 感知的组件。

总结：

NUMA 感知分配器是提高多核处理器系统性能的关键技术之一。虽然它增加了一些复杂性，但带来的性能提升往往是值得的。希望今天的讲座能帮助你更好地理解 NUMA 编程，并在你的项目中应用 NUMA 感知分配器！

最后的忠告：

不要盲目地使用 NUMA 感知分配器。在开始之前，先分析你的应用程序，确定它是否真的需要 NUMA 优化。有时候，简单的代码优化就能带来更好的效果。而且，过早的优化是万恶之源！

记住，性能优化是一场马拉松，而不是短跑。

希望这篇“讲座”对您有所帮助！NUMA 的世界很深奥，还有很多东西值得探索。祝你在 NUMA 大冒险中玩得开心！

发表回复 取消回复

发表回复取消回复