C++ Arena / Bump Allocator 详解：为特定场景定制极速内存分配

哈喽，各位好！今天我们要聊聊一个听起来很高大上，但实际上用起来非常接地气的内存分配技术：Arena Allocator，也叫做 Bump Allocator。想象一下，你开了一家餐厅，每次客人来了，你都得跑到市场去买菜，洗菜，切菜，做饭，然后才能上菜。这效率得多低啊！Arena Allocator 就相当于你提前把食材都准备好，客人来了，直接从准备好的食材里拿来用，速度自然快很多。

1. 什么是 Arena/Bump Allocator？

简单来说，Arena Allocator 就是预先分配一大块连续的内存空间（Arena），然后在这个 Arena 内部进行内存分配。每次需要分配内存时，只需要简单地移动一个指针（Bump），指向下一个可用的位置即可。这就像在一张无限长的纸上画画，你只需要不断地往后移动你的笔尖，就能画出新的内容，而不需要每次都换一张新纸。

特点：

速度快： 分配速度非常快，因为只是简单的指针移动，避免了复杂的内存管理操作。
易于释放： 可以一次性释放整个 Arena，而不需要逐个释放每个分配的内存块。这就像你用完了一张画纸，直接扔掉整张纸，而不是慢慢擦掉每一笔。
空间利用率高： 由于是连续分配，减少了内存碎片，提高了空间利用率。
适用场景： 适合于大量小对象，且生命周期相似的场景。例如，游戏引擎中的临时对象，编译器中的语法树节点等。

不适用场景：

频繁释放单个对象： 如果需要在 Arena 中频繁释放单个对象，则不适合使用 Arena Allocator。因为 Arena Allocator 的设计目标是一次性释放整个 Arena。
对象生命周期差异大： 如果 Arena 中的对象生命周期差异很大，则会导致内存浪费。因为 Arena 只有在所有对象都释放后才能释放。

2. Arena Allocator 的基本原理

Arena Allocator 的核心就是一个指向 Arena 中下一个可用位置的指针。每次分配内存时，只需要将该指针向前移动相应的字节数即可。

主要组成部分：

Arena： 一块连续的内存空间，用于存储分配的对象。
Current Pointer： 指向 Arena 中下一个可用位置的指针。
End Pointer： 指向 Arena 的末尾位置的指针。
Chunk Size： 定义每次分配 Arena 的大小。

分配过程：

检查 Arena 中是否有足够的空间容纳请求的内存大小。
如果空间足够，则将 Current Pointer 指向的位置返回给用户。
将 Current Pointer 向前移动请求的内存大小。
如果空间不足，则分配一个新的 Arena，并将 Current Pointer 指向新的 Arena 的起始位置。

释放过程：

释放整个 Arena，只需要简单地将 Current Pointer 和 End Pointer 重置为初始状态即可。或者直接释放整个 Arena 内存块。

3. C++ 实现 Arena Allocator

下面是一个简单的 Arena Allocator 的 C++ 实现：

#include <iostream>
#include <vector>
#include <cassert>

class ArenaAllocator {
public:
    ArenaAllocator(size_t chunkSize = DEFAULT_CHUNK_SIZE) : chunkSize_(chunkSize), currentChunk_(nullptr), currentPosition_(nullptr), endPosition_(nullptr) {
        allocateNewChunk();
    }

    ~ArenaAllocator() {
        for (auto& chunk : chunks_) {
            delete[] chunk;
        }
    }

    void* allocate(size_t size, size_t alignment = 8) { // 添加对齐参数，默认8字节对齐
        // 对齐操作
        size_t alignmentOffset = 0;
        if (alignment != 0) {
            uintptr_t currentAddress = reinterpret_cast<uintptr_t>(currentPosition_);
            alignmentOffset = (alignment - (currentAddress % alignment)) % alignment;
        }

        size_t totalSize = size + alignmentOffset;

        if (currentPosition_ + totalSize > endPosition_) {
            allocateNewChunk();
            // 新 chunk 之后，重新计算对齐
            uintptr_t currentAddress = reinterpret_cast<uintptr_t>(currentPosition_);
            alignmentOffset = (alignment - (currentAddress % alignment)) % alignment;
            totalSize = size + alignmentOffset;
            if (currentPosition_ + totalSize > endPosition_) {
                // 即使分配了新 chunk 仍然不够，抛出异常或返回 nullptr，这里选择抛出异常
                throw std::bad_alloc();
                // 或者 return nullptr;
            }
        }

        void* alignedAddress = currentPosition_ + alignmentOffset;
        currentPosition_ += totalSize;
        return alignedAddress;
    }

    void reset() {
        currentPosition_ = currentChunk_;
    }

private:
    void allocateNewChunk() {
        char* newChunk = new char[chunkSize_];
        if (!newChunk) {
            throw std::bad_alloc();
        }
        chunks_.push_back(newChunk);
        currentChunk_ = newChunk;
        currentPosition_ = newChunk;
        endPosition_ = newChunk + chunkSize_;
        std::cout << "Allocated new chunk of size: " << chunkSize_ << std::endl; // Debug info
    }

private:
    static const size_t DEFAULT_CHUNK_SIZE = 1024 * 1024; // 1MB
    size_t chunkSize_;
    char* currentChunk_;
    char* currentPosition_;
    char* endPosition_;
    std::vector<char*> chunks_; // 存储所有分配的 chunk
};

// 示例用法
int main() {
    ArenaAllocator allocator(2048); // 初始化 arena 大小为 2KB

    // 分配一些内存
    int* intPtr = static_cast<int*>(allocator.allocate(sizeof(int)));
    *intPtr = 42;
    std::cout << "intPtr value: " << *intPtr << std::endl;

    double* doublePtr = static_cast<double*>(allocator.allocate(sizeof(double)));
    *doublePtr = 3.14159;
    std::cout << "doublePtr value: " << *doublePtr << std::endl;

    // 分配一个自定义结构体
    struct MyStruct {
        int x;
        float y;
    };
    MyStruct* structPtr = static_cast<MyStruct*>(allocator.allocate(sizeof(MyStruct)));
    structPtr->x = 10;
    structPtr->y = 2.71828f;
    std::cout << "structPtr x: " << structPtr->x << ", y: " << structPtr->y << std::endl;

    // 测试对齐
    struct AlignedStruct {
        char a;  // 1 byte
        // padding to make the struct 8-byte aligned
        double b;  // 8 bytes
    };

    AlignedStruct* alignedPtr = static_cast<AlignedStruct*>(allocator.allocate(sizeof(AlignedStruct), 8));
    alignedPtr->a = 'A';
    alignedPtr->b = 1.618;
    std::cout << "AlignedStruct a: " << alignedPtr->a << ", b: " << alignedPtr->b << std::endl;

    // 重置 arena, 之前分配的内存仍然有效，但是可以被覆盖
    allocator.reset();

    // 再次分配内存，会覆盖之前分配的内存
    int* newIntPtr = static_cast<int*>(allocator.allocate(sizeof(int)));
    *newIntPtr = 100;
    std::cout << "newIntPtr value: " << *newIntPtr << std::endl;

    // 注意：不要访问重置后的旧指针，因为它们指向的内存可能已经被覆盖
    // std::cout << "intPtr value after reset: " << *intPtr << std::endl; // 危险！

    return 0;
}

代码解释：

ArenaAllocator(size_t chunkSize)： 构造函数，用于初始化 Arena Allocator。 chunkSize 参数指定 Arena 的大小。默认大小是 1MB。
allocate(size_t size)： 分配内存的函数。 size 参数指定要分配的内存大小。如果 Arena 中有足够的空间，则返回指向分配的内存的指针，否则分配一个新的 Arena，并返回指向新 Arena 中分配的内存的指针。
reset()： 重置 Arena Allocator。将 Current Pointer 指向 Arena 的起始位置。之后，先前的内存可以通过 allocate 函数覆盖。
~ArenaAllocator()： 析构函数，用于释放 Arena Allocator 分配的所有内存。
chunks_: 保存所有分配的内存块, 方便析构时释放.
allocateNewChunk(): 用于分配新的内存块.
allocate(size_t size, size_t alignment = 8): 增加了内存对齐的功能。
- 计算对齐偏移量。
- 确保分配后的地址是对齐的。
- 如果对齐后，当前 chunk 剩余空间不足，则分配新的 chunk。
DEFAULT_CHUNK_SIZE: 默认的 Arena 大小，1MB。

代码要点：

内存对齐： allocate 函数增加了 alignment 参数，可以保证分配的内存地址是对齐的。内存对齐可以提高程序的性能，因为某些硬件平台要求数据必须按照特定的边界对齐。
错误处理： 如果 Arena 中没有足够的空间，则 allocate 函数会抛出一个 std::bad_alloc 异常。在实际应用中，可以根据需要选择不同的错误处理方式，例如返回 nullptr 或抛出自定义异常。
多 Chunk 支持： Arena Allocator 使用一个 std::vector<char*> 来存储所有分配的 Arena。当一个 Arena 满了之后，会自动分配一个新的 Arena。这样可以避免 Arena 大小固定带来的限制。
Reset 操作： reset() 函数只是简单地将 Current Pointer 指向 Arena 的起始位置。这意味着之前分配的内存仍然有效，但是可以被覆盖。使用 reset() 函数可以快速地释放 Arena 中的所有内存，而不需要逐个释放每个分配的内存块。

4. Arena Allocator 的优势和劣势

优势：

优势	描述
速度快	分配速度非常快，因为只是简单的指针移动，避免了复杂的内存管理操作。
易于释放	可以一次性释放整个 Arena，而不需要逐个释放每个分配的内存块。
空间利用率高	由于是连续分配，减少了内存碎片，提高了空间利用率。
适合特定场景	适合于大量小对象，且生命周期相似的场景。例如，游戏引擎中的临时对象，编译器中的语法树节点等。

劣势：

劣势	描述
频繁释放单个对象	如果需要在 Arena 中频繁释放单个对象，则不适合使用 Arena Allocator。因为 Arena Allocator 的设计目标是一次性释放整个 Arena。
对象生命周期差异大	如果 Arena 中的对象生命周期差异很大，则会导致内存浪费。因为 Arena 只有在所有对象都释放后才能释放。
不支持动态调整大小	一旦 Arena 被分配，其大小就不能动态调整。如果需要动态调整大小，则需要分配一个新的 Arena，并将旧 Arena 中的数据复制到新的 Arena 中。

5. Arena Allocator 的应用场景

游戏引擎： 用于分配临时对象，例如粒子，碰撞盒等。这些对象通常生命周期很短，且数量很多。
编译器： 用于分配语法树节点，符号表等。这些对象通常生命周期相似，且数量很多。
网络服务器： 用于分配请求处理过程中需要的临时缓冲区。这些缓冲区通常生命周期很短，且数量很多。
图形渲染： 用于分配渲染过程中需要的临时数据，例如顶点数据，索引数据等。这些数据通常生命周期很短，且数量很多。

6. Arena Allocator 的优化技巧

选择合适的 Chunk Size： Chunk Size 的大小会影响 Arena Allocator 的性能。如果 Chunk Size 太小，则会导致频繁的 Arena 分配，降低性能。如果 Chunk Size 太大，则会导致内存浪费。选择合适的 Chunk Size 需要根据具体的应用场景进行权衡。
内存对齐： 内存对齐可以提高程序的性能，因为某些硬件平台要求数据必须按照特定的边界对齐。在分配内存时，应该尽量保证分配的内存地址是对齐的。
预分配： 可以在程序启动时预先分配一些 Arena，以减少运行时的 Arena 分配开销。
多线程支持： 如果需要在多线程环境中使用 Arena Allocator，则需要考虑线程安全问题。可以使用互斥锁或其他同步机制来保护 Arena Allocator 的数据结构。
使用模板： 可以使用模板来创建类型安全的 Arena Allocator。例如，可以创建一个 TypedArenaAllocator<T> 类，用于分配类型为 T 的对象。

7. 总结

Arena Allocator 是一种简单而高效的内存分配技术，特别适合于大量小对象，且生命周期相似的场景。通过合理地选择 Chunk Size，进行内存对齐，预分配 Arena，以及使用模板，可以进一步提高 Arena Allocator 的性能。当然，Arena Allocator 也有其局限性，例如不支持频繁释放单个对象，对象生命周期差异大等。在实际应用中，需要根据具体的场景选择合适的内存分配技术。

希望今天的讲解对大家有所帮助！下次有机会再和大家聊聊其他的内存管理技术。祝大家编程愉快！

发表回复 取消回复

发表回复取消回复