解析 C++20 Coroutine ‘Frame Allocation’：为什么协程的状态机通常分配在堆上？如何优化掉它？ - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

各位开发者，下午好！

今天，我们将深入探讨C++20协程（Coroutine）的一个核心且经常被误解的方面——协程帧（Coroutine Frame）的内存分配。我们将解析为什么协程的状态机通常会默认分配在堆上，以及作为一名追求极致性能的C++程序员，我们又该如何通过各种优化策略来消除这种堆分配，从而提升应用的性能和资源利用率。

1. C++20协程：非阻塞并发的基石

C++20协程是现代C++标准库中引入的一项革命性特性，它允许我们编写可以暂停执行并在稍后从暂停点恢复的函数。与传统线程（Thread）不同，协程是协作式的、用户态的，并且是“无栈”（stackless）的。这意味着协程不会像线程那样拥有独立的运行时栈，它们的局部变量和执行状态不会存储在调用栈上，而是存储在一个由编译器生成的特殊数据结构中，我们称之为“协程帧”或“协程状态机”。

协程的引入极大地简化了异步编程、事件驱动编程以及状态机实现。核心的语言关键字包括：

co_await：用于暂停当前协程，等待一个awaitable对象完成。
co_yield：用于暂停当前协程，并返回一个值，通常用于实现生成器（generator）。
co_return：用于结束协程的执行，并返回最终结果（如果有的话）。

要理解协程的内存分配，我们首先需要了解协程的生命周期和其内部结构。

协程的生命周期简述：

创建/调用： 当一个协程函数被调用时，编译器会进行一系列转换。
Promise对象创建： std::coroutine_traits机制根据协程函数的返回类型选择一个promise_type。首先会创建这个promise_type的实例。
协程帧分配： 编译器会为协程帧分配内存。这个帧包含了promise_type实例、协程函数的参数（如果它们需要在暂停后保持活跃）、所有在co_await点之间可能活跃的局部变量，以及编译器生成的内部状态信息。
initial_suspend： 协程在初始化后会立即执行promise_type::initial_suspend()。根据其返回的awaitable对象，协程可能会立即暂停或继续执行。
执行与暂停： 协程执行直到遇到co_await、co_yield或co_return。在co_await和co_yield时，协程会暂停，控制权返回给调用者。
恢复： 协程的调用者通过std::coroutine_handle来恢复协程的执行。
final_suspend： 当协程执行到co_return或抛出未捕获的异常时，它会执行promise_type::final_suspend()。这通常是协程的最后一个暂停点，允许在协程即将销毁前执行清理工作。
销毁： 当std::coroutine_handle::destroy()被调用时，协程帧被销毁，内存被释放。

协程帧的组成：
协程帧是一个运行时数据结构，它保存了协程在暂停和恢复之间所需的所有状态。具体来说，它通常包含以下部分：

promise_type实例： 协程的“承诺”对象，负责与外部世界进行交互（例如，设置返回值、处理异常）。
协程参数： 如果协程的参数以值传递，并且在co_await点之后仍然需要，它们会被复制到协程帧中。
局部变量： 任何在co_await点之间声明并可能活跃的局部变量也会被移动到协程帧中。
恢复地址/状态： 编译器会生成一个状态变量，记录协程在哪个co_await点暂停，以便恢复时能从正确的位置继续。
std::coroutine_handle： 通常，协程帧中会有一个隐藏的指针，允许从promise_type获取到coroutine_handle。

2. 为什么协程帧通常分配在堆上？

理解协程帧为何默认分配在堆上，关键在于其“无栈”特性和生命周期管理。

2.1 栈与堆的本质差异

调用栈（Stack）： 栈是一种LIFO（后进先出）的数据结构，与函数调用密切相关。当一个函数被调用时，它的局部变量、参数和返回地址被压入栈帧。函数返回时，其栈帧被弹出，所有局部数据随之销毁。栈分配快速且自动管理，但其生命周期严格绑定到函数的调用层次。
堆（Heap）： 堆是动态内存区域，允许程序在运行时按需分配和释放内存。堆上的对象的生命周期可以独立于函数调用栈，需要程序员显式地管理其分配和释放（通过new/delete或智能指针）。堆分配相对较慢，并可能导致内存碎片。

2.2 协程帧与生命周期不匹配问题

协程的核心能力是在不阻塞调用线程的情况下暂停和恢复。这意味着一个协程的执行可能跨越多个函数调用，甚至可能在创建它的函数已经返回之后才恢复执行。

考虑以下场景：

函数A调用协程C。
协程C在某个co_await点暂停。
函数A返回，其栈帧被销毁。
稍后，在另一个事件或线程中，协程C被恢复执行。

如果协程C的局部状态（即协程帧）被分配在函数A的栈上，那么当函数A返回时，协程C的栈帧就会被销毁，导致其状态丢失，进而程序崩溃。这种“生命周期不匹配”是协程设计中必须解决的核心问题。

为了解决这个问题，协程帧必须拥有一个独立于创建它的函数调用栈的生命周期。堆分配正是满足这一需求的自然选择：

独立生命周期： 堆内存可以在任意时间点分配和释放，与函数调用栈无关。
状态持久化： 协程帧在堆上，即使创建它的函数已经返回，其状态也能安全地持久存在，直到协程完成或被显式销毁。
动态大小： 协程帧的大小由编译器根据协程的复杂性（局部变量、参数、co_await点数量等）动态确定。堆分配能够灵活地适应这种动态大小的需求。

因此，默认情况下，C++编译器会为协程帧生成代码，使其通过全局的operator new进行堆分配。

2.3 协程帧的分配机制

当编译器遇到一个协程函数时，它会进行以下转换：

识别promise_type： 根据协程函数的返回类型（例如Task<int>），通过std::coroutine_traits<ReturnType, Args...>找到对应的promise_type（例如Task<int>::promise_type）。
查找promise_type::operator new： 编译器会尝试在promise_type内部查找一个静态的operator new成员函数。
- 如果找到了，就会调用这个自定义的operator new来分配协程帧的内存。这个operator new的第一个参数是size_t size，表示协程帧所需的总字节数。后续参数（可选）是协程函数的原始参数。
- 如果promise_type没有提供自定义的operator new，编译器就会退而求其次，调用全局的::operator new(size_t)进行堆分配。
构造promise_type和协程帧： 分配内存后，编译器会使用placement new在该内存地址上构造promise_type实例，并初始化协程帧的其他部分。
get_return_object()： 协程的promise_type::get_return_object()方法被调用，它通常会返回一个封装了std::coroutine_handle的返回值对象（例如Task）。这个handle是指向协程帧的非拥有型指针。
std::coroutine_handle::destroy()： 当协程结束（co_return或异常）并且final_suspend返回一个可暂停的awaitable时，或者当coroutine_handle的析构函数被调用时，destroy()方法会被调用。destroy()会先调用promise_type的析构函数，然后编译器会查找promise_type::operator delete来释放协程帧的内存。如果找到了自定义的operator delete，则调用它；否则，调用全局的::operator delete。

示例：默认堆分配的Task

让我们以一个简单的Task类型为例，它默认使用堆分配。

#include <iostream>
#include <coroutine>
#include <memory>   // For std::addressof
#include <stdexcept> // For std::runtime_error
#include <utility>  // For std::exchange

// 定义一个简单的Task，它将返回一个值
template<typename T>
struct Task {
    struct promise_type {
        T value_; // 存储协程的返回值
        std::exception_ptr exception_; // 存储协程中发生的异常

        // get_return_object：在promise_type构造后，由协程机制调用，返回Task对象
        Task get_return_object() {
            // 从当前promise_type实例获取coroutine_handle
            return Task{std::coroutine_handle<promise_type>::from_promise(*this)};
        }

        // initial_suspend：协程开始执行前的第一个暂停点
        // 这里选择std::suspend_always，表示协程在创建后立即暂停
        std::suspend_always initial_suspend() {
            std::cout << "  [Task Promise] initial_suspend called, suspending." << std::endl;
            return {};
        }

        // final_suspend：协程即将结束（co_return或异常）时的最后一个暂停点
        // 这里选择std::suspend_always，表示协程在完成或抛出异常后暂停
        std::suspend_always final_suspend() noexcept {
            std::cout << "  [Task Promise] final_suspend called, suspending." << std::endl;
            return {};
        }

        // unhandled_exception：处理协程内部未捕获的异常
        void unhandled_exception() {
            exception_ = std::current_exception();
            std::cout << "  [Task Promise] unhandled_exception called." << std::endl;
        }

        // return_value：处理co_return返回的值
        void return_value(T value) {
            value_ = value;
            std::cout << "  [Task Promise] return_value called with: " << value << std::endl;
        }

        // 默认情况下，如果promise_type没有定义operator new/delete，
        // 编译器会使用全局的::operator new/delete来分配/释放协程帧。
        // 为了演示，我们可以显式地定义它们并打印信息。
        void* operator new(size_t size) {
            std::cout << "  [Task Promise] Allocating coroutine frame (heap). Size: " << size << " bytes." << std::endl;
            return ::operator new(size);
        }

        void operator delete(void* ptr, size_t size) {
            std::cout << "  [Task Promise] Deallocating coroutine frame (heap). Ptr: " << ptr << ", Size: " << size << " bytes." << std::endl;
            ::operator delete(ptr);
        }
    };

    std::coroutine_handle<promise_type> handle_;

    // Task构造函数，从coroutine_handle创建
    Task(std::coroutine_handle<promise_type> h) : handle_(h) {
        std::cout << "  [Task] Constructor called, handle set." << std::endl;
    }

    // 默认构造函数，用于创建空的Task
    Task() : handle_(nullptr) {
        std::cout << "  [Task] Default constructor called (empty)." << std::endl;
    }

    // 移动构造函数，转移所有权
    Task(Task&& other) noexcept : handle_(std::exchange(other.handle_, nullptr)) {
        std::cout << "  [Task] Move constructor called." << std::endl;
    }

    // 移动赋值运算符
    Task& operator=(Task&& other) noexcept {
        if (this != &other) {
            if (handle_) {
                std::cout << "  [Task] Move assignment: destroying old handle." << std::endl;
                handle_.destroy(); // 销毁旧的协程帧
            }
            handle_ = std::exchange(other.handle_, nullptr);
            std::cout << "  [Task] Move assignment: new handle set." << std::endl;
        }
        return *this;
    }

    // 析构函数，确保协程帧被销毁
    ~Task() {
        if (handle_) {
            std::cout << "  [Task] Destructor called: destroying coroutine handle." << std::endl;
            handle_.destroy(); // 销毁协程帧，调用promise_type::operator delete
        } else {
            std::cout << "  [Task] Destructor called: handle is null (already moved or empty)." << std::endl;
        }
    }

    // 获取协程结果的方法
    T get() {
        if (!handle_) {
            throw std::runtime_error("Task not initialized or already consumed.");
        }
        if (!handle_.done()) {
            std::cout << "  [Task] Resuming coroutine to get result..." << std::endl;
            handle_.resume(); // 恢复协程执行直到完成
        }

        if (handle_.promise().exception_) {
            std::rethrow_exception(handle_.promise().exception_);
        }
        return handle_.promise().value_;
    }
};

// 一个简单的协程函数，返回一个Task
Task<int> create_heap_task(int x, int y) {
    std::cout << "Coroutine create_heap_task starts. x=" << x << ", y=" << y << std::endl;
    co_await std::suspend_always{}; // 第一次暂停
    std::cout << "Coroutine create_heap_task resumes after first suspend." << std::endl;
    int result = x * y;
    co_return result; // 协程结束，返回结果
}

// int main() {
//     std::cout << "--- Starting Heap-Allocated Task Example ---" << std::endl;
//     Task<int> my_task = create_heap_task(5, 3); // 协程创建，帧在堆上分配，并立即暂停
//     std::cout << "Task created. Waiting to get result..." << std::endl;
//     int final_result = my_task.get(); // 恢复协程，获取结果
//     std::cout << "Final result from heap task: " << final_result << std::endl;
//     std::cout << "--- Heap-Allocated Task Example Finished ---" << std::endl;
//     // my_task析构时，协程帧被释放
//     return 0;
// }

输出示例（部分）：

--- Starting Heap-Allocated Task Example ---
  [Task Promise] Allocating coroutine frame (heap). Size: XXX bytes.
  [Task Promise] initial_suspend called, suspending.
  [Task] Constructor called, handle set.
Coroutine create_heap_task starts. x=5, y=3
Task created. Waiting to get result...
  [Task] Resuming coroutine to get result...
Coroutine create_heap_task resumes after first suspend.
  [Task Promise] return_value called with: 15
  [Task Promise] final_suspend called, suspending.
Final result from heap task: 15
--- Heap-Allocated Task Example Finished ---
  [Task] Destructor called: destroying coroutine handle.
  [Task Promise] Deallocating coroutine frame (heap). Ptr: 0x... , Size: XXX bytes.

从输出中我们可以清晰地看到operator new和operator delete被调用，证明协程帧确实是在堆上分配和释放的。

3. 优化协程帧分配：消除堆使用

堆分配虽然灵活，但也带来了性能开销（分配/释放时间、缓存局部性差、内存碎片化）和潜在的稳定性问题。对于性能敏感的应用、资源受限的嵌入式系统，或需要大量短生命周期协程的场景，消除堆分配是重要的优化目标。

优化的核心思想是：通过自定义promise_type的operator new和operator delete，将协程帧分配到堆之外的其他内存区域。

3.1 优化策略概览

我们将探讨以下几种主要的优化策略：

内存池分配（Memory Pool Allocation）： 从预先分配好的内存池中获取协程帧。
静态/全局缓冲区分配（Static/Global Buffer Allocation）： 将协程帧放置在静态或全局存储区。
返回对象内部存储（Inline Storage within Return Object）： 让协程的返回对象自身包含协程帧的存储。
调用者分配缓冲区（Caller-Allocated Buffer）： 由协程的调用者提供缓冲区。
协程帧嵌入到返回对象（Promise Type as Member）： 协程的promise_type直接作为返回对象的成员，完全避免了协程帧的独立分配。

3.2 优化技术详解与代码示例

3.2.1 内存池分配（Memory Pool Allocation）

这是最常见的优化方法之一。创建一个专门用于协程帧的内存池，promise_type::operator new从该池中分配，operator delete将其归还。这避免了系统级堆分配的开销，并能提高缓存局部性。

实现思路：

定义一个全局或线程局部的内存池。
promise_type重载operator new和operator delete，使其与内存池交互。

代码示例：PoolTask


#include <array>
#include <vector>
#include <mutex> // For thread safety

// 简单内存池实现
namespace CoroPool {
    constexpr size_t POOL_SIZE = 1024 * 10; // 10KB 内存池
    std::array<std::byte, POOL_SIZE> g_pool; // 实际内存
    // 简化的分配标志，实际应使用更复杂的块管理
    std::vector<bool> g_pool_allocated_flags(POOL_SIZE, false);
    std::mutex g_pool_mutex;

    // 简单地从池中分配内存
    void* allocate(size_t size, size_t alignment) {
        std::lock_guard<std::mutex> lock(g_pool_mutex);
        // 查找足够大的未分配块
        for (size_t i = 0; i < POOL_SIZE; ) {
            // 检查当前位置是否对齐
            size_t aligned_i = (i + alignment - 1) & ~(alignment - 1);
            if (aligned_i >= POOL_SIZE) { // 超出边界
                break;
            }

            // 检查从 aligned_i 开始是否有足够空间
            bool can_allocate = true;
            if (aligned_i + size > POOL_SIZE) {
                can_allocate = false;
            } else {
                for (size_t j = aligned_i; j < aligned_i + size; ++j) {
                    if (g_pool_allocated_flags[j]) {
                        can_allocate = false;
                        break;
                    }
                }
            }

            if (can_allocate) {
                // 标记为已分配
                for (size_t j = aligned_i; j < aligned_i + size; ++j) {
                    g_pool_allocated_flags[j] = true;
                }
                void* ptr = g_pool.data() + aligned_i;
                std::cout << "  [CoroPool] Allocated from pool: " << ptr << " (size: " << size << ", align: " << alignment << ") starting at index " << aligned_i << std::endl;
                return ptr;
            }
            // 移动到下一个可能的起始点 (简单的步进，实际应跳过整个已分配块)
            i = aligned_i + 1;
        }
        throw std::bad_alloc("Coroutine pool exhausted!");