拒绝卡顿：C++ 存储内核中的异步 I/O 与优先级调度艺术

各位未来的系统架构师、现在的代码搬运工，以及那些立志要写出“永不崩溃”存储引擎的勇士们，大家好！

今天我们不谈虚的，也不谈那些让你在面试时能吹半小时的“分布式一致性”。今天我们要聊的是硬核——磁盘 I/O。具体来说，就是如何在 C++ 的自研内核里，优雅地处理异步操作，并且像个精明的交通指挥官一样，管理那些有着不同“脾气”的 IO 请求。

想象一下，如果你的饭馆里，点菜的服务员（I/O 请求）全部在厨房门口堵成一团，而厨师（磁盘）还在慢悠悠地切菜，那顾客（用户进程）就得饿死。这就是同步 I/O 的地狱。

而今天，我们要构建的是一套异步 I/O 调度系统。这套系统不仅要快，还要“懂事”——知道哪些是 VIP 用户的请求，哪些是后台日志的垃圾请求。

第一部分：同步是罪，异步是救赎

首先，我们要明确一点：同步 I/O 是万恶之源。

在早期的 C++ 代码里，你可能会写出这样的代码：

// 糟糕的同步代码示例
void writeData(int fd, const char* data) {
    // 你以为你在写文件，其实你是在 CPU 里空转
    ssize_t written = write(fd, data, strlen(data));
    if (written == -1) {
        perror("write failed");
    }
    // 在这里，CPU 毫无意义地空转，等待磁盘把数据吐出来
    // 系统利用率极低，就像你在等外卖，盯着手机屏幕一动不动
}

在这个例子中，你的线程被卡住了。CPU 拿着指令去敲磁盘的门，然后站在门口等。如果磁盘正在忙，你的线程就傻傻地站着。这就是“阻塞”。

为了解决这个问题，我们需要异步。

异步的核心思想是：“你把活儿扔给我，我去排队，你先去干别的。”

在 C++ 里，我们怎么实现异步？最经典的手段有三种：

回调地狱：这是 C 语言和早期 JS 的遗毒。read(fd, buffer, size, callback)。如果你要嵌套调用，代码会像洋葱一样，从里向外剥，直到你分不清哪头是头。
Future/Promise：这是 C++11 引入的圣杯。Promise 负责干活，Future 负责拿结果。它把“异步”和“同步”的语义在同一个函数调用链上表达了出来。
协程：这是未来的主流。但为了保持代码的可移植性和经典性，我们今天重点讲 Future/Promise 和 RAII 封装。

第二部分：封装的艺术——我们的 I/O 请求对象

在自研内核中，我们不能直接调用 write。我们需要一个统一的对象来代表一个 I/O 请求。这个对象不仅要包含数据，还要包含“灵魂”——优先级。

让我们定义一个 IORequest 结构体。别小看这个结构体，它是整个调度器的基石。

#include <string>
#include <memory>
#include <vector>
#include <functional>
#include <mutex>
#include <condition_variable>

// 定义优先级枚举，这是我们的“VIP 通道”规则
enum class IOSchedulingPriority {
    CRITICAL,    // 核心数据页，必须秒回
    HIGH,        // 事务日志，尽快写入
    NORMAL,      // 普通读写
    LOW          // 历史归档，能慢就慢
};

// 一个自定义的锁类，为了代码简洁，我们用 std::mutex
// 在生产环境中，你可能需要实现更精细的锁，比如读写锁或自旋锁
class ScopedLock {
public:
    explicit ScopedLock(std::mutex& m) : mutex_(m) { mutex_.lock(); }
    ~ScopedLock() { mutex_.unlock(); }
private:
    std::mutex& mutex_;
};

// I/O 请求对象
struct IORequest {
    int fd;                 // 文件描述符
    std::vector<char> data; // 要写入的数据
    IOSchedulingPriority priority; // 优先级：核心属性！

    // 回调函数：当 I/O 完成后，谁来告诉我结果？
    // 注意：回调中捕获的 this 必须是 std::shared_ptr，防止析构
    std::function<void(bool success, size_t bytes)> callback;

    // 用于等待的 Future 对象
    std::promise<bool> promise;
    std::future<bool> future;

    IORequest(int f, const std::string& d, IOSchedulingPriority p)
        : fd(f), priority(p), data(d.begin(), d.end()) {
        // 将 future 绑定到 promise，这样外部可以通过 future.get() 阻塞等待
        future = promise.get_future();
    }
};

看，这个 IORequest 多聪明。它不仅保存了数据，还带了一个 future。这意味着，调用者可以像同步代码一样调用 future.get()，等待结果，而不需要写回调函数。这就是异步封装的魅力：对外提供同步的接口，内部实现异步的执行。

第三部分：请求队列管理器——交通指挥官

现在我们有了请求对象，接下来需要一个容器来装它们。我们叫它 IOScheduler。

这个调度器的工作流程是这样的：

接收请求：把 IORequest 扔进队列。
调度：根据优先级，决定先处理谁。
提交：调用底层的异步 API（比如 Linux 的 io_submit 或 io_uring）。
完成：收到硬件的通知，唤醒对应的 Future。

我们使用 std::priority_queue，这是 STL 里专门干这事的。

#include <queue>
#include <functional>

class IOScheduler {
private:
    // 核心队列：基于优先级
    // 注意：priority_queue 默认是大顶堆，我们希望 CRITICAL (0) 在最上面
    // 所以我们需要自定义比较器
    std::priority_queue<
        std::shared_ptr<IORequest>,
        std::vector<std::shared_ptr<IORequest>>,
        std::function<bool(std::shared_ptr<IORequest>, std::shared_ptr<IORequest>)>
    > io_queue;

    // 线程安全的容器（这里简化处理，实际生产中可能需要更复杂的并发控制）
    // 我们用一个单独的线程来专门处理队列，避免在用户线程中直接操作队列
    std::thread worker_thread;
    std::atomic<bool> running{true};

    // 模拟底层的异步提交接口
    void submitToKernel(std::shared_ptr<IORequest> req) {
        // 这里应该是真正的系统调用，比如 io_uring_submit
        // 为了演示，我们假装提交成功，并模拟延迟
        printf("Submitting IO to kernel (FD: %d, Priority: %d)n", 
               req->fd, static_cast<int>(req->priority));

        // 模拟异步完成
        // 在真实场景中，这是由内核完成中断触发的
        // 这里我们用一个定时器或者直接在后台线程模拟
        std::thread([req]() {
            std::this_thread::sleep_for(std::chrono::milliseconds(100));
            // 模拟写入成功
            req->promise.set_value(true);
        }).detach();
    }

public:
    IOScheduler() {
        // 初始化比较器
        // 优先级数值越小，越重要，所以应该排在前面
        // 如果 priority 是枚举，CRITICAL=0, LOW=3
        auto cmp = [](const std::shared_ptr<IORequest>& a, const std::shared_ptr<IORequest>& b) {
            return static_cast<int>(a->priority) < static_cast<int>(b->priority);
        };
        io_queue = std::priority_queue<std::shared_ptr<IORequest>, 
                                       std::vector<std::shared_ptr<IORequest>>, 
                                       decltype(cmp)>(cmp);

        // 启动工作线程
        worker_thread = std::thread(&IOScheduler::runLoop, this);
    }

    ~IOScheduler() {
        running = false;
        if (worker_thread.joinable()) {
            worker_thread.join();
        }
    }

    // 添加请求到队列
    void enqueue(std::shared_ptr<IORequest> req) {
        {
            ScopedLock lock(queue_mutex); // 假设有这个锁
            io_queue.push(req);
        }
        // 通知工作线程
        cv.notify_one();
    }

    // 工作线程的主循环
    void runLoop() {
        while (running) {
            std::shared_ptr<IORequest> req;

            // 等待请求
            {
                std::unique_lock<std::mutex> lock(queue_mutex);
                cv.wait(lock, [this] { return !io_queue.empty() || !running; });

                if (!running && io_queue.empty()) break;

                // 拿出最高优先级的请求
                req = io_queue.top();
                io_queue.pop();
            }

            if (req) {
                submitToKernel(req);
            }
        }
    }

    // 为了演示方便，加一个互斥锁变量
    std::mutex queue_mutex;
    std::condition_variable cv;
};

这段代码的关键点在于 cmp 比较器。 我们没有使用默认的堆，而是定义了一个规则：CRITICAL < HIGH < NORMAL < LOW。这样，队列的顶部永远是最重要的任务。这就像机场的安检口，VIP 乘客直接走快速通道，普通乘客排队，而那些扔垃圾的（低优先级）请求只能在最后面慢慢等。

第四部分：深入系统调用——如何真正控制优先级

光有队列是不够的。队列只是应用层的调度，真正的磁盘控制器（硬件）和内核（操作系统）也有自己的调度器。

在 Linux 系统下，我们可以通过 ioprio 系统调用来控制 I/O 优先级。

我们的 submitToKernel 函数需要升级。

#include <sys/syscall.h>
#include <linux/io_uring.h>

// 定义 ioprio_set 的系统调用编号（不同内核版本可能不同，这里假设是标准定义）
#define IOPRIO_WHO_PROCESS 1

// 封装系统调用
int set_io_priority(int fd, IOSchedulingPriority prio) {
    int ioprio = 0;
    // 映射我们的优先级到内核的值
    // Linux 的 ioprio 通常 0-7，数值越小，优先级越高
    switch (prio) {
        case IOSchedulingPriority::CRITICAL: ioprio = 1; break;
        case IOSchedulingPriority::HIGH:     ioprio = 4; break;
        case IOSchedulingPriority::NORMAL:   ioprio = 7; break;
        case IOSchedulingPriority::LOW:      ioprio = 7; break; // 最低
        default: ioprio = 7;
    }

    // 使用 io_uring 或 aio_submit 设置优先级
    // 注意：这需要开启 IO uring 或 AIO 支持
    // 这里我们展示一个通用的思路
    return syscall(SYS_ioprio_set, IOPRIO_WHO_PROCESS, 0, ioprio);
}

注意： 并不是所有的文件系统都支持 ioprio。

ext4：支持。
XFS：支持。
Btrfs：支持。
NTFS：在 Linux 下通常不支持，或者优先级无效。

所以，在封装层，我们必须处理这种差异。如果系统不支持，我们就退回到普通的 FIFO 队列，但依然要保证我们的内部逻辑是正确的。

第五部分：高级封装——RAII 与异常安全

在自研内核中，代码的健壮性至关重要。我们刚才的代码里，如果 submitToKernel 抛出了异常，promise 就永远不会被 set_value，调用 future.get() 的线程就会死锁。

我们需要一个更高级的封装，利用 RAII（资源获取即初始化） 模式来保证异常安全。

class AsyncDiskOperation {
public:
    // 构造函数：自动创建 Promise 和 Future
    AsyncDiskOperation(std::shared_ptr<IORequest> req) : req_(req) {
        // 在这里可以设置线程亲和性，比如把这个请求绑定到一个特定的磁盘控制器线程上
    }

    // 等待操作完成，并获取结果
    // 如果发生异常，会自动转换成 std::runtime_error 抛出
    bool wait() {
        return req_->future.get(); // 如果 set_value 没被调用，这里会一直等
    }

    // 超时等待（防止死锁）
    bool wait_for(std::chrono::milliseconds timeout) {
        return req_->future.wait_for(timeout) == std::future_status::ready;
    }

    // 检查是否完成
    bool is_ready() const {
        return req_->future.wait_for(std::chrono::milliseconds(0)) == std::future_status::ready;
    }

    // 获取原始 Future（用于链式调用或更复杂的逻辑）
    std::future<bool>& get_future() {
        return req_->future;
    }

    // 析构函数：虽然 Promise 会在作用域结束时自动析构，
    // 但显式的清理是个好习惯
    ~AsyncDiskOperation() {
        // 如果用户没调 wait() 就析构了，这里可能会产生警告或未定义行为
        // 在生产代码中，这里可能需要记录日志
    }

private:
    std::shared_ptr<IORequest> req_;
};

现在，用户代码变得极其简洁且安全：

void userCode() {
    // 1. 创建调度器（单例或全局）
    auto& scheduler = IOScheduler::instance();

    // 2. 创建一个高优先级的请求
    auto req = std::make_shared<IORequest>(
        3,                          // fd
        "CRITICAL DATA BLOCK",      // data
        IOSchedulingPriority::CRITICAL // priority
    );

    // 3. 提交到调度器
    scheduler.enqueue(req);

    // 4. 获取操作句柄（AsyncDiskOperation）
    AsyncDiskOperation op(req);

    // 5. 等待结果（阻塞当前线程，但这是安全的，因为底层是异步的）
    if (op.wait()) {
        std::cout << "Write Successful!" << std::endl;
    } else {
        std::cout << "Write Failed!" << std::endl;
    }
}

第六部分：实战中的坑——饥饿与内存

1. I/O 饥饿

如果你一直有大量的 LOW 优先级请求（比如日志刷盘），它们会霸占队列，导致 CRITICAL 请求（比如元数据修改）长时间得不到处理。

解决方案：
引入时间片轮转。在调度器中，记录每个优先级的请求数量。如果某个优先级的请求堆积过多，强制降低其权重，或者给其他优先级留出“喘息”的机会。

// 简化的时间片逻辑
void runLoop() {
    while (running) {
        // ... 获取 req ...

        // 模拟时间片
        // 如果是 LOW 优先级，每 10 个才处理一次，或者每处理一个就休息一下
        if (req->priority == IOSchedulingPriority::LOW) {
            // 让出 CPU，让其他线程有机会运行
            std::this_thread::yield(); 
        }

        submitToKernel(req);
    }
}

2. 内存管理

异步 I/O 涉及大量的内存拷贝。IORequest 里的 std::vector<char> 如果很大，拷贝起来会很慢。

优化方案：
使用零拷贝或内存池。

内存池：预先分配一块巨大的内存，请求从池子里申请一块，用完归还。避免频繁的 malloc/free。
DMA (Direct Memory Access)：让磁盘控制器直接读写物理内存，绕过 CPU。

在 C++ 中，我们可以使用 std::span (C++20) 来避免拷贝，或者使用 boost::asio::buffer 这种零拷贝封装。

// C++20 span 示例
#include <span>

struct IORequest {
    int fd;
    std::span<const char> data; // 不拥有数据，只是个视图
    IOSchedulingPriority priority;
    std::promise<void> promise;
    std::future<void> future;
};

第七部分：终极武器——IO uring

如果你真的想构建一个高性能的存储内核，不要用 std::thread + priority_queue + syscall。那是 2015 年的写法。

你需要的是 io_uring。这是 Linux 内核自 5.1 版本引入的异步 I/O 框架。它解决了传统 AIO 的两个致命弱点：

Context Switch（上下文切换）：传统 AIO 会导致用户态和内核态频繁切换，CPU 缓存命中率极低。
Overhead（开销）：系统调用次数太多。

io_uring 的核心思想是：Ring Buffer。用户态和内核态共享一块内存。用户把请求扔进 Ring Buffer，内核从里面拿。内核把结果写回 Ring Buffer。整个过程不需要系统调用，只需要 io_uring_enter 一次。

io_uring 的优先级设置：
io_uring 支持 sqe->flags 中的 IOSQE_IOPRIO 标志位。你可以在提交 SQE（Submission Queue Entry）时直接指定优先级。

虽然 io_uring 的代码量巨大，但它的性能是 priority_queue 方案的 10 倍以上。

// io_uring 优先级提交的伪代码
struct io_uring_sqe* sqe = io_uring_get_sqe(&ring);

// 设置文件描述符
io_uring_prep_write(sqe, fd, buffer, size, offset);

// 设置优先级
// 这里的 priority 是内核定义的值
io_uring_sqe_set_flags(sqe, IOSQE_IOPRIO); 
sqe->ioprio = IOPRIO_WHO_PROCESS | (priority << 16); // 格式取决于具体实现

第八部分：调试与监控

写异步代码最难的是什么？不是写代码，是看日志。当你的程序崩溃时，如果是在回调里崩溃，栈帧里可能根本看不到原始的调用栈。

建议：

日志链路追踪：每个 IORequest 都有一个唯一的 ID（UUID 或自增计数器）。在日志中打印这个 ID，这样你就能把“应用层发起的请求”和“内核层的完成回调”对应起来。
Metrics 监控：监控队列长度。如果队列长度持续增长，说明你的 I/O 速度跟不上生成速度，系统正在“积压”。
Sanitizer：使用 AddressSanitizer 或 ThreadSanitizer 检测并发问题。

结语：优雅的调度是一门艺术

好了，各位同学。

今天我们讲了如何从零开始构建一个支持优先级的异步 I/O 调度器。我们看到了 std::priority_queue 的威力，体验了 std::promise 的便利，也了解了 io_uring 的强大。

自研存储内核不仅仅是为了炫技，更是为了在极端场景下获得极致的控制力。当你能够精准地控制每一个磁盘请求的优先级，确保核心业务的数据毫秒级落盘，而让那些冷数据在后台慢慢爬行时，你就会体会到那种掌控全局的快感。

记住，同步代码写起来容易，但异步代码要写得优雅，需要你对并发模型有深刻的理解。 不要害怕回调，不要害怕竞态条件，那是通往系统架构师之路上的必经磨砺。

现在，拿起你的编译器，去写一个能跑得飞快的存储引擎吧！如果有任何问题，记得先看代码，再看文档，最后再问我。

谢谢大家！

C++ 异步磁盘 I/O 调度：在自研 C++ 存储内核中利用异步操作封装实现支持 IO 优先级的请求队列管理

拒绝卡顿：C++ 存储内核中的异步 I/O 与优先级调度艺术

第一部分：同步是罪，异步是救赎

第二部分：封装的艺术——我们的 I/O 请求对象

第三部分：请求队列管理器——交通指挥官

第四部分：深入系统调用——如何真正控制优先级

第五部分：高级封装——RAII 与异常安全

第六部分：实战中的坑——饥饿与内存

1. I/O 饥饿

2. 内存管理

第七部分：终极武器——IO uring

第八部分：调试与监控

结语：优雅的调度是一门艺术

发表回复取消回复

拒绝卡顿：C++ 存储内核中的异步 I/O 与优先级调度艺术

第一部分：同步是罪，异步是救赎

第二部分：封装的艺术——我们的 I/O 请求对象

第三部分：请求队列管理器——交通指挥官

第四部分：深入系统调用——如何真正控制优先级

第五部分：高级封装——RAII 与 异常安全

第六部分：实战中的坑——饥饿与内存

1. I/O 饥饿

2. 内存管理

第七部分：终极武器——IO uring

第八部分：调试与监控

结语：优雅的调度是一门艺术

发表回复 取消回复

第五部分：高级封装——RAII 与异常安全

发表回复取消回复