C++ 高频交易系统中的低延迟并发编程技术

哈喽，各位好！今天咱们聊聊高频交易系统里那些“快如闪电”的并发编程技术，保证让你听完之后，感觉自己也能去华尔街搬砖了（开玩笑，开玩笑）。

在高频交易的世界里，时间就是金钱，延迟就是失败。毫秒级的延迟都可能导致巨大的损失。所以，我们的目标是让程序跑得更快，更稳，更并发！

一、并发基础：多线程、多进程？傻傻分不清楚？

首先，得搞清楚并发的概念。并发不是并行，虽然它们经常被放在一起说。并发是指多个任务在一段时间内都在执行，但可能并不是同时执行。而并行是指多个任务真的在同一时刻执行。

在高频交易系统中，我们希望充分利用多核 CPU 的优势，让多个任务并行执行，提高吞吐量。这就涉及到多线程和多进程的选择。

多线程 (Threads): 共享同一进程的地址空间，线程之间的切换开销小，通信方便。但是，由于共享资源，需要考虑线程安全问题，比如锁、互斥量等等。
多进程 (Processes): 每个进程拥有独立的地址空间，进程之间的隔离性好，一个进程崩溃不会影响其他进程。但是，进程之间的切换开销大，通信相对复杂，需要使用进程间通信 (IPC) 机制。

特性	多线程	多进程
资源占用	较小	较大
切换开销	较小	较大
通信	方便，共享内存	复杂，需要 IPC
隔离性	较差，一个线程崩溃可能导致整个进程崩溃	较好，一个进程崩溃不会影响其他进程
编程复杂度	较高，需要考虑线程安全问题	较低，隔离性好，减少了线程安全问题的考虑
适用场景	CPU 密集型任务，共享数据频繁的任务	IO 密集型任务，需要高隔离性的任务

在高频交易系统中，通常会采用多线程和多进程相结合的方式。 例如，可以使用多个进程来处理不同的交易品种，每个进程内部使用多个线程来处理订单、风控等任务。

二、低延迟的“秘密武器”：

光有并发还不够，我们还要追求极致的低延迟。下面介绍一些常用的低延迟并发编程技术。

无锁编程 (Lock-Free Programming):

锁虽然能够保证线程安全，但是会带来额外的开销，比如上下文切换、锁竞争等等。无锁编程是一种避免使用锁的并发编程技术，它通过原子操作 (Atomic Operations) 来实现线程安全。
- 原子操作: 原子操作是指不可分割的操作，要么全部执行，要么全部不执行。CPU 提供了原子操作指令，可以保证在多线程环境下对共享变量的原子性访问。
- CAS (Compare-And-Swap): CAS 是一种常用的原子操作，它比较内存中的值与预期值是否相等，如果相等，则将内存中的值更新为新值。
```
#include <atomic>
#include <iostream>
#include <thread>

std::atomic<int> counter(0);

void incrementCounter() {
  for (int i = 0; i < 100000; ++i) {
    int expected = counter.load();
    while (!counter.compare_exchange_weak(expected, expected + 1)); //CAS自旋
  }
}

int main() {
  std::thread t1(incrementCounter);
  std::thread t2(incrementCounter);

  t1.join();
  t2.join();

  std::cout << "Counter value: " << counter << std::endl;
  return 0;
}
```
注意： 无锁编程虽然性能高，但是编程复杂度也高，需要仔细考虑各种边界情况，避免出现 ABA 问题 (一个值从 A 变成 B，又变回 A，CAS 可能会误判)。
Disruptor 模式:

Disruptor 是一个高性能的并发框架，它采用 Ring Buffer (环形缓冲区) 作为数据结构，通过预分配内存、无锁算法等技术，实现了极低的延迟。
- Ring Buffer: Ring Buffer 是一种循环队列，它预先分配一块连续的内存空间，读写指针在环形缓冲区中移动。
- Sequence Barrier: Sequence Barrier 用于协调生产者和消费者之间的速度，避免生产者写入过快导致覆盖未消费的数据，或者消费者读取过快导致读取到未生产的数据。
Disruptor 的核心思想是减少锁的使用，通过 CAS 等原子操作来实现并发控制。

(由于篇幅限制，这里不提供 Disruptor 的完整代码，可以参考开源的 Disruptor 实现)

CPU 亲和性 (CPU Affinity):

CPU 亲和性是指将线程绑定到特定的 CPU 核心上执行。这样可以避免线程在不同的 CPU 核心之间切换，减少上下文切换的开销，提高性能。

#include <iostream>
#include <thread>
#include <sched.h>
#include <pthread.h>

void setAffinity(int cpu_id) {
  cpu_set_t mask;
  CPU_ZERO(&mask);
  CPU_SET(cpu_id, &mask);

  pthread_t thread = pthread_self();
  if (pthread_setaffinity_np(thread, sizeof(cpu_set_t), &mask) != 0) {
    std::cerr << "Error setting CPU affinity" << std::endl;
  }
}

void workerFunction() {
  setAffinity(0); // 将线程绑定到 CPU 核心 0
  // 执行一些计算密集型任务
  for (int i = 0; i < 100000000; ++i) {
    // 做一些无意义的计算，模拟 CPU 密集型任务
    volatile int a = i * i;
  }
  std::cout << "Thread finished on CPU 0" << std::endl;
}

int main() {
  std::thread t(workerFunction);
  t.join();
  return 0;
}

内存池 (Memory Pool):

频繁的内存分配和释放会带来额外的开销。内存池预先分配一块大的内存空间，然后从中分配和释放小块内存，避免了频繁的系统调用。

#include <iostream>
#include <vector>

class MemoryPool {
public:
  MemoryPool(size_t blockSize, size_t poolSize) : blockSize_(blockSize), poolSize_(poolSize), pool_(poolSize * blockSize) {
    for (size_t i = 0; i < poolSize_; ++i) {
      freeBlocks_.push_back(pool_.data() + i * blockSize_);
    }
  }

  void* allocate() {
    if (freeBlocks_.empty()) {
      return nullptr; // 内存池已耗尽
    }
    void* block = freeBlocks_.back();
    freeBlocks_.pop_back();
    return block;
  }

  void deallocate(void* block) {
    freeBlocks_.push_back(static_cast<char*>(block));
  }

private:
  size_t blockSize_;
  size_t poolSize_;
  std::vector<char> pool_;
  std::vector<char*> freeBlocks_;
};

int main() {
  MemoryPool pool(sizeof(int), 10); // 创建一个内存池，块大小为 int，大小为 10 个块

  int* ptr1 = static_cast<int*>(pool.allocate());
  if (ptr1) {
    *ptr1 = 10;
    std::cout << "Allocated block 1: " << *ptr1 << std::endl;
  }

  int* ptr2 = static_cast<int*>(pool.allocate());
  if (ptr2) {
    *ptr2 = 20;
    std::cout << "Allocated block 2: " << *ptr2 << std::endl;
  }

  pool.deallocate(ptr1);
  pool.deallocate(ptr2);

  return 0;
}

避免内存拷贝:

在高频交易系统中，数据传输非常频繁。尽量避免不必要的内存拷贝，可以使用零拷贝 (Zero-Copy) 技术，比如 mmap、splice 等。
- mmap: 将文件映射到内存中，可以直接操作内存中的数据，避免了数据的拷贝。
- splice: 在两个文件描述符之间直接移动数据，无需经过用户空间。
异步 I/O (Asynchronous I/O):

传统的同步 I/O 会阻塞线程，导致延迟增加。异步 I/O 允许在 I/O 操作完成之前继续执行其他任务，当 I/O 操作完成时，通过回调函数或者事件通知的方式通知应用程序。

C++20 引入了 coroutine，可以更方便地编写异步代码。

缓存行对齐 (Cache Line Alignment):

CPU 访问内存时，会以缓存行为单位进行读取。如果多个线程访问的数据位于同一个缓存行中，可能会导致缓存竞争，降低性能。

可以通过缓存行对齐的方式，将不同的数据放置在不同的缓存行中，避免缓存竞争。

#include <iostream>

// 定义一个缓存行大小的结构体
struct CacheLineAligned {
    alignas(64) int data; // 假设缓存行大小为 64 字节
};

int main() {
    CacheLineAligned a, b;
    a.data = 10;
    b.data = 20;

    std::cout << "Address of a.data: " << &a.data << std::endl;
    std::cout << "Address of b.data: " << &b.data << std::endl;

    // 两个变量 a.data 和 b.data 位于不同的缓存行中，可以避免缓存竞争

    return 0;
}

三、实战演练：一个简单的订单处理系统

下面我们来模拟一个简单的订单处理系统，展示如何使用上述技术来提高并发性和降低延迟。

#include <iostream>
#include <thread>
#include <vector>
#include <queue>
#include <mutex>
#include <condition_variable>
#include <atomic>

// 订单结构体
struct Order {
  int orderId;
  double price;
  int quantity;
};

// 订单队列
class OrderQueue {
public:
  void enqueue(Order order) {
    std::unique_lock<std::mutex> lock(mutex_);
    queue_.push(order);
    condition_.notify_one(); // 通知一个等待的线程
  }

  Order dequeue() {
    std::unique_lock<std::mutex> lock(mutex_);
    condition_.wait(lock, [this]{ return !queue_.empty(); }); // 等待队列不为空
    Order order = queue_.front();
    queue_.pop();
    return order;
  }

private:
  std::queue<Order> queue_;
  std::mutex mutex_;
  std::condition_variable condition_;
};

// 订单处理器
class OrderProcessor {
public:
  OrderProcessor(OrderQueue& orderQueue, int processorId) : orderQueue_(orderQueue), processorId_(processorId) {}

  void processOrders() {
    while (running_) {
      Order order = orderQueue_.dequeue();
      // 模拟订单处理过程
      std::cout << "Processor " << processorId_ << " processing order " << order.orderId << std::endl;
      // 实际的订单处理逻辑，比如撮合交易、风控检查等
      std::this_thread::sleep_for(std::chrono::milliseconds(10)); // 模拟处理时间
    }
  }

  void stop() {
    running_ = false;
  }

private:
  OrderQueue& orderQueue_;
  int processorId_;
  std::atomic<bool> running_{true};
};

int main() {
  OrderQueue orderQueue;
  std::vector<OrderProcessor> processors;
  std::vector<std::thread> threads;

  // 创建多个订单处理器
  int numProcessors = 4;
  for (int i = 0; i < numProcessors; ++i) {
    processors.emplace_back(orderQueue, i);
  }

  // 创建多个线程来运行订单处理器
  for (int i = 0; i < numProcessors; ++i) {
    threads.emplace_back(&OrderProcessor::processOrders, &processors[i]);
  }

  // 模拟生成订单
  for (int i = 0; i < 20; ++i) {
    Order order;
    order.orderId = i;
    order.price = 100.0 + i;
    order.quantity = 10 + i;
    orderQueue.enqueue(order);
    std::this_thread::sleep_for(std::chrono::milliseconds(5)); // 模拟订单生成间隔
  }

  // 等待一段时间，然后停止订单处理器
  std::this_thread::sleep_for(std::chrono::seconds(2));
  for (auto& processor : processors) {
    processor.stop();
  }

  // 等待所有线程结束
  for (auto& thread : threads) {
    thread.join();
  }

  std::cout << "Order processing completed." << std::endl;

  return 0;
}

四、总结与展望

高频交易系统中的低延迟并发编程是一个复杂而充满挑战的领域。我们需要深入理解并发原理，熟练掌握各种低延迟技术，并结合实际场景进行优化。

选择合适的并发模型： 多线程、多进程、协程，根据任务特点选择最合适的模型。
减少锁的使用： 尽量使用无锁算法，避免锁竞争。
优化内存管理： 使用内存池，避免频繁的内存分配和释放。
避免不必要的内存拷贝： 使用零拷贝技术，提高数据传输效率。
利用硬件特性： CPU 亲和性、缓存行对齐，充分发挥硬件性能。
持续优化： 通过性能测试和监控，发现瓶颈并进行优化。

未来，随着硬件技术的不断发展，新的并发编程技术也会不断涌现。我们需要保持学习的热情，不断探索新的技术，才能在高频交易的战场上立于不败之地。

希望今天的分享对大家有所帮助！下次有机会再和大家聊聊高频交易系统中的其他技术。

发表回复 取消回复

发表回复取消回复