c - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年7月15日

C++ 高频交易系统中的低延迟并发编程技术

哈喽，各位好！今天咱们聊聊高频交易系统里那些“快如闪电”的并发编程技术，保证让你听完之后，感觉自己也能去华尔街搬砖了（开玩笑，开玩笑）。在高频交易的世界里，时间就是金钱，延迟就是失败。毫秒级的延迟都可能导致巨大的损失。所以，我们的目标是让程序跑得更快，更稳，更并发！一、并发基础：多线程、多进程？傻傻分不清楚？首先，得搞清楚并发的概念。并发不是并行，虽然它们经常被放在一起说。并发是指多个任务在一段时间内都在执行，但可能并不是同时执行。而并行是指多个任务真的在同一时刻执行。在高频交易系统中，我们希望充分利用多核 CPU 的优势，让多个任务并行执行，提高吞吐量。这就涉及到多线程和多进程的选择。多线程 (Threads): 共享同一进程的地址空间，线程之间的切换开销小，通信方便。但是，由于共享资源，需要考虑线程安全问题，比如锁、互斥量等等。多进程 (Processes): 每个进程拥有独立的地址空间，进程之间的隔离性好，一个进程崩溃不会影响其他进程。但是，进程之间的切换开销大，通信相对复杂，需要使用进程间通信 (IPC) 机制。特性多线程多进程资源占用较小较大切换开销 …

继续阅读“C++ 高频交易系统中的低延迟并发编程技术”

2025年7月15日

C++ `jemalloc` / `tcmalloc` 在多线程环境下的内存分配性能

哈喽，各位好！今天咱们来聊聊C++多线程环境下内存分配那点事儿。特别是 jemalloc 和 tcmalloc 这两位大神，它们是如何在多线程的世界里大显身手的。前言：内存分配，你别小看它！在单线程程序里，内存分配就像是你自己在家收拾东西，想怎么搞就怎么搞，效率很高。但是，到了多线程程序里，这就好比一家人（多个线程）共用一个储物间（堆），如果大家不排队、不协调，那肯定乱成一锅粥，效率直线下降。所以，多线程环境下的内存分配，绝对是性能瓶颈的大户。如果分配器效率不高，线程们就会频繁地争抢锁，导致程序卡顿，CPU利用率低下。主角登场：jemalloc 和 tcmalloc jemalloc (Facebook出品) 和 tcmalloc (Google出品) 都是专门为多线程环境优化的内存分配器。它们的核心思想都是：减少锁的竞争，提高并发度。核心思想：分而治之这两位大神都采用了“分而治之”的思想，将整个堆分成多个小的区域，让不同的线程在不同的区域里分配内存，从而减少锁的竞争。 jemalloc 的秘密武器： arenas jemalloc 使用了 arenas 的概念。你可以把 …

继续阅读“C++ `jemalloc` / `tcmalloc` 在多线程环境下的内存分配性能”

2025年7月15日

C++ `std::latch` 和 `std::barrier` (C++20)：实现复杂的并发同步模式

哈喽，各位好！今天我们来聊聊C++20里两位并发界的新秀：std::latch 和 std::barrier。这两位可不是什么泛泛之辈，它们能帮你实现一些相当复杂的并发同步模式，让你的多线程程序不再像一团乱麻，而是井井有条。 Part 1: 为什么我们需要 std::latch 和 std::barrier? 在并发编程的世界里，线程之间的同步一直是个让人头疼的问题。传统的 std::mutex、std::condition_variable 等工具虽然强大，但用起来就像开着坦克去菜市场，有点大材小用，而且容易出错。比如，你想让多个线程都完成初始化之后，再一起开始执行核心任务，或者你想让多个线程在一个计算循环的每个阶段都同步一下。用传统的工具也能实现，但代码会变得非常复杂，而且容易出现死锁、活锁等问题。 std::latch 和 std::barrier 的出现，就是为了解决这些问题。它们提供了一种更简单、更安全的方式来实现特定的同步模式。可以把它们想象成线程世界的门卫，负责控制线程的进出。 Part 2: std::latch: 一次性倒计时门卫 std::latch 就像一个一次 …

继续阅读“C++ `std::latch` 和 `std::barrier` (C++20)：实现复杂的并发同步模式”

2025年7月15日

C++ 高性能日志系统：无锁队列与异步 I/O 的结合

哈喽，各位好！今天咱们来聊聊C++高性能日志系统，这可是个既实用又有趣的话题。想想看，你的程序辛辛苦苦跑了一天，出了问题你却两眼一抹黑，啥都不知道，那可不行！日志就是你的眼睛，帮你了解程序内部的运作情况，排查问题的时候也能事半功倍。但是，传统的日志系统往往是性能瓶颈。每次写日志都要加锁，搞得线程们排队等待，效率低下。所以，我们要想办法搞一套高性能的日志系统，让它既能忠实地记录信息，又不会拖程序的后腿。今天，我们就来探讨一下如何利用无锁队列和异步I/O，打造一个高性能的C++日志系统。一、日志系统的基本架构：生产者与消费者模式首先，我们要明确日志系统的角色：生产者 (Producer): 负责生成日志信息。通常是程序的各个模块，它们在运行过程中产生各种事件，需要记录下来。消费者 (Consumer): 负责将日志信息写入文件或其他存储介质。这是一个独立于生产者线程的任务，专门负责I/O操作。这就是经典的生产者-消费者模式。生产者生产日志数据，消费者消费日志数据，中间用一个缓冲区来解耦。在高并发环境下，我们希望生产者尽可能快地生产数据，而消费者则异步地消费数据，避免I/O阻塞 …

继续阅读“C++ 高性能日志系统：无锁队列与异步 I/O 的结合”

2025年7月15日

C++ 减少上下文切换开销：用户态线程池与协程的优势

哈喽，各位好！今天咱们聊聊一个让程序员又爱又恨的话题：上下文切换。爱是因为它保证了多任务的并发执行，恨是因为它带来的性能损耗简直让人抓狂。在C++的世界里，我们如何优雅地、高效地减少这种开销呢？答案就在用户态线程池和协程这两个利器里。一、什么是上下文切换？它为啥这么烦人？想象一下，你正在同时做三件事：写代码、听音乐、和朋友聊天。你的大脑需要在这些任务之间快速切换，才能让你看起来像个高效的多面手。这就是上下文切换，只不过操作系统比你更厉害，它能同时处理成百上千个任务。具体来说，上下文切换是指CPU从一个进程或线程切换到另一个进程或线程的过程。这个过程包含以下几个步骤：保存当前进程/线程的状态：包括CPU寄存器、程序计数器、堆栈指针等。这些信息是下次恢复执行时所必需的。将状态信息保存到内存：通常是保存在进程控制块（PCB）或者线程控制块（TCB）中。加载下一个进程/线程的状态：从内存中读取下一个要执行的进程/线程的状态信息。恢复执行：将加载的状态信息写入CPU寄存器，程序计数器指向下一个要执行的指令，开始执行新的进程/线程。好了，现在问题来了，这个过程有什么问题 …

继续阅读“C++ 减少上下文切换开销：用户态线程池与协程的优势”

2025年7月15日

C++ NUMA-Aware Concurrent Data Structures：针对 NUMA 架构的内存访问优化

哈喽，各位好！今天咱们来聊点硬核的——C++ NUMA-Aware Concurrent Data Structures，也就是针对NUMA架构的内存访问优化。简单来说，就是让你的程序跑得更快，更丝滑，尤其是在多核服务器上。一、啥是NUMA？先来点背景知识想象一下，你是一个图书馆管理员，要管理一大堆书（数据）。有两种方式组织这些书：所有书都放在一个大房间里：谁想借书都去这个房间，管理员也要跑来跑去。这就像SMP（Symmetric Multi-Processing）对称多处理系统，所有CPU核心访问同一块内存。简单粗暴，但是访问速度慢。把书分到几个小房间里，每个房间离一些读者更近：这些读者借书就方便多了。这就是NUMA（Non-Uniform Memory Access）非一致性内存访问。每个CPU核心有自己的本地内存，访问速度快；访问其他CPU核心的内存速度慢。所以，NUMA的核心概念就是：访问本地内存快，访问远端内存慢。 1.1 NUMA架构的特点多个节点 (Nodes): 每个节点包含一个或多个CPU核心和本地内存。非一致性内存访问延迟: 访问本地内存比访问其 …

继续阅读“C++ NUMA-Aware Concurrent Data Structures：针对 NUMA 架构的内存访问优化”

2025年7月15日

C++ 无锁环形缓冲区 (`Disruptor` 模式) 的 C++ 实现与性能分析

哈喽，各位好！今天我们来聊聊一个高性能的消息传递利器：C++ 无锁环形缓冲区，也就是常说的 Disruptor 模式。这玩意儿在并发编程领域可是个明星，能让你在多线程环境下安全又高效地传递数据，避免各种锁带来的性能损耗。一、什么是环形缓冲区？为啥要用无锁的？想象一下，你有一个固定大小的数组，数据就像流水一样，从一端流入，从另一端流出。当数据到达数组末尾时，它会绕回到数组的开头，就像一个环一样。这就是环形缓冲区。优点：读写操作简单高效，内存分配固定，避免了频繁的 new 和 delete，适用于高吞吐量的场景。缺点：容量固定，可能会出现缓冲区满或空的情况，需要合理的控制策略。那为啥要用无锁呢？因为锁虽然能保证线程安全，但也会带来性能开销，特别是在高并发的情况下，锁的竞争会变得非常激烈，导致线程阻塞，降低整体吞吐量。无锁数据结构则利用原子操作等技术，避免了锁的使用，从而提高并发性能。二、 Disruptor 模式的核心思想 Disruptor 模式的核心思想是：预分配环形缓冲区：预先分配好一块连续的内存空间作为环形缓冲区，避免了动态内存分配带来的开销。单一写入者： …

继续阅读“C++ 无锁环形缓冲区 (`Disruptor` 模式) 的 C++ 实现与性能分析”

2025年7月15日

C++ 并发调试：`Helgrind`, `Tsan` 结合 `rr` (record and replay) 调试

哈喽，各位好！今天咱们来聊聊 C++ 并发调试这个让人头大的话题。并发编程就像在厨房里同时做几道菜，一不小心就会手忙脚乱，出现各种奇怪的 bug。这些 bug 往往难以复现，让人抓狂。别担心，今天我就给大家介绍一套组合拳，用 Helgrind, Tsan 加上 rr (record and replay) 来搞定这些并发难题。一、并发编程的那些坑首先，咱们得知道并发编程里都有哪些坑。常见的有：数据竞争 (Data Race): 多个线程同时访问同一个共享变量，并且至少有一个线程在写。这会导致不可预测的结果。死锁 (Deadlock): 多个线程互相等待对方释放资源，导致所有线程都无法继续执行。活锁 (Livelock): 线程不断重试操作，但由于其他线程的干扰，始终无法成功。活锁和死锁类似，但线程没有被阻塞，而是不断忙碌地做无用功。竞争条件 (Race Condition): 程序的行为取决于多个线程执行的相对顺序。即使没有显式的数据竞争，也可能因为线程执行顺序的不同而导致不同的结果。原子性问题 (Atomicity Violation): 一系列操作应该 …

继续阅读“C++ 并发调试：`Helgrind`, `Tsan` 结合 `rr` (record and replay) 调试”

2025年7月15日

C++ `_mm_mfence` / `_mm_sfence` / `_mm_lfence`：x86 内存屏障指令

哈喽，各位好！今天咱们来聊聊C++里那些“防火墙”——_mm_mfence、_mm_sfence和_mm_lfence，也就是x86架构下的内存屏障指令。这名字听起来挺唬人，但其实它们干的活儿，就是帮咱们管好CPU和内存之间的数据流动，避免出现一些“意想不到”的情况。 1. 啥是内存屏障？为啥需要它？想象一下，你是个大厨，CPU就是你的左右手，内存就是你的食材储藏柜。你左手从柜子里拿菜（Load），右手把菜切好（Store），然后炒菜。正常情况下，你肯定先拿菜，再切菜，最后炒菜，顺序颠倒了就乱套了。但CPU这双手呢，有时候为了提高效率，会搞一些“小动作”，比如：乱序执行（Out-of-Order Execution）： CPU觉得先切菜再拿菜，效率更高，那就先切了，反正最后炒出来味道一样。写缓冲区（Write Buffer）： CPU切完菜，不立刻放到锅里，先放在旁边的小盘子里，等有空再一起放，省时间。缓存（Cache）： CPU觉得某个菜经常用，就放到手边的小篮子里，下次直接从篮子里拿，不用跑去储藏柜。这些“小动作”单线程的时候可能没啥问题，但到了多线程，尤其是在共享内存 …

继续阅读“C++ `_mm_mfence` / `_mm_sfence` / `_mm_lfence`：x86 内存屏障指令”

2025年7月15日

C++ 缓存行对齐对并发性能的影响：避免伪共享的极致实践

哈喽，各位好！今天咱们来聊聊C++并发编程里一个让人又爱又恨的话题：缓存行对齐。说它爱，是因为用好了能让你的程序跑得飞快；说它恨，是因为一不小心就会掉进“伪共享”的坑里，让你的多线程程序比单线程还慢！咱们今天就一起扒开缓存行对齐的神秘面纱，看看它到底是个什么东西，以及如何利用它来提升并发性能，顺便再踩踩那些常见的坑。 1. 缓存行：CPU的小算盘要理解缓存行对齐，首先得知道缓存行是什么。简单来说，缓存行是CPU缓存（Cache）存储数据的最小单位。CPU访问内存的时候，不是一个字节一个字节地读，而是一次性读取一个缓存行大小的数据。想象一下，你是个图书管理员，有人要借一本书。你不是只给他一页，而是直接给他一摞书，因为很有可能他接下来还要看同一摞里的其他书。CPU的缓存行就是这“一摞书”，目的是为了提高数据访问的效率，利用局部性原理。不同的CPU架构，缓存行的大小可能不一样，但通常是64字节。可以通过以下方式在C++中获取缓存行的大小（这只是一个例子，不同平台获取方式可能不同）： #include <iostream> #include <thread> …

继续阅读“C++ 缓存行对齐对并发性能的影响：避免伪共享的极致实践”