编程 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2026年4月16日

C++ 与异步流调度：在 C++ AI 框架中利用多个 CUDA Stream 重叠计算与数据传输的掩盖性能分析

各位好，欢迎来到今天的 C++ 高性能计算讲座。今天我们不聊那些花里胡哨的神经网络架构，也不聊怎么调参让 Loss 下降得更快。今天我们要聊的是“等待的艺术”。在 AI 框架（比如 PyTorch 或者 TensorFlow 的底层）里，我们最讨厌什么？不是计算量大，也不是模型复杂，而是——等待。具体来说，就是当你把数据从 CPU 的内存（RAM）搬运到 GPU 的显存（VRAM）时，GPU 就像个在那儿干瞪眼的大懒虫，啥也不干，等着数据送上门。这就像你点了一份外卖，骑手在送，你在等，外卖员在等，整个系统都在等。这时候，你的 GPU 就在烧显卡（哦不，是在空转），浪费着昂贵的电力和算力。为了解决这个问题，我们要祭出今天的神器——CUDA Stream（流）以及异步调度。简单说，就是让 CPU 和 GPU 像两个配合默契的交响乐团，CPU 在拉小提琴（搬运数据），GPU 在敲大鼓（做矩阵乘法），互不干扰，甚至互相掩护。废话少说，让我们直接进入代码和原理的泥潭里打个滚。第一部分：同步地狱与“单线程”模式的悲哀首先，我们来看看如果不使用异步流，代码是怎么写的。这通常是初学者最容易 …

继续阅读“C++ 与异步流调度：在 C++ AI 框架中利用多个 CUDA Stream 重叠计算与数据传输的掩盖性能分析”

2026年4月16日

C++ 算子即时编译（JIT）：利用 C++ 封装 NVRTC 实现在运行时动态生成针对输入形状优化的 CUDA 内核

C++ 算子即时编译（JIT）：把编译器变成你的私人理发师各位好，欢迎来到今天的讲座。我是你们的老朋友，一个在 CUDA 那个充满了 <<<…>>> 和 cudaError_t 的黑魔法世界里摸爬滚打的资深编程专家。今天我们要聊的话题，听起来有点像科幻小说，但它是实打实的工程利器：利用 C++ 封装 NVRTC，在运行时动态生成针对输入形状优化的 CUDA 内核。我知道，听到“JIT”和“动态生成内核”，你们的大脑可能已经开始分泌皮质醇了。别慌，今天我们不讲那些枯燥的编译原理，我们要讲的是如何拯救你的硬盘，如何让你的 GPU 在面对不同大小的数据时不再便秘，以及如何像写 HTML 模板一样写 C++ 内核。准备好了吗？让我们把那个只会死板的静态编译器扔进垃圾桶，开始搞点“实时编译”的刺激事情。第一部分：静态编译的痛苦——为什么我们需要“即时”？首先，让我们来回忆一下，在接触 JIT 之前，我们是怎么写 CUDA 内核的。那是一段美好的时光，对吧？我们定义好一个卷积核，或者一个矩阵乘法核，然后写死它的尺寸。 // 这是一段非常典型的“静 …

继续阅读“C++ 算子即时编译（JIT）：利用 C++ 封装 NVRTC 实现在运行时动态生成针对输入形状优化的 CUDA 内核”

2026年4月16日

C++ 与显存池碎片管理：在 C++ 深度学习框架中利用虚拟地址映射实现显存空洞的动态紧缩策略

显存地狱：C++ 深度学习框架中的显存池碎片管理艺术各位 C++ 极客，各位正在与显卡“搏斗”的深度学习工程师们，大家好！今天，我们要聊一个沉重的话题，一个让无数模型训练在凌晨三点突然崩掉、让老板在周会上暴跳如雷的话题——显存碎片。想象一下，你是一个在大城市打拼的年轻人。你租了一间 100 平方米的公寓，房租便宜得离谱。但是，你的室友是个奇葩。他把 1 平方米的床放在了 90 平方米的地方，剩下的空间被他塞满了 1 平方米的小柜子。现在，你想住进来，或者想再放一个衣柜，结果发现：100 平方米的地方，你连个转身的地方都没有。这就是显存碎片。在 GPU 的世界里，显存就是那 100 平方米的公寓，而你的模型参数、激活值、梯度，就是那些乱七八糟的家具。我们用 C++ 写深度学习框架，用的不是 Python，Python 那边有 gc（垃圾回收），虽然慢，但它能自动把垃圾扫了。而在 C++ 里，显存是“一锤子买卖”。cudaMalloc 分给你一块，你就得把它填满，或者 cudaFree 掉。如果你分了一块 1GB 的显存，只用了 100MB，剩下的 900MB 就这么干瞪眼等着， …

继续阅读“C++ 与显存池碎片管理：在 C++ 深度学习框架中利用虚拟地址映射实现显存空洞的动态紧缩策略”

2026年4月16日

C++ 张量并行计算：在 C++ 推理引擎中利用多线程分块（Tiling）算法优化大矩阵乘法的缓存利用率

嘿，各位未来的 C++ 极客，还有那些正在被大模型推理折磨得死去活来的工程师们，大家好！欢迎来到今天的“深度技术脱口秀”。我是你们的老朋友，那个在内存墙面前撞得头破血流但依然死磕性能的资深编程专家。今天我们不聊那些虚头巴脑的理论，我们聊点硬核的。聊聊怎么让 C++ 像法拉利一样在内存的泥潭里飞驰。我们的主题是：在 C++ 推理引擎中，如何利用多线程分块（Tiling）算法，让你的大矩阵乘法（GEMM）跑出光速，同时让 CPU 缓存笑得合不拢嘴。准备好了吗？让我们把那些繁琐的教科书扔进垃圾桶，直接进入实战模式。第一章：矩阵乘法的“贫穷”与“饥饿” 首先，让我们看看我们要解决的问题。假设你要计算两个矩阵 $A$ 和 $B$ 的乘积 $C = A times B$。如果你是刚入门的菜鸟，你会写出这样的代码： // 糟糕透顶的代码，请勿模仿 void naive_gemm(const float* A, const float* B, float* C, int N) { for (int i = 0; i < N; ++i) { for (int j = 0; j < …

继续阅读“C++ 张量并行计算：在 C++ 推理引擎中利用多线程分块（Tiling）算法优化大矩阵乘法的缓存利用率”

2026年4月16日

C++ 二进制重排（BOLT）：利用运行时采样数据对 C++ 已编译生成的二进制文件进行指令序列再优化

编译器之神累了：BOLT 如何在 CPU 的肚子里“动手术” 各位好！欢迎来到今天的“底层性能魔幻屋”。想象一下，你写了一段 C++ 代码，交给编译器（比如 GCC 或 Clang）。编译器就像一个刚毕业、拿着教科书、自以为掌握了宇宙真理的实习生。它非常努力，把你的代码翻译成机器能懂的指令。它做了很多优化：内联函数、循环展开、常量折叠……看起来很完美，对吧？错！大错特错！为什么？因为编译器是个“近视眼”。它只知道你的代码可能做什么，它不知道你的程序在现实世界（运行时）里到底在干什么。现实世界充满了随机性、缓存抖动和分支预测器的脾气。这时候，我们的主角——BOLT（Binary Optimization and Layout Tool）登场了。如果说编译器是那个只会照着剧本背词的演员，那 BOLT 就是那个拿着秒表、盯着观众反应、甚至敢把剧本撕了重写的导演。今天，我们就来聊聊这个能让你的程序跑得飞起，甚至让 CPU 瞬间“兴奋”起来的黑科技。第一部分：编译器的“幻觉”与 CPU 的“暴躁” 在 BOLT 出现之前，我们怎么优化？靠编译器标志位。-O2、-O3、-march= …

继续阅读“C++ 二进制重排（BOLT）：利用运行时采样数据对 C++ 已编译生成的二进制文件进行指令序列再优化”

2026年4月16日

C++ 函数属性指导：利用 [[gnu::hot]] 与 [[gnu::cold]] 属性优化 C++ 程序在内存中的代码段布局

各位听众，大家好！今天我们不聊那些虚头巴脑的设计模式，也不谈什么高深的算法竞赛，我们来聊聊一个听起来极其枯燥，但实际上决定了你程序跑得快不快、卡不卡的核心玄学——代码的地理位置。想象一下，你是个大厨。你的厨房很大，但炉灶只有三个。顾客点菜的时候，你不能把“做一碗红烧肉”的菜谱扔到厨房最里面的仓库里，然后让厨师跑过去拿吧？你肯定得把“红烧肉”的菜谱贴在炉灶旁边的墙上，把“洗菜”的菜谱贴在冰箱旁边。 CPU 也是个贪得无厌的大厨，只不过它没有“厨房”，它只有“大脑”。它的“炉灶”叫缓存，只有几KB到几MB大；它的“仓库”叫内存，大得吓人。如果CPU的“大脑”要执行一段代码，结果发现这段代码在“仓库”的最深处，那它就得先跑一趟仓库，这就叫“Cache Miss”。Cache Miss多了，CPU就得干等着，你的程序就卡顿了。今天，我们要学的一招绝活，就是用 [[gnu::hot]] 和 [[gnu::cold]] 这两个“咒语”，告诉编译器和链接器：“嘿，把这段代码贴在炉灶旁边，把那段代码扔到仓库角落里去！” 一、 CPU 的“懒惰”哲学在深入代码之前，我们必须先理解 CPU 的行为 …

继续阅读“C++ 函数属性指导：利用 [[gnu::hot]] 与 [[gnu::cold]] 属性优化 C++ 程序在内存中的代码段布局”

2026年4月16日

C++ 常量池优化：分析 C++ 编译器如何对重复出现的字符串字面量与数值常量实施全局合并去重

（敲击打字机的声音，屏幕上闪烁着绿色的终端光标）各位，大家好！欢迎来到今天的“C++ 内存管理深水区”。我是你们的老朋友，一个整天在内存里捞针的资深工程师。今天我们不谈虚幻引擎的渲染管线，也不谈 Rust 的所有权机制，我们来聊聊一个让编译器“头秃”，让 CPU“偷笑”，让内存“瘦身”的核心技术——常量池优化。想象一下，你是一个住在狭小出租屋里的程序员。你写代码的时候，习惯性地把牙刷放在左边，把牙膏放在右边。这没问题，这是你的“常量”。但是，如果有一天，你的室友（另一个程序员）也买了把牙刷，他也习惯放在左边，也买了支牙膏放在右边。结果就是，你们的桌子上乱成一锅粥，连个下脚的地方都没有。内存也是一样的。当你在一个巨大的项目中，写了成千上万次 “Hello, World!”，或者定义了成千上万个 100 的时候，如果你每次都把它们当成“新东西”硬塞进内存，那你的程序还没跑起来，内存早就爆了。所以，今天我们要讲的主题就是：编译器和链接器是如何像勤劳的清洁工一样，把那些重复出现的“垃圾”清理出去，只留下精华的。准备好了吗？让我们把手放在键盘上，开始这场内存瘦身之旅。第一部分：编 …

继续阅读“C++ 常量池优化：分析 C++ 编译器如何对重复出现的字符串字面量与数值常量实施全局合并去重”

2026年4月16日

C++ 链接器松弛（Linker Relaxation）：在 RISC-V 架构下利用 C++ 编译选项缩减全局变量访问的指令周期

大家好！欢迎来到“别让你的 CPU 流汗”研讨会。我是你们的老朋友，那个喜欢在汇编代码里找乐子的资深工程师。今天我们要聊的话题，听起来有点枯燥，甚至有点像教科书上的定义，但如果你真的懂了它，你会发现它就像是在炎热的夏天喝了一口冰镇可乐——透心凉，心飞扬。我们要聊的是：在 RISC-V 架构下，如何利用 C++ 链接器松弛，把那些笨重的全局变量访问指令，缩减成几条轻快的小短腿。准备好了吗？让我们开始这场关于“懒惰”与“优化”的辩论。第一部分：CPU 的通勤成本与 RISC-V 的“短腿”限制首先，我们要理解一个残酷的现实：每一条指令的执行，都是要花钱的。这里的钱，不是人民币，是时间（周期）和能量。在计算机世界里，如果你想让 CPU 去取一个数据，最理想的情况是什么？当然是“一步到位”。在 RISC-V 架构里，这种“一步到位”的魔法叫做立即数寻址，具体来说，就是 addi 指令。这就像是你出门买酱油，直接从家门口走到小卖部，只需要几秒钟，甚至不需要换鞋。但是，addi 指令有个毛病，它太“短”了。它的偏移量只有 12 位。这意味着什么？意味着它最多只能访问 2048 字 …

继续阅读“C++ 链接器松弛（Linker Relaxation）：在 RISC-V 架构下利用 C++ 编译选项缩减全局变量访问的指令周期”

2026年4月16日

C++ 尾调用优化（TCO）：探究 C++ 编译器在何种约束下能将函数调用转化为无开销的直接跳转指令

各位好！欢迎来到今天的“C++ 编译器行为深度解析”研讨会。我是你们的主讲人，一名在内存边界线上摸爬滚打多年的资深工程师。今天我们要聊的话题，听起来可能有点枯燥，甚至有点像计算机科学导论里的陈词滥调——尾调用优化。但是，别急着打哈欠！这玩意儿可是通往高性能编程的“隐秘小径”，是编译器与程序员之间的一场“默契博弈”。想象一下，你正站在一个迷宫的入口，手里拿着一张地图（代码），你决定递归地走进每一个房间。如果没有尾调用优化，迷宫的墙壁（栈内存）会越堆越高，直到把你压扁，这就是著名的“栈溢出”。而尾调用优化，就是那个允许你瞬间“瞬移”到下一个房间，而不用在原房间留下一堆垃圾（堆栈帧）的魔法。那么，这个魔法在什么条件下生效？编译器这个“抠门”的工匠，在什么情况下愿意为你省下那个 CALL 指令的开销？今天，我们就来扒开编译器的裤衩，看看它到底在怕什么。第一部分：栈的悲歌与编译器的“抠门”哲学在深入代码之前，我们必须先理解栈（Stack）是个什么鬼。当你在 C++ 里写一个递归函数，比如计算阶乘，或者遍历一个二叉树时，每一次函数调用，CPU 都要做两件事：压栈和出栈。 CALL 指令 …

继续阅读“C++ 尾调用优化（TCO）：探究 C++ 编译器在何种约束下能将函数调用转化为无开销的直接跳转指令”

2026年4月16日

C++ 编译期死循环判定：分析 C++ 编译器在处理复杂 constexpr 递归时的计算步数限制与终止策略

欢迎来到编译期深渊：当 C++ 编译器决定“咬断自己的尾巴” 各位下午好，我是你们的老朋友，一个在代码泥潭里摸爬滚打多年的资深程序员。今天，我们不聊怎么把 Bug 变成 Feature，也不聊怎么在面试里忽悠面试官。今天我们要聊一个稍微有点“烧脑”，但绝对能让你对 C++ 编译器肃然起敬（或者气得想砸键盘）的话题：编译期死循环判定。想象一下，你写了一段代码，里面有个 while(true)。在运行时，这叫“程序崩溃”或者“死循环”，操作系统会无情地给你一个 SIGKILL。但在 C++ 里，如果这个 while(true) 发生在编译期——也就是在 constexpr 函数里，或者在模板实例化的那一刻——会发生什么？这时候，编译器就不再是你手下的士兵，而是一个脾气暴躁的老板。它会停下来，盯着你的代码，问自己：“嘿，这家伙是在耍我吗？这代码真的能算出个结果吗？” 今天，我们就来扒开编译器的裤裆，看看它是如何判定递归死循环，以及它那令人窒息的计算步数限制。第一课：constexpr 是什么鬼？在深入死循环之前，咱们得先统一一下战线。什么是 constexpr？简单来说，const …

继续阅读“C++ 编译期死循环判定：分析 C++ 编译器在处理复杂 constexpr 递归时的计算步数限制与终止策略”