C++ 算子即时编译(JIT):把编译器变成你的私人理发师 各位好,欢迎来到今天的讲座。我是你们的老朋友,一个在 CUDA 那个充满了 <<<…>>> 和 cudaError_t 的黑魔法世界里摸爬滚打的资深编程专家。 今天我们要聊的话题,听起来有点像科幻小说,但它是实打实的工程利器:利用 C++ 封装 NVRTC,在运行时动态生成针对输入形状优化的 CUDA 内核。 我知道,听到“JIT”和“动态生成内核”,你们的大脑可能已经开始分泌皮质醇了。别慌,今天我们不讲那些枯燥的编译原理,我们要讲的是如何拯救你的硬盘,如何让你的 GPU 在面对不同大小的数据时不再便秘,以及如何像写 HTML 模板一样写 C++ 内核。 准备好了吗?让我们把那个只会死板的静态编译器扔进垃圾桶,开始搞点“实时编译”的刺激事情。 第一部分:静态编译的痛苦——为什么我们需要“即时”? 首先,让我们来回忆一下,在接触 JIT 之前,我们是怎么写 CUDA 内核的。那是一段美好的时光,对吧?我们定义好一个卷积核,或者一个矩阵乘法核,然后写死它的尺寸。 // 这是一段非常典型的“静 …
继续阅读“C++ 算子即时编译(JIT):利用 C++ 封装 NVRTC 实现在运行时动态生成针对输入形状优化的 CUDA 内核”