kernel - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年11月27日

Python实现模型的低延迟部署：减少内核启动（Kernel Launch）开销的策略

Python 实现模型的低延迟部署：减少内核启动（Kernel Launch）开销的策略大家好，今天我们来聊聊一个在模型部署中至关重要，但经常被忽视的话题：如何通过减少内核启动 (Kernel Launch) 开销，来实现 Python 模型的低延迟部署。特别是在使用 GPU 加速的场景下，内核启动的开销可能占据相当大的比例，直接影响模型的实时性。 1. 理解内核启动开销首先，我们需要理解什么是内核启动开销。在GPU编程中，内核（Kernel）指的是在GPU上执行的函数或程序。当CPU需要GPU执行某个计算任务时，它需要将这个任务（即内核）发送到GPU，这个过程就涉及到内核启动。内核启动开销主要包含以下几个方面： CPU 端的开销：数据准备和传输：将输入数据从 CPU 内存复制到 GPU 内存。指令生成和传输：生成 GPU 指令并将内核代码发送到 GPU。资源分配：在 GPU 上分配必要的资源，例如寄存器和共享内存。 GPU 端的开销：内核调度：GPU 调度器将内核分配给可用的计算单元。上下文切换：切换到内核执行所需的上下文。这些步骤都需要时间，尤其是在频繁调用小内 …

继续阅读“Python实现模型的低延迟部署：减少内核启动（Kernel Launch）开销的策略”

2025年11月27日

Python实现定制化的矩阵运算核（Kernel）：利用SIMD/AVX指令集优化

好的，我们开始。 Python定制化矩阵运算核：SIMD/AVX指令集优化大家好，今天我们来深入探讨如何利用SIMD/AVX指令集优化Python中的矩阵运算核。Python本身由于GIL（全局解释器锁）的限制，在CPU密集型任务上效率较低。而矩阵运算，尤其是大规模矩阵运算，对性能要求极高。因此，通过定制化运算核，直接调用底层的SIMD/AVX指令，可以显著提升运算速度。 1. SIMD/AVX指令集简介 SIMD (Single Instruction, Multiple Data)，即单指令多数据流。传统的CPU指令一次只能处理一个数据，而SIMD指令可以一次处理多个数据，从而提高并行性。 AVX (Advanced Vector Extensions) 是 Intel 推出的一系列 SIMD 指令集的扩展。AVX 扩展了 SIMD 寄存器的宽度，从之前的 128 位扩展到 256 位，甚至 512 位（AVX-512）。这意味着一次可以处理更多的数据，从而获得更高的性能提升。指令集寄存器宽度支持的数据类型推出时间 SSE 128 位单精度浮点数 (float), 双 …

继续阅读“Python实现定制化的矩阵运算核（Kernel）：利用SIMD/AVX指令集优化”

2025年11月23日

Liger Kernel库：HuggingFace推出的Triton内核库对常见算子的显存极致优化

Liger Kernel库：HuggingFace Triton内核库对常见算子的显存极致优化大家好！今天我们来深入探讨一下HuggingFace推出的Liger Kernel库。这是一个基于Triton的内核库，专门针对深度学习中常见的算子进行显存优化。在深度学习模型日益庞大的今天，显存的有效利用变得至关重要。Liger Kernel库通过定制化的Triton内核，能够显著降低这些算子的显存占用，从而使得我们能够训练更大规模的模型，或者在资源受限的设备上运行模型。 1. Triton简介：高性能内核编程框架在深入Liger Kernel库之前，我们先简单回顾一下Triton。Triton是一个开源的编程框架，旨在简化高性能内核的编写过程。它允许开发者使用类似Python的语法来编写内核代码，然后由Triton编译器将其编译成针对特定硬件（例如NVIDIA GPU）优化的低级代码。 Triton的主要优点包括：易用性: Triton的语法比CUDA或OpenCL更简洁易懂，降低了内核开发的门槛。高性能: Triton编译器能够自动进行循环展开、向量化等优化，从而生成高效的内核代 …

继续阅读“Liger Kernel库：HuggingFace推出的Triton内核库对常见算子的显存极致优化”

2025年11月22日

Liger Kernel优化：利用Triton重写HuggingFace模型算子以减少显存占用

Liger Kernel优化：利用Triton重写HuggingFace模型算子以减少显存占用大家好，今天我将和大家分享一种优化HuggingFace模型，特别是大型Transformer模型的方法：利用Triton重写模型算子以减少显存占用。 1. 背景：HuggingFace模型与显存瓶颈 HuggingFace的Transformers库为我们提供了丰富的预训练模型，极大地简化了NLP任务的开发流程。然而，随着模型规模的不断扩大，如BERT、GPT-3、LLaMA等，其庞大的参数量和中间激活值给显存带来了巨大的压力。在实际应用中，我们经常会遇到以下问题：显存溢出（Out of Memory, OOM）：训练或推理过程中，显存不足导致程序崩溃。 Batch Size受限：为了避免OOM，不得不降低Batch Size，降低了硬件利用率，延长了训练/推理时间。无法部署大型模型：在资源有限的设备上（如边缘设备），无法部署大型模型。因此，优化HuggingFace模型的显存占用变得至关重要。常见的优化方法包括模型压缩（量化、剪枝、知识蒸馏）、梯度累积、混合精度训练等。今天我 …

继续阅读“Liger Kernel优化：利用Triton重写HuggingFace模型算子以减少显存占用”

2025年11月22日

Linear Attention机制：通过核函数技巧（Kernel Trick）消除Softmax瓶颈的近似计算

Linear Attention机制：通过核函数技巧消除Softmax瓶颈的近似计算大家好，今天我们来深入探讨一种高效的Attention机制——Linear Attention。在Transformer模型中，Attention机制扮演着至关重要的角色，它允许模型在处理序列数据时，能够关注到序列中不同位置的信息，从而提升模型的性能。然而，标准Attention机制中的Softmax操作，在处理长序列时，计算复杂度会急剧增加，成为模型的瓶颈。Linear Attention正是为了解决这个问题而诞生的。 1. Attention机制回顾与Softmax瓶颈首先，我们来回顾一下标准的Scaled Dot-Product Attention机制。给定Query (Q), Key (K), 和 Value (V) 三个矩阵，Attention的计算公式如下： Attention(Q, K, V) = softmax(Q * K^T / sqrt(d_k)) * V 其中，d_k 是Key向量的维度，用于缩放点积结果，防止梯度消失。这个公式的核心在于softmax(Q * K^T / s …

继续阅读“Linear Attention机制：通过核函数技巧（Kernel Trick）消除Softmax瓶颈的近似计算”

2025年8月17日

MySQL高级讲座篇之：如何利用`eBPF`技术，对MySQL的`Kernel`调用进行无侵入式监控？

各位观众老爷，晚上好！我是今天的主讲人，接下来咱们聊点硬核的，关于MySQL和eBPF不得不说的故事。今天的主题是：MySQL高级讲座篇之：如何利用eBPF技术，对MySQL的Kernel调用进行无侵入式监控？啥是eBPF？简单来说，它就像一个内核里的“小侦察兵”，你可以在不修改内核代码的前提下，让它偷偷摸摸地观察各种内核事件，然后把收集到的信息告诉你。这对于监控MySQL的性能，尤其是那些隐藏在内核深处的瓶颈，简直是神器！一、为什么我们需要用eBPF监控MySQL？很多时候，MySQL的性能问题不像CPU爆满或者内存溢出那么直观。可能是一些内核级别的调用导致了延迟，比如：文件I/O瓶颈： MySQL读写磁盘的速度直接影响性能。我们可以监控read()和write()系统调用的耗时和频率，快速定位慢查询是否与I/O有关。锁竞争： MySQL内部使用了大量的锁机制。我们可以监控futex()系统调用，分析锁竞争情况，找出导致线程阻塞的原因。网络延迟：如果MySQL是主从架构，或者需要访问远程存储，网络延迟也会影响性能。我们可以监控send()和recv()系统调用，分 …

继续阅读“MySQL高级讲座篇之：如何利用`eBPF`技术，对MySQL的`Kernel`调用进行无侵入式监控？”