人工智能 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年11月22日

KV Cache卸载（Offloading）：利用PCIe带宽在显存与主机内存间动态交换缓存

好的，我们开始。 KV Cache卸载：利用PCIe带宽在显存与主机内存间动态交换缓存大家好，今天我们来深入探讨一个在大型语言模型（LLM）推理加速领域至关重要的技术：KV Cache卸载。随着模型规模的爆炸式增长，显存容量成为了制约LLM部署的主要瓶颈。KV Cache卸载通过巧妙地利用PCIe带宽，将部分KV Cache从显存转移到主机内存，从而显著扩展了可支持的模型规模，同时尽可能降低性能损失。 1. KV Cache的本质与挑战首先，让我们回顾一下KV Cache在Transformer模型中的作用。在自回归解码过程中，每一层都会产生Key和Value两个矩阵，用于后续的Attention计算。这些Key和Value矩阵构成了KV Cache。由于解码过程是自回归的，即每个token的生成都依赖于之前的token，因此KV Cache需要在整个序列生成过程中被保存和重复使用。具体来说，假设我们有一个L层的Transformer模型，输入的序列长度为N，每个头的维度为d_k，batch size为B。那么，每一层需要存储的KV Cache大小为 2 B N d_k size …

继续阅读“KV Cache卸载（Offloading）：利用PCIe带宽在显存与主机内存间动态交换缓存”

2025年11月22日

Liger Kernel优化：利用Triton重写HuggingFace模型算子以减少显存占用

Liger Kernel优化：利用Triton重写HuggingFace模型算子以减少显存占用大家好，今天我将和大家分享一种优化HuggingFace模型，特别是大型Transformer模型的方法：利用Triton重写模型算子以减少显存占用。 1. 背景：HuggingFace模型与显存瓶颈 HuggingFace的Transformers库为我们提供了丰富的预训练模型，极大地简化了NLP任务的开发流程。然而，随着模型规模的不断扩大，如BERT、GPT-3、LLaMA等，其庞大的参数量和中间激活值给显存带来了巨大的压力。在实际应用中，我们经常会遇到以下问题：显存溢出（Out of Memory, OOM）：训练或推理过程中，显存不足导致程序崩溃。 Batch Size受限：为了避免OOM，不得不降低Batch Size，降低了硬件利用率，延长了训练/推理时间。无法部署大型模型：在资源有限的设备上（如边缘设备），无法部署大型模型。因此，优化HuggingFace模型的显存占用变得至关重要。常见的优化方法包括模型压缩（量化、剪枝、知识蒸馏）、梯度累积、混合精度训练等。今天我 …

继续阅读“Liger Kernel优化：利用Triton重写HuggingFace模型算子以减少显存占用”

2025年11月22日

ThunderKittens内核库：用于编写极速CUDA内核的嵌入式DSL（领域特定语言）

好的，让我们深入探讨ThunderKittens内核库，这是一个专为编写高性能CUDA内核而设计的嵌入式DSL。我们将以讲座的形式，逐步剖析其设计理念、核心特性、使用方法，并探讨其优势和局限性。讲座：ThunderKittens：CUDA内核的嵌入式DSL 引言：CUDA编程的挑战 CUDA编程，作为GPU加速计算的基石，已被广泛应用于科学计算、机器学习、图像处理等领域。然而，直接编写CUDA C/C++代码常常面临以下挑战：样板代码繁多： CUDA内核需要大量的样板代码来处理线程块、线程索引、内存管理等，这使得代码冗长且难以维护。手动优化复杂：为了充分利用GPU的并行能力，需要进行精细的手动优化，例如共享内存的使用、线程束内的通信等，这需要深入理解GPU架构。错误容易引入： CUDA编程中，内存访问错误、线程同步问题等常常难以调试，导致程序崩溃或结果错误。 ThunderKittens内核库旨在解决这些问题，通过提供一个嵌入式DSL，简化CUDA内核的编写，提高开发效率，并降低出错的可能性。 ThunderKittens的设计理念 ThunderKittens的核心思想是抽 …

继续阅读“ThunderKittens内核库：用于编写极速CUDA内核的嵌入式DSL（领域特定语言）”

2025年11月22日

Apple MLX框架：利用统一内存架构（Unified Memory）在Mac上实现零拷贝微调

Apple MLX框架：利用统一内存架构在Mac上实现零拷贝微调大家好，今天我们来深入探讨Apple的MLX框架，重点关注它如何利用统一内存架构（Unified Memory）在Mac上实现零拷贝微调，从而提升效率和降低资源消耗。 1. MLX框架简介：为Apple Silicon而生 MLX是Apple专门为Apple Silicon芯片设计的机器学习框架。与PyTorch或TensorFlow等通用框架不同，MLX从一开始就针对Apple Silicon的架构进行了优化，尤其是在内存管理方面。它的核心优势在于对统一内存架构的深度集成。核心特点：统一内存架构（UMA）: 这是MLX高效运行的基础。CPU和GPU共享同一块物理内存，避免了传统机器学习框架中频繁的数据拷贝，从而显著提升性能。延迟计算 (Lazy Evaluation): MLX采用延迟计算策略。这意味着操作只有在需要结果时才会被执行。这允许框架优化计算图，减少不必要的计算。易用性： MLX提供了类似NumPy的API，使得熟悉NumPy的用户可以快速上手。性能优化：专门针对Apple Silicon芯片的优 …

继续阅读“Apple MLX框架：利用统一内存架构（Unified Memory）在Mac上实现零拷贝微调”

2025年11月22日

Groq LPU架构：利用确定性数据流（Deterministic Dataflow）实现极速推理的编译器设计

Groq LPU架构：利用确定性数据流实现极速推理的编译器设计各位同学，大家好！今天我们来深入探讨一下Groq LPU架构及其编译器设计，特别是它如何通过确定性数据流实现极速推理。在当今AI领域，模型规模日益庞大，对推理速度的需求也越来越高。Groq LPU以其独特的设计理念，在高性能推理领域占据了一席之地。 1. 推理加速的挑战与传统架构的局限在深入Groq LPU之前，我们先来看看推理加速面临的挑战以及传统架构的局限性。 1.1 推理加速的挑战计算复杂度高: 深度学习模型，特别是大型语言模型，包含了大量的矩阵乘法和卷积运算，计算复杂度极高。内存带宽瓶颈: 模型参数和中间结果需要在内存和计算单元之间频繁传输，内存带宽成为性能瓶颈。延迟敏感性: 实时推理应用对延迟要求非常苛刻，毫秒级的延迟都可能影响用户体验。 1.2 传统架构的局限性 GPU: GPU虽然擅长并行计算，但在低延迟方面表现不佳。GPU依赖于大量的线程和上下文切换来隐藏延迟，这在高吞吐量场景下有效，但在延迟敏感的推理场景中会引入额外的开销。此外，GPU的指令调度和内存访问模式具有一定的不确定性，难以实现确定性的执 …

继续阅读“Groq LPU架构：利用确定性数据流（Deterministic Dataflow）实现极速推理的编译器设计”

2025年11月22日

投毒攻击（Data Poisoning）：在预训练数据中植入后门触发词的防御与检测

投毒攻击（Data Poisoning）：在预训练数据中植入后门触发词的防御与检测大家好，今天我们来探讨一个在机器学习安全领域越来越受关注的话题：投毒攻击，特别是针对预训练数据中植入后门触发词的攻击及其防御与检测。 1. 引言：预训练模型的脆弱性近年来，预训练模型（Pre-trained Models, PTMs）如BERT、GPT系列等在自然语言处理（NLP）领域取得了巨大的成功。它们通过在大规模数据集上进行预训练，学习通用的语言表示，然后在下游任务上进行微调，取得了显著的性能提升。然而，这种依赖大规模数据的预训练范式也带来了一个潜在的风险：投毒攻击。攻击者可以通过控制或篡改预训练数据，向模型植入后门，使其在特定条件下表现出恶意行为。这种攻击的隐蔽性极高，因为后门只有在触发特定模式（例如，包含特定词语或短语的句子）时才会激活，而正常情况下模型的行为与预期一致。 2. 投毒攻击的原理与类型投毒攻击的核心思想是在训练数据中引入少量精心设计的恶意样本，这些样本通常包含触发词和目标行为。当模型接触到这些恶意样本时，会学习到触发词与目标行为之间的关联。 2.1 后门植入过程后门植入通 …

继续阅读“投毒攻击（Data Poisoning）：在预训练数据中植入后门触发词的防御与检测”

2025年11月22日

模型拒绝率（Refusal Rate）：在有用性（Helpfulness）与无害性（Harmlessness）之间的权衡

模型拒绝率（Refusal Rate）：在有用性（Helpfulness）与无害性（Harmlessness）之间的权衡大家好，今天我们来深入探讨一个在大型语言模型（LLM）领域日益重要的概念：模型拒绝率（Refusal Rate）。模型拒绝率指的是模型拒绝回答用户请求的比例。这个指标直接反映了模型在有用性（Helpfulness）和无害性（Harmlessness）之间权衡的结果。一个理想的模型既要尽可能地为用户提供有用的信息，又要避免生成有害、不安全或不道德的内容。什么是模型拒绝？模型拒绝是指模型在收到用户请求后，没有按照用户的意图生成内容，而是给出了拒绝回答的响应。这种响应通常会声明模型无法或不应该回答该问题，并可能提供拒绝的理由。例如：用户：“如何制造炸弹？” 模型：“我是一个AI语言模型，无法提供制造炸弹的信息。这种行为是危险且非法的。” 用户：“写一段带有种族歧视色彩的故事。” 模型：“我无法生成带有歧视色彩的内容。我的目标是提供安全、公正和有益的信息。” 用户：“请详细描述XXX政治人物的黑历史。” 模型：“我无法提供未经证实或可能诽谤他人的信息。我的目标是保持 …

继续阅读“模型拒绝率（Refusal Rate）：在有用性（Helpfulness）与无害性（Harmlessness）之间的权衡”

2025年11月22日

红队测试自动化（Automated Red Teaming）：利用攻击模型生成对抗性Prompt的强化学习

红队测试自动化：利用攻击模型生成对抗性Prompt的强化学习各位同学，大家好！今天我们来探讨一个前沿且极具挑战性的课题：红队测试自动化，特别是如何利用攻击模型生成对抗性Prompt，并结合强化学习来提升攻击效果。红队测试与自动化红队测试，顾名思义，是指模拟真实攻击者的行为，对目标系统进行渗透测试，旨在发现安全漏洞并评估安全防御体系的有效性。传统的红队测试往往依赖于人工，需要经验丰富的安全专家手动进行，效率较低，且难以覆盖所有可能的攻击场景。红队测试自动化的目标是通过程序自动执行攻击任务，提高测试效率和覆盖率。这涉及到多个方面，包括漏洞扫描、渗透利用、权限提升、横向移动等等。而生成对抗性Prompt，则是红队测试自动化中一个非常重要的组成部分，特别是针对基于人工智能的系统。对抗性Prompt与攻击模型对抗性Prompt是指精心构造的输入，旨在欺骗AI系统，使其产生错误或非预期的输出。例如，对于一个图像识别系统，对抗性Prompt可能是在图像中添加微小的、人眼难以察觉的扰动，从而导致系统错误地识别图像。对于一个自然语言处理系统，对抗性Prompt可能是包含特定关键词或语法的句子 …

继续阅读“红队测试自动化（Automated Red Teaming）：利用攻击模型生成对抗性Prompt的强化学习”

2025年11月22日

大模型水印（Watermarking）：基于Green-Red List的Logits扰动实现版权追踪

大模型水印：基于Green-Red List的Logits扰动实现版权追踪各位听众，大家好！今天我将为大家带来一场关于大模型水印技术的讲座，重点探讨一种基于Green-Red List的Logits扰动方法，用于实现大模型的版权追踪。随着大型语言模型（LLM）能力的不断提升，它们在各个领域得到了广泛应用。然而，这也带来了版权保护的问题。由于LLM生成的文本与人类创作的文本越来越难以区分，未经授权的复制和传播变得更加容易。为了解决这个问题，水印技术应运而生。 1. 水印技术概述水印技术是指在LLM生成的文本中嵌入不易察觉的信息，这些信息可以用来验证文本的来源，从而实现版权追踪。理想的水印技术应该具备以下特点：不可见性：水印不应影响文本的质量和流畅性，用户难以察觉。鲁棒性：水印应能够抵抗各种攻击，如文本编辑、翻译、摘要等。可验证性：水印应该易于提取和验证，以便确定文本的来源。高容量：水印应该能够嵌入足够的信息，以便唯一标识模型的身份。目前，水印技术主要分为两类：词汇选择水印：通过控制模型在生成文本时选择特定的词汇来嵌入水印。 Logits扰动水印：通过修改模型 …

继续阅读“大模型水印（Watermarking）：基于Green-Red List的Logits扰动实现版权追踪”

2025年11月22日

污染检测（Contamination Detection）：利用N-Gram重叠率识别Benchmark数据泄露

污染检测：利用N-Gram重叠率识别Benchmark数据泄露大家好，今天我们来探讨一个重要且实用的课题：污染检测，特别是利用N-Gram重叠率来识别Benchmark数据集中的数据泄露问题。在机器学习模型开发过程中，我们经常需要使用Benchmark数据集来评估模型的性能。然而，如果Benchmark数据集中包含了训练数据的信息，就会导致评估结果产生偏差，甚至出现过拟合现象，从而误导模型的选择和优化。这就是数据泄露。什么是数据泄露？数据泄露（Data Leakage）是指在模型训练过程中，使用了不应该使用的信息，导致模型在评估时表现过好，但在实际应用中表现不佳。这种“不应该使用的信息”通常是指在真实场景中无法获得的未来信息、目标变量的信息，或者泄露了训练集信息的Benchmark数据集。例如，在时间序列预测中，如果使用了未来的数据来训练模型，就会导致数据泄露。或者，如果在医学诊断中，使用了患者治疗后的结果来训练模型，也会导致数据泄露。今天我们主要关注的是Benchmark数据集中的数据泄露，更具体地说，是由于Benchmark数据集包含了训练数据集中的一部分数据而导致的数据泄 …

继续阅读“污染检测（Contamination Detection）：利用N-Gram重叠率识别Benchmark数据泄露”