人工智能 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年11月22日

数据去重中的MinHash与SimHash：在大规模Web语料中检测近乎重复文档的工程权衡

大规模Web语料去重：MinHash与SimHash的工程权衡大家好，今天我们来聊聊大规模Web语料去重，特别是MinHash和SimHash这两种算法在工程实践中的应用与权衡。在大数据时代，网络上的信息爆炸式增长，其中包含大量的重复或近似重复的内容。这些重复内容不仅浪费存储空间，还会影响搜索引擎的索引效率和用户体验。因此，对Web语料进行去重至关重要。 1. 问题定义与挑战问题定义：我们的目标是从海量的Web文档中识别并去除近似重复的文档，只保留一份最具代表性的文档。这里的“近似重复”并没有明确的阈值，需要根据实际应用场景来确定。挑战：数据规模巨大： Web语料通常达到TB甚至PB级别，传统的两两比较方法显然不可行，时间复杂度是O(n^2)，不可接受。计算复杂度高：精确计算文档之间的相似度（例如，Jaccard相似度）通常需要对整个文档进行分析，计算量很大。存储空间限制：存储所有文档的完整信息，特别是指纹信息，需要消耗大量的存储空间。实时性要求：在某些场景下，例如实时新闻聚合，需要快速识别并去除重复的新闻。 2. Jaccard相似度与集合相似性在介绍MinH …

继续阅读“数据去重中的MinHash与SimHash：在大规模Web语料中检测近乎重复文档的工程权衡”

2025年11月22日

Best-of-N采样策略：在合成数据生成中利用奖励模型筛选高质量推理路径

Best-of-N 采样策略：在合成数据生成中利用奖励模型筛选高质量推理路径大家好！今天我们来深入探讨一个在合成数据生成领域越来越重要的技术：Best-of-N 采样策略，以及如何利用奖励模型来筛选高质量的推理路径。合成数据在机器学习中扮演着举足轻重的角色，尤其是在数据稀缺或者获取成本高昂的情况下。而生成高质量的合成数据，对于提升模型性能至关重要。 1. 合成数据生成与推理路径在讨论 Best-of-N 采样之前，我们先明确一下合成数据生成以及推理路径的概念。合成数据生成指的是通过算法模拟真实数据，创造出具有相似统计特征的数据集。这些数据可以用于训练模型，评估模型性能，或者增强现有数据集。推理路径是指模型在生成数据的过程中所采取的一系列步骤或决策。以文本生成为例，推理路径可以看作是模型生成文本序列时，每一步选择哪个词的过程。每一步的选择都会影响最终生成文本的质量。示例：文本生成任务假设我们的目标是生成关于“咖啡”的描述性文本。一个简单的自回归语言模型可能会按照以下步骤生成文本：起始: "" (空字符串) 选择第一个词: "Coffee&quot …

继续阅读“Best-of-N采样策略：在合成数据生成中利用奖励模型筛选高质量推理路径”

2025年11月22日

Magpie技术：无需Prompt工程通过对齐模型的权重提取高质量指令数据

Magpie 技术讲座：无需 Prompt 工程提取高质量指令数据大家好，今天我将为大家深入讲解一项新兴的技术——Magpie，它能够在无需繁琐的 Prompt 工程的情况下，通过对齐模型的权重提取高质量的指令数据。这项技术为指令微调数据集的构建提供了一种全新的思路，极大地降低了数据获取的成本，并提升了数据的质量。一、指令微调与 Prompt 工程的局限性近年来，指令微调（Instruction Tuning）已成为提升大型语言模型（LLM）性能的关键技术之一。通过在包含指令、输入和输出的数据集上对预训练模型进行微调，可以显著提升模型对用户指令的理解能力和遵循能力，使其更好地完成各种任务。然而，构建高质量的指令微调数据集并非易事。传统的 Prompt 工程方法需要人工设计大量的 Prompt 模板，并利用这些模板生成指令数据。这种方法存在以下几个显著的局限性：成本高昂： Prompt 设计需要耗费大量的人力和时间。为了覆盖各种任务和场景，需要精心设计大量的 Prompt 模板，这无疑增加了数据获取的成本。质量难以保证： Prompt 的质量直接影响生成数据的质量。设计不佳的 …

继续阅读“Magpie技术：无需Prompt工程通过对齐模型的权重提取高质量指令数据”

2025年11月22日

Cosmopedia数据集构建：利用Mixtral生成十亿级教科书质量数据的合成流水线

Cosmopedia数据集构建：利用Mixtral生成十亿级教科书质量数据的合成流水线大家好！今天我们来探讨一个令人兴奋的话题：如何利用Mixtral模型构建一个十亿级教科书质量的数据集，我们称之为Cosmopedia。这不仅仅是数据的堆砌，更是一次利用AI能力大规模生产高质量教育资源的尝试。我们将深入了解整个流水线的设计、实现，以及其中涉及到的关键技术和挑战。 1. 引言：合成数据的价值在深度学习领域，数据是驱动模型性能的关键因素。然而，高质量、大规模、领域特定的数据集往往难以获取。传统的数据获取方式，如网络爬取、人工标注，耗时耗力且存在偏差。合成数据提供了一种替代方案，它允许我们以较低的成本生成海量数据，并控制数据的分布和质量。 Cosmopedia数据集的构建目标是：生成一个涵盖广泛学科、知识深度达到教科书级别的合成数据集。这个数据集可以用于训练各种下游模型，例如：问答系统：提供更准确、更全面的答案。知识图谱构建：自动构建知识图谱，扩展知识覆盖范围。教育机器人：提供更智能、更个性化的教育服务。预训练大型语言模型: 提升模型在科学、技术、工程、数学（STEM）等领 …

继续阅读“Cosmopedia数据集构建：利用Mixtral生成十亿级教科书质量数据的合成流水线”

2025年11月22日

Evol-Instruct（指令进化）：利用LLM自动改写指令以提升复杂度与多样性的算法

Evol-Instruct：指令进化算法详解与实践大家好，今天我们来深入探讨一个近年来备受关注的LLM（大型语言模型）研究方向——Evol-Instruct，也称为指令进化。这项技术的核心思想是利用LLM自身的能力，自动化地改写和演化指令，从而提升训练数据的复杂度与多样性，最终提高LLM的泛化性能和指令遵循能力。一、指令进化背后的动机在指令微调（Instruction Tuning）领域，高质量的指令数据集至关重要。然而，人工构建大规模、多样化的指令数据集既耗时又昂贵。而且，人工设计的指令可能存在一定的局限性，例如，过度集中于某些任务类型，缺乏想象力，未能充分挖掘LLM的潜力。 Evol-Instruct的出现，正是为了解决这些问题。它旨在利用LLM自身作为“指令生成器”，通过迭代式的演化过程，自动生成更复杂、更具挑战性的指令，从而构建更优质的训练数据集。这种方法有以下几点优势：降低成本：减少对人工标注的依赖，大幅降低数据构建成本。提高效率：自动化生成指令，加速数据迭代和模型训练。增强多样性： LLM能够生成更具创造性和多样性的指令，突破人工设计的局限。提升性能：通 …

继续阅读“Evol-Instruct（指令进化）：利用LLM自动改写指令以提升复杂度与多样性的算法”

2025年11月22日

Marlin内核：利用FP16xINT4矩阵乘法加速W4A16量化模型的推理速度

Marlin内核：利用FP16xINT4矩阵乘法加速W4A16量化模型的推理速度大家好，今天我们要探讨的是如何利用Marlin内核，通过FP16xINT4矩阵乘法来加速W4A16量化模型的推理速度。在深度学习模型部署中，推理速度至关重要，尤其是在资源受限的边缘设备上。量化作为一种有效的模型压缩和加速技术，越来越受到关注。W4A16指的是权重（Weights）量化到4比特，激活（Activations）量化到16比特。这种量化方式在保持模型精度的同时，可以显著减少模型大小和计算复杂度。本次讲座将分为以下几个部分：量化技术概述：简单介绍量化的概念、目的和常见量化方案。 W4A16量化方案详解：深入讲解W4A16量化方案的具体实现方式，包括量化和反量化过程。 FP16xINT4矩阵乘法的优势：分析FP16xINT4矩阵乘法相比于传统INT8矩阵乘法的优势，以及如何利用它来加速W4A16模型的推理。 Marlin内核及其优化：介绍Marlin内核的基本架构，以及针对FP16xINT4矩阵乘法的优化策略。代码实现与性能评估：通过代码示例演示如何在Marlin内核中实现FP16x …

继续阅读“Marlin内核：利用FP16xINT4矩阵乘法加速W4A16量化模型的推理速度”

2025年11月22日

vLLM中的自动前缀缓存（Automatic Prefix Caching）：RadixAttention算法的实现细节

vLLM 中的自动前缀缓存：RadixAttention 算法实现细节各位同学，大家好！今天我们要深入探讨 vLLM 中一项关键的优化技术：自动前缀缓存，以及支撑这项技术的核心算法 RadixAttention。vLLM 作为高性能的 LLM serving 引擎，能够显著提升推理吞吐量和降低延迟。自动前缀缓存是 vLLM 实现高效 serving 的基石之一。 1. 前缀缓存的必要性：LLM 推理的瓶颈在理解 RadixAttention 之前，我们需要先了解前缀缓存的意义。大型语言模型 (LLM) 的推理过程通常是自回归的，即一次生成一个 token。对于每个新 token 的生成，模型都需要重新计算整个序列的 attention，这会导致大量的重复计算，尤其是当序列长度较长时。考虑这样一个场景：我们要生成一段长文本，已经生成了 "The quick brown fox"。接下来，模型需要根据这四个 token 计算 attention，生成第五个 token，比如 "jumps"。然后，要生成第六个 token，模型又需要重新计算 & …

继续阅读“vLLM中的自动前缀缓存（Automatic Prefix Caching）：RadixAttention算法的实现细节”

2025年11月22日

S-LoRA服务系统：在多租户推理服务中实现成百上千个适配器的零开销切换

S-LoRA 服务系统：在多租户推理服务中实现成百上千个适配器的零开销切换大家好，今天我们来深入探讨一个在多租户大型语言模型（LLM）推理服务中至关重要的技术：S-LoRA。随着LLM的普及，越来越多的应用场景需要定制化的模型行为。一种常见的做法是使用LoRA（Low-Rank Adaptation）等参数高效微调技术，为每个租户或任务创建独立的适配器。然而，当适配器的数量增长到数百甚至数千时，传统的加载和切换适配器的方式会带来显著的性能开销，严重影响服务的吞吐量和延迟。S-LoRA的出现，正是为了解决这个问题，它能够在多租户环境中实现成百上千个适配器的零开销切换，极大地提升推理服务的效率。 1. LoRA 的简要回顾在深入S-LoRA之前，我们先简单回顾一下LoRA的核心思想。LoRA 是一种参数高效的微调技术，它通过引入少量可训练的参数来适应预训练模型，而无需修改或训练原始模型的所有参数。具体来说，LoRA 为预训练模型中的某些线性层添加了并行的低秩矩阵（A 和 B），在训练过程中只更新这些低秩矩阵的参数，而保持预训练模型的参数不变。公式表达如下： h = Wx + BAx …

继续阅读“S-LoRA服务系统：在多租户推理服务中实现成百上千个适配器的零开销切换”

2025年11月22日

Sarathi-Serve调度：通过分块预填充（Chunked Prefills）平衡计算与内存带宽的流水线

Sarathi-Serve 调度：通过分块预填充（Chunked Prefills）平衡计算与内存带宽的流水线各位朋友，大家好！今天我们来深入探讨一个高性能服务框架 Sarathi-Serve 的核心调度策略：分块预填充（Chunked Prefills）。在现代深度学习服务中，尤其是在处理长序列输入时，计算资源和内存带宽往往成为性能瓶颈。Sarathi-Serve 通过精心设计的调度策略，特别是分块预填充，有效地平衡了这两者，实现了更高的吞吐量和更低的延迟。 1. 问题背景：长序列服务的挑战在很多应用场景中，例如自然语言处理 (NLP) 中的文本生成、语音识别等，我们需要处理长度不定的输入序列。这些长序列给服务带来了以下挑战：内存带宽限制：预填充阶段需要将输入序列的嵌入 (Embedding) 加载到 GPU 内存，然后进行多次 Transformer 层的计算。对于长序列，Embedding 数据量巨大，频繁的内存访问会迅速耗尽内存带宽。计算负载不均：长序列的不同部分可能包含不同程度的复杂性。例如，在文本生成中，句子的开头部分可能需要更多的 attention 计算，而 …

继续阅读“Sarathi-Serve调度：通过分块预填充（Chunked Prefills）平衡计算与内存带宽的流水线”

2025年11月22日

Split-Fuse调度算法：将长Prompt分解为小块流水线处理以优化首字延迟（TTFT）

Split-Fuse调度算法：优化长Prompt的首字延迟大家好，今天我们来探讨一个在大型语言模型（LLM）推理优化中日益重要的课题：Split-Fuse调度算法。具体来说，我们将深入研究如何利用这种算法将长Prompt分解为小块，并通过流水线处理来显著优化首字延迟（Time To First Token, TTFT）。 1. 背景：长Prompt与首字延迟的挑战随着LLM能力的增强，我们越来越多地使用长Prompt来引导模型生成更复杂、更细致的输出。然而，长Prompt也带来了新的挑战，其中最突出的就是首字延迟的增加。为什么长Prompt会导致更高的TTFT？更长的处理时间：模型需要处理更多的token，这直接增加了编码（encoding）和解码（decoding）过程的时间。内存占用：长Prompt会占用更多的内存，可能导致频繁的内存交换，进一步降低效率。计算依赖：模型需要先完成对整个Prompt的理解，才能开始生成第一个token，这使得整个过程高度串行化。在高并发、实时性要求高的应用场景中，首字延迟的增加会严重影响用户体验。想象一下，用户提交了一个复杂的查询 …

继续阅读“Split-Fuse调度算法：将长Prompt分解为小块流水线处理以优化首字延迟（TTFT）”