人工智能 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年11月23日

Context Compression（上下文压缩）：利用LLMLingua通过困惑度筛选关键Token

Context Compression：利用LLMLingua通过困惑度筛选关键Token 各位朋友，大家好。今天我们来深入探讨一个在大型语言模型（LLM）应用中至关重要的问题：上下文压缩。随着LLM处理能力的不断提升，我们能够输入的上下文长度也随之增加。然而，并非所有上下文信息都同等重要。冗余或无关的信息不仅会增加计算成本，还可能降低模型的性能，这就是所谓的“Lost in the Middle”现象。因此，如何有效地压缩上下文，保留关键信息，就变得至关重要。今天，我们将重点介绍一种基于困惑度的上下文压缩方法，并使用LLMLingua框架来实现它。我们将从背景知识入手，逐步深入到代码实现和实验分析，希望能够帮助大家更好地理解和应用这一技术。 1. 上下文压缩的必要性与挑战在深入技术细节之前，我们首先要理解上下文压缩为什么如此重要。想象一下，你正在使用一个LLM来回答关于某个文档的问题。这个文档可能长达数百页，包含了大量的信息。如果我们将整个文档都作为上下文输入到LLM中，可能会遇到以下问题：计算成本高昂：LLM的处理时间和内存消耗与输入长度成正比。处理长文本会显著增加计算成本， …

继续阅读“Context Compression（上下文压缩）：利用LLMLingua通过困惑度筛选关键Token”

2025年11月23日

向量数据库的分区策略（Partitioning）：IVF-PQ索引在十亿级数据下的查准率调优

向量数据库分区策略：IVF-PQ索引在十亿级数据下的查准率调优大家好！今天我们来深入探讨向量数据库中，面对十亿级别海量数据时，如何通过精细的分区策略和参数调优来提升IVF-PQ索引的查准率。我们将从IVF-PQ索引的基本原理出发，逐步分析分区策略的选择、参数调优的方法，并结合代码示例，帮助大家更好地理解和应用。 1. IVF-PQ索引原理回顾在深入分区策略之前，我们先快速回顾一下IVF-PQ索引的核心思想。IVF-PQ索引是一种近似最近邻搜索(Approximate Nearest Neighbor, ANN)算法，它通过两阶段的索引结构来实现高效的搜索： IVF (Inverted File): 将整个向量空间划分为若干个Voronoi单元（也称为簇）。每个单元都有一个中心向量。所有向量根据其与中心向量的距离被分配到最近的单元中。查询时，先找到与查询向量最近的若干个单元，然后在这些单元内部进行搜索。IVF相当于一个粗粒度的过滤。 PQ (Product Quantization): 在每个IVF单元内部，使用乘积量化技术对向量进行压缩。PQ将每个向量分割成M个子向量，然后对每个子 …

继续阅读“向量数据库的分区策略（Partitioning）：IVF-PQ索引在十亿级数据下的查准率调优”

2025年11月23日

混合检索（Hybrid Search）的加权策略：BM25稀疏向量与Embedding稠密向量的归一化融合

混合检索的加权策略：BM25稀疏向量与Embedding稠密向量的归一化融合大家好，今天我们来深入探讨混合检索中的一个关键环节：加权策略，特别是针对BM25稀疏向量和Embedding稠密向量的归一化融合。混合检索旨在结合不同检索方法的优势，提升整体检索效果。而加权策略，则是将这些不同方法产生的排序结果有效融合的关键。混合检索概述在信息检索领域，我们通常会遇到两种主要的检索方法：基于关键词的检索（Keyword-based Retrieval）: 这种方法依赖于用户查询中的关键词与文档中词项的匹配程度。经典的算法包括BM25（Best Matching 25）。基于语义的检索（Semantic-based Retrieval）: 这种方法利用预训练语言模型（如BERT, Sentence-BERT等）将查询和文档编码成稠密向量，然后通过向量相似度（如余弦相似度）来衡量语义相关性。这两种方法各有优缺点：特性 BM25 (稀疏向量) Embedding (稠密向量) 优点速度快，可解释性强，对精确匹配敏感能捕捉语义相关性，对同义词、近义词有较好的处理能力缺点无法处理语 …

继续阅读“混合检索（Hybrid Search）的加权策略：BM25稀疏向量与Embedding稠密向量的归一化融合”

2025年11月23日

RAG中的查询重写（Query Rewriting）：利用HyDE生成假设性文档增强检索召回率

RAG中的查询重写：利用HyDE生成假设性文档增强检索召回率大家好，今天我们来深入探讨一个在检索增强生成（RAG）系统中至关重要的技术：查询重写，并重点介绍一种名为HyDE（Hypothetical Document Embeddings）的方法，它通过生成假设性文档来显著提升检索召回率。 RAG的核心思想是利用外部知识库来增强语言模型的生成能力，避免模型“胡编乱造”或者依赖过时的信息。然而，RAG系统的性能很大程度上取决于检索模块的准确性。如果检索模块无法找到与用户查询相关的文档，即使语言模型再强大，也无法给出满意的答案。这就是查询重写技术发挥作用的地方。查询重写的必要性用户查询通常是简洁、直接的，但这种简洁性有时会成为检索的障碍。原因如下：词汇鸿沟（Lexical Gap）：用户使用的词汇可能与知识库中的文档使用的词汇不同，导致基于关键词匹配的检索失败。语义模糊：查询可能存在歧义，而简单的关键词匹配无法理解用户的真实意图。信息不足：查询可能缺少必要的上下文信息，导致检索系统难以找到相关的文档。查询重写的目的就是解决这些问题，通过对原始查询进行转换，使其更适合 …

继续阅读“RAG中的查询重写（Query Rewriting）：利用HyDE生成假设性文档增强检索召回率”

2025年11月23日

Needle In A Haystack测试的局限性：多针检索（Multi-needle）与推理能力的解耦测试

Needle In A Haystack 测试的局限性：多针检索与推理能力的解耦测试大家好，今天我们要深入探讨一个在评估大型语言模型（LLM）能力时常用的测试方法—— Needle In A Haystack (干草堆寻针)。虽然这个测试在衡量模型的信息检索能力方面很有价值，但它存在一些局限性，尤其是在区分多针检索和更复杂的推理能力时。本次讲座将详细分析这些局限性，并探讨如何设计更精细的测试来解耦这两种能力。 Needle In A Haystack 测试简介首先，我们简单回顾一下 Needle In A Haystack 测试的基本原理。其核心思想是将一段需要模型检索的信息（“针”）插入到大量无关文本（“干草堆”）中。然后，向模型提出一个与“针”相关的问题，以此评估模型是否能够准确地检索并利用相关信息回答问题。例如，我们可能将以下信息插入到一篇关于太空探索的维基百科文章中： Today is August 14, 2024. My favorite color is emerald green. 然后，我们向模型提问： What is my favorite color? 如果 …

继续阅读“Needle In A Haystack测试的局限性：多针检索（Multi-needle）与推理能力的解耦测试”

2025年11月23日

Soft MoE：利用软路由（Soft Routing）机制解决专家路由离散不可导的问题

Soft MoE：利用软路由解决专家路由离散不可导问题大家好，今天我们来探讨一个在深度学习领域日益重要的概念：混合专家模型（Mixture of Experts, MoE）。MoE 是一种强大的模型架构，它通过组合多个“专家”网络来处理不同的输入，从而提高模型的容量和性能。然而，传统的 MoE 方法在专家路由机制上存在一个关键问题：离散性和不可导性。这使得模型的训练变得困难。今天，我们将深入研究一种解决这个问题的方法：软路由（Soft Routing）。 1. MoE 的基本概念与挑战 1.1 MoE 的核心思想 MoE 的核心思想是将一个大型的、单一的模型分解成多个更小的、更专业的“专家”模型。对于每一个输入，一个“门控网络”（Gating Network）会决定哪些专家应该处理这个输入，以及各个专家应该分配多少权重。一个典型的 MoE 架构包含以下几个关键组件：专家网络（Expert Networks）：这些是独立的神经网络，每个网络都专注于处理特定类型的输入或执行特定的任务。门控网络（Gating Network）：这个网络负责根据输入来决定如何组合专家网络的输出。它 …

继续阅读“Soft MoE：利用软路由（Soft Routing）机制解决专家路由离散不可导的问题”

2025年11月23日

Branch-Train-Merge：独立训练专家分支再合并的低通信成本MoE构建法

Branch-Train-Merge：低通信成本MoE构建法大家好，今天我们来探讨一种低通信成本的Mixture of Experts (MoE) 模型构建方法：Branch-Train-Merge (BTM)。MoE 模型近年来在提升模型容量和性能方面展现出巨大的潜力，但其高昂的通信成本一直是制约其大规模应用的关键因素。BTM 旨在解决这个问题，通过一种巧妙的独立训练和合并策略，显著降低训练过程中的通信需求。 1. MoE 模型及其通信挑战首先，我们简单回顾一下 MoE 模型的基本概念。MoE 模型的核心思想是将一个大型模型分解为多个“专家”（Experts），每个专家负责处理输入数据的一部分。一个“门控网络”（Gating Network）负责根据输入数据的特征，决定将哪些专家激活，以及每个专家的权重。经典的 MoE 模型，例如 Sparse MoE，在训练过程中需要频繁地在不同设备之间传输激活专家的参数更新。假设我们有 N 个专家，每个专家的参数量为 P，每次迭代需要激活 K 个专家 (K << N)。传统的分布式训练方法需要将 K*P 的参数更新从各个设备发送 …

继续阅读“Branch-Train-Merge：独立训练专家分支再合并的低通信成本MoE构建法”

2025年11月23日

JetMoE架构：低成本构建高性能MoE模型的流水线并行与专家复用技巧

JetMoE架构：低成本构建高性能MoE模型的流水线并行与专家复用技巧大家好，今天我们来深入探讨JetMoE架构，一种旨在以较低成本构建高性能MoE（Mixture of Experts）模型的解决方案。我们将重点关注流水线并行以及专家复用这两个关键技术，并通过代码示例来详细阐述其实现原理和优势。 1. MoE模型概述在深入JetMoE架构之前，我们首先需要对MoE模型有一个清晰的认识。传统的深度学习模型通常采用稠密结构，即每一层的所有参数都会参与到每一次计算中。然而，这种方式在处理大规模数据和复杂任务时往往面临性能瓶颈。MoE模型则是一种稀疏激活模型，它通过将模型划分为多个“专家”（Expert），并使用一个“门控网络”（Gating Network）来决定哪些专家应该处理特定的输入，从而实现计算资源的动态分配。 MoE模型的核心组成部分：专家（Experts）：通常是独立的神经网络模块，例如Feed-Forward Network (FFN)。门控网络（Gating Network）：负责为每个输入选择合适的专家。合并策略（Combining Strategy）：将 …

继续阅读“JetMoE架构：低成本构建高性能MoE模型的流水线并行与专家复用技巧”

2025年11月23日

稀疏矩阵乘法（SpMM）在MoE中的应用：利用Triton内核加速稀疏专家的计算

稀疏矩阵乘法（SpMM）在MoE中的应用：利用Triton内核加速稀疏专家的计算大家好！今天我们来深入探讨一个在深度学习领域日益重要的课题：稀疏矩阵乘法（SpMM）及其在混合专家模型（MoE）中的应用。我们将重点关注如何利用Triton内核来加速稀疏专家的计算，从而提升MoE模型的训练和推理效率。 1. MoE模型与稀疏计算的必要性混合专家模型（MoE）的核心思想是将一个大型模型分解为多个“专家”子模型，并由一个“门控网络”（Gating Network）动态地选择哪些专家来处理特定的输入。这种架构允许模型在保持可接受的计算成本的同时，显著提高模型容量和表达能力。在实践中，并非所有专家都需要处理每个输入。理想情况下，门控网络会选择少数几个最相关的专家，从而形成一种稀疏激活的模式。这种稀疏性为优化计算提供了机会。为什么稀疏计算对于MoE至关重要？降低计算成本：只激活部分专家，避免了对整个模型进行密集计算。提高模型容量：允许使用更多的专家，而不会显著增加计算负担。提升模型表达能力：每个专家可以专注于不同的输入特征或任务，从而提高整体模型的泛化能力。 MoE模型的基本结构 …

继续阅读“稀疏矩阵乘法（SpMM）在MoE中的应用：利用Triton内核加速稀疏专家的计算”

2025年11月23日

Mixture-of-Depths：动态跳过Transformer层计算的路由机制与训练策略

好的，没问题。 Mixture-of-Depths：动态跳过Transformer层计算的路由机制与训练策略各位同学，大家好！今天我们来深入探讨一个关于Transformer架构优化的前沿技术——Mixture-of-Depths (MoD)。Transformer模型在自然语言处理、计算机视觉等领域取得了巨大成功，但其计算复杂度一直是制约其进一步发展的重要因素。MoD旨在通过动态地跳过Transformer层计算，从而在保证模型性能的前提下，显著降低计算成本。 1. Transformer模型的计算瓶颈 Transformer模型的核心是多层堆叠的Transformer Block，每个Block包含自注意力机制和前馈神经网络。对于一个L层的Transformer模型，每个输入都需要经过L个Block的计算。这种逐层计算的方式确保了模型能够充分提取输入中的信息，但也带来了巨大的计算开销，尤其是在处理长序列时。计算复杂度主要来源于以下两个方面：自注意力机制：自注意力机制的计算复杂度为O(N^2)，其中N是序列长度。对于长序列，自注意力机制的计算量非常大。前馈神经网络：前馈神 …

继续阅读“Mixture-of-Depths：动态跳过Transformer层计算的路由机制与训练策略”