rag - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年12月29日

解析 ‘RAG Evaluation’ (RAGAS)：如何通过信实度（Faithfulness）和相关性（Relevancy）量化你的检索质量？

尊敬的各位编程专家，大家下午好！今天，我们将深入探讨一个在当前AI领域至关重要的话题：如何对我们的检索增强生成（RAG）系统进行量化评估。随着大型语言模型（LLMs）的普及，RAG架构已成为解决LLM幻觉、提供最新信息并引用来源的关键技术。然而，构建一个RAG系统只是第一步，更重要的挑战是如何知道它是否真的“好用”？我们如何衡量其输出的质量，并据此进行迭代优化？这就是RAG评估的用武之地。在众多评估框架中，RAGAS凭借其“LLM即评判者”（LLM-as-a-judge）的范式，提供了一种高效、自动化的评估方法。本次讲座，我将重点围绕RAGAS框架，深入解析RAG评估中最核心的两个指标：信实度（Faithfulness）和相关性（Relevancy），并演示如何通过代码实践来量化和提升您的检索质量。 RAG评估：为何以及评估什么？在开始技术细节之前，我们首先要理解为什么RAG评估如此重要，以及我们究竟在评估什么。为什么需要评估RAG系统？迭代优化与持续改进： RAG系统不是一蹴而就的。从数据索引、检索器选择、重排序、提示工程到生成模型，每个环节都可能影响最终效果。评估提供了一 …

继续阅读“解析 ‘RAG Evaluation’ (RAGAS)：如何通过信实度（Faithfulness）和相关性（Relevancy）量化你的检索质量？”

2025年11月23日

MemoRAG：基于长期记忆模块的RAG系统设计以处理模糊与多跳查询

MemoRAG：构建基于长期记忆模块的RAG系统以处理模糊与多跳查询大家好，今天我们来深入探讨一个颇具挑战性的RAG（Retrieval-Augmented Generation）系统设计——MemoRAG，它的核心目标是提升RAG系统在处理模糊和多跳查询时的性能。传统的RAG方法在面对这类复杂查询时，往往会遇到信息检索不准确、推理能力不足的问题，而MemoRAG试图通过引入长期记忆模块来解决这些问题。 1. RAG系统的局限性分析在深入MemoRAG之前，我们先回顾一下传统RAG系统的基本流程以及其局限性。一个典型的RAG系统包含以下几个步骤：查询编码（Query Encoding）：将用户query转换为向量表示。信息检索（Information Retrieval）：在知识库中检索与查询相关的文档片段。内容增强（Context Augmentation）：将检索到的文档片段作为上下文添加到原始查询中。文本生成（Text Generation）：利用增强后的查询，通过语言模型生成最终答案。虽然RAG系统在许多场景下表现出色，但它仍然面临一些挑战：模糊性查询处 …

继续阅读“MemoRAG：基于长期记忆模块的RAG系统设计以处理模糊与多跳查询”

2025年11月23日

RAG中的查询重写（Query Rewriting）：利用HyDE生成假设性文档增强检索召回率

RAG中的查询重写：利用HyDE生成假设性文档增强检索召回率大家好，今天我们来深入探讨一个在检索增强生成（RAG）系统中至关重要的技术：查询重写，并重点介绍一种名为HyDE（Hypothetical Document Embeddings）的方法，它通过生成假设性文档来显著提升检索召回率。 RAG的核心思想是利用外部知识库来增强语言模型的生成能力，避免模型“胡编乱造”或者依赖过时的信息。然而，RAG系统的性能很大程度上取决于检索模块的准确性。如果检索模块无法找到与用户查询相关的文档，即使语言模型再强大，也无法给出满意的答案。这就是查询重写技术发挥作用的地方。查询重写的必要性用户查询通常是简洁、直接的，但这种简洁性有时会成为检索的障碍。原因如下：词汇鸿沟（Lexical Gap）：用户使用的词汇可能与知识库中的文档使用的词汇不同，导致基于关键词匹配的检索失败。语义模糊：查询可能存在歧义，而简单的关键词匹配无法理解用户的真实意图。信息不足：查询可能缺少必要的上下文信息，导致检索系统难以找到相关的文档。查询重写的目的就是解决这些问题，通过对原始查询进行转换，使其更适合 …

继续阅读“RAG中的查询重写（Query Rewriting）：利用HyDE生成假设性文档增强检索召回率”

2025年11月22日

端侧RAG优化：利用DiskANN实现移动端闪存上的高效向量检索

端侧RAG优化：利用DiskANN实现移动端闪存上的高效向量检索大家好，今天我们来探讨一个在端侧检索增强生成（RAG）系统中至关重要的技术：如何在资源受限的移动端利用闪存实现高效的向量检索，特别是借助 DiskANN 算法。 RAG 与端侧挑战检索增强生成（Retrieval-Augmented Generation, RAG）是一种强大的技术，它通过从外部知识库检索相关信息来增强生成模型的性能。在 RAG 流程中，我们需要：构建知识库: 将文档分割成块，并使用嵌入模型（例如 Sentence Transformers）将每个块转换为向量表示。检索: 给定一个用户查询，将其也转换为向量表示，然后在知识库中查找最相似的向量。生成: 将检索到的上下文与用户查询一起输入到生成模型（例如 LLM），生成最终的答案。端侧 RAG 带来了独特的挑战，主要体现在以下几个方面：资源限制: 移动设备的内存、CPU 和电池容量都非常有限。闪存特性: 移动设备的存储通常是闪存，其随机访问速度远低于内存，但顺序读写速度相对较快。模型大小: 端侧部署需要小型化的嵌入模型和 LLM，这可能牺牲一 …

继续阅读“端侧RAG优化：利用DiskANN实现移动端闪存上的高效向量检索”

2025年11月22日

Self-RAG：训练模型输出检索标记（Reflection Tokens）以自我控制检索行为

Self-RAG：赋予语言模型自我反思能力的检索增强生成大家好，今天我们来深入探讨一个非常有趣且前沿的研究方向：Self-RAG，即Self-Reflective Retrieval Augmented Generation。简单来说，Self-RAG的核心思想是训练语言模型，使其在生成文本的同时，能够输出一些特殊的“反射标记”（Reflection Tokens），这些标记用于控制模型自身的检索行为，从而更好地利用外部知识库，提升生成质量和可靠性。 1. 传统检索增强生成（RAG）的局限性在深入Self-RAG之前，我们先回顾一下传统的RAG方法。RAG的基本流程如下：检索（Retrieval）：给定一个输入prompt，使用检索模型（例如，基于向量相似度搜索的FAISS或基于关键词匹配的BM25）从外部知识库中检索出相关的文档片段。增强（Augmentation）：将检索到的文档片段与原始prompt拼接在一起，形成一个增强的输入。生成（Generation）：将增强的输入送入语言模型，生成最终的输出文本。尽管RAG在很多场景下都表现出色，但它仍然存在一些局限性： …

继续阅读“Self-RAG：训练模型输出检索标记（Reflection Tokens）以自我控制检索行为”

2025年11月21日

跨源数据同步延迟导致 RAG 概念漂移的工程化检测与修复体系

跨源数据同步延迟导致 RAG 概念漂移的工程化检测与修复体系大家好，今天我们来深入探讨一个在实际 RAG（Retrieval-Augmented Generation）应用中经常被忽视但至关重要的问题：跨源数据同步延迟导致的 RAG 概念漂移，以及如何构建一个工程化的检测与修复体系。什么是 RAG 概念漂移？首先，我们需要明确什么是 RAG 概念漂移。RAG 系统的核心在于从外部知识库检索相关信息，并将其融入到生成模型中，以增强生成内容的准确性和相关性。当外部知识库的数据发生变化，而 RAG 系统未能及时同步这些变化时，就会出现概念漂移。具体表现为：检索结果过时： RAG 系统仍然检索到旧的信息，导致生成的内容与最新的知识不符。生成内容不准确：由于检索到的信息过时，生成模型基于这些信息生成的内容也会出现偏差。用户体验下降：用户获取的信息不准确，导致对 RAG 系统的信任度降低。这种漂移可能由多种原因造成，最常见的就是跨源数据同步延迟。例如，知识库 A 更新后，同步到 RAG 系统使用的知识库 B 存在延迟，导致 RAG 系统使用的信息版本落后于实际情况。跨源数据同步 …

继续阅读“跨源数据同步延迟导致 RAG 概念漂移的工程化检测与修复体系”

2025年11月21日

如何设计可扩展的 RAG 召回服务支持动态扩容与高可用保障

好的，现在开始我们的讲座。主题：可扩展 RAG 召回服务设计：动态扩容与高可用保障今天我们来聊聊如何设计一个可扩展的 RAG (Retrieval-Augmented Generation) 召回服务，并着重关注动态扩容和高可用性保障。RAG 召回服务是 RAG 系统中至关重要的一环，它负责从海量数据中检索出与用户查询最相关的信息，为后续的生成模型提供上下文依据。一个设计良好的召回服务能够显著提升 RAG 系统的性能和用户体验。一、RAG 召回服务核心模块一个典型的 RAG 召回服务包含以下几个核心模块：数据预处理模块: 数据清洗: 清除原始数据中的噪声、冗余信息和格式错误。文本分割: 将长文本分割成更小的段落或句子，以便于索引和检索。向量化: 使用 Embedding 模型 (例如 OpenAI 的 text-embedding-ada-002, Sentence Transformers 等) 将文本转换为向量表示，用于语义相似度计算。索引构建模块: 向量索引: 构建高效的向量索引，例如 FAISS, Annoy, HNSW 等，用于快速查找与查询向量最相似的文本向 …

继续阅读“如何设计可扩展的 RAG 召回服务支持动态扩容与高可用保障”

2025年11月21日

RAG 训练阶段的数据偏移导致召回下降的工程化修复机制

RAG 训练阶段的数据偏移导致召回下降的工程化修复机制大家好，今天我们来聊聊一个在实际 RAG (Retrieval-Augmented Generation) 系统中经常遇到的问题：RAG 训练阶段的数据偏移导致召回下降，以及相应的工程化修复机制。 RAG 系统的核心在于检索模块，它负责从知识库中找到与用户查询相关的文档。如果检索模块性能下降，直接影响 RAG 系统的生成效果。而训练数据偏移是导致检索性能下降的常见原因之一。什么是数据偏移？数据偏移（Data Drift）指的是模型训练时使用的数据分布与模型实际应用时的数据分布发生变化。在 RAG 系统中，这种变化可能发生在以下几个方面：查询分布偏移：用户实际的查询模式与训练时使用的查询模式不同。例如，训练数据可能包含大量关于产品功能的查询，但实际用户更多地询问产品使用问题。文档分布偏移：知识库的内容随时间发生变化。例如，新文档的添加、旧文档的更新，或者文档结构的变化都可能导致文档分布偏移。语义分布偏移：即使查询和文档的表面形式没有变化，它们的语义也可能随着时间的推移而演变。例如，新的术语出现、旧术语的含义发生变化等 …

继续阅读“RAG 训练阶段的数据偏移导致召回下降的工程化修复机制”

2025年11月21日

基于查询意图的 RAG 检索优化在工程化应用中的设计方法

基于查询意图的 RAG 检索优化：工程化应用设计大家好，今天我们来聊聊如何将基于查询意图的检索优化应用于实际的RAG（Retrieval-Augmented Generation）工程化项目中。RAG的核心在于检索（Retrieval）和生成（Generation），而检索的质量直接影响最终生成内容的准确性和相关性。传统的检索方法往往依赖于关键词匹配，无法准确理解用户的查询意图，导致检索结果不尽人意。因此，我们需要引入查询意图识别，从而优化检索过程，提升RAG系统的整体性能。 1. 理解查询意图的重要性用户提出的查询往往带有隐藏的意图，比如信息型查询（寻找特定信息）、导航型查询（寻找特定网站或资源）、事务型查询（完成特定任务）等等。如果RAG系统无法准确识别用户的意图，就可能检索到大量无关信息，最终导致生成的内容质量下降。举个例子，用户输入“如何用Python进行数据可视化”，传统的关键词检索可能会返回大量关于Python基础语法、数据类型、可视化库安装等信息，但用户真正想了解的是如何使用Python进行数据可视化的具体步骤和示例。 2. 查询意图识别的实现方法查询意图识别可以 …

继续阅读“基于查询意图的 RAG 检索优化在工程化应用中的设计方法”

2025年11月21日

如何提升 RAG 系统在大规模知识库中的检索召回鲁棒性

RAG 系统在大规模知识库中的检索召回鲁棒性提升：一场技术深潜大家好！今天我们来聊聊RAG（Retrieval-Augmented Generation）系统在大规模知识库中面临的检索召回鲁棒性挑战，以及如何应对这些挑战。RAG系统，简单来说，就是先从知识库中检索相关信息，然后利用这些信息来生成答案。它的优势在于可以利用外部知识，避免模型幻觉，并能提供更具信息量的回复。然而，在大规模知识库中，如何准确、全面地召回相关信息，直接决定了RAG系统的性能上限。 RAG 系统的核心瓶颈：检索召回率 RAG系统的效果很大程度上依赖于检索阶段的准确性和完整性。如果我们无法从海量数据中找到最相关的上下文，后续的生成过程再强大也无济于事。因此，提升检索召回率是提升RAG系统整体性能的关键。 1. 传统检索方法的局限性传统的检索方法，如关键词匹配（BM25等）和基于词频-逆文档频率（TF-IDF）的方法，在大规模知识库中往往表现不佳。原因如下：语义鸿沟: 这些方法主要基于字面匹配，无法理解语义相似性。例如，用户查询“治疗高血压的药物”，而知识库中只包含“降压药”，传统方法可能无法召回。长尾问题: …

继续阅读“如何提升 RAG 系统在大规模知识库中的检索召回鲁棒性”