深入 ‘Self-RAG’ 架构：让模型在生成每一句话前，先自我评估是否需要进行外部知识检索 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

各位编程专家、AI爱好者，以及所有对大模型未来充满憧憬的朋友们，大家好！

今天，我们将深入探讨一个令人兴奋且极具潜力的技术方向——Self-RAG (Self-Retrieval Augmented Generation)。更具体地，我们将聚焦于Self-RAG架构中的一个核心理念：让大型语言模型 (LLM) 在生成每一句话前，先进行自我评估，判断是否需要进行外部知识检索。这不仅仅是对RAG技术的一次迭代，更是一种范式上的转变，它赋予了LLM前所未有的智能与自主性，使其能够更精准、更高效地利用外部知识。

在过去几年里，大型语言模型以其惊人的生成能力颠覆了我们对AI的认知。它们能够撰写文章、生成代码、进行对话，无所不能。然而，正如我们所知，这些模型并非完美无缺，它们存在着固有的局限性，其中最突出的是“幻觉”（hallucination）问题，即生成看似合理但实际上是虚假或不准确的信息。此外，模型对最新知识的掌握也受限于其训练数据的截止日期。

为了解决这些问题，检索增强生成 (Retrieval Augmented Generation, RAG) 技术应运而生。RAG的核心思想是，在LLM生成响应之前，先从一个外部的、实时的知识库中检索相关信息，然后将这些信息作为额外的上下文输入给LLM，引导其生成更准确、更实时的回答。

传统RAG的局限性

传统RAG模式通常采取“一刀切”的方式：无论用户提问是什么，都会先进行一次或多次检索，然后将检索到的所有文档一股脑地塞给LLM。这种方法简单有效，但并非没有缺点：

盲目检索与无关信息困扰 (Blind Retrieval & Irrelevant Context): 并非所有问题都需要外部知识。例如，当用户询问“早上好”或“你的名字是什么？”时，进行知识检索是完全不必要的，甚至可能引入噪音。当检索到与问题无关的信息时，这些冗余信息可能会稀释真正的有用信息，甚至误导LLM。
上下文窗口限制 (Context Window Limitations): LLM的上下文窗口是有限的。盲目检索大量文档可能导致上下文溢出，迫使我们截断信息，或者增加推理成本。
效率低下 (Inefficiency): 每次都进行检索，即使不需要，也会增加不必要的延迟和计算资源消耗。
难以处理复杂或多跳问题 (Difficulty with Complex/Multi-hop Queries): 对于需要多步推理或从不同来源聚合信息的问题，一次性检索往往难以满足需求，可能需要更精细、更动态的检索策略。

这些局限性促使我们思考：能否让LLM像人类一样，在对话或思考的过程中，根据当前的语境和信息需求，自主决定何时、何地进行知识检索？这正是Self-RAG所要解决的核心问题。

Self-RAG核心理念：生成前的自我评估与按需检索

Self-RAG，顾名思义，是让LLM具备“自我检索”的能力。它不再是被动地接收检索结果，而是主动地、有策略地决定是否需要检索，以及如何利用检索结果。我们今天探讨的重点，是其最精髓的部分：模型在生成每一个信息单元（例如，一句话、一个关键事实或一个段落）之前，先进行自我评估，判断当前是否需要外部知识来增强生成。

这与传统RAG的区别，可以用一个简单的类比来理解：

特性	传统RAG	Self-RAG (本文焦点)
检索策略	预设检索，通常在生成开始前执行一次或多次。	动态、按需检索，在生成过程中根据需要多次触发。
检索触发	外部逻辑或系统在固定时机触发。	LLM内部通过“自我评估”机制主动触发。
信息利用	统一将检索结果作为上下文输入。	LLM评估检索结果的质量，并选择性地利用。
效率	可能因不必要的检索而降低。	仅在需要时检索，理论上更高效。
生成质量	依赖于初始检索的全面性和相关性。	能够针对性地补充信息，减少幻觉，提高准确性。

Self-RAG的核心工作流可以概括为以下迭代循环：

模型生成一个片段（例如，一个句子或一个意群）。
模型自我评估： 评估这个片段或即将生成的下一个片段是否包含需要外部验证的事实、需要补充的细节，或者当前信息是否足够支持接下来的生成。
决策：
- 如果需要检索： 模型会生成一个特殊的“检索指令”或“检索令牌”，并根据当前上下文生成一个检索查询。
- 如果不需要检索： 模型继续正常生成下一个片段。
执行检索 (如果需要): 外部检索器根据模型生成的查询，从知识库中获取相关文档。
融合与修正 (如果检索到信息): 模型将检索到的信息作为新的上下文，重新评估之前的生成片段（如果需要修正）或引导生成下一个片段。
重复以上步骤，直到生成完整的响应。

这种精细化的控制，使得LLM不再是一个被动的文本生成器，而更像一个主动的思考者和研究员，能够根据上下文的演进，动态地调整其信息获取策略。

Self-RAG架构深度解析

要实现“生成每一句话前自我评估是否需要检索”的Self-RAG，我们需要设计一个模块化、迭代式的架构。这个架构通常包含以下几个关键模块：

决策与批判（Critique & Decision）模块
按需检索（On-Demand Retrieval）模块
融合与生成（Fusion & Generation）模块

让我们逐一深入探讨。

模块一：决策与批判（Critique & Decision）模块

这是Self-RAG的心脏，也是其智能体现的关键。LLM在这里扮演了“自我审查员”的角色。它不只是生成文本，它还在生成过程中不断地反思：“我当前的信息是否充分？我将要说的话有没有事实依据？我是否需要查阅外部资料？”

模型如何自我评估？

为了让LLM进行这种自我评估，我们通常会采用以下几种策略：

特殊控制令牌 (Special Control Tokens): 在模型的词汇表中引入特殊的令牌，如 <retrieve_needed>, <no_retrieve>, <search_query>, <retrieved_doc_quality:high>, <retrieved_doc_quality:low>, <hallucination_risk:high> 等。LLM在生成过程中，会像生成普通词汇一样生成这些令牌，以此来表达其内部的决策和对生成质量的批判。
内部推理链 (Internal Chain of Thought): 让LLM在生成正式回答之前，先生成一段“思考过程”，其中包含它对当前信息需求的判断。这可以是一种隐式的判断，也可以是显式的，比如“我需要查找关于X的最新信息，因为我训练数据中没有。”
多任务学习/微调 (Multi-task Learning/Fine-tuning): 通过在专门的数据集上对LLM进行微调，使其不仅能生成文本，还能同时预测是否需要检索，以及生成检索查询。

何时触发检索？

模型触发检索通常基于以下几种情况：

事实性语句 (Factual Statements): 当模型准备生成一个包含具体事实、数据、日期、人名、地名等信息的句子时，它可能会评估这些信息的准确性。
知识缺失 (Knowledge Gap): 当模型发现其内部知识不足以回答问题时，例如用户询问了最新的事件或其训练数据中不存在的特定领域知识。
不确定性高 (High Uncertainty): 模型对即将生成的内容信心不足时，可能会寻求外部验证。这可以通过概率分布或专门设计的内部置信度评分来衡量。
特定指令 (Specific Instructions): 用户明确要求“请提供最新信息”或“请查阅资料”。

代码示例：模拟决策逻辑

我们可以通过一个函数来模拟LLM的这种决策行为。在实际应用中，这会是LLM根据当前上下文和内部状态生成的一个特殊令牌序列。

import re
from typing import List, Dict, Any, Tuple

# 假设这是一个简化版的LLM接口
class MockLLM:
    def __init__(self, model_name: str = "mock-llm"):
        self.model_name = model_name

    def generate(self, prompt: str, max_new_tokens: int = 100) -> str:
        """
        模拟LLM的文本生成。
        在这个Self-RAG场景中，LLM可能会生成特殊的控制令牌。
        """
        # 实际LLM会根据prompt和内部逻辑生成。
        # 这里我们模拟几种情况。
        if "最新数据" in prompt or "不确定" in prompt:
            # 模拟LLM决定需要检索，并生成一个检索查询
            if "COVID-19" in prompt:
                return f"{prompt} <retrieve_needed> <search_query>最新 COVID-19 疫苗接种数据</search_query>"
            elif "量子计算" in prompt:
                return f"{prompt} <retrieve_needed> <search_query>量子计算最新进展</search_query>"
            else:
                return f"{prompt} <retrieve_needed> <search_query>相关事实</search_query>"
        elif "自我评估" in prompt and "已知信息" in prompt:
            # 模拟LLM决定不需要检索
            return f"{prompt} <no_retrieve>"
        else:
            # 默认生成
            return f"这是关于'{prompt}'的通用回答。"

# 决策与批判模块的核心逻辑
def critique_and_decide_retrieval(
    llm: MockLLM, current_context: str, generated_segment: str = ""
) -> Tuple[bool, str]:
    """
    模型在生成一个片段后，或在准备生成下一个片段前，
    进行自我评估，判断是否需要检索。

    Args:
        llm: 用于生成决策的LLM实例。
        current_context: 截至目前的用户查询和模型已生成的对话历史。
        generated_segment: 模型刚刚生成或计划生成的文本片段。

    Returns:
        Tuple[bool, str]:
            - True if retrieval is needed, False otherwise.
            - The generated search query string if retrieval is needed, empty string otherwise.
    """
    # 构造一个Prompt，引导LLM进行自我评估
    # 实际中，这会是经过精心设计的系统Prompt和上下文。
    evaluation_prompt = (
        f"鉴于以下对话上下文和当前生成的文本片段：n"
        f"上下文: {current_context}n"
        f"当前片段: {generated_segment}nn"
        f"请评估是否需要外部知识检索来验证或补充当前片段的信息，或者为接下来的生成提供支持。n"
        f"如果需要检索，请生成`<retrieve_needed>`令牌，并紧接着生成`<search_query>你的检索查询</search_query>`。n"
        f"如果不需要检索，请生成`<no_retrieve>`令牌。n"
        f"评估结果："
    )

    # 模拟LLM生成决策令牌和查询
    llm_output = llm.generate(evaluation_prompt, max_new_tokens=50)
    print(f"LLM决策输出: {llm_output}") # 打印LLM的原始决策输出

    if "<retrieve_needed>" in llm_output:
        search_query_match = re.search(r"<search_query>(.*?)</search_query>", llm_output)
        if search_query_match:
            search_query = search_query_match.group(1).strip()
            return True, search_query
        else:
            print("警告: 发现了 <retrieve_needed> 但没有找到 <search_query>。")
            return True, "通用事实检索" # 默认一个通用查询
    return False, ""

# 示例使用
# mock_llm = MockLLM()
#
# # 场景1: 需要检索最新信息
# need_retrieval, query = critique_and_decide_retrieval(
#     llm=mock_llm,
#     current_context="用户询问：请告诉我最新的COVID-19疫苗接种数据。",
#     generated_segment="根据现有信息，"
# )
# print(f"需要检索: {need_retrieval}, 查询: '{query}'n")
#
# # 场景2: 不需要检索已知信息
# need_retrieval, query = critique_and_decide_retrieval(
#     llm=mock_llm,
#     current_context="用户询问：地球围绕太阳转吗？",
#     generated_segment="是的，"
# )
# print(f"需要检索: {need_retrieval}, 查询: '{query}'n")

模块二：按需检索（On-Demand Retrieval）模块

一旦决策模块判断需要检索，并生成了检索查询，按需检索模块就会被激活。它的任务是从外部知识库中高效准确地获取相关信息。

检索查询的生成：

检索查询的质量直接影响检索结果。LLM在生成 <search_query> 令牌时，需要将当前上下文中的关键信息提炼出来，形成一个精准的查询语句。这可能涉及：

关键词提取 (Keyword Extraction): 从当前片段中识别重要的名词、动词。
意图理解 (Intent Understanding): 结合用户原始查询和已生成内容，理解用户真正的信息需求。
查询重写 (Query Rewriting): 将口语化的表达转化为更适合搜索引擎或向量数据库的查询。

检索执行：

这部分与传统RAG的检索机制类似，主要包括：

知识库 (Knowledge Base): 可以是向量数据库（如Pinecone, Weaviate, Faiss）、关系型数据库、搜索引擎API（如Google Search API）、维基百科、企业内部文档等。
检索算法 (Retrieval Algorithms):
- 语义搜索 (Semantic Search): 使用嵌入模型将查询和文档转换为向量，然后计算相似度。
- 关键词搜索 (Keyword Search): 基于BM25等算法。
- 混合搜索 (Hybrid Search): 结合语义和关键词的优势。

代码示例：简化检索函数

# 假设我们有一个简化的向量数据库和文档存储
mock_documents_db: Dict[str, List[Dict[str, str]]] = {
    "COVID-19 疫苗接种数据": [
        {"title": "全球疫苗接种报告", "text": "截至2023年末，全球超过70%的人口至少接种了一剂COVID-19疫苗。主要国家如中国、印度、美国等接种率较高。"},
        {"title": "CDC疫苗统计", "text": "美国疾病控制与预防中心报告，截至2024年第一季度，美国成年人疫苗接种率达到85%。"}
    ],
    "量子计算最新进展": [
        {"title": "谷歌量子霸权新突破", "text": "2023年，谷歌宣布其量子处理器在特定计算任务上再次取得突破，但仍面临错误率高、稳定性差等挑战。"},
        {"title": "量子纠缠应用", "text": "科学家正在探索量子纠缠在安全通信和超精密测量中的应用，有望在未来十年内实现商用。"}
    ],
    "通用事实检索": [
        {"title": "百科全书", "text": "地球是太阳系八大行星之一，围绕太阳公转。"}
    ]
}

class MockRetriever:
    def retrieve(self, query: str, top_k: int = 3) -> List[Dict[str, str]]:
        """
        模拟从知识库中检索文档。
        实际中，这里会调用向量数据库或搜索引擎API。
        """
        print(f"执行检索，查询: '{query}'")
        results = []
        # 简单模拟：如果查询关键词在预设的键中，则返回相应文档
        for key, docs in mock_documents_db.items():
            if query.lower() in key.lower() or any(q_word in key.lower() for q_word in query.lower().split()):
                results.extend(docs)

        # 简单排序，确保每次结果一致性
        results = sorted(results, key=lambda x: x['title'])
        return results[:top_k]

# 示例使用
# mock_retriever = MockRetriever()
#
# retrieved_docs = mock_retriever.retrieve("最新 COVID-19 疫苗接种数据")
# print("检索到的文档:")
# for doc in retrieved_docs:
#     print(f"  - {doc['title']}: {doc['text'][:50]}...")
# print("n")

模块三：融合与生成（Fusion & Generation）模块

这是将检索到的信息整合到LLM生成过程中的关键步骤。仅仅检索到信息是不够的，LLM还需要理解这些信息，判断其相关性和可靠性，并将其无缝地融入到自己的回答中。

如何整合检索结果？

文档重新排序与过滤 (Document Re-ranking & Filtering): 检索器返回的文档可能包含噪音。LLM可以再次对这些文档进行评估（例如，生成 <retrieved_doc_quality:high/low> 令牌），选择最相关的文档。

上下文拼接 (Context Concatenation): 最直接的方法是将检索到的文档内容与原始Prompt和已生成的对话历史一起，作为新的上下文输入给LLM。这需要仔细构造Prompt，明确指出哪些是检索到的信息。

System Prompt: 你是一个AI助手，请根据用户问题和提供的上下文生成详细回答。
Retrieved Context:
[Document 1 Title]: [Document 1 Content]
[Document 2 Title]: [Document 2 Content]
...
User Query: [Original Query]
Current Generated Segment: [Partially generated response]
Instruction: 基于以上信息，继续你的回答。

信息摘要与提取 (Information Summarization & Extraction): 如果检索到的文档很长，LLM可以先对其进行摘要，或者直接提取关键信息，再将其融入到生成中。
事实修正与补充 (Fact Correction & Augmentation): 当检索到的信息与模型内部知识冲突时，模型需要判断哪个是更可靠的来源，并修正其生成。

生成最终响应：

LLM利用融合后的上下文，继续生成响应。这个过程可能再次触发决策模块，形成一个内循环。

代码示例：上下文拼接与生成

# 假设LLM能够处理带有检索上下文的Prompt
class MockLLMForGeneration(MockLLM):
    def generate_with_context(self, prompt: str, retrieved_context: List[Dict[str, str]], max_new_tokens: int = 200) -> str:
        """
        模拟LLM利用检索到的上下文进行生成。
        """
        context_str = ""
        if retrieved_context:
            context_str = "nn--- 检索到的信息 ---n"
            for i, doc in enumerate(retrieved_context):
                context_str += f"文档 {i+1} ({doc['title']}): {doc['text']}n"
            context_str += "--------------------nn"

        full_prompt = f"{prompt}{context_str}基于以上信息，请继续你的回答："
        print(f"nLLM接收的完整生成Prompt:n{full_prompt}n")

        # 模拟LLM基于上下文生成
        if "COVID-19 疫苗接种数据" in full_prompt and retrieved_context:
            return "根据检索到的数据，截至2023年末，全球超过70%的人口至少接种了一剂COVID-19疫苗。美国成年人接种率已达85%。这些数据表明疫苗接种工作取得了显著进展。"
        elif "量子计算最新进展" in full_prompt and retrieved_context:
            return "根据检索到的信息，谷歌在2023年宣布其量子处理器取得新突破，尽管仍面临错误率和稳定性挑战。同时，量子纠缠在安全通信和超精密测量中的应用前景广阔，有望在未来十年内实现商用。"
        else:
            return self.generate(full_prompt, max_new_tokens) # 回退到通用生成

# 示例使用
# mock_llm_gen = MockLLMForGeneration()
#
# original_query = "请告诉我最新的COVID-19疫苗接种数据。"
# partial_response = "根据现有信息，"
#
# # 假设 critique_and_decide_retrieval 已经执行并获取了检索结果
# retrieved_docs = mock_retriever.retrieve("最新 COVID-19 疫苗接种数据")
#
# final_response_segment = mock_llm_gen.generate_with_context(
#     prompt=original_query + "n" + partial_response,
#     retrieved_context=retrieved_docs
# )
# print(f"最终生成片段: {final_response_segment}")

端到端工作流概览

为了更直观地理解整个Self-RAG流程，我们可以用一个表格来概括其端到端的工作流：

步骤序号	模块名称	描述	输入	输出
1	初始生成	LLM根据用户查询和历史上下文，生成初始的文本片段。	用户查询，对话历史	初始文本片段
2	决策与批判	LLM评估当前片段或即将生成的下一个片段，判断是否需要外部知识检索。	用户查询，对话历史，当前文本片段	`(需要检索?, 检索查询)`
3	按需检索	如果决策模块指示需要检索，则根据生成的查询从知识库中获取相关文档。	检索查询	相关文档列表
4	融合与生成	LLM将检索到的文档（如果存在）与原始上下文融合，生成或修正当前或接下来的文本片段。	用户查询，对话历史，当前文本片段，检索文档	修正或新的文本片段
5	循环判断	检查是否已生成完整响应。如果未完成，返回步骤2，继续评估和生成下一个片段。	当前生成的完整响应	`(是否完成?, 下一个待评估片段)`
6	完成响应	所有片段生成完毕，输出最终的完整响应。	最终生成的完整响应	最终响应

Self-RAG的训练与优化

要让LLM学会这种复杂的“自我评估-检索-融合”行为，仅仅依靠少样本提示 (Few-shot Prompting) 是不够的，通常需要对其进行专门的训练或微调。

数据准备：如何生成带有检索决策标记的训练数据

这是Self-RAG训练中最具挑战性但也最关键的部分。我们需要构建一个数据集，其中不仅包含输入-输出对，还包含LLM在生成过程中应该做出的检索决策和相应的检索查询。

方法一：人工标注 (Human Annotation)
最直接但成本最高的方法。人类专家在模型生成过程中，像Self-RAG模型一样，判断是否需要检索，并提供查询和相关文档。

方法二：自动化数据生成 (Automated Data Generation)
利用现有的高质量RAG系统或通过启发式规则来生成数据：

初始生成与召回: 给定一个问题，让一个基线LLM生成一个回答。同时，使用一个强大的检索器召回相关文档。
批判与标注:
- 正例 (需要检索): 如果基线LLM的回答存在事实错误、信息不完整或与检索到的高质量文档冲突，那么就标记该生成点需要检索。同时，将高质量文档中的相关片段作为“检索结果”加入，并由另一个LLM或规则生成“检索查询”。
- 负例 (不需要检索): 如果基线LLM的回答是准确且完整的，且与检索到的文档无关或模型本身就能回答，则标记为不需要检索。
生成批判令牌: 将这些决策转换为LLM可以理解的特殊令牌序列（如 <retrieve_needed> <search_query>...</search_query> 或 <no_retrieve>），并将其插入到模型的训练数据中，作为模型应该生成的目标序列的一部分。

示例数据结构：

[
  {
    "input": "请解释一下什么是黑洞，并提及其最新的观测进展。",
    "intermediate_steps": [
      {
        "segment_to_generate": "黑洞是宇宙中一种引力极强的天体，",
        "retrieval_decision": "NO_RETRIEVE",
        "generated_segment": "黑洞是宇宙中一种引力极强的天体，"
      },
      {
        "segment_to_generate": "它的引力场如此之强，以至于任何物质，包括光，都无法逃脱。",
        "retrieval_decision": "NO_RETRIEVE",
        "generated_segment": "它的引力场如此之强，以至于任何物质，包括光，都无法逃脱。"
      },
      {
        "segment_to_generate": "关于黑洞的最新观测进展，",
        "retrieval_decision": "RETRIEVE",
        "search_query": "黑洞最新观测进展 事件视界望远镜",
        "retrieved_docs": [
          {"title": "事件视界望远镜M87黑洞", "text": "2019年，事件视界望远镜（EHT）首次成功拍摄到位于M87星系中心的超大质量黑洞的‘阴影’。"},
          {"title": "银河系中心人马座A*黑洞", "text": "2022年，EHT再次公布了银河系中心超大质量黑洞人马座A*的首张照片。"}
        ],
        "generated_segment": "关于黑洞的最新观测进展，事件视界望远镜（EHT）在2019年首次成功拍摄到M87星系中心黑洞的‘阴影’，并在2022年公布了银河系中心黑洞人马座A*的照片。"
      }
    ],
    "final_output": "黑洞是宇宙中一种引力极强的天体，它的引力场如此之强，以至于任何物质，包括光，都无法逃脱。关于黑洞的最新观测进展，事件视界望远镜（EHT）在2019年首次成功拍摄到M87星系中心黑洞的‘阴影’，并在2022年公布了银河系中心黑洞人马座A*的照片。"
  }
]

在实际训练中，这些 retrieval_decision 和 search_query 会被转换为模型词表中的特殊令牌。

微调策略：监督式微调（SFT）与强化学习（RLHF）

监督式微调 (Supervised Fine-tuning, SFT):
- 将上述带有特殊令牌的数据集作为输入，对预训练的LLM进行微调。
- 模型的目标是学会生成正确的文本片段，同时在适当的时机生成 <retrieve_needed> 或 <no_retrieve> 令牌，并在需要时生成准确的 <search_query>。
- 这种方法相对简单，可以有效教会模型模仿训练数据中的决策行为。
强化学习 (Reinforcement Learning, RL):
- SFT可以教会模型模仿，但可能无法保证在未知情况下的最优决策。RL可以进一步优化模型的决策策略。
- 奖励设计:
  - 事实准确性奖励: 基于检索到的信息，评估模型生成的片段是否准确。
  - 检索效率奖励: 惩罚不必要的检索，奖励在需要时进行检索。
  - 查询质量奖励: 奖励能够带来高质量检索结果的查询。
  - 流畅性和连贯性奖励: 评估最终生成文本的质量。
- 通过与环境（包括检索器和知识库）的交互，模型学习如何最大化长期奖励，从而优化其批判和检索决策。

特殊的训练目标

除了标准的语言建模损失外，Self-RAG的训练可能还需要：

批判令牌预测损失: 确保模型能准确预测 <retrieve_needed> 或 <no_retrieve>。
检索查询生成损失: 确保生成的 <search_query> 能够有效地引导检索。
事实一致性损失: 鼓励模型利用检索到的信息来修正或验证其生成，减少幻觉。

代码实践：构建一个简化的Self-RAG代理

现在，让我们将上述模块整合起来，构建一个简化的 SelfRAGAgent 类，来演示整个Self-RAG的端到端工作流程。

import re
from typing import List, Dict, Any, Tuple

# -----------------------------------------------------------
# 模拟LLM - 决策与生成
# -----------------------------------------------------------
class MockLLM:
    def __init__(self, model_name: str = "mock-llm"):
        self.model_name = model_name

    def generate(self, prompt: str, max_new_tokens: int = 100) -> str:
        """
        模拟通用文本生成。
        """
        # 简化处理：直接根据Prompt内容模拟一些返回
        if "请评估是否需要外部知识检索" in prompt:
            # 模拟决策模块的输出
            if "COVID-19 疫苗接种数据" in prompt or "量子计算最新进展" in prompt:
                return f"{prompt} <retrieve_needed> <search_query>请提供关于'{self._extract_key_info(prompt)}'的最新数据</search_query>"
            elif "地球围绕太阳转" in prompt or "已知信息" in prompt:
                return f"{prompt} <no_retrieve>"
            else:
                return f"{prompt} <retrieve_needed> <search_query>通用事实查询</search_query>"
        else:
            # 模拟内容生成
            if "COVID-19 疫苗接种数据" in prompt and "检索到的信息" in prompt:
                return "根据检索到的数据，截至2023年末，全球超过70%的人口至少接种了一剂COVID-19疫苗。美国成年人接种率已达85%。这些数据表明疫苗接种工作取得了显著进展。"
            elif "量子计算最新进展" in prompt and "检索到的信息" in prompt:
                return "根据检索到的信息，谷歌在2023年宣布其量子处理器取得新突破，尽管仍面临错误率和稳定性挑战。同时，量子纠缠在安全通信和超精密测量中的应用前景广阔，有望在未来十年内实现商用。"
            elif "地球围绕太阳转" in prompt:
                return "是的，地球围绕太阳转，这是太阳系的普遍规律。"
            else:
                return f"这是一个关于'{self._extract_key_info(prompt)}'的通用回答，可能需要更多信息。"

    def _extract_key_info(self, prompt: str) -> str:
        # 尝试从Prompt中提取关键信息作为模拟内容
        match = re.search(r"用户询问：(.*?)(?=n|$)", prompt)
        if match:
            return match.group(1).strip()
        match = re.search(r"当前片段: (.*?)(?=n|$)", prompt)
        if match:
            return match.group(1).strip()
        return "未知主题"

# -----------------------------------------------------------
# 模拟检索器
# -----------------------------------------------------------
mock_documents_db: Dict[str, List[Dict[str, str]]] = {
    "covid-19 疫苗接种数据": [
        {"title": "全球疫苗接种报告", "text": "截至2023年末，全球超过70%的人口至少接种了一剂COVID-19疫苗。主要国家如中国、印度、美国等接种率较高。"},
        {"title": "CDC疫苗统计", "text": "美国疾病控制与预防中心报告，截至2024年第一季度，美国成年人疫苗接种率达到85%。"}
    ],
    "量子计算最新进展": [
        {"title": "谷歌量子霸权新突破", "text": "2023年，谷歌宣布其量子处理器在特定计算任务上再次取得突破，但仍面临错误率高、稳定性差等挑战。"},
        {"title": "量子纠缠应用", "text": "科学家正在探索量子纠缠在安全通信和超精密测量中的应用，有望在未来十年内实现商用。"}
    ],
    "通用事实查询": [
        {"title": "百科全书", "text": "地球是太阳系八大行星之一，围绕太阳公转。"}
    ]
}

class MockRetriever:
    def retrieve(self, query: str, top_k: int = 3) -> List[Dict[str, str]]:
        print(f"n[检索器]: 执行检索，查询: '{query}'")
        results = []
        lower_query = query.lower()
        for key, docs in mock_documents_db.items():
            if lower_query in key or any(q_word in key for q_word in lower_query.split()):
                results.extend(docs)
        results = sorted(results, key=lambda x: x['title'])
        return results[:top_k]

# -----------------------------------------------------------
# Self-RAG 代理
# -----------------------------------------------------------
class SelfRAGAgent:
    def __init__(self, llm: MockLLM, retriever: MockRetriever, max_iterations: int = 5):
        self.llm = llm
        self.retriever = retriever
        self.max_iterations = max_iterations
        self.conversation_history: List[str] = []

    def _critique_and_decide_retrieval(self, current_context: str, generated_segment: str = "") -> Tuple[bool, str]:
        """
        LLM自我评估是否需要检索。
        """
        evaluation_prompt = (
            f"系统指令: 你是一个智能助手，请评估在以下上下文中是否需要外部知识检索。n"
            f"上下文: {' '.join(self.conversation_history)}n"
            f"用户询问: {current_context}n"
            f"当前片段 (或接下来可能生成的内容): {generated_segment}nn"
            f"请评估是否需要外部知识检索来验证或补充当前片段的信息，或者为接下来的生成提供支持。n"
            f"如果需要检索，请生成`<retrieve_needed>`令牌，并紧接着生成`<search_query>你的检索查询</search_query>`。n"
            f"如果不需要检索，请生成`<no_retrieve>`令牌。n"
            f"评估结果："
        )
        llm_output = self.llm.generate(evaluation_prompt, max_new_tokens=50)
        print(f"[LLM决策]: 原始输出: {llm_output}")

        if "<retrieve_needed>" in llm_output:
            search_query_match = re.search(r"<search_query>(.*?)</search_query>", llm_output)
            if search_query_match:
                search_query = search_query_match.group(1).strip()
                print(f"[LLM决策]: 需要检索。查询: '{search_query}'")
                return True, search_query
            else:
                print("[LLM决策]: 警告: 发现了 <retrieve_needed> 但没有找到 <search_query>。使用通用查询。")
                return True, "通用事实查询"
        print("[LLM决策]: 不需要检索。")
        return False, ""

    def _generate_response_segment(self, current_query: str, retrieved_context: List[Dict[str, str]]) -> str:
        """
        LLM利用检索到的上下文（或无上下文）生成一个响应片段。
        """
        context_str = ""
        if retrieved_context:
            context_str = "nn--- 检索到的信息 ---n"
            for i, doc in enumerate(retrieved_context):
                context_str += f"文档 {i+1} ({doc['title']}): {doc['text']}n"
            context_str += "--------------------nn"

        # 构造给LLM的生成Prompt
        # 实际中，这里可以更精细地控制LLM每次生成一个“句子”或“事实单元”
        generation_prompt = (
            f"系统指令: 你是一个AI助手，请根据用户问题和提供的上下文生成详细回答。保持简洁和信息准确。n"
            f"对话历史: {' '.join(self.conversation_history)}n"
            f"用户询问: {current_query}n"
            f"{context_str}"
            f"请继续生成你的回答："
        )

        # 模拟LLM生成
        segment = self.llm.generate(generation_prompt, max_new_tokens=150)
        print(f"[LLM生成]: 生成片段: {segment}")
        return segment

    def process_query(self, query: str) -> str:
        self.conversation_history.append(f"用户: {query}")

        full_response = ""
        current_segment_prompt = query # 初始时，以用户查询作为首个片段的生成提示

        for i in range(self.max_iterations):
            print(f"n--- 迭代 {i+1}/{self.max_iterations} ---")

            # 步骤1: LLM自我评估是否需要检索
            need_retrieval, search_query = self._critique_and_decide_retrieval(
                current_context=query,
                generated_segment=current_segment_prompt # 将当前生成意图传给决策模块
            )

            retrieved_docs = []
            if need_retrieval:
                # 步骤2: 按需检索
                retrieved_docs = self.retriever.retrieve(search_query)
                if not retrieved_docs:
                    print("[检索器]: 未检索到相关文档。")

            # 步骤3: LLM利用（或不利用）检索结果生成片段
            # 注意：这里简化为一次性生成较长的片段，实际可以更细粒度地生成句子。
            # 这里的 current_segment_prompt 实际上是告诉 LLM 应该围绕什么主题生成
            generated_segment = self._generate_response_segment(
                current_query=query, # 这里的query可以替换为更细粒度的“当前生成意图”
                retrieved_context=retrieved_docs
            )

            full_response += generated_segment.replace(query, "").strip() # 避免重复用户query

            # 简单判断是否结束：如果LLM返回的片段不再包含明确的需要检索的标记，
            # 且长度足够，我们认为可以结束。
            # 实际中，LLM会生成一个<end_of_response>或类似的令牌。
            if "<retrieve_needed>" not in generated_segment and len(generated_segment) > 50:
                 print("n[Self-RAG代理]: 认为响应已足够完整，结束迭代。")
                 break

            # 更新用于下一次迭代的“当前生成意图”
            # 这是一个简化的处理，实际中LLM应该自主决定下一个“片段”的生成方向
            current_segment_prompt = generated_segment # 将已生成内容作为下一个片段的起点

        self.conversation_history.append(f"助手: {full_response}")
        return full_response

# 实例化并运行代理
mock_llm = MockLLM()
mock_retriever = MockRetriever()
self_rag_agent = SelfRAGAgent(llm=mock_llm, retriever=mock_retriever)

print("--- 场景1: 需要检索最新信息 ---")
response_1 = self_rag_agent.process_query("请告诉我最新的COVID-19疫苗接种数据。")
print(f"n最终响应 1:n{response_1}n")

print("n" + "="*50 + "n")

print("--- 场景2: 不需要检索已知信息 ---")
response_2 = self_rag_agent.process_query("地球围绕太阳转吗？")
print(f"n最终响应 2:n{response_2}n")

print("n" + "="*50 + "n")

print("--- 场景3: 需要检索但查询更通用 ---")
response_3 = self_rag_agent.process_query("量子计算有哪些最新进展？")
print(f"n最终响应 3:n{response_3}n")

代码说明：

MockLLM 模拟了LLM的两种核心行为：决策生成（通过识别特殊令牌 <retrieve_needed> 和 <search_query>）和内容生成（结合或不结合检索到的上下文）。
MockRetriever 模拟了一个简单的知识库检索功能。
SelfRAGAgent 类是整个流程的协调者。
- _critique_and_decide_retrieval 方法：封装了LLM的自我评估逻辑。
- _generate_response_segment 方法：封装了LLM根据上下文生成响应片段的逻辑。
- process_query 方法： orchestrates the entire iterative loop, calling the decision, retrieval, and generation steps sequentially.
为了简化，每次迭代 _generate_response_segment 都会尝试生成一个相对完整的回答片段。在实际的“每一句话前”评估场景中，这个方法会更加精细，可能只生成一个句子或一个意群，然后立即再次进入决策模块。

Self-RAG的优势与挑战

优势

显著减少幻觉 (Reduced Hallucination): 模型在事实性语句前主动检索，大大提高了信息的准确性和可靠性。
提高信息准确性与时效性 (Improved Accuracy & Timeliness): 能够动态获取最新或外部的专业知识，弥补模型训练数据的滞后性。
提升效率 (Increased Efficiency): 避免了不必要的检索，只在确实需要时才进行，从而节省了计算资源和时间。
更强的适应性 (Greater Adaptability): 能够更好地适应不断变化的知识库和用户需求，处理复杂、多方面的问题。
更自然、更可信的生成 (More Natural & Trustworthy Generation): 模型在生成过程中表现出“查阅资料”的行为，使其输出更具说服力。
处理多跳问题 (Handling Multi-hop Questions): 通过多次迭代的“评估-检索-生成”循环，模型可以逐步构建复杂问题的答案。

挑战

延迟增加 (Increased Latency): 每次检索决策和实际检索都会增加额外的处理时间。对于实时性要求高的应用，这可能是一个瓶颈。
训练复杂性 (Training Complexity): 训练或微调LLM以使其能够准确地进行自我评估、生成高质量查询，并有效地融合检索结果，是一个复杂且数据密集型的任务。
决策准确性 (Accuracy of Decisions): 如果LLM的自我评估不准确（例如，错误地认为不需要检索，或错误地触发了检索），可能会导致生成质量下降或效率降低。
检索成本 (Retrieval Costs): 每次外部检索都可能产生API调用费用或计算资源消耗。
上下文管理 (Context Management): 在多轮对话或复杂任务中，如何有效地管理不断增长的上下文（包括用户查询、已生成内容、检索历史和检索结果）是一个挑战。
可解释性 (Interpretability): 模型的内部决策过程（为何在此时此地决定检索）可能不如传统RAG那样直观。

未来展望与高级应用

Self-RAG的理念为RAG技术打开了新的大门，它的潜力远不止于此。

更智能的检索策略:
- 多跳检索 (Multi-hop Retrieval): 模型可以根据第一次检索的结果，生成新的、更深入的查询，进行二次甚至多次检索，以解决需要复杂推理的问题。
- 检索深度与广度自适应 (Adaptive Retrieval Depth & Breadth): 模型可以根据问题的重要性和复杂性，动态调整检索的文档数量（深度）和查询关键词的范围（广度）。
与Agentic LLM的结合: Self-RAG的自我评估和决策能力，使其成为构建更通用、更自主的LLM代理（Agentic LLM）的理想组件。代理可以利用Self-RAG来决定何时调用外部工具（如检索器、计算器、代码解释器）。
个性化与领域特定知识库: 结合用户画像或特定领域的需求，模型可以动态切换或优先使用不同的知识库进行检索。
实时反馈与自我修正: 在生产环境中，可以引入外部评估机制，对Self-RAG的生成结果进行实时评估。如果发现错误或不准确，模型可以触发自我修正流程，重新进行评估和检索。
可解释性增强: 研究如何让模型在生成决策时，提供更清晰的“理由”，例如“我需要检索是因为这个事实不在我的训练数据中，且用户要求最新信息。”

智能生成的新范式

Self-RAG代表了RAG技术从被动到主动、从粗放到精细的演进。通过赋予LLM在生成每一句话前自我评估是否需要外部知识检索的能力，我们正在构建一个更智能、更自主、更可信的AI系统。它不仅能有效地减少幻觉，提升生成内容的准确性和时效性，更重要的是，它让LLM的知识获取和利用过程变得更加灵活和高效，为未来更通用、更强大的AI智能体的诞生奠定了坚实的基础。这是一个充满挑战但前景无限的领域，期待各位专家与我们共同探索，将Self-RAG的潜力发挥到极致。