RAG 中检索不到答案导致模型乱答的工程化 fallback 策略设计 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

RAG 中检索失败的应对策略：工程化 Fallback 设计

大家好，今天我们来探讨一个在构建基于检索增强生成 (RAG) 系统的过程中经常会遇到的问题：当检索模块无法提供相关上下文时，大型语言模型 (LLM) 容易出现“幻觉”，也就是生成与实际情况不符的答案。我们将深入研究在工程层面如何设计有效的 Fallback 策略，以应对这种情况，提高 RAG 系统的鲁棒性和准确性。

问题背景：RAG 系统与检索失败

RAG 系统通过检索相关文档，并将检索到的上下文提供给 LLM，以引导其生成更准确、更有依据的答案。其核心流程大致如下：

用户提问: 用户提出一个问题。
检索模块: 系统使用问题作为查询，从知识库（例如向量数据库）中检索相关文档。
增强生成: LLM 接收问题和检索到的文档，生成最终答案。

然而，理想情况下，检索模块总是能返回与用户问题高度相关的文档。但在实际应用中，由于各种原因，检索可能会失败：

知识库覆盖不足: 知识库中根本不存在与问题相关的信息。
检索算法局限: 检索算法无法准确捕捉问题的意图，导致检索结果偏差。
问题表述模糊: 用户的问题过于宽泛或不清晰，导致检索结果噪声过多。
数据质量问题: 知识库中的文档质量不高，包含错误或过时的信息。

当检索结果不佳时，LLM 缺乏可靠的上下文，容易生成不准确、不相关的答案。这就是我们需要 Fallback 策略的原因。

Fallback 策略的设计原则

设计 Fallback 策略的目标是：

检测检索失败: 准确判断检索结果是否满足要求。
避免 LLM 幻觉: 在缺乏可靠上下文的情况下，防止 LLM 生成错误答案。
提供有用信息: 尽可能向用户提供有价值的信息，即使无法直接回答问题。
效率与成本: 在保证效果的前提下，尽量降低策略的复杂度和计算成本。

Fallback 策略的具体实现

下面我们将介绍几种常见的 Fallback 策略，并提供相应的代码示例。

1. 基于检索结果的置信度阈值

最简单的 Fallback 策略是设定一个置信度阈值。如果检索结果的置信度低于该阈值，则触发 Fallback 机制。

原理: 向量数据库通常会返回一个相似度分数，用于衡量检索结果与查询之间的相关性。
实现: 设定一个阈值，例如 0.7。如果检索结果的最高相似度分数低于 0.7，则认为检索失败。

from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

# 初始化模型
model = SentenceTransformer('all-MiniLM-L6-v2')

def retrieve_documents(query, documents, threshold=0.7):
    """
    从文档列表中检索与查询最相关的文档。

    Args:
        query: 查询字符串。
        documents: 文档列表。
        threshold: 相似度阈值，低于此值则触发 fallback。

    Returns:
        如果检索到相关文档，则返回 (文档, 相似度分数) 列表。
        如果未检索到相关文档，则返回 None。
    """
    query_embedding = model.encode(query)
    document_embeddings = model.encode(documents)

    similarities = cosine_similarity([query_embedding], document_embeddings)[0]
    # 获取最高相似度文档的索引
    best_index = np.argmax(similarities)
    best_similarity = similarities[best_index]
    if best_similarity < threshold:
        return None # 触发 fallback
    else:
        # 返回 (文档, 相似度分数) 的列表
        return [(documents[best_index], best_similarity)]

# 示例用法
documents = [
    "The capital of France is Paris.",
    "London is the capital of the United Kingdom.",
    "Berlin is the capital of Germany."
]

query = "What is the capital of Italy?"  # 知识库中没有答案

results = retrieve_documents(query, documents)

if results is None:
    print("Retrieval failed: No relevant documents found.")
    # 执行 Fallback 逻辑
else:
    print("Retrieval successful:")
    for doc, score in results:
        print(f"Document: {doc}, Similarity: {score}")

优点: 简单易实现，计算成本低。
缺点: 阈值的选择比较困难，需要根据具体数据集进行调整。仅仅基于相似度分数可能不够准确，因为它没有考虑检索结果的语义相关性。

2. 基于 LLM 的相关性判断

使用 LLM 来判断检索结果是否与用户问题相关。

原理: 将用户问题和检索结果作为输入，让 LLM 判断两者是否相关。
实现: 可以使用预训练的文本蕴含模型，例如 BERT 或 RoBERTa，或者使用专门训练的相关性判断模型。

from transformers import pipeline

# 初始化文本蕴含模型
classifier = pipeline("text-classification", model="facebook/bart-large-mnli")

def is_relevant(query, context, threshold=0.8):
    """
    使用 LLM 判断检索结果是否与查询相关。

    Args:
        query: 查询字符串。
        context: 检索到的上下文。
        threshold: 相关性阈值，低于此值则触发 fallback。

    Returns:
        如果相关，则返回 True。
        如果不相关，则返回 False。
    """
    result = classifier(query, context, candidate_labels=["relevant", "irrelevant"])
    # 返回 "relevant" 的概率
    relevance_score = result['scores'][result['labels'].index('relevant')]
    return relevance_score > threshold

# 示例用法
query = "What is the capital of Italy?"
context = "The capital of France is Paris."

if is_relevant(query, context):
    print("Context is relevant to the query.")
else:
    print("Context is not relevant to the query. Triggering fallback...")
    # 执行 Fallback 逻辑

优点: 比基于置信度阈值的策略更准确，能够捕捉语义相关性。
缺点: 计算成本较高，需要调用 LLM。对 LLM 的性能有依赖，可能受到 LLM 本身能力的限制。

3. 混合策略：结合置信度阈值和 LLM 判断

结合以上两种方法，先使用置信度阈值进行初步筛选，再使用 LLM 进行更精确的判断。

原理: 利用置信度阈值快速过滤掉明显不相关的结果，然后使用 LLM 对剩余的结果进行精细判断。
实现:

from transformers import pipeline
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

# 初始化模型
model = SentenceTransformer('all-MiniLM-L6-v2')
classifier = pipeline("text-classification", model="facebook/bart-large-mnli")

def retrieve_and_verify(query, documents, similarity_threshold=0.7, relevance_threshold=0.8):
    """
    检索文档并使用 LLM 验证相关性。

    Args:
        query: 查询字符串。
        documents: 文档列表。
        similarity_threshold: 相似度阈值。
        relevance_threshold: 相关性阈值。

    Returns:
        如果检索到相关文档，则返回 (文档, 相似度分数) 列表。
        如果未检索到相关文档，则返回 None。
    """
    query_embedding = model.encode(query)
    document_embeddings = model.encode(documents)

    similarities = cosine_similarity([query_embedding], document_embeddings)[0]
    best_index = np.argmax(similarities)
    best_similarity = similarities[best_index]

    if best_similarity < similarity_threshold:
        return None  # 初步筛选失败

    # 使用 LLM 验证相关性
    if is_relevant(query, documents[best_index], relevance_threshold):
        return [(documents[best_index], best_similarity)]
    else:
        return None

# 示例用法
documents = [
    "The capital of France is Paris.",
    "London is the capital of the United Kingdom.",
    "Berlin is the capital of Germany."
]

query = "What is the capital of Italy?"

results = retrieve_and_verify(query, documents)

if results is None:
    print("Retrieval failed: No relevant documents found.")
    # 执行 Fallback 逻辑
else:
    print("Retrieval successful:")
    for doc, score in results:
        print(f"Document: {doc}, Similarity: {score}")

优点: 在效率和准确性之间取得平衡。
缺点: 仍然需要调整两个阈值。

4. 生成式 Fallback

如果检索失败，不直接回答“不知道”，而是尝试生成一个更通用的、与问题相关的回答，或者引导用户重新提问。

原理: 利用 LLM 的生成能力，在缺乏精确上下文的情况下，提供一些有用的信息，或者帮助用户更好地表达问题。
实现:

from transformers import pipeline

# 初始化文本生成模型
generator = pipeline("text-generation", model="gpt2")

def generate_fallback_response(query):
    """
    生成一个 Fallback 回复。

    Args:
        query: 用户查询。

    Returns:
        Fallback 回复字符串。
    """

    # 提示语，引导 LLM 生成通用的、与问题相关的回复
    prompt = f"The user asked: '{query}'.  Unfortunately, I don't have specific information on that. However, here's some general information that might be helpful:n"

    # 生成回复
    response = generator(prompt, max_length=150, num_return_sequences=1, pad_token_id=50256)[0]['generated_text']

    return response

# 示例用法
query = "What is the capital of Italy?"

fallback_response = generate_fallback_response(query)
print(fallback_response)

优点: 可以避免直接回答“不知道”，提供更好的用户体验。
缺点: 生成的回复可能不够准确或相关，需要仔细设计提示语。

5. 查询改写与重试

如果初始查询检索失败，尝试改写查询，然后重新进行检索。

原理: 通过分析用户查询，识别其核心意图，并生成更清晰、更具体的查询。
实现: 可以使用 LLM 进行查询改写。

from transformers import pipeline

# 初始化文本生成模型
generator = pipeline("text-generation", model="gpt2")

def rewrite_query(query):
    """
    使用 LLM 改写查询。

    Args:
        query: 原始查询。

    Returns:
        改写后的查询。
    """
    prompt = f"Rewrite the following question to be more specific and clear: '{query}'nRewritten question:"
    rewritten_query = generator(prompt, max_length=50, num_return_sequences=1, pad_token_id=50256)[0]['generated_text']
    return rewritten_query.split("Rewritten question:")[-1].strip() # 提取改写后的查询

# 示例用法
query = "Tell me about apples."
rewritten_query = rewrite_query(query)
print(f"Original query: {query}")
print(f"Rewritten query: {rewritten_query}")

# 重新使用改写后的查询进行检索
# results = retrieve_documents(rewritten_query, documents) # 使用前面定义的 retrieve_documents 函数

优点: 可以提高检索的准确率。
缺点: 查询改写可能引入新的错误，需要仔细评估改写后的查询。

6. 逐步降级 Fallback

将多个 Fallback 策略组合起来，形成一个逐步降级的流程。

原理: 首先尝试最精确、但成本最高的 Fallback 策略，如果失败，则依次尝试成本较低、但精度也较低的策略。
实现:

def rag_with_fallback(query, documents):
    """
    整合多种 fallback 策略的 RAG 系统。

    Args:
        query: 用户查询。
        documents: 文档列表。

    Returns:
        答案字符串。
    """

    # 1. 尝试使用混合策略进行检索
    results = retrieve_and_verify(query, documents)
    if results:
        # 使用检索到的上下文生成答案 (这里省略了 LLM 的调用)
        context = results[0][0] # 获取文档
        # answer = generate_answer(query, context) # 假设存在 generate_answer 函数
        return f"Answer based on retrieved context: {context}" # 简化：直接返回上下文

    # 2. 如果检索失败，尝试查询改写
    rewritten_query = rewrite_query(query)
    results = retrieve_and_verify(rewritten_query, documents) # 再次使用 retrieve_and_verify
    if results:
        context = results[0][0]
        # answer = generate_answer(query, context)
        return f"Answer based on rewritten query and retrieved context: {context}"

    # 3. 如果查询改写也失败，尝试生成式 Fallback
    fallback_response = generate_fallback_response(query)
    return f"I couldn't find a specific answer, but here's some related information: {fallback_response}"

    # 4.  如果所有策略都失败，返回默认回复
    return "I'm sorry, I cannot answer your question at this time."

# 示例用法
documents = [
    "The capital of France is Paris.",
    "London is the capital of the United Kingdom.",
    "Berlin is the capital of Germany."
]
query = "What is the capital of Italy?"
answer = rag_with_fallback(query, documents)
print(answer)

优点: 可以根据不同的情况选择最合适的 Fallback 策略，提高系统的整体性能。
缺点: 需要仔细设计 Fallback 流程，并对每个策略进行调优。

Fallback 策略的选择

选择合适的 Fallback 策略需要考虑以下因素：

知识库的质量: 如果知识库的质量很高，可以更多地依赖检索结果。
用户的需求: 如果用户对答案的准确性要求很高，需要使用更精确的 Fallback 策略。
计算资源: 如果计算资源有限，需要选择计算成本较低的 Fallback 策略。
延迟要求: 如果对响应时间有严格要求，需要选择响应速度快的 Fallback 策略。

可以将不同策略的优缺点总结如下：

Fallback 策略	优点	缺点	适用场景
基于置信度阈值	简单易实现，计算成本低	阈值选择困难，可能不够准确	对准确性要求不高，计算资源有限的场景
基于 LLM 的相关性判断	更准确，能够捕捉语义相关性	计算成本高，依赖 LLM 性能	对准确性要求较高，计算资源充足的场景
混合策略	在效率和准确性之间取得平衡	仍然需要调整阈值	需要在效率和准确性之间进行权衡的场景
生成式 Fallback	避免直接回答“不知道”，提供更好的用户体验	生成的回复可能不够准确或相关，需要仔细设计提示语	需要提高用户体验，但无法保证检索结果质量的场景
查询改写与重试	可以提高检索的准确率	查询改写可能引入新的错误，需要仔细评估改写后的查询	检索模块性能有限，需要提高检索准确率的场景
逐步降级 Fallback	可以根据不同的情况选择最合适的 Fallback 策略，提高系统的整体性能	需要仔细设计 Fallback 流程，并对每个策略进行调优	需要综合考虑各种因素，并根据实际情况进行调整的场景

工程化考虑

在实际工程中，还需要考虑以下问题：

监控: 需要对 Fallback 策略的触发频率和效果进行监控，以便及时发现问题并进行调整。
日志: 需要记录 Fallback 策略的执行过程，以便进行问题排查和分析。
A/B 测试: 可以使用 A/B 测试来比较不同 Fallback 策略的效果，并选择最佳方案。
可配置性: 应该将 Fallback 策略的参数（例如阈值）配置化，方便进行调整。

结束语：打造更健壮的 RAG 系统

通过设计有效的 Fallback 策略，我们可以显著提高 RAG 系统的鲁棒性和准确性，避免 LLM 生成不准确的答案，并提供更好的用户体验。希望今天的分享能够帮助大家更好地构建基于 RAG 的应用。

策略选择和工程化实现

选择合适的 Fallback 策略需要综合考虑各种因素，没有一种策略能够适用于所有场景。需要根据具体的应用场景和需求，进行权衡和选择。

在工程实现上，需要注意监控、日志、A/B 测试和可配置性等方面，以便对 Fallback 策略进行持续优化和改进。