解析 ‘Trace-driven Prompt Optimization’：利用 LangSmith 的海量 Trace 数据自动发现并修复 Prompt 中的歧义词 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

大家好，欢迎来到今天的技术讲座。今天我们将深入探讨一个在大型语言模型（LLM）应用开发中至关重要，但又极具挑战性的问题：Prompt 的优化。更具体地说，我们将聚焦于如何利用 LangSmith 强大的海量 Trace 数据，自动发现并修复 Prompt 中的歧义词，从而显著提升 LLM 响应的质量和一致性。

在构建基于 LLM 的应用时，Prompt 的设计是核心。一个清晰、明确的 Prompt 能够引导 LLM 生成高质量、符合预期的输出。然而，人类语言固有的复杂性和多义性，常常导致 Prompt 中出现歧义。这些歧义词，无论是词法、句法还是语义层面的，都会让 LLM 在理解上产生偏差，进而导致输出不稳定、不准确，甚至出现“幻觉”（hallucination）。

传统上，Prompt 优化往往依赖于人工经验、大量的 A/B 测试和用户反馈。这不仅效率低下，而且难以系统性地捕捉和解决所有潜在的歧义。而今天，我们将介绍一种更加科学、数据驱动的方法：Trace-driven Prompt Optimization。通过深度挖掘 LangSmith 收集的运行时 Trace 数据，我们不仅能观察到 LLM 的行为，更能反推出 Prompt 中可能存在的“薄弱环节”，尤其是那些引发歧义的词语，并尝试自动化地进行修复。

Prompt 歧义的挑战与传统应对

在深入技术细节之前，我们首先要明确“Prompt 歧义”究竟指什么，以及它为何如此棘手。

什么是 Prompt 歧义？

Prompt 歧义是指 Prompt 中的某个词语、短语或句子，在没有足够上下文或明确指示的情况下，可以被 LLM 理解为多种不同的含义。这就像给一个人下达指令，但指令中的某些词语有双重含义，导致接收者不知道该执行哪个操作。

我们可以将歧义大致分为以下几类：

歧义类型	描述	示例	潜在问题
词法歧义	单个词语具有多重含义。	"bank"（银行/河岸），"apple"（苹果公司/水果）	LLM 可能会选择一个与预期不符的含义，例如在金融语境中谈论“河岸”。
句法歧义	句子的结构可以有多种解析方式，导致不同的含义。	"I saw a man with a telescope."（是用望远镜看人，还是看到一个带着望远镜的人？）	LLM 可能会错误地解析句子结构，导致对指令的误解。
语义歧义	句子或短语的整体含义模糊不清，即使每个词语本身没有歧义。通常涉及指代不明确、范围模糊等。	"Provide some details."（哪些细节？多少细节？）"Improve the response."（如何改进？从哪些方面改进？）	LLM 难以确定具体需要提供什么信息或执行什么操作，可能给出过于宽泛、不相关或不完整的回答。
指代歧义	代词（it, they, this, that）或其他指代词语的先行词不明确。	"The CEO met the CTO and he was pleased."（谁很高兴？CEO 还是 CTO？）	LLM 可能会错误地理解代词所指代的对象，导致事实性错误或逻辑混乱。
语境歧义	某些词语在特定领域或语境下有特殊含义，但在通用语境下可能被误解。	在医学领域，“positive”通常指检测结果为阳性，但在日常语境中可能指“积极的”。	如果 Prompt 没有明确指定领域或语境，LLM 可能会按照通用理解来解释，导致专业性不足或错误。

传统 Prompt 优化的局限性

人工经验驱动： 依赖于 Prompt 工程师的直觉和经验，难以规模化。
试错成本高： 每次修改都需要重新测试，耗费大量时间和计算资源。
覆盖不足： 难以预见所有可能的用户输入和 LLM 行为，尤其是在长尾场景下。
反馈滞后： 用户反馈通常在问题发生后才收集，难以主动预防。
缺乏量化指标： 很难客观地衡量 Prompt 的“好坏”和歧义程度。

LangSmith 与 Trace 数据的力量

为了克服这些局限性，我们需要一种更系统、更数据驱动的方法。LangSmith 正是为此而生。

什么是 LangSmith？

LangSmith 是 LangChain 团队开发的一个平台，旨在帮助开发者调试、测试、评估和监控基于 LLM 的应用。它通过捕获应用程序的每一次 LLM 调用、工具使用、链式操作等，生成详细的“Trace”（执行轨迹）。这些 Trace 包含了输入、输出、中间步骤、延迟、令牌使用、错误信息以及用户反馈等丰富的数据。

Trace 数据如何揭示歧义？

Trace 数据是理解 LLM 行为的“黑匣子”的关键。它提供了一个完整的操作视图，让我们能够：

观察输入-输出对： 记录了每次用户输入（Prompt）和对应的 LLM 输出。
记录中间步骤： 如果您的应用使用了 LangChain 链（Chains）或代理（Agents），Trace 会展示每一步的决策和执行过程。
收集用户反馈： 用户可以直接在 LangSmith 界面或通过 API 对 LLM 的输出进行好坏评价，或提供具体评论。
识别异常行为： 通过分析大量 Trace，我们可以发现以下异常模式，它们往往是 Prompt 歧义的信号：
- 相同输入，不同输出： 相同的 Prompt 在不同时间或不同用户下产生了显著不同的 LLM 响应。这强烈暗示 Prompt 存在开放性或歧义，导致 LLM 每次都“猜测”不同的解释。
- 负面用户反馈： 用户明确标记为“不好”或给出负面评论的 Trace，通常指向 LLM 输出不准确、不相关或有误，而这很可能源于 Prompt 的误解。
- 高延迟或高令牌消耗： 对于简单的指令，如果 LLM 表现出异常高的延迟或令牌消耗，可能意味着它在“挣扎”理解 Prompt，进行了过多的思考或生成了冗余内容。
- 特定词语或模式的输出缺失/不一致： 如果 Prompt 要求包含某个特定信息，但 LLM 的输出有时包含、有时不包含，或者表达方式差异巨大，则 Prompt 中可能存在对该信息的模糊要求。

通过 LangSmith 收集这些丰富的 Trace 数据，我们就可以构建一个数据驱动的系统，自动分析这些异常模式，并定位到 Prompt 中潜在的歧义词。

Trace-driven Prompt 优化架构概览

我们将构建的系统可以抽象为以下几个核心模块：

数据收集 (Data Collection):
- 通过 LangChain/LangSmith SDK，自动捕获所有 LLM 交互的 Trace 数据。
- 鼓励用户提供反馈。
Trace 分析与问题识别 (Trace Analysis & Problem Identification):
- 从 LangSmith 提取 Trace 数据。
- 根据预定义规则或机器学习模型，识别出“有问题”的 Trace（例如，负面反馈、高不一致性）。
- 从这些问题 Trace 中提取原始 Prompt。
歧义检测 (Ambiguity Detection):
- 对提取出的 Prompt 进行自然语言处理 (NLP) 分析。
- 利用词法、句法、语义分析技术，结合启发式规则，定位 Prompt 中潜在的歧义词或短语。
- 与问题 Trace 的输出进行关联，确认歧义的实际影响。
候选 Prompt 生成 (Candidate Prompt Generation):
- 根据检测到的歧义，自动化生成多个优化后的候选 Prompt。
- 方法包括规则转换、LLM 自我改进等。
评估与部署 (Evaluation & Deployment):
- 使用自动化测试（如 A/B 测试）和人工评估来验证候选 Prompt 的效果。
- 将表现最佳的 Prompt 部署到生产环境。
- 持续监控其性能。

深入：数据收集与 LangSmith 集成

首先，我们需要确保我们的 LLM 应用能够将 Trace 数据发送到 LangSmith。这通常通过 LangChain 库与 LangSmith 的无缝集成来实现。

1. 设置 LangSmith 环境变量

在您的环境中设置 LangSmith API 密钥和项目名称：

import os

os.environ["LANGCHAIN_TRACING_V2"] = "true"
os.environ["LANGCHAIN_API_KEY"] = "YOUR_LANGSMITH_API_KEY" # 从 LangSmith 网站获取
os.environ["LANGCHAIN_PROJECT"] = "Prompt_Optimization_Project" # 自定义项目名称
os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_API_KEY" # 假设使用 OpenAI

2. 构建一个简单的 LangChain 应用

让我们构建一个简单的 LLM 链，用于回答用户问题。每次调用这个链，其执行轨迹都会自动发送到 LangSmith。

from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough

# 定义基础 LLM
llm = ChatOpenAI(model="gpt-4", temperature=0.7)

# 定义一个存在潜在歧义的 Prompt 模板
# 这里的 "details" 可能不够具体
ambiguous_prompt_template = ChatPromptTemplate.from_messages(
    [
        ("system", "你是一个专业的助手，根据用户请求提供信息。"),
        ("human", "请解释一下 {topic}。提供一些 details。")
    ]
)

# 构建一个简单的链
ambiguous_chain = (
    {"topic": RunnablePassthrough()}
    | ambiguous_prompt_template
    | llm
    | StrOutputParser()
)

# 模拟多次调用，生成 Trace 数据
print("--- 模拟调用 1 ---")
result1 = ambiguous_chain.invoke("人工智能")
print(f"LLM Output 1: {result1[:150]}...") # 截取前150字
# 在 LangSmith 界面，你可以手动给这个 Trace 打上“好”或“坏”的反馈

print("n--- 模拟调用 2 ---")
result2 = ambiguous_chain.invoke("区块链技术")
print(f"LLM Output 2: {result2[:150]}...")

# 模拟一个用户可能觉得不够详细的调用
print("n--- 模拟调用 3 (可能存在歧义) ---")
result3 = ambiguous_chain.invoke("气候变化")
print(f"LLM Output 3: {result3[:150]}...")
# 想象这个 Trace 在 LangSmith 收到了负面反馈，因为它没有提供“足够”的细节

# 模拟一个相同的输入，但我们期望观察到不同的输出模式（如果 Prompt 有歧义）
print("n--- 模拟调用 4 (相同输入，可能因歧义导致不同输出) ---")
result4 = ambiguous_chain.invoke("人工智能")
print(f"LLM Output 4: {result4[:150]}...")

运行上述代码后，访问 LangSmith 平台，您将看到这些调用的 Trace 记录。关键在于，我们需要在 LangSmith 界面上，或者通过 LangSmith API，为这些 Trace 添加反馈信息。例如，我们可以手动给 气候变化 相关的 Trace 打上“差评”或添加评论“不够详细”。

深入：Trace 分析与问题识别

有了数据，下一步就是如何自动化地识别出那些“有问题”的 Trace，并从中提取有用的信息。LangSmith 提供了 Python SDK 来访问其数据。

1. 安装 LangSmith SDK

pip install langsmith

2. 从 LangSmith 获取 Trace 数据

我们将使用 langsmith.client.Client 来与 LangSmith API 交互。

from langsmith import Client
from datetime import datetime, timedelta

client = Client()

def get_problematic_traces(project_name: str, look_back_days: int = 7):
    """
    获取指定项目下，最近 N 天内被标记为“负面”或输出不一致的 Trace。
    """
    end_time = datetime.now()
    start_time = end_time - timedelta(days=look_back_days)

    runs = client.list_runs(
        project_name=project_name,
        start_time=start_time,
        end_time=end_time,
        # 我们可以进一步过滤，例如只看特定的链或LLM调用
        # run_type="chain" 或 "llm"
    )

    problematic_prompts = []
    input_output_map = {} # 用于检测相同输入不同输出

    for run in runs:
        # 过滤掉非链式或非LLM的运行（如果需要）
        if run.run_type not in ["chain", "llm"]:
            continue

        prompt_text = None
        output_text = None

        # 提取输入和输出。这里假设我们的链的输入直接是主题
        if run.inputs and "topic" in run.inputs:
            prompt_text = f"请解释一下 {run.inputs['topic']}。提供一些 details。" # 重新构建Prompt
        elif run.inputs and "input" in run.inputs: # 某些LLM调用直接是"input"
             # 尝试从LLM调用的Prompt中提取，如果它是一个ChatPromptTemplate
             if isinstance(run.inputs.get('messages'), list):
                 for msg in run.inputs['messages']:
                     if msg.get('role') == 'human':
                         prompt_text = msg.get('content') # 直接提取human message
                         break
             elif isinstance(run.inputs.get('prompt'), str):
                 prompt_text = run.inputs['prompt']

        if run.outputs and "output" in run.outputs:
            output_text = run.outputs["output"]

        if not prompt_text or not output_text:
            continue

        # 1. 根据反馈识别问题 Trace
        if run.feedback:
            for feedback_item in run.feedback:
                if feedback_item.score is not None and feedback_item.score < 0.5: # 假设分数低于0.5是负面
                    print(f"发现负面反馈 Trace (Run ID: {run.id}):")
                    print(f"  Prompt: {prompt_text}")
                    print(f"  Output: {output_text[:100]}...")
                    print(f"  Feedback: {feedback_item.comment or 'No comment'}n")
                    problematic_prompts.append((prompt_text, output_text, "negative_feedback", feedback_item.comment))
                    break # 一个负面反馈就足够了

        # 2. 检测相同输入不同输出（更复杂，需要聚合分析）
        # 这里只是一个简化的示例，实际中需要更复杂的相似度比较
        if prompt_text not in input_output_map:
            input_output_map[prompt_text] = []
        input_output_map[prompt_text].append(output_text)

    # 进一步分析 input_output_map 来寻找不一致性
    for prompt, outputs in input_output_map.items():
        if len(outputs) > 1: # 相同的Prompt被调用了多次
            # 这里需要一个更复杂的输出相似度检查，例如计算语义相似度
            # 简单示例：如果输出字符串完全不同，则可能存在不一致
            if len(set(outputs)) > 1:
                print(f"发现相同 Prompt 但输出不一致的 Trace:")
                print(f"  Prompt: {prompt}")
                print(f"  Number of distinct outputs: {len(set(outputs))}")
                print(f"  Example outputs: {outputs[0][:100]}... vs {outputs[1][:100]}...n")
                # 记录为歧义信号，可能需要进一步分析是哪种歧义
                problematic_prompts.append((prompt, outputs, "inconsistent_output", None))

    return problematic_prompts

# 运行获取问题 Trace
problem_traces = get_problematic_traces(project_name=os.environ["LANGCHAIN_PROJECT"])
print(f"共发现 {len(problem_traces)} 个潜在问题 Trace。")

这段代码是一个起点。在实际应用中：

Prompt 提取： 从 run.inputs 中提取原始 Prompt 的逻辑会更复杂，需要根据您的链结构和 LLM 类型进行适配。对于 ChatPromptTemplate，Prompt 通常是 messages 列表中的 human 消息内容。
输出相似度： 检测“相同输入，不同输出”需要更高级的文本相似度算法（如余弦相似度、BERT 嵌入相似度），而不仅仅是字符串比较。
错误处理： 需要更健壮的错误处理和日志记录。

深入：自动化歧义检测

一旦我们识别出带有问题的 Prompt，下一步就是自动化地分析这些 Prompt，定位其中的歧义词。这需要结合 NLP 技术和启发式规则。

1. 安装必要的 NLP 库

我们将使用 spaCy 进行句法分析和词性标注，以及 sentence-transformers 进行语义相似度计算。

pip install spacy sentence-transformers
python -m spacy download en_core_web_sm # 下载英文模型
python -m spacy download zh_core_web_sm # 下载中文模型 (如果处理中文)

2. 歧义检测策略与代码示例

import spacy
from sentence_transformers import SentenceTransformer, util
import numpy as np

# 加载 spacy 模型 (根据需要选择英文或中文)
try:
    nlp = spacy.load("zh_core_web_sm")
except OSError:
    print("Downloading zh_core_web_sm model...")
    spacy.cli.download("zh_core_web_sm")
    nlp = spacy.load("zh_core_web_sm")

# 加载 Sentence Transformer 模型用于语义相似度
# model = SentenceTransformer('paraphrase-MiniLM-L6-v2') # 英文
model = SentenceTransformer('distiluse-base-multilingual-cased-v2') # 多语言，适合中文

def detect_ambiguity(prompt_text: str, problematic_output: str = None) -> list:
    """
    检测 Prompt 中的潜在歧义。
    Args:
        prompt_text: 原始 Prompt 文本。
        problematic_output: 导致问题的LLM输出（可选，用于上下文判断）。
    Returns:
        一个列表，包含检测到的歧义信息。
    """
    doc = nlp(prompt_text)
    ambiguities = []

    # 1. 词法歧义检测 (Lexical Ambiguity)
    # 简单的启发式：查找常用但多义的词语
    # 对于中文，多义词检测更依赖于上下文和领域知识
    ambiguous_words_zh = {
        "细节": ["具体信息", "详细说明", "具体步骤", "详细数据"],
        "信息": ["数据", "知识", "消息"],
        "关键": ["重要", "核心", "主要"],
        "提供": ["给出", "呈现", "提供帮助"]
    }

    for token in doc:
        if token.text in ambiguous_words_zh:
            ambiguities.append({
                "type": "词法歧义",
                "word": token.text,
                "position": token.idx,
                "suggestion": f"考虑替换 '{token.text}' 为更具体的词语，例如：{', '.join(ambiguous_words_zh[token.text])}"
            })

    # 2. 句法歧义检测 (Syntactic Ambiguity)
    # 查找可能导致多种解析的短语，例如悬垂修饰语、模糊的介词短语等
    # 这部分更复杂，需要深入的句法分析和规则
    # 示例：查找"的"字结构后可能的多义性
    for i, token in enumerate(doc):
        if token.text == "的" and i + 1 < len(doc) and i - 1 >= 0:
            # 简单的启发式，例如 'X 的 Y'，如果 Y 是一个动词或形容词
            # 这种情况在中文中可能不直接对应英文的句法歧义，但可以作为一种模式识别
            if doc[i+1].pos_ in ["VERB", "ADJ"] and doc[i-1].pos_ in ["NOUN", "PROPN"]:
                phrase = doc[i-1:i+2].text
                ambiguities.append({
                    "type": "句法歧义 (启发式)",
                    "phrase": phrase,
                    "position": doc[i-1].idx,
                    "suggestion": f"短语 '{phrase}' 可能存在多重解读，尝试重构句子以明确关系。"
                })

    # 3. 语义/指代歧义检测 (Semantic/Referential Ambiguity)
    # 查找代词或模糊的量词
    vague_terms_zh = ["它", "它们", "这个", "那个", "一些", "一些 details", "如何", "什么", "怎样"]
    for token in doc:
        if token.text in vague_terms_zh:
            ambiguities.append({
                "type": "语义/指代歧义",
                "word": token.text,
                "position": token.idx,
                "suggestion": f"词语 '{token.text}' 过于模糊，尝试明确其指代对象或具体要求。"
            })
        elif token.lemma_ == "提供" and any(t.lemma_ == "细节" for t in token.children):
            # 发现 "提供细节" 这种模糊指令
            ambiguities.append({
                "type": "语义歧义",
                "phrase": "提供细节",
                "position": token.idx,
                "suggestion": "‘提供细节’过于宽泛，请明确需要提供什么类型的细节，例如：‘提供技术细节’、‘提供历史背景’。"
            })

    # 4. 基于 LLM 输出的不一致性检测 (如果提供了 problematic_output)
    # 如果相同的 Prompt 产生了差异很大的输出，则原始 Prompt 极有可能存在语义歧义
    # 这里的 problematic_output 可能是多个输出的列表
    if problematic_output and isinstance(problematic_output, list) and len(problematic_output) > 1:
        embeddings = model.encode(problematic_output, convert_to_tensor=True)
        # 计算所有输出两两之间的余弦相似度
        cosine_scores = util.cos_sim(embeddings, embeddings)
        # 如果最低相似度低于某个阈值，则认为存在严重不一致
        min_similarity = cosine_scores[np.triu_indices(len(cosine_scores), k=1)].min()
        if min_similarity < 0.7: # 阈值可调
            ambiguities.append({
                "type": "输出不一致导致的语义歧义",
                "prompt": prompt_text,
                "min_similarity": f"{min_similarity:.2f}",
                "suggestion": "相同 Prompt 导致输出高度不一致，表明 Prompt 本身存在严重语义歧义，需要大幅度澄清其意图。"
            })

    return ambiguities

# 示例使用
for prompt, output, reason, comment in problem_traces:
    if reason == "negative_feedback":
        print(f"--- 分析 Prompt (负面反馈): {prompt} ---")
        detected_ambiguities = detect_ambiguity(prompt, problematic_output=output)
        if detected_ambiguities:
            for amb in detected_ambiguities:
                print(f"  - {amb['type']}: {amb.get('word', amb.get('phrase', ''))} ({amb['suggestion']})")
        else:
            print("  未检测到明显的歧义，可能问题出在其他方面（例如知识不足）。")
    elif reason == "inconsistent_output":
        print(f"--- 分析 Prompt (输出不一致): {prompt} ---")
        detected_ambiguities = detect_ambiguity(prompt, problematic_output=output) # output here is a list
        if detected_ambiguities:
            for amb in detected_ambiguities:
                print(f"  - {amb['type']}: {amb.get('word', amb.get('phrase', ''))} ({amb['suggestion']})")
        else:
            print("  未检测到明显的歧义，可能需要更复杂的分析。")

解释：

词法歧义： 通过预定义的多义词列表进行简单匹配。在中文中，这需要结合领域知识或更复杂的词义消歧 (Word Sense Disambiguation, WSD) 技术。
句法歧义： 使用 spaCy 进行词性标注和依存句法分析。例如，查找 的 字结构，如果其前后词性组合可能导致多种理解，则标记为潜在歧义。这部分是中文 NLP 的难点，需要更精细的规则。
语义/指代歧义： 识别模糊的代词或量词。例如，当 Prompt 包含“提供一些 details”时，会因为“一些 details”的模糊性而被标记。
输出不一致导致的语义歧义： 这是最强大的信号之一。如果相同的 Prompt 导致了语义上差异巨大的 LLM 输出（通过 sentence-transformers 计算余弦相似度），那么 Prompt 本身几乎肯定存在语义歧义或开放性。

深入：自动化 Prompt 优化与候选生成

定位到歧义后，下一步是自动化地生成改进后的 Prompt 候选。我们可以采用规则驱动和 LLM 驱动两种主要策略。

1. 规则驱动的 Prompt 转换

对于常见的歧义模式，我们可以编写规则进行替换或补充。

def rule_based_prompt_refinement(original_prompt: str, detected_ambiguities: list) -> list[str]:
    """
    基于检测到的歧义，使用规则生成改进的 Prompt 候选。
    """
    candidates = []
    # 基础改进：尝试更具体化“details”
    if "details" in original_prompt or "细节" in original_prompt:
        candidates.append(original_prompt.replace("一些 details", "详细的技术细节")
                                        .replace("一些细节", "详细的技术细节"))
        candidates.append(original_prompt.replace("一些 details", "关键的历史背景和发展历程")
                                        .replace("一些细节", "关键的历史背景和发展历程"))
        candidates.append(original_prompt.replace("提供", "具体提供")
                                        .replace("提供", "请务必提供"))

    # 根据检测到的具体歧义进行更多替换
    for amb in detected_ambiguities:
        if amb["type"] == "词法歧义" and amb["word"] == "细节":
            # 尝试使用 amb['suggestion'] 中的具体词语
            for specific_term in ["具体步骤", "详细数据"]:
                candidates.append(original_prompt.replace("细节", specific_term))
        elif amb["type"] == "语义/指代歧义" and amb.get("phrase") == "提供细节":
            candidates.append(original_prompt.replace("提供细节", "请提供关键的技术细节，包括其工作原理和应用场景。"))
            candidates.append(original_prompt.replace("提供细节", "请列出其主要特点和优缺点。"))
        # 可以添加更多规则，例如澄清代词指代等

    # 去重
    return list(set(candidates))

# 示例使用
problematic_prompt_example = "请解释一下人工智能。提供一些细节。"
detected_ambiguities_example = detect_ambiguity(problematic_prompt_example)
rule_refined_prompts = rule_based_prompt_refinement(problematic_prompt_example, detected_ambiguities_example)
print(f"n--- 规则改进的 Prompt 候选 ---")
for i, p in enumerate(rule_refined_prompts):
    print(f"{i+1}. {p}")

2. LLM 驱动的 Prompt 改进

利用 LLM 自身的语言理解和生成能力来重写 Prompt，明确消除歧义。这是一种更强大和灵活的方法。

from langchain_core.messages import HumanMessage, SystemMessage

def llm_driven_prompt_refinement(original_prompt: str, detected_ambiguities: list, llm_model: ChatOpenAI) -> list[str]:
    """
    使用 LLM 生成改进的 Prompt 候选。
    """
    system_message_content = (
        "你是一个专业的 Prompt 优化专家。你的任务是审查给定的 Prompt，并根据检测到的歧义，"
        "生成 2-3 个更加清晰、明确、无歧义的 Prompt 版本。确保新的 Prompt 引导 LLM 生成更准确、一致的输出。"
        "请特别注意消除词法、句法和语义上的模糊性，以及明确任何指代不明的词语。"
        "用列表的形式输出优化后的 Prompt，每个 Prompt 用双引号括起来。"
    )

    human_message_content = f"原始 Prompt: "{original_prompt}"nn检测到的潜在歧义:n"
    if detected_ambiguities:
        for amb in detected_ambiguities:
            human_message_content += f"- {amb['type']}: {amb.get('word', amb.get('phrase', ''))} ({amb['suggestion']})n"
    else:
        human_message_content += "- 未检测到明确歧义，但仍需确保清晰度。n"

    human_message_content += "n请根据上述信息，提供优化后的 Prompt 列表。"

    messages = [
        SystemMessage(content=system_message_content),
        HumanMessage(content=human_message_content)
    ]

    try:
        response = llm_model.invoke(messages)
        # 尝试解析 LLM 的输出，预期是 JSON 或可解析的列表
        # 这是一个简化的解析，实际可能需要更健壮的 JSON 模式
        # 假设 LLM 会生成类似 ["Prompt 1", "Prompt 2"] 的格式
        refined_prompts_raw = response.content
        # 简单的字符串解析，可能需要正则表达式或更复杂的JSON解析
        import re
        extracted_prompts = re.findall(r'"(.*?)"', refined_prompts_raw)
        return list(set(extracted_prompts))
    except Exception as e:
        print(f"LLM 驱动的 Prompt 优化失败: {e}")
        return []

# 示例使用
llm_for_refinement = ChatOpenAI(model="gpt-4", temperature=0.3)
llm_refined_prompts = llm_driven_prompt_refinement(problematic_prompt_example, detected_ambiguities_example, llm_for_refinement)
print(f"n--- LLM 改进的 Prompt 候选 ---")
for i, p in enumerate(llm_refined_prompts):
    print(f"{i+1}. {p}")

混合方法：
在实际应用中，我们可以将规则驱动和 LLM 驱动的方法结合起来。首先，使用规则进行初步、确定性的改进。然后，将这些初步改进的 Prompt 和原始 Prompt 一起提交给 LLM，让 LLM 进行更深层次的语义理解和重写。

深入：评估与迭代

生成了候选 Prompt 后，最关键的一步是评估它们是否真的解决了问题并提升了性能。LangSmith 在这里再次发挥核心作用。

1. 自动化评估：A/B 测试与指标监控

我们可以将新的候选 Prompt 与旧的 Prompt 进行 A/B 测试。通过 LangSmith，我们可以并行运行不同版本的 Prompt，并收集它们的性能指标。

评估指标：

一致性 (Consistency): 相同的输入，新 Prompt 是否产生更一致的输出？这可以通过计算多轮输出的语义相似度来量化。
准确性 (Accuracy): 如果有黄金标准答案，可以对比 LLM 输出与标准答案的匹配程度。
用户反馈 (User Feedback): 新 Prompt 是否获得更高的正面反馈率或更低的负面反馈率？
令牌使用 (Token Usage) / 延迟 (Latency): 优化后的 Prompt 是否更简洁高效，降低了成本和延迟？
特定关键词/信息覆盖： 新 Prompt 是否能稳定地包含用户期望的关键信息？

LangChain 中的 A/B 测试模拟：
虽然 LangSmith 提供了 Experiment 功能，但这里我们可以模拟一个简单的 A/B 测试流程，并将其结果记录到 LangSmith。

import random

# 定义优化后的 Prompt 链
optimized_prompt_template = ChatPromptTemplate.from_messages(
    [
        ("system", "你是一个专业的助手，根据用户请求提供信息。请务必提供详细的技术细节和工作原理。"),
        ("human", "请解释一下 {topic}。") # 明确了“细节”的类型
    ]
)
optimized_chain = (
    {"topic": RunnablePassthrough()}
    | optimized_prompt_template
    | llm
    | StrOutputParser()
)

# 模拟 A/B 测试
test_topics = ["机器学习", "深度学习", "自然语言处理", "计算机视觉"]
num_runs_per_prompt = 5

print("n--- 开始 A/B 测试 ---")
ab_test_results = {
    "original_prompt_chain": {"feedback_scores": [], "outputs": []},
    "optimized_prompt_chain": {"feedback_scores": [], "outputs": []}
}

for topic in test_topics:
    for _ in range(num_runs_per_prompt):
        # 运行原始 Prompt 链
        with client.trace_as_current_run(name="OriginalPromptChain", inputs={"topic": topic}) as original_run:
            original_output = ambiguous_chain.invoke(topic)
            ab_test_results["original_prompt_chain"]["outputs"].append(original_output)
            # 模拟用户反馈（随机生成，实际应来自真实用户或自动评估）
            feedback_score = random.choice([0, 0.5, 1]) # 0: 差, 0.5: 中, 1: 好
            client.create_feedback(
                run_id=original_run.id,
                score=feedback_score,
                comment=f"Original Prompt for {topic} - Score: {feedback_score}",
                key="user_satisfaction"
            )
            ab_test_results["original_prompt_chain"]["feedback_scores"].append(feedback_score)

        # 运行优化后的 Prompt 链
        with client.trace_as_current_run(name="OptimizedPromptChain", inputs={"topic": topic}) as optimized_run:
            optimized_output = optimized_chain.invoke(topic)
            ab_test_results["optimized_prompt_chain"]["outputs"].append(optimized_output)
            # 模拟用户反馈
            # 假设优化后的 Prompt 倾向于获得更好的反馈
            feedback_score = random.choice([0.5, 1]) # 倾向于中等或好
            client.create_feedback(
                run_id=optimized_run.id,
                score=feedback_score,
                comment=f"Optimized Prompt for {topic} - Score: {feedback_score}",
                key="user_satisfaction"
            )
            ab_test_results["optimized_prompt_chain"]["feedback_scores"].append(feedback_score)

print("n--- A/B 测试结果概览 ---")
original_avg_feedback = np.mean(ab_test_results["original_prompt_chain"]["feedback_scores"])
optimized_avg_feedback = np.mean(ab_test_results["optimized_prompt_chain"]["feedback_scores"])

print(f"原始 Prompt 链平均用户反馈: {original_avg_feedback:.2f}")
print(f"优化后 Prompt 链平均用户反馈: {optimized_avg_feedback:.2f}")

# 进一步可以通过 LangSmith 界面对比这两个链的性能，包括延迟、令牌使用、错误率等。
# 特别是查看它们的输出是否更一致（如果针对相同输入多次运行的话）。

通过 LangSmith 界面，您可以轻松地比较 OriginalPromptChain 和 OptimizedPromptChain 的指标，例如平均分数、延迟、token 使用等，从而量化优化效果。

2. 人工审核与持续监控

尽管自动化评估非常重要，但在部署前进行人工审核仍然是必不可少的。Prompt 工程师可以：

审查高置信度的优化建议： 检查自动化生成的 Prompt 是否真正符合业务意图。
处理低置信度或复杂歧义： 对于自动化系统难以处理的复杂歧义，进行人工介入和微调。

部署后，持续监控 LangSmith 的仪表板是关键。如果新的 Prompt 版本开始出现负面反馈或性能下降，这可能意味着新的歧义出现，或者外部环境（如 LLM 模型更新）导致其失效，需要重新进入优化循环。

挑战与未来方向

Trace-driven Prompt 优化虽然强大，但也面临一些挑战和值得探索的未来方向：

歧义的复杂性： 自动检测所有类型的歧义，特别是深层次的语义和语境歧义，仍然是一个开放的研究问题。
自动化修复的创造性： 规则驱动的方法有限，LLM 驱动的方法可能引入新的问题（例如“幻觉”或不符合指令）。如何确保修复既有效又安全？
评估指标的完善： 除了用户反馈和基本指标，如何更准确、自动化地量化 Prompt 的“清晰度”和 LLM 响应的“一致性”？
领域适应性： 针对特定领域（如法律、医疗）的 Prompt 优化，需要结合领域知识进行更专业的歧义检测和修复。
多模态 Prompt 优化： 随着多模态 LLM 的发展，Prompt 将不仅仅是文本，还可能包含图像、音频。如何检测和修复多模态 Prompt 中的歧义将是新的挑战。
主动式优化： 目前的方法多是被动地响应问题。未来可以探索在 Prompt 设计阶段就预测潜在歧义，并提供实时优化建议。

结语

Trace-driven Prompt Optimization 利用 LangSmith 的海量运行时数据，提供了一种系统化、数据驱动的方式来应对 Prompt 歧义的挑战。通过自动化地发现问题、生成优化方案并进行严格评估，我们可以显著提升 LLM 应用的稳定性、准确性和用户满意度，从而加速 LLM 产品的迭代和成熟。这是一个持续迭代的过程，结合工具、数据和人类智能，我们将能构建出更智能、更可靠的 LLM 应用。