实战：利用结构化‘事实清单’（Fact Sheets）强制提升 AI 摘要的采信率 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

各位同仁，各位对AI技术充满热情的开发者们，下午好！

今天，我们将深入探讨一个在当前AI应用，特别是大型语言模型（LLM）时代日益凸显的关键问题：如何提升AI摘要的“采信率”（Trustworthiness and Acceptance Rate）。AI摘要技术无疑带来了巨大的便利，能够从海量信息中迅速提炼核心要点。然而，伴随其强大的能力，也浮现出如“幻觉”（hallucination）、信息偏差、来源不透明等挑战，这些问题严重影响了用户对AI生成内容的信任。

在许多关键业务场景，例如金融报告分析、医疗诊断辅助、法律文书摘要，甚至日常的新闻阅读，摘要的准确性和可验证性是不可妥协的。一个错误的摘要可能导致决策失误，造成无法挽回的后果。那么，我们作为编程专家，如何从技术层面出发，强制性地提升AI摘要的采信率呢？我的答案是：利用结构化的“事实清单”（Fact Sheets）。

AI摘要的挑战与采信率的困境

首先，让我们来明确一下当前AI摘要面临的主要挑战，以及“采信率”在其中的重要性。

1. 摘要模式的分类与局限性

目前主流的AI摘要方法大致分为两类：

抽取式摘要 (Extractive Summarization): 从原文中直接选取重要的句子或短语构成摘要。这种方法的优点是摘要内容必然是原文的，不存在“幻觉”问题，但缺点是可能缺乏流畅性和连贯性，并且难以进行深层次的语义重组。
生成式摘要 (Abstractive Summarization): 模型理解原文内容后，用自己的语言重新组织和生成摘要。LLM主要采用这种方式。其优点是摘要自然流畅，能够捕捉深层语义，甚至进行推理。但其核心缺点是存在“幻觉”风险，即生成的内容看似合理，实则与原文不符或完全是捏造的。

2. “幻觉”问题：采信率的头号杀手

“幻觉”是生成式摘要的致命弱点。它表现为AI模型生成了：

事实性错误 (Factual Errors): 摘要中的信息与原文或客观事实不符。
捏造信息 (Fabrication): 摘要中出现了原文从未提及的实体、事件或关系。
逻辑矛盾 (Logical Inconsistencies): 摘要内部或摘要与原文之间存在逻辑冲突。

当用户发现AI摘要存在“幻觉”时，其对AI的信任度会迅速下降，进而导致“采信率”的降低。在专业领域，一次“幻觉”可能意味着整个AI系统的不可用性。

3. 来源不透明与可追溯性缺失

当前的LLM通常是一个黑箱模型。即使摘要内容正确，用户也难以直观地了解哪些信息源支撑了摘要中的具体论断。这种不透明性使得用户难以验证摘要的真实性，也限制了在出现争议时进行溯源和纠正。缺乏可追溯性是影响采信率的另一个关键因素。

4. 采信率的衡量

采信率不是一个单一的技术指标，它更多地反映了用户对AI摘要的信任程度和接受意愿。我们可以从以下几个维度来间接衡量和提升它：

事实准确性 (Factual Accuracy): 摘要中的信息与原文或外部知识库是否一致。
一致性 (Consistency): 摘要内容在不同时间、不同上下文下是否保持一致。
可验证性 (Verifiability): 摘要中的信息是否可以轻松地追溯到其原始来源。
可解释性 (Interpretability): 用户是否能理解摘要是如何生成以及为何如此生成的。
用户满意度 (User Satisfaction): 用户对摘要质量的主观评价。

我们的目标，就是通过引入结构化“事实清单”，系统性地解决上述挑战，从而强制性地提升AI摘要的事实准确性、可验证性，进而显著提高采信率。

事实清单（Fact Sheets）：结构化知识的基石

那么，什么是事实清单？简单来说，事实清单是一种高度结构化、原子化的信息集合，它将原始文本中的核心事实以机器可读、可验证的格式提取出来。每个“事实”都应是独立、客观、可验证的知识单元。

1. 事实清单的定义与特性

一个事实清单通常包含以下特性：

结构化 (Structured): 以统一的格式表示，例如三元组（Subject-Predicate-Object）、键值对或表格形式。
原子化 (Atomic): 每个事实都应是最小的、不可再分的知识单元。例如，“苹果公司成立于1976年”是一个事实，而不是“苹果公司由史蒂夫·乔布斯和史蒂夫·沃兹尼亚克于1976年创立，并在2023年发布了iPhone 15”。后者包含了多个原子事实。
可验证性 (Verifiable): 每个事实都应附带其来源（例如，原文段落ID、URL、数据库记录ID等），以便追溯。
去冗余 (Non-Redundant): 避免重复存储相同的事实。
机器可读 (Machine-Readable): 方便程序进行解析、查询和操作。

2. 事实清单的结构示例

我们可以使用JSON、YAML、关系型数据库或图数据库来存储事实清单。以下是一个基于JSON的简单结构示例：

[
  {
    "id": "fact_001",
    "subject": "苹果公司",
    "predicate": "创始人",
    "object": "史蒂夫·乔布斯",
    "source_document_id": "doc_tech_news_2023_10_26",
    "source_span": "段落3，句子1",
    "timestamp": "2023-10-26T10:00:00Z",
    "confidence": 0.98
  },
  {
    "id": "fact_002",
    "subject": "苹果公司",
    "predicate": "成立年份",
    "object": "1976年",
    "source_document_id": "doc_tech_news_2023_10_26",
    "source_span": "段落3，句子1",
    "timestamp": "2023-10-26T10:00:00Z",
    "confidence": 0.95
  },
  {
    "id": "fact_003",
    "subject": "iPhone 15",
    "predicate": "发布日期",
    "object": "2023年9月12日",
    "source_document_id": "doc_tech_news_2023_10_26",
    "source_span": "段落5，句子2",
    "timestamp": "2023-10-26T10:00:00Z",
    "confidence": 0.99
  }
]

这个结构清晰地定义了每个事实的组成部分，并提供了重要的元数据，如来源文档ID、原文位置、时间戳和置信度。

3. 为什么事实清单能够提升采信率？

事实清单通过以下机制，从根本上解决了AI摘要的痛点：

外部接地 (External Grounding): 将LLM的生成过程限制在一个预先验证过的事实集合中，而不是让它完全自由地发挥创造力。这极大地降低了“幻觉”的风险。
显式约束 (Explicit Constraints): 在向LLM发出指令时，我们可以明确要求它“只能使用提供的这些事实来生成摘要”，从而强制其行为。
可追溯性与透明度 (Traceability & Transparency): 摘要中的每个论点都可以追溯到其所依赖的具体事实，而每个事实又可以追溯到原始文档中的具体位置。这为用户提供了强大的验证工具。
一致性保障 (Consistency Assurance): 如果多个文档都经过事实清单提取，我们可以更容易地发现并解决事实冲突，确保知识库的整体一致性。
易于更新与维护 (Easy Update & Maintenance): 当原始信息发生变化时，我们只需更新或修正相应的原子事实，而不是重新训练或微调整个LLM。

架构与实现：利用事实清单强制提升AI摘要采信率

现在，让我们进入核心的实战环节，探讨如何构建一个系统，利用事实清单来强制提升AI摘要的采信率。整个流程可以分为几个主要阶段：事实清单生成、基于事实清单的摘要生成、以及摘要验证与评估。

系统架构概览

+-------------------+      +-------------------------+
|   原始文档库      |----->|   事实清单生成模块      |
| (文本, PDF, 网页等)|      | (NER, RE, OIE, QA, KG) |
+-------------------+      +-------------------------+
          |                            |
          |                            V
          |                  +---------------------+
          |                  |    事实清单存储库   |
          |                  | (JSON, DB, Vector DB) |
          |                  +---------------------+
          |                            |
          |                            V
+---------+----------+      +-------------------------+
|   用户查询/摘要请求 |----->|   事实检索模块          |
+--------------------+      | (语义搜索, 关键词匹配) |
          |                            |
          |                            V
          |                  +-------------------------+
          |                  |    LLM摘要生成模块      |
          |                  | (Prompt Engineering,    |
          |                  |  Grounded Generation)   |
          |                            |
          |                            V
          |                  +-------------------------+
          |                  |    摘要验证与评估模块   |
          |                  | (事实核查, 来源比对)    |
          |                            |
          |                            V
          +-------------------->+---------------------+
                                |    高采信率AI摘要   |
                                +---------------------+

阶段一：事实清单的生成

这是整个系统的基石。我们需要从非结构化或半结构化文档中，准确、完整地提取出结构化的事实。这通常涉及自然语言处理（NLP）领域的多项技术。

1.1 技术栈选择

命名实体识别 (Named Entity Recognition, NER): 识别文本中的人名、地名、组织机构、日期、数值等实体。
关系抽取 (Relation Extraction, RE): 识别实体之间预定义的关系，例如“创始人是”、“位于”、“发布了”。
开放信息抽取 (Open Information Extraction, OpenIE): 不依赖预定义模式，自动识别文本中的任意关系三元组（Subject-Predicate-Object）。
问答系统 (Question Answering, QA): 将文本转换为问题-答案对，间接获得事实。
知识图谱 (Knowledge Graph, KG): 可以作为事实清单的更高级组织形式，提供实体和关系的图谱化存储。

1.2 事实清单生成流程

文本预处理: 清理文本，分词，句子分割。
实体识别: 使用NER模型识别文本中的关键实体。
关系抽取: 识别这些实体之间的关系。这可以是通过规则、统计模型或深度学习模型完成。
事实结构化: 将识别出的实体和关系转化为标准的事实清单格式（如三元组）。
来源标注: 记录每个事实的原始文档ID和在文档中的具体位置（如段落、句子索引），以及提取的置信度。

1.3 代码示例：使用SpaCy和简单的规则进行事实抽取

SpaCy是一个强大的Python NLP库，可以方便地进行NER。对于关系抽取，我们可以从简单的规则开始，或者集成更复杂的模型。

import spacy
from spacy.matcher import Matcher
import uuid

# 加载SpaCy模型
# 可以选择 'en_core_web_sm', 'en_core_web_md', 'en_core_web_lg' 或中文模型 'zh_core_web_sm'
try:
    nlp = spacy.load("zh_core_web_sm")
except OSError:
    print("下载SpaCy中文模型 'zh_core_web_sm'...")
    spacy.cli.download("zh_core_web_sm")
    nlp = spacy.load("zh_core_web_sm")

def extract_facts_from_text(document_id: str, text: str) -> list[dict]:
    """
    从给定文本中提取结构化事实。
    这里使用SpaCy进行命名实体识别，并结合简单的规则进行关系抽取。
    """
    doc = nlp(text)
    facts = []

    # 1. 实体识别 (NER)
    entities = [(ent.text, ent.label_, ent.start_char, ent.end_char) for ent in doc.ents]

    # 2. 简单的关系抽取规则示例
    # 规则1: 实体 A "是" 实体 B -> A (是) B
    # 规则2: 实体 A "成立于" 日期 -> A (成立年份) 日期
    # 规则3: 实体 A "发布了" 实体 B -> A (发布) B

    # 使用SpaCy的Matcher定义模式
    matcher = Matcher(nlp.vocab)

    # 模式1: [主体] 是 [客体]
    pattern1 = [{"ENT_TYPE": {"IN": ["ORG", "PERSON", "PRODUCT"]}}, {"LEMMA": "是"}, {"ENT_TYPE": {"IN": ["ORG", "PERSON", "PRODUCT", "NORP", "LOC"]}}]
    matcher.add("IS_RELATION", [pattern1])

    # 模式2: [主体] 成立于 [日期]
    pattern2 = [{"ENT_TYPE": {"IN": ["ORG", "PERSON", "PRODUCT"]}}, {"LEMMA": "成立"}, {"POS": "ADP", "OP": "?"}, {"ENT_TYPE": "DATE"}]
    matcher.add("FOUNDED_RELATION", [pattern2])

    # 模式3: [主体] 发布了 [产品/事件]
    pattern3 = [{"ENT_TYPE": {"IN": ["ORG", "PERSON"]}}, {"LEMMA": "发布"}, {"POS": "PART", "OP": "?"}, {"ENT_TYPE": {"IN": ["PRODUCT", "EVENT", "WORK_OF_ART"]}}]
    matcher.add("RELEASED_RELATION", [pattern3])

    matches = matcher(doc)

    for match_id, start, end in matches:
        span = doc[start:end]
        fact_id = str(uuid.uuid4())

        rule_name = nlp.vocab.strings[match_id]

        subject = None
        predicate = None
        obj = None

        if rule_name == "IS_RELATION":
            # 找到第一个和最后一个实体
            ents_in_span = [ent for ent in span.ents]
            if len(ents_in_span) >= 2:
                subject = ents_in_span[0].text
                obj = ents_in_span[-1].text
                predicate = "是"
        elif rule_name == "FOUNDED_RELATION":
            # 找到组织/人实体和日期实体
            org_person_ents = [ent for ent in span.ents if ent.label_ in ["ORG", "PERSON"]]
            date_ents = [ent for ent in span.ents if ent.label_ == "DATE"]
            if org_person_ents and date_ents:
                subject = org_person_ents[0].text
                obj = date_ents[0].text
                predicate = "成立年份"
        elif rule_name == "RELEASED_RELATION":
            # 找到组织/人实体和产品/事件实体
            org_person_ents = [ent for ent in span.ents if ent.label_ in ["ORG", "PERSON"]]
            product_event_ents = [ent for ent in span.ents if ent.label_ in ["PRODUCT", "EVENT", "WORK_OF_ART"]]
            if org_person_ents and product_event_ents:
                subject = org_person_ents[0].text
                obj = product_event_ents[0].text
                predicate = "发布"

        if subject and predicate and obj:
            facts.append({
                "id": fact_id,
                "subject": subject,
                "predicate": predicate,
                "object": obj,
                "source_document_id": document_id,
                "source_span": f"字符位置: {span.start_char}-{span.end_char}",
                "original_sentence": span.text,
                "confidence": 0.85 # 假设置信度
            })

    # 补充：直接从NER结果中提取简单事实（例如，识别出某个实体就是一个事实）
    for ent in doc.ents:
        fact_id = str(uuid.uuid4())
        # 对于人名，可以将其识别为一个实体事实
        if ent.label_ == "PERSON":
             facts.append({
                "id": fact_id,
                "subject": ent.text,
                "predicate": "类型",
                "object": "人名",
                "source_document_id": document_id,
                "source_span": f"字符位置: {ent.start_char}-{ent.end_char}",
                "original_sentence": ent.text,
                "confidence": 0.90
            })
        elif ent.label_ == "ORG":
             facts.append({
                "id": fact_id,
                "subject": ent.text,
                "predicate": "类型",
                "object": "组织机构",
                "source_document_id": document_id,
                "source_span": f"字符位置: {ent.start_char}-{ent.end_char}",
                "original_sentence": ent.text,
                "confidence": 0.90
            })
    return facts

# 示例文本
document_id = "doc_001_apple_history"
text = """
苹果公司（Apple Inc.）由史蒂夫·乔布斯、史蒂夫·沃兹尼亚克和罗纳德·韦恩于1976年4月1日创立。
该公司总部位于加利福尼亚州库比蒂诺。
2007年，苹果公司发布了第一代iPhone，彻底改变了智能手机行业。
最新一代的iPhone 15系列于2023年9月12日发布。
蒂姆·库克是苹果公司现任首席执行官。
"""

extracted_facts = extract_facts_from_text(document_id, text)

print(f"从文档 '{document_id}' 中提取的事实：")
for fact in extracted_facts:
    print(fact)

# 存储到JSON文件
import json
with open("fact_sheet_example.json", "w", encoding="utf-8") as f:
    json.dump(extracted_facts, f, ensure_ascii=False, indent=2)

print("n事实已保存到 fact_sheet_example.json")

代码说明：

我们使用SpaCy加载中文模型，并定义了简单的Matcher规则来识别常见的关系模式。
extract_facts_from_text 函数遍历文本，通过NER识别实体，然后通过Matcher识别包含特定动词或模式的句子来抽取关系。
每个抽取出的事实都包含了id、subject、predicate、object以及关键的source_document_id和source_span，确保了可追溯性。
confidence字段模拟了抽取模型对该事实的置信度，这在实际应用中非常重要。

在实际生产环境中，关系抽取会远比这复杂，可能需要使用：

基于规则的系统: 如Rasa NLU、Stanford CoreNLP的OpenIE模块。
监督学习模型: 使用BERT、RoBERTa、SpanBERT等预训练模型进行微调，通过标注语料训练特定的关系抽取器。
远程监督/弱监督: 利用已有的知识图谱和大量文本数据进行训练。
LLM辅助抽取: 利用LLM本身的抽取能力，通过精心设计的Prompt来提取事实，但需要额外的验证机制来确保其准确性。

阶段二：基于事实清单的AI摘要生成

一旦我们有了结构化的事实清单，下一步就是如何利用这些事实来指导LLM生成摘要。这里的核心是“检索增强生成”（Retrieval-Augmented Generation, RAG）范式和精巧的Prompt Engineering。

2.1 事实检索

在生成摘要之前，我们需要从庞大的事实清单库中，检索出与当前待摘要文档或用户查询最相关的部分事实。

关键词匹配: 最直接的方法，检索与文档内容或用户查询中关键词重叠的事实。
语义搜索: 将文档、查询和事实清单嵌入到向量空间中，然后使用向量相似度（如余弦相似度）来检索语义上最相关的事实。这通常需要使用像Faiss、Pinecone或Weaviate这样的向量数据库。
图遍历: 如果事实清单被组织成知识图谱，可以通过图算法（如最短路径、邻居查找）来发现相关事实。

2.2 LLM摘要生成与Prompt Engineering

这是强制提升采信率的关键环节。我们需要设计Prompt，明确要求LLM：

只使用提供的事实清单中的信息。
避免任何原文中未提及或事实清单中未包含的信息。
在摘要中明确指出关键信息的来源（可选，但强烈推荐）。

import openai # 假设使用OpenAI API，也可以是其他LLM服务

# 假设这是一个模拟的LLM调用函数
def call_llm_api(prompt: str, model: str = "gpt-4o", temperature: float = 0.1) -> str:
    """
    模拟调用LLM API
    在实际应用中，这里会替换为真实的API调用，例如：
    from openai import OpenAI
    client = OpenAI()
    response = client.chat.completions.create(
        model=model,
        messages=[{"role": "user", "content": prompt}],
        temperature=temperature
    )
    return response.choices[0].message.content
    """
    print(f"n--- 模拟LLM调用 ---")
    print(f"模型: {model}")
    print(f"温度: {temperature}")
    print(f"Prompt:n{prompt}")
    print(f"--- 模拟LLM响应 ---")
    # 这里返回一个模拟的响应，实际会由LLM生成
    if "史蒂夫·乔布斯" in prompt and "苹果公司" in prompt and "1976年" in prompt:
        return "苹果公司由史蒂夫·乔布斯等人于1976年创立。蒂姆·库克是其现任首席执行官。最新产品iPhone 15于2023年9月发布。"
    return "根据提供的事实，无法生成精确摘要。请检查事实清单。"

def generate_grounded_summary(document_content: str, relevant_facts: list[dict], query: str = "") -> str:
    """
    使用LLM和提供的相关事实清单生成摘要。
    """
    if not relevant_facts:
        return "没有找到相关事实，无法生成摘要。"

    # 将事实清单格式化为LLM易于理解的字符串
    facts_str = "n".join([
        f"- 事实ID: {fact['id']}, 主体: {fact['subject']}, 谓词: {fact['predicate']}, 客体: {fact['object']}, 来源: {fact['source_document_id']}"
        for fact in relevant_facts
    ])

    # 构造Prompt
    # 关键在于明确的指令：只使用提供的事实，不要臆造，并尝试引用来源（如果需要）
    prompt_template = f"""
你是一名专业的摘要生成助手。你的任务是根据提供的“原始文档内容”和“事实清单”来生成一份简洁、准确的摘要。
请严格遵循以下规则：

1.  **只使用**“事实清单”中明确提供的信息来生成摘要。
2.  **不要**添加任何“事实清单”中未提及或“原始文档内容”中未被事实清单捕获的信息。
3.  **如果可能且有意义**，请在摘要中提及信息来源（例如，来自哪个文档）。
4.  请确保摘要流畅、连贯，并忠实于提供的事实。

---
原始文档内容：
{document_content}

---
事实清单：
{facts_str}

---
用户查询（如果存在，请参考此查询聚焦摘要内容）：
{query}

---
请生成摘要：
"""

    summary = call_llm_api(prompt_template)
    return summary

# 示例：使用之前提取的事实来生成摘要
# 假设我们检索到了所有之前提取的事实
retrieved_facts = extracted_facts # 在实际中，这里会是一个检索步骤

# 原始文档内容 (用于上下文，但LLM应主要依赖facts)
original_document_for_context = """
苹果公司（Apple Inc.）由史蒂夫·乔布斯、史蒂夫·沃兹尼亚克和罗纳德·韦恩于1976年4月1日创立。
该公司总部位于加利福尼亚州库比蒂诺。
2007年，苹果公司发布了第一代iPhone，彻底改变了智能手机行业。
最新一代的iPhone 15系列于2023年9月12日发布。
蒂姆·库克是苹果公司现任首席执行官。
"""

# 生成摘要
generated_summary = generate_grounded_summary(
    document_content=original_document_for_context,
    relevant_facts=retrieved_facts,
    query="请总结苹果公司的历史和主要产品发布。"
)

print(f"n生成的采信率增强型摘要:n{generated_summary}")

代码说明：

call_llm_api 是一个模拟函数，实际会调用OpenAI或其他LLM供应商的API。
generate_grounded_summary 函数接收原始文档内容和筛选出的相关事实清单。
Prompt Engineering是核心：通过清晰、强制性的指令（“只使用”、“不要”、“严格遵循”），引导LLM在其提供的知识边界内工作。
将事实清单格式化成可读性好的列表，作为Prompt的一部分传递给LLM。

阶段三：摘要验证与评估

生成摘要后，我们还需要对其进行验证，以确保LLM确实遵循了指令，并且摘要内容与事实清单保持一致。这一步是确保“采信率”的最后一道防线。

3.1 验证方法

事实核查 (Fact Checking):
- 关键词/实体匹配: 检查摘要中提及的关键实体和关系是否能在原始事实清单中找到。
- 语义相似度: 使用嵌入模型比较摘要句子与事实清单中对应事实的语义相似度。
- 反向问答: 对摘要中的每一个陈述，生成一个问题，然后尝试使用事实清单和原始文档回答这些问题，看答案是否一致。
来源比对: 对于那些在摘要中显式引用了来源的句子，检查其引用的事实是否确实来自该来源。
人类评估: 最终，采信率还是由人来判断。专业的评估员可以根据事实准确性、可追溯性、流畅度等维度对摘要进行评分。

3.2 代码示例：简单的摘要事实核查器

import re
from collections import defaultdict

def verify_summary_against_facts(summary: str, relevant_facts: list[dict]) -> dict:
    """
    验证摘要是否忠实于提供的事实清单。
    这是一个简化的验证器，通过关键词匹配来检查。
    """
    verification_results = {
        "is_grounded": True,
        "unsupported_statements": [],
        "supported_statements": [],
        "facts_used": defaultdict(int), # 统计每个事实被使用的次数
        "missing_facts_in_summary": [] # 哪些重要事实未被提及
    }

    # 1. 构建事实的关键词索引
    fact_keywords = []
    fact_map = {} # 映射事实ID到完整事实对象
    for fact in relevant_facts:
        keywords = set()
        if fact.get("subject"):
            keywords.add(fact["subject"])
        if fact.get("predicate"):
            keywords.add(fact["predicate"])
        if fact.get("object"):
            keywords.add(fact["object"])

        # 针对中文，可能需要更精细的分词或模式匹配
        # 这里为了简化，直接用S,P,O作为关键词
        fact_keywords.append((fact["id"], list(keywords)))
        fact_map[fact["id"]] = fact

    # 2. 检查摘要中的每个句子是否能被事实清单支持
    summary_sentences = re.split(r'[。！？]', summary)
    summary_sentences = [s.strip() for s in summary_sentences if s.strip()]

    for sentence in summary_sentences:
        is_sentence_supported = False
        matched_fact_ids_for_sentence = []

        for fact_id, keywords in fact_keywords:
            # 检查句子是否包含事实的所有关键组成部分
            # 这是一个非常简化的匹配，实际应用中需要语义匹配
            all_keywords_present = True
            for keyword in keywords:
                if keyword not in sentence:
                    all_keywords_present = False
                    break

            if all_keywords_present:
                is_sentence_supported = True
                matched_fact_ids_for_sentence.append(fact_id)
                verification_results["facts_used"][fact_id] += 1

        if is_sentence_supported:
            verification_results["supported_statements"].append({"sentence": sentence, "matched_facts": matched_fact_ids_for_sentence})
        else:
            verification_results["unsupported_statements"].append(sentence)
            verification_results["is_grounded"] = False

    # 3. 检查原始事实清单中是否有重要事实未被摘要提及 (可选，取决于摘要目标)
    # 假设我们认为所有事实都应该是重要的
    for fact in relevant_facts:
        if verification_results["facts_used"][fact["id"]] == 0:
            verification_results["missing_facts_in_summary"].append(fact["id"])

    return verification_results

# 对生成的摘要进行验证
verification = verify_summary_against_facts(generated_summary, retrieved_facts)

print("n--- 摘要验证结果 ---")
print(f"摘要是否完全基于事实清单？: {verification['is_grounded']}")
print(f"未被事实清单支持的陈述: {verification['unsupported_statements']}")
print(f"被支持的陈述: {verification['supported_statements']}")
print(f"使用到的事实ID及其计数: {dict(verification['facts_used'])}")
print(f"未被摘要提及的事实ID: {verification['missing_facts_in_summary']}")

if not verification["is_grounded"]:
    print("n警告：摘要中包含未被事实清单支持的陈述，采信率可能受到影响！")

代码说明：

verify_summary_against_facts 函数接收LLM生成的摘要和用于生成摘要的事实清单。
它通过简单的关键词匹配（检查摘要句子是否包含事实的主体、谓词、客体）来判断摘要的每个句子是否能被事实清单支持。
它还会记录哪些事实被使用，哪些可能被遗漏，以及是否存在无法追溯到事实清单的陈述。
在实际应用中，这里的验证逻辑需要更加复杂，例如：
- 使用语义相似度模型（如Sentence-BERT）来判断句子和事实的语义匹配程度。
- 通过结构化解析摘要句子，尝试重新构建三元组，然后与事实清单进行比对。
- 集成更复杂的问答系统进行事实核查。

阶段四：用户界面与交互（提升感知采信率）

除了后端的技术实现，用户界面的设计也直接影响用户对摘要的感知采信率。

高亮显示事实来源: 在摘要中高亮显示与事实清单匹配的文本段落，并在用户点击时显示其对应的原始文档来源。
事实清单预览: 允许用户查看用于生成摘要的完整事实清单。
反馈机制: 提供用户反馈入口，报告摘要中的错误或不准确之处。
置信度显示: 如果摘要生成过程中能为每个句子或事实赋予置信度，可以在UI中展示，增强透明度。

挑战与高级考量

尽管事实清单方法能够显著提升AI摘要的采信率，但在实际应用中仍面临一些挑战和高级考量：

1. 事实清单的生成效率与准确性

大规模生成: 从海量非结构化文档中自动、准确地抽取事实，是一个计算密集型且错误率较高的任务。需要强大的NLP管道和持续的质量控制。
事实冲突与消歧: 多个来源可能对同一事实有不同表述甚至冲突。如何识别、解决或管理这些冲突是关键。例如，“谁是苹果公司的创始人？”在不同语境下可能有乔布斯一人，或三人。
知识图谱集成: 将事实清单进一步组织成知识图谱，可以提供更强大的推理能力和事实管理能力，但构建和维护知识图谱本身的成本很高。

2. LLM与事实清单的协同优化

Prompt的鲁棒性: LLM对Prompt的敏感度很高。如何设计出既能强制约束LLM，又能保持摘要流畅自然的Prompt，需要大量实验和迭代。
上下文窗口限制: LLM的上下文窗口大小有限，如果相关事实清单过长，可能无法一次性全部输入。需要高效的事实检索和摘要分段策略。
多模态事实: 如果原始信息包含图片、视频等非文本内容，如何从中提取事实并集成到摘要中，是一个新兴的研究方向。

3. 评估与维护

自动化评估指标: 除了人工评估，如何开发更自动化的指标来衡量摘要对事实清单的忠实度？目前尚无完美解决方案。
事实清单的更新与时效性: 现实世界的信息是不断变化的。如何自动化更新事实清单，确保其时效性，是一个持续的挑战。

4. 伦理与偏见

事实选择偏见: 事实清单的生成过程本身可能引入偏见，例如，某些事实被优先抽取，而另一些被忽略。这会影响摘要的客观性。
透明度与误导: 即使摘要基于事实清单，如果事实清单本身存在问题，摘要仍然可能误导用户。需要警惕“垃圾进，垃圾出”的问题。

展望未来：迈向更可信赖的AI

利用结构化事实清单强制提升AI摘要的采信率，是构建更可信赖AI系统的重要一步。它将LLM的强大生成能力与可验证的知识基础相结合，有效地缓解了“幻觉”问题，增强了摘要的透明度和可追溯性。

未来，我们可以期待以下几个方向的发展：

更智能的事实抽取: 结合深度学习和领域知识，实现更精准、更全面的事实自动化抽取。
动态事实清单: 实时从流式数据中更新事实，确保信息的最新性。
多模态事实接地: 将视觉、听觉等信息融入事实清单，支持更丰富的摘要场景。
用户参与的验证机制: 引入众包或专家系统，对事实清单和AI摘要进行持续验证和纠错。

通过这些努力，我们不仅能让AI摘要变得更加智能和高效，更能让它们变得更加值得信赖。采信率的提升，将为AI在各个关键领域的广泛应用铺平道路，真正释放其造福人类的巨大潜力。

谢谢大家！

AI摘要的挑战与采信率的困境

1. 摘要模式的分类与局限性

2. “幻觉”问题：采信率的头号杀手

3. 来源不透明与可追溯性缺失

4. 采信率的衡量

事实清单（Fact Sheets）：结构化知识的基石

1. 事实清单的定义与特性

2. 事实清单的结构示例

3. 为什么事实清单能够提升采信率？

架构与实现：利用事实清单强制提升AI摘要采信率

系统架构概览

阶段一：事实清单的生成

1.1 技术栈选择

1.2 事实清单生成流程

1.3 代码示例：使用SpaCy和简单的规则进行事实抽取

阶段二：基于事实清单的AI摘要生成

2.1 事实检索

2.2 LLM摘要生成与Prompt Engineering

阶段三：摘要验证与评估

3.1 验证方法

3.2 代码示例：简单的摘要事实核查器

阶段四：用户界面与交互（提升感知采信率）

挑战与高级考量

1. 事实清单的生成效率与准确性

2. LLM与事实清单的协同优化

3. 评估与维护

4. 伦理与偏见

展望未来：迈向更可信赖的AI

发表回复 取消回复

发表回复取消回复