如何针对‘任务导向型’查询进行优化：让 AI 在教用户操作时引用你的步骤 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

欢迎来到今天的技术讲座。我们将深入探讨一个在AI应用中日益关键的议题：如何优化AI，使其在处理“任务导向型”查询时，能够精确、权威地引用我们预设的操作步骤。这不仅仅是一个技术挑战，更是一个关乎品牌信任、操作规范和用户体验的战略性问题。在数字化的今天，无论是内部SOP（标准操作程序）的贯彻，还是面向客户的产品指南，我们都希望AI助手能够成为我们知识体系的忠实代言人，而非一个模糊、甚至可能“幻觉”出内容的通用信息源。

作为编程专家，我们深知精确性与可控性在软件工程中的重要性。将这一理念延伸到AI领域，意味着我们需要一套严谨的架构和方法论，确保AI在“教”用户执行特定操作时，能够可靠地复述、引用并遵循我们定义好的每一个步骤。这正是我们今天讲座的核心。

一、理解“任务导向型”查询与“引用你的步骤”的内涵

在深入技术细节之前，我们首先要明确几个核心概念。

1.1 什么是“任务导向型”查询？

任务导向型查询，顾名思义，是用户为了完成特定操作或解决特定问题而提出的询问。这类查询通常具有以下特征：

明确的目标： 用户希望得到一个可执行的解决方案，而不是宽泛的信息。
动作性动词： 查询中常包含“如何”、“怎样”、“安装”、“配置”、“调试”、“创建”等动词。
上下文依赖： 很多任务需要基于特定的环境、工具或前提条件。
步骤性需求： 理想的回答是一系列清晰、可执行的步骤。

示例：

“如何在Ubuntu 22.04上安装Docker并配置非root用户访问？”
“使用Python的Requests库如何发送带认证信息的POST请求？”
“我的Kubernetes Pod卡在Pending状态，如何诊断并解决？”
“在VS Code中如何配置Go语言的调试环境？”

1.2 什么是“引用你的步骤”？

“引用你的步骤”是指AI在生成对任务导向型查询的回答时，不仅仅是提供通用的、从其训练数据中学习到的知识，而是明确地、结构化地使用并提及我们预先提供、验证和维护的特定操作流程、代码片段或配置指南。这通常意味着：

高保真度： AI的输出与原始步骤内容高度一致，无篡改、无遗漏。
可追溯性： 用户可以清晰地识别出哪些内容来源于“你的步骤”，甚至可以指向原始文档的特定章节。
权威性： 答案的可靠性来源于我们作为领域专家的背书，而非AI的自主生成。
品牌一致性： 确保所有对外输出的操作指南都符合企业或项目的标准和风格。

示例：
如果我们的官方文档中有一个关于“安装Node.js”的章节，AI的回答不应是“你可以通过包管理器安装，也可以下载安装包”，而是“根据我们的官方指南，安装Node.js的推荐步骤如下：1. 更新系统包列表… 2. 安装Node.js LTS版本… 3. 验证安装…”。

二、为何“引用你的步骤”至关重要？EEAT原则的体现

在AI时代，内容质量评估的EEAT（Expertise, Experience, Authoritativeness, Trustworthiness）原则变得尤为重要。让AI引用你的步骤，正是对EEAT原则的直接实践。

专业性 (Expertise)： 你的步骤代表了领域专家的知识和经验。通过引用，AI继承了这份专业性。
经验 (Experience)： 你的步骤往往是经过实践验证的最佳实践或故障排除流程。AI的引用意味着这些经验的传递。
权威性 (Authoritativeness)： 你的步骤来自官方文档、内部SOP或资深专家的总结，具有无可辩驳的权威性。AI的引用为其答案赋予了官方背书。
信任度 (Trustworthiness)： 当AI明确引用来源时，用户对其回答的信任度会显著提高，因为它不再是“黑箱”生成，而是有根有据。

缺乏这种机制，AI可能会：

产生“幻觉”： 编造不存在的步骤或错误的命令。
提供过时信息： 引用已废弃的API或配置方法。
风格不一致： 与你的品牌或技术规范脱节。
缺乏深度： 无法提供特定场景下的最佳实践。

因此，构建一个能够精确引用我们步骤的AI系统，是确保其输出高质量、高可信度内容的关键。

三、核心技术栈与架构概览

要实现AI对特定步骤的精确引用，我们不能仅仅依赖通用大模型的零散知识。我们需要一个专门设计的系统，将我们权威的知识库与大语言模型的强大生成能力相结合。其核心架构通常基于检索增强生成 (Retrieval Augmented Generation, RAG) 范式。

一个典型的RAG架构，用于解决我们的问题，可以概括为以下几个主要阶段：

知识库构建与预处理 (Knowledge Base Construction & Preprocessing)： 这是所有工作的基础，负责将“你的步骤”转化为AI可理解和检索的格式。
向量化与索引 (Vectorization & Indexing)： 将处理后的知识块转换为高维向量，并存储在向量数据库中，以便快速检索。
检索 (Retrieval)： 根据用户查询，从向量数据库中找出最相关的知识块。
增强与生成 (Augmentation & Generation)： 将检索到的知识块作为上下文，与用户查询一起输入给大语言模型 (LLM)，指导其生成包含引用步骤的回答。
后处理与校验 (Post-processing & Validation)： 对LLM的输出进行检查、格式化，并确保其满足引用要求。

以下是这个流程的简要示意图（文字描述）：

用户查询
    ↓
(1) 查询预处理 (Query Preprocessing)
    ↓
(2) 查询向量化 (Query Vectorization)
    ↓
(3) 检索器 (Retriever)
        从 向量数据库 (Vector Database) 中检索相关知识块
        ↑
        (0) 知识库源文件 (Your Steps/Documents)
            ↓
        (0') 知识库预处理 (Knowledge Base Preprocessing: 分块, 清洗, 元数据)
            ↓
        (0'') 知识库向量化与索引 (KB Vectorization & Indexing)
    ↓
(4) 上下文组装 (Context Assembly)
        用户查询 + 检索到的知识块 (带元数据)
    ↓
(5) 提示词工程 (Prompt Engineering)
        构建包含系统指令、上下文、用户查询的完整提示词
    ↓
(6) 大语言模型 (Large Language Model - LLM)
        生成回答
    ↓
(7) 回答后处理 (Response Post-processing: 格式化, 引用标记)
    ↓
AI 响应 (包含引用的步骤)

四、深度解析：技术实现细节

现在，我们来详细剖析每个阶段的关键技术和实现方法。

4.1 知识库构建与预处理

这是整个系统的基石。知识库的质量直接决定了AI输出的准确性和权威性。

4.1.1 知识源的选择与格式

“你的步骤”可以来源于多种形式：

Markdown 文档 (.md)： 易于编写、阅读，且结构化良好。
JSON/YAML 文件： 适用于高度结构化的数据，如API规范、配置模板。
Confluence/Wiki 页面： 通常可导出为HTML或Markdown。
数据库记录： 存储在关系型或NoSQL数据库中的结构化数据。
代码注释/示例： 直接从代码库中提取。

推荐使用Markdown或结构化的JSON作为原始知识源，因为它们易于解析和管理。

4.1.2 知识分块 (Chunking) 策略

大语言模型有上下文窗口限制，且过长的文本会稀释信息密度。因此，我们需要将原始文档分割成更小的、语义完整的“块”(chunks)。

固定大小分块 (Fixed-size Chunking)： 最简单，按字符数或单词数分割。可能切断语义。
基于语义的分块 (Semantic Chunking)： 依据文档结构（标题、段落、代码块）进行分割。这是更优的选择。
重叠分块 (Overlapping Chunking)： 每个块包含前一个块的末尾部分，有助于保留上下文。

示例：Markdown 文档分块

假设我们有一个Markdown文档 install_docker.md：

# Docker 安装与配置指南

## 1. 系统要求
- Ubuntu 22.04 LTS
- 至少2GB RAM
- 至少20GB 磁盘空间

## 2. 安装Docker Engine

### 2.1 更新系统包列表
在安装任何新软件之前，建议更新系统包列表：
```bash
sudo apt update
sudo apt upgrade -y

这确保您拥有最新的软件包信息。

2.2 安装必要的依赖

安装一些必要的软件包，允许apt通过HTTPS使用存储库：

sudo apt install ca-certificates curl gnupg lsb-release -y

2.3 添加Docker官方GPG密钥

Docker官方GPG密钥用于验证下载的软件包：

sudo mkdir -p /etc/apt/keyrings
curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /etc/apt/keyrings/docker.gpg

2.4 设置Docker存储库

添加Docker的APT存储库到您的系统：

echo 
  "deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.gpg] https://download.docker.com/linux/ubuntu 
  $(lsb_release -cs) stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null

2.5 安装Docker Engine、Containerd和Docker Compose

现在，您可以安装Docker Engine及其相关组件：

sudo apt update
sudo apt install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin -y

3. 配置非root用户访问

默认情况下，只有root用户或具有sudo权限的用户才能运行Docker命令。为了避免每次都使用sudo，您可以将您的用户添加到docker组：

3.1 创建docker组（如果不存在）

sudo groupadd docker

如果docker组已存在，此命令会报错，但不会影响后续操作。

3.2 将当前用户添加到docker组

sudo usermod -aG docker $USER

请将 $USER 替换为您的实际用户名，或者直接使用环境变量。

3.3 重新登录或重启Docker服务

要使更改生效，您需要注销并重新登录，或者重启系统。您也可以尝试重启Docker服务：

newgrp docker
docker run hello-world

如果hello-world容器成功运行，则配置成功。


**Python 代码示例：Markdown 分块与元数据提取**

```python
import re
import hashlib
from typing import List, Dict, Any

def chunk_markdown(md_content: str, max_chunk_size: int = 1000, overlap_size: int = 100) -> List[Dict[str, Any]]:
    """
    基于标题和段落对Markdown内容进行分块，并提取元数据。
    """
    chunks = []
    current_chunk_text = []
    current_metadata = {"source": "install_docker.md", "title_path": []}

    lines = md_content.split('n')

    def finalize_chunk(text_list: List[str], metadata: Dict[str, Any]):
        if not text_list:
            return
        chunk_content = "n".join(text_list).strip()
        if not chunk_content:
            return

        chunk_id = hashlib.sha256(chunk_content.encode('utf-8')).hexdigest()
        chunks.append({
            "id": chunk_id,
            "content": chunk_content,
            "metadata": metadata.copy()
        })

    # Simple approach: chunk by top-level headings and then by paragraph/fixed size
    # A more robust solution would use a dedicated Markdown parser (e.g., markdown-it-py)

    temp_buffer = []

    for line in lines:
        if line.startswith('#'):
            # New heading, finalize current chunk
            finalize_chunk(temp_buffer, current_metadata)
            temp_buffer = []

            # Update title_path metadata
            level = len(re.match(r'#+', line).group(0))
            title = line[level:].strip()

            # Adjust title_path based on heading level
            while len(current_metadata["title_path"]) >= level:
                current_metadata["title_path"].pop()
            current_metadata["title_path"].append(title)

            temp_buffer.append(line) # Include heading in the new chunk

        elif line.strip() == "" and temp_buffer and len("n".join(temp_buffer)) > 0:
            # Empty line, potentially end of a paragraph/section
            if len("n".join(temp_buffer)) > max_chunk_size * 0.5: # If buffer is substantial, finalize
                finalize_chunk(temp_buffer, current_metadata)
                temp_buffer = []
            else:
                temp_buffer.append(line) # Keep empty lines within small chunks
        else:
            temp_buffer.append(line)

        # Check if current buffer exceeds max_chunk_size (for large paragraphs/code blocks)
        if len("n".join(temp_buffer)) > max_chunk_size:
            # Split the buffer intelligently (e.g., at sentence boundaries, or just cut)
            # For simplicity, we'll just finalize the current buffer and start a new one
            finalize_chunk(temp_buffer, current_metadata)
            temp_buffer = []

    # Finalize any remaining buffer
    finalize_chunk(temp_buffer, current_metadata)

    # Add overlap (simplified for this example, a real implementation would be more complex)
    final_chunks = []
    for i, chunk in enumerate(chunks):
        if i > 0 and overlap_size > 0:
            # Append a portion of the previous chunk's content to the current one
            # This is a very basic overlap; a robust solution would manage this better
            prev_content_end = chunks[i-1]['content'][-overlap_size:]
            chunk['content'] = prev_content_end + "n" + chunk['content']
            chunk['id'] = hashlib.sha256(chunk['content'].encode('utf-8')).hexdigest() # Re-hash ID
        final_chunks.append(chunk)

    return final_chunks

# 假设 md_content 包含上述 Docker 安装指南的 Markdown 文本
# with open("install_docker.md", "r", encoding="utf-8") as f:
#     md_content = f.read()

# chunks = chunk_markdown(md_content, max_chunk_size=500, overlap_size=50)
# for chunk in chunks:
#     print(f"--- Chunk ID: {chunk['id']}")
#     print(f"--- Metadata: {chunk['metadata']}")
#     print(f"--- Content:n{chunk['content']}n")

4.1.3 元数据 (Metadata) 的重要性

每个知识块都应附带元数据，这对于检索、过滤和最终引用至关重要。

元数据字段	说明	示例
`id`	块的唯一标识符（例如，内容的哈希值）	`a1b2c3d4e5f6...`
`source`	原始文档路径或URL	`install_docker.md` 或 `https://docs.example.com/docker`
`title_path`	块在文档中的标题层级路径	`["Docker 安装与配置指南", "2. 安装Docker Engine", "2.1 更新系统包列表"]`
`tags`	关键词标签，用于过滤或增强检索	`["Docker", "Ubuntu", "安装", "Linux"]`
`version`	知识块所属的版本（如软件版本、文档版本）	`1.0.0` 或 `Docker 24.0`
`last_updated`	最后更新时间	`2023-10-27`
`prerequisites`	执行此步骤所需的前提条件或依赖项	`["Ubuntu 22.04", "sudo权限"]`
`type`	块的类型（如“步骤”、“代码”、“概念”）	`step`, `code_block`, `concept`

这些元数据可以帮助我们在检索阶段进行更精确的过滤，并在生成阶段为AI提供更丰富的上下文，使其能够更好地组织和引用信息。

4.2 向量化与索引

将处理后的文本块转换为数值表示（向量），并存储在向量数据库中，是实现高效语义检索的关键。

4.2.1 嵌入模型 (Embedding Models)

嵌入模型（或文本编码器）负责将文本转换为高维向量，其中语义相似的文本在向量空间中距离较近。

选择：
- 通用嵌入模型： text-embedding-ada-002 (OpenAI), all-MiniLM-L6-v2 (Sentence-BERT), bge-large-en (BAAI)。选择合适的模型需要平衡性能、成本和模型大小。
- 领域特定嵌入模型： 如果你的知识库包含大量专业术语，可以考虑在通用模型基础上进行微调，或使用专门针对该领域训练的模型。
示例： 使用 sentence-transformers 库生成嵌入。

from sentence_transformers import SentenceTransformer
import numpy as np

# 加载预训练的嵌入模型
# 可以选择 'all-MiniLM-L6-v2', 'BAAI/bge-large-en-v1.5' 等
embedding_model = SentenceTransformer('all-MiniLM-L6-v2') 

def generate_embeddings(chunks: List[Dict[str, Any]]) -> List[Dict[str, Any]]:
    """
    为每个知识块生成嵌入向量。
    """
    contents = [chunk['content'] for chunk in chunks]
    embeddings = embedding_model.encode(contents, show_progress_bar=True)

    for i, chunk in enumerate(chunks):
        chunk['embedding'] = embeddings[i].tolist() # 存储为列表以便JSON序列化
    return chunks

# chunks_with_embeddings = generate_embeddings(chunks)
# print(f"第一个块的嵌入向量维度: {len(chunks_with_embeddings[0]['embedding'])}")
# print(f"第一个块的嵌入向量（前5个元素）: {chunks_with_embeddings[0]['embedding'][:5]}")

4.2.2 向量数据库 (Vector Database)

向量数据库专门设计用于高效存储和检索高维向量。

主要功能： 存储向量、执行相似性搜索（如余弦相似度、欧氏距离）、支持元数据过滤。
流行选项：
- 云服务： Pinecone, Weaviate, Zilliz Cloud (Milvus), Redis Stack (带有向量搜索模块)。
- 开源/本地部署： Chroma, FAISS (Facebook AI Similarity Search – 仅索引), Annoy, Qdrant。
选择依据： 数据规模、并发需求、部署环境、预算、元数据过滤能力。

Python 代码示例：使用 ChromaDB 进行向量索引

import chromadb
from chromadb.utils import embedding_functions

# 使用 SentenceTransformer 作为 ChromaDB 的嵌入函数
class SentenceTransformerEmbeddingFunction(embedding_functions.EmbeddingFunction):
    def __init__(self, model_name: str = 'all-MiniLM-L6-v2'):
        self.model = SentenceTransformer(model_name)

    def __call__(self, texts: embedding_functions.Documents) -> embedding_functions.Embeddings:
        return self.model.encode(texts).tolist()

# 初始化 ChromaDB 客户端
# 可以选择持久化存储到本地文件系统
client = chromadb.PersistentClient(path="./chroma_db") 

# 或者使用内存模式（仅用于演示）
# client = chromadb.Client()

# 定义集合名称
collection_name = "task_oriented_steps"

# 获取或创建集合
# 如果集合不存在，它会使用我们自定义的嵌入函数创建
# 如果存在，会尝试加载，因此需要在首次创建时指定 embedding_function
try:
    collection = client.get_or_create_collection(
        name=collection_name,
        embedding_function=SentenceTransformerEmbeddingFunction() # 确保在创建时指定
    )
except chromadb.db.base.UniqueConstraintError:
    # If the collection already exists but was created without the custom embedding function,
    # you might need to delete and recreate it, or ensure consistency.
    collection = client.get_collection(name=collection_name)

def index_chunks(chunks_with_embeddings: List[Dict[str, Any]]):
    """
    将带有嵌入向量的知识块添加到 ChromaDB 集合中。
    """
    ids = [chunk['id'] for chunk in chunks_with_embeddings]
    documents = [chunk['content'] for chunk in chunks_with_embeddings]
    metadatas = [chunk['metadata'] for chunk in chunks_with_embeddings]
    # embeddings = [chunk['embedding'] for chunk in chunks_with_embeddings] # ChromaDB 可以在添加时自动生成嵌入

    collection.add(
        documents=documents,
        # embeddings=embeddings, # 如果使用自定义的 embedding_function，可以省略此项
        metadatas=metadatas,
        ids=ids
    )
    print(f"成功索引 {len(ids)} 个知识块到 ChromaDB。")

# 假设 chunks_preprocessed 是经过 chunk_markdown 处理后的列表，
# 并且我们在这里省略了 generate_embeddings 步骤，让 ChromaDB 自动处理嵌入。
# index_chunks(chunks_preprocessed) 
# 注意：如果让 ChromaDB 自动生成，需要确保其内部使用的 embedding_function 与你的检索模型一致。
# 在我们的例子中，我们通过 SentenceTransformerEmbeddingFunction 明确指定了。

print(f"ChromaDB 中当前块数量: {collection.count()}")

4.3 检索 (Retrieval)

当用户提出查询时，检索器会根据查询的语义相似性，从向量数据库中找出最相关的知识块。

4.3.1 查询向量化

与知识块一样，用户查询也需要通过相同的嵌入模型转换为向量。

4.3.2 相似性搜索

向量数据库接收查询向量，并计算其与库中所有知识块向量的相似度，返回相似度最高的K个（Top-K）知识块。

4.3.3 结果过滤与重排 (Re-ranking)

元数据过滤： 在相似性搜索之前或之后，可以利用元数据对结果进行过滤。例如，只检索特定产品版本或特定主题的步骤。
重排： 初始的相似性搜索可能不够精确。可以使用更复杂的重排模型（如交叉编码器 – Cross-Encoder）对Top-K结果进行二次排序，以提高相关性。

Python 代码示例：从 ChromaDB 进行检索

def retrieve_relevant_chunks(query: str, top_k: int = 5, filter_metadata: Dict[str, Any] = None) -> List[Dict[str, Any]]:
    """
    根据用户查询从 ChromaDB 检索最相关的知识块。
    """
    # ChromaDB 会自动使用其配置的 embedding_function 对查询进行向量化
    results = collection.query(
        query_texts=[query],
        n_results=top_k,
        where=filter_metadata # 可以传递元数据过滤条件，例如 {"source": "install_docker.md"}
    )

    retrieved_chunks = []
    if results['ids'] and results['documents']:
        for i in range(len(results['ids'][0])):
            chunk = {
                "id": results['ids'][0][i],
                "content": results['documents'][0][i],
                "metadata": results['metadatas'][0][i] if results['metadatas'] else {},
                "distance": results['distances'][0][i] if results['distances'] else None
            }
            retrieved_chunks.append(chunk)

    return retrieved_chunks

# 示例查询
# user_query = "如何将我的用户添加到docker组以便不用sudo运行docker命令？"
# relevant_chunks = retrieve_relevant_chunks(user_query, top_k=3)
# for chunk in relevant_chunks:
#     print(f"--- Retrieved Chunk (ID: {chunk['id']}, Source: {chunk['metadata'].get('source')}, Title Path: {chunk['metadata'].get('title_path')})")
#     print(f"Content:n{chunk['content']}n")

4.4 增强与生成 (Prompt Engineering)

这是将检索到的“你的步骤”融入AI响应的关键环节。通过精心设计的提示词 (Prompt)，我们可以指导LLM以我们期望的方式生成答案，并明确引用来源。

4.4.1 系统提示词 (System Prompt)

系统提示词定义了AI的角色、行为模式和约束。这是强制AI引用我们步骤的核心机制。

SYSTEM_PROMPT_TEMPLATE = """
你是一名资深的编程专家和技术文档撰写者。你的任务是根据用户提出的任务导向型查询，提供清晰、精确、可执行的操作步骤。
你的回答必须严格遵循以下原则：

1.  **引用权威来源：** 你会收到一些来自我们官方知识库的参考文档片段，这些片段包含了用户可能需要的操作步骤。你的首要任务是**优先并精确地引用这些提供的步骤**。
2.  **明确引用出处：** 在你的回答中，每当引用到提供的步骤时，务必明确指出其来源的文档路径和标题。例如，可以这样表示：
    `根据[Docker安装指南: 配置非root用户访问]中的步骤，你需要执行以下操作：`
    或者对于代码块：
    `[Docker安装指南: 2.3 添加Docker官方GPG密钥]中提到：`
    ```bash
    curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /etc/apt/keyrings/docker.gpg

你也可以在每个步骤后添加类似 `(参考: [Docker安装指南: 2.1 更新系统包列表])` 的标记。

分步指导： 将操作分解为清晰、编号的步骤。
提供代码示例： 如果提供的参考文档包含代码或命令，务必以代码块形式原样呈现。
避免“幻觉”： 严格限制自己只使用提供的参考文档信息。如果提供的文档中没有足够的信息来回答用户的问题，请礼貌地指出你无法提供完整的答案，并建议用户查阅其他资源。绝不能编造内容。
简洁明了： 避免冗余信息，直接切入正题。
用户友好： 即使是复杂的技术步骤，也要用易于理解的语言解释。
格式化： 使用Markdown格式（标题、列表、代码块）使回答易于阅读。
"""

4.4.2 用户提示词 (User Prompt) 与上下文注入

用户提示词结合了用户的原始查询和检索到的知识块。

USER_PROMPT_TEMPLATE = """
参考文档片段：
{context}

用户查询：{query}

请基于上述参考文档片段，回答用户的问题。务必引用文档中的具体步骤和代码。
"""

def format_context(chunks: List[Dict[str, Any]]) -> str:
    """
    将检索到的知识块格式化为适合LLM输入的字符串。
    """
    formatted_chunks = []
    for i, chunk in enumerate(chunks):
        title_path = " > ".join(chunk['metadata'].get('title_path', []))
        source_info = f"文档: {chunk['metadata'].get('source', '未知')} | 路径: {title_path}"
        formatted_chunks.append(f"--- 参考片段 {i+1} ({source_info}) ---n{chunk['content']}n")
    return "nn".join(formatted_chunks)

def create_llm_prompt(user_query: str, retrieved_chunks: List[Dict[str, Any]]) -> Dict[str, str]:
    """
    创建完整的LLM提示词。
    """
    context_str = format_context(retrieved_chunks)

    messages = [
        {"role": "system", "content": SYSTEM_PROMPT_TEMPLATE},
        {"role": "user", "content": USER_PROMPT_TEMPLATE.format(context=context_str, query=user_query)}
    ]
    return messages

# 示例：
# user_query = "如何在Ubuntu 22.04上安装Docker并配置非root用户访问？"
# # 假设 retrieved_chunks 是之前检索到的相关块
# # relevant_chunks = retrieve_relevant_chunks(user_query, top_k=5)
# # llm_messages = create_llm_prompt(user_query, relevant_chunks)
# # print(llm_messages)

4.4.3 LLM 调用

将构建好的提示词发送给LLM API（如OpenAI GPT系列、Anthropic Claude、本地部署的Llama等），获取生成的回答。

import openai # 假设使用OpenAI API

def get_llm_response(messages: List[Dict[str, str]], model_name: str = "gpt-4", temperature: float = 0.2) -> str:
    """
    调用LLM获取回答。
    """
    try:
        response = openai.chat.completions.create(
            model=model_name,
            messages=messages,
            temperature=temperature,
            max_tokens=1500 # 限制生成长度
        )
        return response.choices[0].message.content
    except Exception as e:
        print(f"调用LLM失败: {e}")
        return "很抱歉，当前无法生成答案。请稍后重试或查阅官方文档。"

# 示例：
# final_response = get_llm_response(llm_messages)
# print(final_response)

4.5 后处理与校验

生成AI响应后，进行后处理以确保格式和引用的准确性。

引用验证： 检查AI是否真的引用了提供的步骤，并且引用格式是否正确。这可以通过正则表达式匹配或更复杂的NLP技术实现。
格式化： 确保Markdown渲染正确，例如代码块、列表等。
用户反馈： 收集用户对回答质量的反馈，用于持续改进系统。

五、高级优化与考虑

除了上述核心流程，还有一些高级技术和考虑可以进一步提升系统的性能和可靠性。

5.1 多跳检索与推理 (Multi-hop Retrieval and Reasoning)

对于复杂任务，单个知识块可能不足以回答问题，可能需要从多个不直接相关的块中提取信息并进行推理。

方法：
- 迭代检索： LLM在生成部分答案后，根据中间结果生成新的查询，进行二次检索。
- 图谱知识库： 将知识库构建为知识图谱，通过图遍历进行多跳推理。

5.2 结构化输出 (Structured Output)

强制AI以JSON或其他结构化格式输出答案，可以更容易地进行后处理和集成到其他系统中。

方法： 在系统提示词中明确要求输出JSON，并提供一个JSON schema。例如：

{
  "title": "如何安装Docker并配置非root用户访问",
  "steps": [
    {
      "step_number": 1,
      "description": "更新系统包列表",
      "commands": [
        "sudo apt update",
        "sudo apt upgrade -y"
      ],
      "reference": {
        "source": "install_docker.md",
        "title_path": "Docker安装与配置指南 > 2. 安装Docker Engine > 2.1 更新系统包列表"
      }
    },
    // ... 其他步骤
  ],
  "conclusion": "完成上述步骤后，您就可以在Ubuntu 22.04上使用Docker了。"
}

LLM 可以通过Function Calling API或更严格的Prompt Engineering来生成这种结构化数据。

5.3 细粒度访问控制与权限

如果知识库包含敏感信息，需要确保只有授权用户才能访问相关步骤。这需要在检索层集成权限管理。

5.4 持续集成/持续部署 (CI/CD) 与知识库版本控制

知识库是动态的。新的软件版本发布、API变更、SOP更新都会影响步骤。

版本控制： 将知识库文件纳入Git等版本控制系统。
自动化流水线： 每次知识库更新时，自动触发：
1. 知识库预处理。
2. 生成新的嵌入。
3. 更新向量数据库索引。
4. 运行回归测试，确保引用功能正常。

5.5 用户反馈循环与模型迭代

显式反馈： 在AI回答旁提供“有用/无用”、“报告问题”按钮。
隐式反馈： 监测用户行为，如是否复制了代码、是否点击了引用链接。
数据驱动改进： 收集反馈数据，用于：
- 改进分块策略。
- 微调嵌入模型。
- 优化提示词。
- 识别知识库中的缺失或错误信息。

六、EEAT原则在实践中的进一步强化

为了真正构建一个符合EEAT原则的AI引用系统，我们还需要在各个环节融入最佳实践：

专业性 (Expertise) 的数据源： 确保“你的步骤”是由真正的领域专家编写、审核和批准的。可以引入专家评审机制。
经验 (Experience) 的积累与提炼： 定期从实际操作、用户支持案例中提炼新的最佳实践和故障排除步骤，并更新到知识库中。
权威性 (Authoritativeness) 的明确标识： 在元数据中清晰标记内容的作者、审核者、发布日期和版本号。在AI输出中，让这些信息尽可能地呈现在用户面前。
信任度 (Trustworthiness) 的建立：
- 透明度： 明确告知用户AI的答案基于哪个知识库，甚至提供原始文档的链接。
- 可验证性： 用户应该能够轻松地在原始文档中找到AI引用的内容。
- 错误纠正机制： 建立快速响应和纠正AI输出错误，并更新知识库的流程。
- “无幻觉”承诺： 强调AI在没有足够上下文时不会编造答案，而是会坦诚告知。

七、总结与展望

构建一个能够精确引用“你的步骤”的AI系统，是提升AI助手在任务导向型场景下实用性、权威性和可信度的关键。这不仅仅是一个简单的技术实现，更是一个涵盖数据工程、机器学习、自然语言处理和系统架构的综合性工程。

通过精心构建知识库、利用RAG架构、精细化提示词工程、以及持续的评估与迭代，我们能够让AI真正成为我们专业知识的忠实传达者。展望未来，随着多模态AI、更强大的推理能力和更智能的知识图谱技术的演进，我们有理由相信，AI在提供个性化、权威性操作指导方面的能力将达到前所未有的高度。这将极大地赋能开发者、技术支持人员和最终用户，提升效率，减少错误，并最终构建更加智能和值得信赖的交互体验。