如何构建多职责拆分的 RAG 工程架构确保召回链路可测试与可维护 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

构建可测试与可维护的多职责拆分RAG工程架构

大家好，今天我们来深入探讨如何构建一个可测试且易于维护的多职责拆分RAG（Retrieval-Augmented Generation）工程架构。RAG架构已经成为构建强大的、知识驱动的AI应用的重要基石。然而，随着RAG系统复杂性的增加，如何保证其质量、可维护性以及可测试性变得至关重要。

我们将重点关注召回链路，这是RAG系统的核心组成部分，直接影响着最终生成结果的质量。通过合理的职责拆分，我们可以将召回链路分解为更小的、可管理的模块，从而简化测试和维护过程。

RAG架构概览与挑战

首先，简单回顾一下RAG架构。一个典型的RAG系统包含以下几个关键组件：

数据准备 (Data Preparation): 清洗、转换和组织原始数据，使其适合用于向量化。
索引构建 (Indexing): 将数据转换为向量表示，并构建索引结构 (如FAISS, Annoy, Qdrant等) 以加速检索。
检索 (Retrieval): 根据用户查询，从索引中检索相关的文档。
生成 (Generation): 将检索到的文档与用户查询结合，生成最终的答案或内容。

在传统的RAG架构中，这些组件往往紧密耦合在一起，使得测试和维护变得困难。例如，如果检索模块出现问题，很难确定是索引构建的问题，还是检索算法本身的问题。

此外，单一的、大型的RAG系统也难以适应快速变化的需求。例如，我们可能需要更换向量数据库、调整检索算法，或者使用不同的语言模型。

多职责拆分的RAG架构设计

为了解决上述问题，我们采用多职责拆分的设计原则，将RAG系统分解为更小的、独立的模块，每个模块负责特定的功能。

以下是一个多职责拆分的RAG架构示例：

模块名称	职责	示例技术/工具
数据加载器 (Data Loader)	从各种数据源加载数据，例如：文本文件、数据库、网页等。	`Unstructured`, `Beautiful Soup`, `SQLAlchemy`
数据清洗器 (Data Cleaner)	清洗和预处理数据，例如：去除HTML标签、特殊字符、停用词等。	`NLTK`, `spaCy`, 正则表达式
文本分割器 (Text Splitter)	将文本分割成更小的块，例如：句子、段落、固定大小的块。	`Langchain TextSplitter`, 自定义分割算法
向量嵌入器 (Vector Embedder)	将文本块转换为向量表示。	`Sentence Transformers`, `OpenAI Embeddings`, `Hugging Face Transformers`
向量数据库 (Vector Database)	存储和索引向量，并提供快速的相似性搜索功能。	`FAISS`, `Annoy`, `Qdrant`, `Pinecone`, `Weaviate`
检索器 (Retriever)	接收用户查询，并从向量数据库中检索相关的文档。	基于向量相似度的检索算法, 混合检索 (Hybrid Retrieval)
重排序器 (Re-ranker)	对检索到的文档进行重新排序，以提高相关性。	`Cross-encoder`, BM25
提示词工程 (Prompt Engineering)	构建合适的提示词，将检索到的文档与用户查询结合，传递给语言模型。	手动构建提示词, 提示词模板
语言模型 (Language Model)	根据提示词生成最终的答案或内容。	`GPT-3`, `GPT-4`, `LLaMA`, `Cohere`
输出解析器 (Output Parser)	将语言模型的输出解析为结构化的格式，例如：JSON、Markdown等。	正则表达式, `Pydantic`

通过将RAG系统分解为这些模块，我们可以更容易地测试、维护和扩展系统。每个模块都可以独立开发和测试，而不会影响其他模块。

召回链路的可测试性设计

召回链路主要包含数据加载器、数据清洗器、文本分割器、向量嵌入器、向量数据库、检索器和重排序器等模块。为了保证召回链路的可测试性，我们需要：

定义清晰的接口: 每个模块都应该定义清晰的输入和输出接口，以便于进行单元测试和集成测试。
编写单元测试: 针对每个模块编写单元测试，验证其功能是否正确。
编写集成测试: 针对召回链路的整体流程编写集成测试，验证模块之间的协作是否正常。
使用测试数据: 使用真实或模拟的测试数据，覆盖各种场景和边界情况。
监控指标: 监控召回链路的性能指标，例如：召回率、准确率、延迟等。

下面，我们通过代码示例来说明如何实现召回链路的可测试性。

1. 数据加载器 (Data Loader)

假设我们有一个数据加载器，用于从文本文件中加载数据：

class TextDataLoader:
    def __init__(self, file_path: str):
        self.file_path = file_path

    def load_data(self) -> str:
        """从文本文件中加载数据."""
        try:
            with open(self.file_path, "r", encoding="utf-8") as f:
                return f.read()
        except FileNotFoundError:
            raise FileNotFoundError(f"文件未找到: {self.file_path}")
        except Exception as e:
            raise Exception(f"加载文件出错: {e}")

我们可以编写一个单元测试来验证其功能：

import unittest
import os
from your_module import TextDataLoader  # 替换为你的模块名

class TestTextDataLoader(unittest.TestCase):
    def setUp(self):
        # 创建一个临时文件用于测试
        self.test_file_path = "test_data.txt"
        with open(self.test_file_path, "w", encoding="utf-8") as f:
            f.write("This is a test file.nThis is the second line.")

    def tearDown(self):
        # 删除临时文件
        os.remove(self.test_file_path)

    def test_load_data_success(self):
        """测试成功加载数据的情况."""
        loader = TextDataLoader(self.test_file_path)
        data = loader.load_data()
        self.assertEqual(data, "This is a test file.nThis is the second line.")

    def test_load_data_file_not_found(self):
        """测试文件不存在的情况."""
        with self.assertRaises(FileNotFoundError):
            loader = TextDataLoader("non_existent_file.txt")
            loader.load_data()

    def test_load_data_encoding_error(self):
      """测试编码错误的情况"""
      with open(self.test_file_path, "wb") as f:
          f.write(b"xffxfeThis is a test file.") # 写入非UTF-8编码数据
      loader = TextDataLoader(self.test_file_path)
      with self.assertRaises(Exception):
          loader.load_data()

if __name__ == "__main__":
    unittest.main()

2. 文本分割器 (Text Splitter)

假设我们有一个文本分割器，用于将文本分割成固定大小的块：

class FixedSizeTextSplitter:
    def __init__(self, chunk_size: int, chunk_overlap: int = 0):
        self.chunk_size = chunk_size
        self.chunk_overlap = chunk_overlap

    def split_text(self, text: str) -> list[str]:
        """将文本分割成固定大小的块."""
        chunks = []
        start = 0
        while start < len(text):
            end = min(start + self.chunk_size, len(text))
            chunks.append(text[start:end])
            start += self.chunk_size - self.chunk_overlap
        return chunks

我们可以编写一个单元测试来验证其功能：

import unittest
from your_module import FixedSizeTextSplitter  # 替换为你的模块名

class TestFixedSizeTextSplitter(unittest.TestCase):
    def test_split_text_no_overlap(self):
        """测试没有重叠的情况."""
        splitter = FixedSizeTextSplitter(chunk_size=10)
        text = "This is a test string."
        chunks = splitter.split_text(text)
        self.assertEqual(chunks, ["This is a t", "est string."])

    def test_split_text_with_overlap(self):
        """测试有重叠的情况."""
        splitter = FixedSizeTextSplitter(chunk_size=10, chunk_overlap=2)
        text = "This is a test string."
        chunks = splitter.split_text(text)
        self.assertEqual(chunks, ["This is a t", "a test str", "st string."])

    def test_split_text_empty_string(self):
        """测试空字符串的情况"""
        splitter = FixedSizeTextSplitter(chunk_size=10)
        text = ""
        chunks = splitter.split_text(text)
        self.assertEqual(chunks, [])

    def test_split_text_chunk_size_larger_than_text(self):
        """测试chunk_size大于文本长度的情况"""
        splitter = FixedSizeTextSplitter(chunk_size=100)
        text = "This is a test"
        chunks = splitter.split_text(text)
        self.assertEqual(chunks, ["This is a test"])

if __name__ == "__main__":
    unittest.main()

3. 向量嵌入器 (Vector Embedder) (使用Mock)

由于向量嵌入器通常依赖于外部API或模型，为了进行单元测试，我们可以使用 Mock 对象来模拟这些依赖。

from typing import List
class MockEmbedder:
    def __init__(self, embedding_size: int = 3):
        self.embedding_size = embedding_size

    def embed_documents(self, texts: List[str]) -> List[List[float]]:
        """
        模拟嵌入文档。每个文档返回一个随机向量。
        """
        return [[float(i + j) for j in range(self.embedding_size)] for i, _ in enumerate(texts)]

class VectorEmbedder:
    def __init__(self, embedder):
        self.embedder = embedder # 接受一个embedding模型，可以是真实的，也可以是Mock

    def embed_documents(self, texts: List[str]) -> List[List[float]]:
        return self.embedder.embed_documents(texts)

import unittest
from your_module import VectorEmbedder, MockEmbedder  # 替换为你的模块名

class TestVectorEmbedder(unittest.TestCase):
    def test_embed_documents(self):
        """测试嵌入文档."""
        mock_embedder = MockEmbedder(embedding_size=5)
        embedder = VectorEmbedder(mock_embedder)
        texts = ["This is a test.", "This is another test."]
        embeddings = embedder.embed_documents(texts)

        self.assertEqual(len(embeddings), 2)
        self.assertEqual(len(embeddings[0]), 5)  # 检查向量维度
        self.assertEqual(embeddings[0], [float(x) for x in range(5)])
        self.assertEqual(embeddings[1], [float(x+1) for x in range(5)])

    def test_embed_empty_list(self):
        """测试嵌入空列表."""
        mock_embedder = MockEmbedder()
        embedder = VectorEmbedder(mock_embedder)
        texts = []
        embeddings = embedder.embed_documents(texts)
        self.assertEqual(embeddings, [])

if __name__ == "__main__":
    unittest.main()

4. 向量数据库 (Vector Database) (使用Mock)

同样，为了进行单元测试，我们可以使用 Mock 对象来模拟向量数据库。

from typing import List, Tuple
import numpy as np

class MockVectorDatabase:
    def __init__(self):
        self.vectors = []
        self.ids = []

    def add_vectors(self, vectors: List[List[float]], ids: List[str]):
        """添加向量到数据库."""
        self.vectors.extend(vectors)
        self.ids.extend(ids)

    def search(self, query_vector: List[float], top_k: int) -> List[Tuple[str, float]]:
        """搜索最相似的向量."""
        if not self.vectors:
            return []

        query_vector = np.array(query_vector)
        similarities = [np.dot(np.array(v), query_vector) / (np.linalg.norm(np.array(v)) * np.linalg.norm(query_vector)) for v in self.vectors] # 计算余弦相似度
        # 找到最相似的 top_k 个向量
        sorted_indices = sorted(range(len(similarities)), key=lambda i: similarities[i], reverse=True)[:top_k]
        results = [(self.ids[i], similarities[i]) for i in sorted_indices]
        return results

class VectorDatabase:
    def __init__(self, database):
        self.database = database

    def add_vectors(self, vectors: List[List[float]], ids: List[str]):
        self.database.add_vectors(vectors, ids)

    def search(self, query_vector: List[float], top_k: int) -> List[Tuple[str, float]]:
        return self.database.search(query_vector, top_k)

import unittest
from your_module import VectorDatabase, MockVectorDatabase  # 替换为你的模块名

class TestVectorDatabase(unittest.TestCase):
    def setUp(self):
        self.mock_db = MockVectorDatabase()
        self.db = VectorDatabase(self.mock_db)

    def test_add_and_search(self):
        """测试添加和搜索向量."""
        vectors = [[1.0, 2.0, 3.0], [4.0, 5.0, 6.0]]
        ids = ["doc1", "doc2"]
        self.db.add_vectors(vectors, ids)

        query_vector = [1.0, 1.0, 1.0]
        results = self.db.search(query_vector, top_k=2)

        self.assertEqual(len(results), 2)
        self.assertEqual(results[0][0], "doc2")
        self.assertEqual(results[1][0], "doc1")

    def test_search_empty_db(self):
        """测试空数据库的搜索."""
        query_vector = [1.0, 1.0, 1.0]
        results = self.db.search(query_vector, top_k=2)
        self.assertEqual(results, [])

    def test_add_empty_vectors(self):
        """测试添加空向量列表"""
        vectors = []
        ids = []
        self.db.add_vectors(vectors, ids)
        query_vector = [1.0, 1.0, 1.0]
        results = self.db.search(query_vector, top_k=2)
        self.assertEqual(results, [])

if __name__ == "__main__":
    unittest.main()

5. 集成测试

除了单元测试，我们还需要编写集成测试来验证召回链路的整体流程。

import unittest
from your_module import (  # 替换为你的模块名
    TextDataLoader,
    FixedSizeTextSplitter,
    VectorEmbedder,
    VectorDatabase,
    MockEmbedder,
    MockVectorDatabase
)

class TestRetrievalPipeline(unittest.TestCase):
    def setUp(self):
        # 创建测试数据
        self.test_file_path = "test_data.txt"
        with open(self.test_file_path, "w", encoding="utf-8") as f:
            f.write("This is the first document.nThis is the second document.")

        # 初始化各个组件
        self.data_loader = TextDataLoader(self.test_file_path)
        self.text_splitter = FixedSizeTextSplitter(chunk_size=20, chunk_overlap=5)
        self.mock_embedder = MockEmbedder(embedding_size=3)
        self.vector_embedder = VectorEmbedder(self.mock_embedder)
        self.mock_db = MockVectorDatabase()
        self.vector_db = VectorDatabase(self.mock_db)

    def tearDown(self):
        # 删除测试数据
        import os
        os.remove(self.test_file_path)

    def test_retrieval_pipeline(self):
        """测试整个召回流程."""
        # 1. 加载数据
        data = self.data_loader.load_data()

        # 2. 分割文本
        chunks = self.text_splitter.split_text(data)

        # 3. 嵌入文本
        embeddings = self.vector_embedder.embed_documents(chunks)

        # 4. 添加到向量数据库
        ids = [f"chunk_{i}" for i in range(len(chunks))]
        self.vector_db.add_vectors(embeddings, ids)

        # 5. 搜索
        query = "second document"
        query_embedding = self.vector_embedder.embed_documents([query])[0] # 注意这里要传入列表
        results = self.vector_db.search(query_embedding, top_k=1)

        # 断言
        self.assertEqual(len(results), 1)
        self.assertEqual(results[0][0], "chunk_1")  # 假设 "second document" 在第二个 chunk 中

if __name__ == "__main__":
    unittest.main()

召回链路的可维护性设计

除了可测试性，可维护性也是RAG系统的重要考量因素。为了提高召回链路的可维护性，我们需要：

模块化设计: 将系统分解为独立的模块，每个模块负责特定的功能。
清晰的命名: 使用清晰、一致的命名规范，提高代码的可读性。
详细的文档: 编写详细的文档，说明每个模块的功能、输入和输出。
代码审查: 进行代码审查，确保代码质量。
版本控制: 使用版本控制系统 (如Git) 来管理代码。
监控和日志: 监控系统的性能指标，并记录详细的日志，以便于排查问题。

总结：关键在于解耦和测试

通过多职责拆分的设计原则，我们可以将RAG系统分解为更小的、可管理的模块，从而简化测试和维护过程。针对每个模块编写单元测试和集成测试，可以有效地保证系统的质量。此外，清晰的命名、详细的文档、代码审查、版本控制以及监控和日志等措施，可以进一步提高系统的可维护性。记住，模块化、可测试性与可维护性是构建健壮的RAG系统的关键。