深入 ‘Context Window Packing’：如何最大化利用上下文空间，而不产生“模型注意力分散”？ - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

各位编程同仁，各位AI领域的探索者们，

欢迎大家来到今天的技术讲座。今天，我们将深入探讨一个在大型语言模型（LLM）应用开发中至关重要的议题：上下文窗口打包（Context Window Packing）。这个概念的挑战性在于，我们不仅要最大化利用有限的上下文空间，更要确保在信息高度密集的情况下，模型不会产生“注意力分散”（Attention Dispersion），从而导致性能下降或输出质量不佳。

作为一名编程专家，我的目标是为大家提供一套严谨、实用且充满代码示例的技术框架，帮助大家驾驭这一复杂而迷人的领域。

第一章：理解上下文窗口与注意力机制的基石

在深入打包技术之前，我们必须对两个核心概念有清晰的理解：上下文窗口和注意力机制。它们是所有后续讨论的基石。

1.1 上下文窗口：模型的“短期记忆”

大型语言模型，如GPT系列、Claude、Llama等，都有一个固定的最大输入长度，我们称之为“上下文窗口”（Context Window）。这个窗口以“Token”为单位进行衡量。一个Token通常是一个词、一个词的一部分、一个标点符号或一个特殊字符。

核心问题：

Token限制： 绝大多数模型都有严格的Token上限（例如，8K, 16K, 32K, 128K, 甚至更高）。超过这个限制，模型将无法处理输入。
成本考量： Token数量直接与API调用成本挂钩。减少Token可以显著降低运营成本。
性能瓶颈： 即使上下文窗口很大，过多的无关信息也可能淹没真正重要的信号。

想象一下，上下文窗口就像一个人的工作记忆。你可以在短时间内记住很多事情，但如果信息过多、过于混乱，你的大脑就会感到疲惫，处理效率也会下降。

1.2 注意力机制：模型如何“聚焦”

Transformer架构的核心是自注意力机制（Self-Attention Mechanism）。它允许模型在处理序列中的每个Token时，动态地权衡序列中所有其他Token的重要性。简而言之，模型会根据当前Token与序列中所有其他Token的关联程度，为它们分配不同的“注意力权重”。

注意力机制的优势：

全局依赖： 能够捕捉长距离依赖关系，这是RNN等模型难以做到的。
并行计算： 可以高效并行处理，加速训练和推理。

注意力分散的根源：
然而，当上下文窗口中充斥着大量无关、冗余或低价值的信息时，注意力机制可能会“迷失方向”，这就是我们所说的“注意力分散”。模型被迫在“信息噪音”中寻找“信号”，这会导致：

性能下降： 模型需要处理更多的Token，计算量增加，推理速度变慢。
准确性降低： 关键信息被稀释，模型难以准确捕捉其重要性，导致输出偏离预期。
“大海捞针”效应： 想象在大海中寻找一根针。如果大海是干净的，你可能很快找到。如果大海里充满了各种垃圾，寻找的难度将呈指数级增长。模型在处理大量无关信息时，也会面临类似的困境。

注意力分散的典型表现：

模型无法从长文本中提取关键信息。
模型在回答问题时“跑题”，或给出泛泛的回答。
模型在生成内容时重复或引用无关信息。

因此，我们的核心任务是：如何在有限的上下文窗口中，智能地组织、精炼和筛选信息，确保模型始终能将注意力集中在最相关、最有价值的数据上。

第二章：上下文窗口打包的核心策略与技术

现在，我们将深入探讨一系列具体的上下文窗口打包策略，并着重阐述每种策略如何避免或减轻注意力分散。

2.1 结构化与标准化数据格式：为模型提供清晰的“地图”

将信息以结构化、标准化的格式（如JSON、YAML、XML）打包，是提高上下文利用效率和减少注意力分散的第一步。结构化数据为模型提供了一个清晰的“地图”，让它知道去哪里寻找特定类型的信息，而不是在自由文本中盲目搜索。

优点：

清晰的边界： 模型的解析器能更容易地区分不同类型的数据。
语义明确： 字段名本身就带有语义信息，有助于模型理解数据含义。
减少歧义： 避免自然语言的模糊性。

如何避免注意力分散：
通过提供明确的结构，模型可以更有效地聚焦于特定字段或值，而不必“阅读”整个非结构化文本来寻找所需信息。这就像在图书馆里，有目录和索引比没有目录更容易找到书。

示例：将用户偏好和历史订单打包成JSON

假设我们需要向模型提供用户的购物偏好和最近的订单信息，以便它能更好地推荐商品。

import json

def pack_user_data_to_json(user_id, preferences, recent_orders):
    """
    将用户偏好和最近订单信息打包成JSON字符串。

    Args:
        user_id (str): 用户ID。
        preferences (dict): 用户偏好，如 {"category": ["electronics", "books"], "brand": ["Sony", "Apple"]}.
        recent_orders (list): 最近的订单列表，每个订单是一个字典。
                              e.g., [{"order_id": "O123", "items": ["Laptop"], "total": 1200}, ...]

    Returns:
        str: 格式化的JSON字符串。
    """
    user_data = {
        "user_id": user_id,
        "preferences": preferences,
        "recent_orders": recent_orders,
        "context_description": "以下是用户的详细信息，请根据这些信息进行个性化推荐或协助。"
    }
    # 使用indent参数使JSON更易读，但会增加Token数量。生产环境中可能去除。
    return json.dumps(user_data, indent=2, ensure_ascii=False)

# 示例数据
user_pref = {
    "category": ["electronics", "books"],
    "brand": ["Sony", "Apple"],
    "price_range": "mid-high"
}
user_orders = [
    {"order_id": "ORD001", "items": ["iPhone 15", "AirPods Pro"], "total": 1500, "date": "2023-11-01"},
    {"order_id": "ORD002", "items": ["The Hitchhiker's Guide to the Galaxy"], "total": 20, "date": "2023-10-15"}
]

packed_context = pack_user_data_to_json("user_abc_123", user_pref, user_orders)
print(packed_context)

# 假设LLM收到这样的Prompt：
llm_prompt = f"""
请根据以下JSON数据，为用户提供3条个性化商品推荐。请考虑用户的偏好和最近的购买记录。
{packed_context}
"""
print("n--- LLM Prompt ---")
print(llm_prompt)

LLM如何处理：
模型在接收到这样的JSON时，其内部的注意力机制会更容易地识别 user_id, preferences, recent_orders 等键值对，从而直接获取所需信息，而无需在长篇大论中寻找这些细节。context_description 字段也进一步指导模型关注此JSON的目的。

2.2 信息精炼与摘要生成：提取“核心思想”

当原始信息量过大，无法完整放入上下文窗口时，信息精炼和摘要生成是不可或缺的策略。其目标是保留原文的核心思想和关键信息，同时大幅削减文本长度。

如何避免注意力分散：
通过移除冗余、次要或无关的信息，模型只需处理高度浓缩、信息密度更高的文本。这极大地减少了噪音，使模型能将注意力集中在最重要的概念上。

2.2.1 抽取式摘要 (Extractive Summarization)

从原文中直接提取最重要的句子或短语来构成摘要。这种方法的好处是保留了原文的措辞，避免了“幻觉”（Hallucination）问题。

实现方式：

基于统计： TF-IDF、TextRank等算法对句子进行评分，选择得分最高的句子。
基于机器学习/深度学习： 训练模型识别重要句子。
LLM辅助： 引导LLM直接抽取关键句子。

示例：使用LLM进行抽取式摘要

def extract_key_sentences_with_llm(full_text, llm_client, max_sentences=5):
    """
    使用LLM从长文本中抽取N个最重要的句子。

    Args:
        full_text (str): 原始长文本。
        llm_client: 模拟的LLM客户端，具有`generate`方法。
        max_sentences (int): 最多抽取的句子数量。

    Returns:
        str: 抽取的关键句子组成的字符串。
    """
    prompt = f"""
    请从以下文本中，抽取最多 {max_sentences} 个最重要的句子。每个句子保持原文不变，并用换行符分隔。
    如果文本不足 {max_sentences} 句，则抽取所有句子。

    文本:
    {full_text}

    抽取的关键句子:
    """
    # 模拟LLM调用
    # 实际项目中，这里会调用 OpenAI, Anthropic, 或其他LLM API
    # 假设llm_client.generate(prompt)返回一个包含抽取的句子的字符串
    # 为了演示，我们先硬编码一个简单实现
    if "important" in full_text:
        extracted_text = "这是一个非常重要的观点。n这个项目取得了显著进展。n未来的方向是明确的。"
    else:
        extracted_text = "这是一段普通的描述。n没有什么特别需要关注的。"

    return extracted_text

# 模拟LLM客户端
class MockLLMClient:
    def generate(self, prompt):
        # 这是一个非常简化的模拟，实际LLM会更智能
        if "抽取最多 3 个最重要的句子" in prompt:
            if "The company's Q3 earnings report showed record profits" in prompt:
                return "The company's Q3 earnings report showed record profits.nRevenue increased by 25% year-over-year.nThis growth was primarily driven by new product launches."
            else:
                return "This is a generic sentence.nAnother less important sentence.nFinal sentence."
        return "Not implemented for this prompt."

mock_llm = MockLLMClient()

long_document = """
The company's Q3 earnings report showed record profits, exceeding analyst expectations by a significant margin.
Revenue increased by 25% year-over-year, reaching an all-time high of $500 million.
This growth was primarily driven by new product launches in the consumer electronics division and strong performance in emerging markets.
Operating expenses remained stable, indicating efficient cost management.
The stock price reacted positively to the news, soaring by 10% in after-hours trading.
However, challenges remain in supply chain management due to global chip shortages.
The CEO expressed optimism for the next fiscal year, outlining plans for further international expansion and investment in AI research.
"""

summary_extractive = extract_key_sentences_with_llm(long_document, mock_llm, max_sentences=3)
print("n--- 抽取式摘要 ---")
print(summary_extractive)

2.2.2 抽象式摘要 (Abstractive Summarization)

模型理解原文内容后，用自己的语言生成全新的、精炼的摘要。这种方法可以产生更流畅、更自然的摘要，但存在生成不准确信息（幻觉）的风险。

实现方式：

Seq2Seq模型： 训练专门的摘要模型。
LLM直接生成： 通过精心设计的Prompt引导LLM生成。

示例：使用LLM进行抽象式摘要

def abstractive_summarize_with_llm(full_text, llm_client, target_length="2-3句话"):
    """
    使用LLM对长文本进行抽象式摘要。

    Args:
        full_text (str): 原始长文本。
        llm_client: 模拟的LLM客户端。
        target_length (str): 期望的摘要长度描述。

    Returns:
        str: 抽象式摘要。
    """
    prompt = f"""
    请对以下文本进行概括性摘要。摘要应该 {target_length}，并捕捉文本的核心要点。

    文本:
    {full_text}

    摘要:
    """
    # 模拟LLM调用
    if "Q3 earnings report showed record profits" in full_text:
        return "该公司第三季度财报显示创纪录的利润，营收同比增长25%，主要得益于新产品发布和新兴市场表现。首席执行官对未来一年持乐观态度，计划进一步国际扩张并投资AI研究，尽管供应链仍面临挑战。"
    else:
        return "这是一段关于某个主题的简短摘要，它包含了主要信息。"

summary_abstractive = abstractive_summarize_with_llm(long_document, mock_llm, target_length="2-3句话")
print("n--- 抽象式摘要 ---")
print(summary_abstractive)

2.2.3 迭代与分层摘要 (Iterative/Hierarchical Summarization)

对于超长文档（例如，几百页的书籍、大量的会议记录），单次摘要可能仍会超出上下文窗口。此时，可以采用分而治之的策略：

将长文档分割成可管理的块（Chunk）。
对每个块进行摘要。
将所有块的摘要合并，形成一个“次级文档”。
对次级文档再次进行摘要，直至达到所需的长度。

如何避免注意力分散：
每个LLM调用都只处理一个较小的、聚焦的文本块。模型在局部范围内进行精炼，然后将这些局部精炼的结果再次精炼，从而避免在处理整个巨型文档时“不知所措”。

def chunk_text(text, max_tokens=2000):
    """
    将文本分割成接近max_tokens的块。
    这是一个简化实现，实际可能需要更复杂的Token计数和分割逻辑。
    """
    words = text.split()
    chunks = []
    current_chunk = []
    current_len = 0
    for word in words:
        # 假设每个词近似1-2个token，这里做个粗略估计
        if current_len + len(word) > max_tokens * 1.5: # 乘以1.5作为粗略的词数到token数的转换
            chunks.append(" ".join(current_chunk))
            current_chunk = [word]
            current_len = len(word)
        else:
            current_chunk.append(word)
            current_len += len(word)
    if current_chunk:
        chunks.append(" ".join(current_chunk))
    return chunks

def hierarchical_summarization(full_text, llm_client, chunk_size=2000, final_summary_length="3句话"):
    """
    执行分层摘要。

    Args:
        full_text (str): 原始长文本。
        llm_client: 模拟的LLM客户端。
        chunk_size (int): 每个文本块的最大Token数。
        final_summary_length (str): 最终摘要的期望长度描述。

    Returns:
        str: 最终的抽象式摘要。
    """
    chunks = chunk_text(full_text, max_tokens=chunk_size)
    print(f"原始文本被分割成 {len(chunks)} 个块。")

    if not chunks:
        return ""

    if len(chunks) == 1:
        print("只有一个块，直接进行最终摘要。")
        return abstractive_summarize_with_llm(chunks[0], llm_client, target_length=final_summary_length)

    intermediate_summaries = []
    for i, chunk in enumerate(chunks):
        print(f"正在摘要块 {i+1}/{len(chunks)}...")
        # 对每个块进行摘要，可以设定更长的目标长度，因为是中间结果
        summary = abstractive_summarize_with_llm(chunk, llm_client, target_length="一小段关键信息")
        intermediate_summaries.append(f"--- 块 {i+1} 摘要 ---n{summary}n")

    combined_summaries = "n".join(intermediate_summaries)
    print("n所有中间摘要已生成，现在进行最终摘要...")
    final_summary = abstractive_summarize_with_llm(combined_summaries, llm_client, target_length=final_summary_length)
    return final_summary

# 假设有一个非常长的文档
very_long_document = """
This is the first paragraph of a very long document. It contains some introductory remarks about the project goals and initial setup.
The project aims to revolutionize the way we interact with data, providing intuitive interfaces and powerful analytics.
Early stages involved extensive research into user needs and existing solutions.
Initial findings suggested a strong demand for real-time data processing capabilities.

The second section details the architectural design. We opted for a microservices architecture to ensure scalability and fault tolerance.
Key components include a data ingestion service, a real-time processing engine, and a flexible API layer.
Each microservice communicates via asynchronous messaging queues, primarily using Apache Kafka.
Database choices were carefully considered, with a blend of NoSQL for flexibility and relational databases for transactional integrity.

The third section discusses implementation challenges. Integrating various third-party APIs proved to be complex, requiring custom adaptors.
Performance optimization was another significant hurdle, especially under heavy load conditions.
We employed various caching strategies and load balancing techniques to mitigate these issues.
Security considerations were paramount, leading to the implementation of robust authentication and authorization mechanisms.

The fourth section focuses on testing and deployment. A comprehensive suite of unit, integration, and end-to-end tests was developed.
Continuous integration and continuous deployment (CI/CD) pipelines were established using Jenkins and Kubernetes.
The initial deployment strategy involved a canary release, gradually rolling out the new features to a small subset of users.

Finally, the fifth section outlines future enhancements. We plan to incorporate advanced machine learning models for predictive analytics.
Expansion into new geographical markets is also on the roadmap.
Further research into quantum computing applications for data processing is a long-term vision.
User feedback will be continuously monitored to guide future development cycles.
""" * 5 # 模拟一个很长的文档

final_summary = hierarchical_summarization(very_long_document, mock_llm, chunk_size=100) # 缩小chunk_size便于演示分块
print("n--- 最终分层摘要 ---")
print(final_summary)

2.3 智能过滤与动态剪枝：只保留“必要信息”

过滤和剪枝是主动移除不相关或价值较低信息的过程。这比摘要更激进，因为它可能完全丢弃某些部分。

如何避免注意力分散：
通过彻底移除噪音，模型无需分心处理无关内容。它确保了上下文窗口中每一寸空间都被高价值信息占据，从而实现高效率的注意力聚焦。

2.3.1 基于语义相似度的过滤 (Semantic Similarity Filtering)

当需要从大量文本中挑选与特定查询或任务相关的部分时，可以使用语义相似度来衡量文本块的相关性。

实现方式：

将查询和所有文本块转换为向量嵌入（Embeddings）。
计算查询嵌入与每个文本块嵌入之间的余弦相似度。
选择相似度得分最高的文本块。

示例：使用Sentence Transformers进行语义过滤

from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

# 假设我们有一个预训练的模型
# model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2') # 实际项目中会加载模型
# 为了演示，我们模拟一个嵌入生成器
class MockEmbeddingModel:
    def encode(self, texts):
        # 简单的模拟，实际会生成有意义的向量
        if isinstance(texts, list):
            return np.array([[hash(t) % 1000 for _ in range(384)] for t in texts]) # 假设维度是384
        else:
            return np.array([hash(texts) % 1000 for _ in range(384)])

embedding_model = MockEmbeddingModel()

def filter_by_semantic_similarity(query, documents, embedding_model, top_k=3, threshold=0.5):
    """
    根据语义相似度从文档列表中过滤出最相关的文档。

    Args:
        query (str): 查询字符串。
        documents (list): 待过滤的文档字符串列表。
        embedding_model: 用于生成嵌入的模型，具有`encode`方法。
        top_k (int): 返回最相似的文档数量。
        threshold (float): 相似度阈值，低于此阈值的文档将被忽略。

    Returns:
        list: 过滤后的最相关文档列表。
    """
    if not documents:
        return []

    query_embedding = embedding_model.encode(query)
    doc_embeddings = embedding_model.encode(documents)

    # 计算余弦相似度
    # 实际计算: similarities = cosine_similarity([query_embedding], doc_embeddings)[0]
    # 模拟计算:
    similarities = []
    for doc_emb in doc_embeddings:
        # 模拟余弦相似度，避免在演示中引入真实的复杂计算
        # 实际余弦相似度计算需要归一化，这里简化为随机数 + 相关性模拟
        sim = np.dot(query_embedding, doc_emb) / (np.linalg.norm(query_embedding) * np.linalg.norm(doc_emb) + 1e-9)
        # 为了演示效果，让第一个文档更相关
        if "AI project" in query and "人工智能项目进展" in documents[np.where(doc_embeddings == doc_emb)[0][0]]:
             sim = 0.9 # 假设这个是高度相关的
        elif "revenue" in query and "公司营收" in documents[np.where(doc_embeddings == doc_emb)[0][0]]:
             sim = 0.8
        else:
             sim = np.random.rand() * 0.4 + 0.3 # 随机生成一个较低的相似度

        similarities.append(sim)
    similarities = np.array(similarities)

    # 排序并选择Top-K，同时考虑阈值
    sorted_indices = np.argsort(similarities)[::-1] # 降序
    filtered_documents = []
    for idx in sorted_indices:
        if similarities[idx] >= threshold and len(filtered_documents) < top_k:
            filtered_documents.append(documents[idx])
    return filtered_documents

documents_to_filter = [
    "关于2023年公司营收增长的报告。",
    "人工智能项目进展顺利，已经完成了第一阶段。",
    "员工福利政策调整通知。",
    "市场营销部门的季度总结。",
    "未来技术趋势展望：AI与大数据。",
    "关于办公室设备采购的申请。"
]
query_text = "我需要了解人工智能项目进展和未来方向。"

relevant_docs = filter_by_semantic_similarity(query_text, documents_to_filter, embedding_model, top_k=2, threshold=0.7)
print("n--- 语义过滤结果 ---")
for doc in relevant_docs:
    print(f"- {doc}")

注意： MockEmbeddingModel 和 cosine_similarity 的模拟实现是为了让代码可运行，并展示概念。在实际应用中，您需要加载一个真正的 SentenceTransformer 模型或使用其他嵌入服务。

2.3.2 基于规则与关键字的过滤 (Rule-based/Keyword Filtering)

最直接的过滤方式是基于预定义的规则或关键字。

实现方式：

黑名单/白名单： 移除包含特定“黑名单”关键字的文本，或只保留包含“白名单”关键字的文本。
正则表达式： 使用正则表达式匹配和过滤特定模式的数据。

示例：关键字过滤

def filter_by_keywords(text_list, include_keywords=None, exclude_keywords=None):
    """
    根据包含/排除关键字过滤文本列表。

    Args:
        text_list (list): 待过滤的文本列表。
        include_keywords (list, optional): 必须包含的关键字列表。
        exclude_keywords (list, optional): 必须排除的关键字列表。

    Returns:
        list: 过滤后的文本列表。
    """
    filtered = []
    for text in text_list:
        should_include = True

        if include_keywords:
            if not any(kw.lower() in text.lower() for kw in include_keywords):
                should_include = False

        if exclude_keywords and should_include: # 只有在前面判断为True时才继续判断排除
            if any(kw.lower() in text.lower() for kw in exclude_keywords):
                should_include = False

        if should_include:
            filtered.append(text)
    return filtered

logs = [
    "INFO: User 'admin' logged in successfully.",
    "ERROR: Database connection failed. Host unreachable.",
    "DEBUG: Processing request for user 'guest'.",
    "WARNING: Low disk space on /dev/sda1.",
    "INFO: Report generated for Q4 earnings.",
    "ERROR: API key invalid for service 'payments'."
]

# 过滤出所有ERROR日志
error_logs = filter_by_keywords(logs, include_keywords=["ERROR"])
print("n--- 错误日志过滤 ---")
for log in error_logs:
    print(log)

# 过滤出所有INFO日志，但排除与'report'相关的
info_no_report_logs = filter_by_keywords(logs, include_keywords=["INFO"], exclude_keywords=["report"])
print("n--- INFO日志（排除报告）过滤 ---")
for log in info_no_report_logs:
    print(log)

2.3.3 时间与上下文窗口滑动 (Temporal & Sliding Window)

在对话系统或实时监控场景中，不是所有历史信息都同样重要。最新的信息往往更相关。

实现方式：

固定大小滑动窗口： 维护一个固定大小的Token缓冲区，每次新的输入进来时，最旧的信息被移除。
基于时间戳过滤： 只保留最近N分钟/小时/天的信息。

如何避免注意力分散：
确保模型始终能访问到最新、最相关的历史信息，而不是被陈旧、过时的对话或数据所干扰。

示例：滑动窗口上下文管理器

import collections
import tiktoken # 用于Token计数，需要安装 pip install tiktoken

class SlidingWindowContextManager:
    def __init__(self, max_tokens, encoding_name="cl100k_base"):
        self.max_tokens = max_tokens
        self.tokenizer = tiktoken.get_encoding(encoding_name)
        self.context_buffer = collections.deque() # 存储 (role, content, token_count)
        self.current_token_count = 0

    def _count_tokens(self, text):
        return len(self.tokenizer.encode(text))

    def add_message(self, role, content):
        """
        向上下文添加一条消息，并自动管理Token数量。
        """
        message_tokens = self._count_tokens(content)
        message_entry = (role, content, message_tokens)

        # 尝试添加新消息
        # 预留一些Token给模型生成回复，这里简单地为回复预留 max_tokens / 4
        # 实际可能需要更精细的策略或由LLM API直接管理
        reserved_for_response = self.max_tokens // 4
        available_space = self.max_tokens - reserved_for_response

        if message_tokens > available_space:
            print(f"警告：单条消息 ({message_tokens} tokens) 超过可用空间 ({available_space} tokens)。消息将被截断或跳过。")
            # 简单处理：如果单条消息过大，直接放弃添加，或截断
            # 更复杂的场景可能需要摘要此消息
            return

        # 循环移除旧消息，直到有足够空间
        while self.current_token_count + message_tokens > available_space and self.context_buffer:
            removed_role, removed_content, removed_tokens = self.context_buffer.popleft()
            self.current_token_count -= removed_tokens
            print(f"因Token超限，移除旧消息：'{removed_content[:30]}...' ({removed_tokens} tokens)")

        # 添加新消息
        self.context_buffer.append(message_entry)
        self.current_token_count += message_tokens
        print(f"添加新消息。当前上下文Token数：{self.current_token_count}/{self.max_tokens} (可用空间: {available_space})")

    def get_context_messages(self):
        """
        以LLM API所需的格式返回当前上下文消息列表。
        """
        messages = []
        for role, content, _ in self.context_buffer:
            messages.append({"role": role, "content": content})
        return messages

# 示例使用
max_context_tokens = 100 # 实际应用中会大得多，这里为演示效果设小
context_manager = SlidingWindowContextManager(max_context_tokens)

context_manager.add_message("system", "你是一个友好的AI助手。")
context_manager.add_message("user", "你好，请问今天天气怎么样？")
context_manager.add_message("assistant", "您好！请问您在哪个城市呢？")
context_manager.add_message("user", "我在北京。")
context_manager.add_message("assistant", "北京今天晴，气温20-30摄氏度。")
context_manager.add_message("user", "谢谢！我想了解一下你们的产品功能。") # 这条消息可能会导致旧消息被移除
context_manager.add_message("assistant", "我们的产品有很多功能，请问您对哪方面感兴趣？")
context_manager.add_message("user", "主要想知道数据分析模块。")

print("n--- 最终的上下文消息 ---")
for msg in context_manager.get_context_messages():
    print(f"{msg['role'].upper()}: {msg['content']}")

print(f"n最终Token总数：{context_manager.current_token_count}")

2.4 数据压缩与编码优化：提高“信息密度”

压缩和编码优化旨在减少Token的数量，同时尽量不损失原始信息或只损失可接受的最小信息。

如何避免注意力分散：
通过减少Token数量，同样的信息可以在更小的空间内表达。这意味着模型在处理相同数量的“有效信息”时，需要遍历的Token更少，其注意力机制能更高效地聚焦。

2.4.1 Tokenization层面的优化

LLM使用的BPE (Byte Pair Encoding) 或SentencePiece等分词器会尝试将常用词或子词组合成单个Token。了解分词器的工作原理，可以帮助我们编写Token效率更高的文本。

策略：

避免不必要的空格或特殊字符： 它们可能被分词器视为单独的Token。
使用常用词汇： 罕见词汇或拼写错误可能导致被拆分成更多Token。
标准化格式： 例如，统一日期格式 YYYY-MM-DD 而不是 December 25th, 2023。

示例：Token计数与优化

import tiktoken

def count_tokens(text, encoding_name="cl100k_base"):
    encoding = tiktoken.get_encoding(encoding_name)
    return len(encoding.encode(text))

text1 = "Hello, world! This is a test sentence."
text2 = "你好，世界！这是一句测试句子。"
text3 = "Hello-world!This-is-a-test-sentence." # 刻意减少空格和标点
text4 = "December 25th, 2023"
text5 = "2023-12-25"

print(f"'{text1}' Token数: {count_tokens(text1)}") # 英文通常Token效率较高
print(f"'{text2}' Token数: {count_tokens(text2)}") # 中文通常一个字一个Token
print(f"'{text3}' Token数: {count_tokens(text3)}") # 减少空格和标点可能减少Token，也可能因为不常见反而增加
print(f"'{text4}' Token数: {count_tokens(text4)}")
print(f"'{text5}' Token数: {count_tokens(text5)}") # 标准化格式通常更高效

2.4.2 领域特定编码与符号化

在特定领域，可以将冗长的信息编码成更紧凑的符号或格式。

示例：代码差异（Diff）

在代码审查或版本控制场景中，提交整个文件或两个版本的文件是低效的。使用统一的Diff格式可以极大地压缩信息。

import difflib

def generate_unified_diff(text1_lines, text2_lines, fromfile='file_v1', tofile='file_v2'):
    """
    生成两个文本的统一Diff。

    Args:
        text1_lines (list): 第一个版本文本的行列表。
        text2_lines (list): 第二个版本文本的行列表。
        fromfile (str): 第一个文件的名称。
        tofile (str): 第二个文件的名称。

    Returns:
        str: 统一Diff格式的字符串。
    """
    diff = difflib.unified_diff(
        text1_lines,
        text2_lines,
        fromfile=fromfile,
        tofile=tofile,
        lineterm='' # 避免difflib添加额外的换行符
    )
    return 'n'.join(list(diff))

code_v1 = """
def add(a, b):
    # This function adds two numbers
    return a + b
"""

code_v2 = """
def add_numbers(x, y):
    # This function adds two numbers
    # It handles integers and floats
    result = x + y
    return result
"""

diff_output = generate_unified_diff(code_v1.splitlines(keepends=True), code_v2.splitlines(keepends=True),
                                     fromfile='math.py.v1', tofile='math.py.v2')
print("n--- 代码Diff ---")
print(diff_output)

# LLM可以接收这样的Diff来理解代码变更
llm_prompt_diff = f"""
请评估以下代码差异，指出主要改动和潜在问题：
```diff
{diff_output}

"""
print("n— LLM Diff Prompt —")
print(llm_prompt_diff)


#### 2.4.3 语法与语义简化 (Syntactic and Semantic Simplification)

通过重写文本，去除不必要的修饰词、冗余的从句或复杂的句式，从而达到精简的目的。这通常需要LLM本身进行。

**示例：使用LLM简化句子**

```python
def simplify_sentence_with_llm(complex_sentence, llm_client):
    """
    使用LLM简化复杂句子。

    Args:
        complex_sentence (str): 原始复杂句子。
        llm_client: 模拟的LLM客户端。

    Returns:
        str: 简化后的句子。
    """
    prompt = f"""
    请将以下句子简化，使其更简洁易懂，同时不丢失原意。

    原始句子:
    {complex_sentence}

    简化后的句子:
    """
    # 模拟LLM调用
    if "鉴于当前的市场波动性以及宏观经济的不确定性" in complex_sentence:
        return "考虑到市场波动和经济不确定性，公司决定推迟投资。"
    else:
        return "这是一个简化后的句子。"

complex_text = "鉴于当前的市场波动性以及宏观经济的不确定性，本公司管理层经过审慎评估后决定暂时推迟原定的资本扩张计划，以规避潜在风险并确保财务稳健性。"
simplified_text = simplify_sentence_with_llm(complex_text, mock_llm)
print("n--- 句子简化 ---")
print(f"原始: {complex_text}")
print(f"简化: {simplified_text}")

2.5 多阶段与分层处理架构：分解“巨象”

当任务本身非常复杂，需要处理的信息量巨大且有多个子目标时，采用多阶段或分层处理架构是最高效的方式。这本质上是将一个大问题分解为多个小问题，每个小问题都可以在相对聚焦的上下文窗口内解决。

如何避免注意力分散：
模型在每个阶段都只被赋予一个明确的子任务和其所需的最小上下文。它不会同时被所有信息淹没，而是逐步构建对整个问题的理解。

2.5.1 Map-Reduce模式与LLM

借鉴大数据领域的Map-Reduce思想，将一个大型任务分解为：

Map阶段： 对独立的文本块并行处理（例如，摘要、提取关键实体）。
Reduce阶段： 将Map阶段的结果聚合、整合，生成最终输出。

示例：LLM驱动的Map-Reduce摘要

# 假设已经有 chunk_text 和 abstractive_summarize_with_llm 函数

def llm_map_reduce_summarization(full_text, llm_client, chunk_size=2000, final_summary_length="3句话"):
    """
    使用LLM执行Map-Reduce模式的摘要。
    Map: 对每个块进行摘要。
    Reduce: 对所有摘要的组合再次进行摘要。
    """
    chunks = chunk_text(full_text, max_tokens=chunk_size)
    print(f"原始文本被分割成 {len(chunks)} 个块用于Map阶段。")

    if not chunks:
        return ""

    # Map 阶段：并行或顺序处理每个块
    map_results = []
    for i, chunk in enumerate(chunks):
        print(f"Map阶段：处理块 {i+1}/{len(chunks)}...")
        # 每个块的摘要可能需要更详细一些，以便在Reduce阶段提供足够信息
        summary = abstractive_summarize_with_llm(chunk, llm_client, target_length="一段关键信息")
        map_results.append(f"--- Chunk {i+1} Summary ---n{summary}n")

    # Reduce 阶段：将所有Map结果合并，再进行一次摘要
    combined_map_results = "n".join(map_results)
    print("nReduce阶段：组合Map结果并进行最终摘要...")
    final_summary = abstractive_summarize_with_llm(combined_map_results, llm_client, target_length=final_summary_length)
    return final_summary

# 使用之前定义的 very_long_document
final_map_reduce_summary = llm_map_reduce_summarization(very_long_document, mock_llm, chunk_size=100)
print("n--- LLM Map-Reduce 摘要 ---")
print(final_map_reduce_summary)

2.5.2 递归问答与思维链 (CoT/ToT)

通过引导模型进行多步推理，将复杂问题分解为一系列简单的子问题，每一步的输出都作为下一步的上下文输入。

思维链 (Chain-of-Thought, CoT)： 让模型在给出最终答案前，先输出思考过程。
思维树 (Tree-of-Thought, ToT)： 进一步扩展CoT，允许模型探索多个推理路径。

如何避免注意力分散：
模型在每个推理步骤中都只关注当前步骤所需的信息，并且其“思考过程”本身就是一种结构化的上下文，帮助模型保持聚焦。

示例：CoT提示词

def chain_of_thought_prompt(question, context_data):
    """
    生成一个包含CoT指令的Prompt。

    Args:
        question (str): 用户问题。
        context_data (str): 相关的上下文信息。

    Returns:
        str: 包含CoT指令的Prompt。
    """
    prompt = f"""
    你是一个逻辑严谨的AI助手。请逐步思考以下问题，并给出最终答案。

    上下文信息:
    {context_data}

    问题:
    {question}

    思考步骤:
    1. 首先，我将分析提供的上下文信息，识别与问题相关的关键实体、事实和关系。
    2. 接下来，我将根据问题，确定需要从上下文中提取哪些具体信息来回答。
    3. 如果需要，我将进行推理，将提取出的信息进行整合或推断。
    4. 最后，我将基于以上思考，给出简洁明确的最终答案。

    现在开始思考并回答问题：
    """
    return prompt

context_for_cot = """
用户A购买了产品X，订单号为ORD_001，支付方式为支付宝，购买时间是2023年11月10日。
用户B购买了产品Y和产品Z，订单号为ORD_002，支付方式为微信支付，购买时间是2023年11月15日。
产品X的价格是100元，产品Y的价格是50元，产品Z的价格是30元。
"""
question_for_cot = "用户B的订单总金额是多少？"

cot_prompt = chain_of_thought_prompt(question_for_cot, context_for_cot)
print("n--- 思维链(CoT) Prompt ---")
print(cot_prompt)

# LLM的预期输出（模拟）：
# 思考步骤:
# 1. 我将从上下文信息中识别出与用户B订单相关的信息。
#    - 用户B的订单号是ORD_002。
#    - 用户B购买了产品Y和产品Z。
#    - 产品Y的价格是50元。
#    - 产品Z的价格是30元。
# 2. 确定需要计算用户B购买产品Y和产品Z的总价格。
# 3. 计算: 50元 (产品Y) + 30元 (产品Z) = 80元。
# 4. 最终答案: 用户B的订单总金额是80元。

2.5.3 Agentic工作流 (Agentic Workflows)

构建由多个“智能体”（Agent）组成的工作流，每个Agent负责一个特定的任务，并拥有自己的工具集和有限的上下文。Agent之间通过消息传递或共享工作空间进行协作。

典型Agentic流程：

规划Agent： 根据用户请求制定执行计划。
检索Agent： 从知识库中检索相关信息。
摘要Agent： 对检索到的信息进行摘要。
执行Agent： 根据计划和上下文执行具体操作。
反思Agent： 评估执行结果，并决定是否需要修正计划或再次执行。

如何避免注意力分散：
每个Agent的任务是高度聚焦的，其上下文只包含完成当前任务所需的信息。Agent之间的协作机制确保了信息在整个工作流中被逐步处理和精炼。

示例：Agentic工作流的伪代码（概念性）

# 假设我们有以下LLM支持的Agent类
class LLMAgent:
    def __init__(self, name, role, llm_client):
        self.name = name
        self.role = role
        self.llm_client = llm_client
        self.tools = [] # Agent可以使用的工具列表
        self.context = [] # 当前Agent的局部上下文

    def add_tool(self, tool_function):
        self.tools.append(tool_function)

    def receive_message(self, sender, message):
        self.context.append(f"[{sender}] {message}")
        print(f"{self.name} 收到来自 {sender} 的消息: {message}")

    def deliberate(self, task_prompt):
        # 实际Agent会根据task_prompt和self.context调用LLM，
        # 并可能使用self.tools来执行操作或获取更多信息。
        # 这里仅作概念性演示
        full_prompt = f"""
        你是一个{self.role}。
        当前上下文: {self.context}
        你的任务是: {task_prompt}
        请思考并给出你的下一步行动或回复。
        """
        # response = self.llm_client.generate(full_prompt)
        # return response
        print(f"{self.name} 正在思考任务: {task_prompt}")
        if "检索" in task_prompt:
            return "我将使用检索工具查找相关文档。"
        elif "摘要" in task_prompt:
            return "我将对检索到的信息进行摘要。"
        elif "回答" in task_prompt:
            return "我将整合信息并给出最终答案。"
        return f"我正在执行 {task_prompt}..."

# 模拟工具
def search_database(query):
    print(f"执行数据库搜索: {query}")
    return ["Doc A: ...", "Doc B: ..."]

# 构建Agent
mock_llm = MockLLMClient()
planner_agent = LLMAgent("Planner", "任务规划师", mock_llm)
retrieval_agent = LLMAgent("RetrievalAgent", "信息检索专家", mock_llm)
retrieval_agent.add_tool(search_database) # 赋予检索Agent数据库搜索工具
summarizer_agent = LLMAgent("SummarizerAgent", "文本摘要专家", mock_llm)
answer_agent = LLMAgent("AnswerAgent", "最终答案生成器", mock_llm)

# 模拟工作流
user_query = "请总结最近关于AI模型性能提升的报告。"

# 1. Planner Agent 规划任务
planner_agent.receive_message("User", user_query)
planner_response = planner_agent.deliberate("为用户查询制定执行计划")
print(f"Planner Agent: {planner_response}")
# 实际LLM会生成类似 "1. 检索相关报告。 2. 摘要报告。 3. 整合摘要并回答。" 的计划

# 2. Retrieval Agent 检索信息
retrieval_agent.receive_message("Planner", "请检索关于'AI模型性能提升'的最新报告。")
retrieval_response = retrieval_agent.deliberate("执行信息检索")
retrieved_docs = search_database("AI模型性能提升报告") # 实际是Agent调用工具
print(f"Retrieval Agent 找到文档: {retrieved_docs}")

# 3. Summarizer Agent 摘要信息
summarizer_agent.receive_message("RetrievalAgent", f"请摘要以下文档: {retrieved_docs}")
summarizer_response = summarizer_agent.deliberate("对检索到的文档进行摘要")
# 假设摘要结果
summarized_content = "最近的AI报告显示，通过新的Transformer架构和更大数据集，模型在多项基准测试中性能显著提升。"
print(f"Summarizer Agent 摘要结果: {summarized_content}")

# 4. Answer Agent 生成最终答案
answer_agent.receive_message("SummarizerAgent", f"根据以下摘要，回答用户查询: {summarized_content}")
final_answer = answer_agent.deliberate(f"总结并回答用户查询: {user_query}")
print(f"Answer Agent 最终答案: {final_answer}") # 实际LLM会生成更具体的答案

第三章：实践中的考量与挑战

虽然上下文窗口打包技术提供了强大的优化能力，但在实际应用中，我们仍需面对一些挑战和权衡。

3.1 成本与性能的权衡

Token数量与API成本： 减少Token直接降低成本。但为了生成高质量的摘要或进行复杂的过滤，可能需要多次调用LLM，这会增加总的Token使用量和计算成本。
计算资源： 嵌入生成、语义相似度计算、分层摘要等过程都需要额外的计算资源和时间。

3.2 信息损失的风险

过度激进的过滤或摘要可能导致关键细节的丢失。如何在压缩信息的同时，最大限度地保留其语义完整性，是一个持续的挑战。这要求开发者对业务领域有深入理解，并进行充分的测试。

3.3 模型对噪音的鲁棒性

不同的LLM模型对上下文中的噪音和冗余信息的鲁棒性不同。一些最新的、更大规模的模型可能在处理较多噪音时表现更好，但这不是免除打包优化的理由。

3.4 动态适应性

理想的上下文打包方案应该是动态适应的。例如，在对话初期，可能需要更多历史上下文来建立用户画像；而在任务执行阶段，则可能只需要与当前任务强相关的上下文。

3.5 可解释性与调试

当模型输出不符合预期时，如果上下文经过了复杂的打包、过滤和摘要，调试和理解模型“看到”了什么可能会变得困难。维护一个清晰的打包流程日志至关重要。

第四章：展望未来：更长、更智能的上下文

未来，上下文窗口打包技术将与LLM本身的发展共同演进：

原生超长上下文窗口： 随着模型架构的进步，我们已经看到像Gemini 1.5 Pro这样拥有百万Token上下文窗口的模型出现。这减少了对激进打包的需求，但“注意力分散”问题依然存在，只是规模更大。
更智能的注意力机制： 稀疏注意力、线性注意力等研究正在探索如何让模型在处理长序列时，更有效地分配注意力，避免在无关信息上浪费计算资源。
混合式方法： 结合上下文打包、检索增强生成（RAG）、Agentic工作流等多种技术，将成为处理超复杂、超长上下文的标配。例如，先通过RAG从海量知识库中检索相关文档，再对这些文档进行智能打包，最后输入到LLM中。

上下文窗口打包是连接有限模型能力与无限信息世界的桥梁。它不仅仅是关于Token的削减，更是关于如何精巧地组织信息，以确保大型语言模型始终能将宝贵的注意力集中在最有价值的信号上。这是一门艺术，也是一门科学，需要我们不断地探索、实践和优化。通过今天分享的结构化、精炼、过滤和分层处理等策略，辅以大量的代码实践，相信大家能够更好地驾驭这一挑战，构建出更高效、更智能的LLM应用。

第一章：理解上下文窗口与注意力机制的基石

1.1 上下文窗口：模型的“短期记忆”

1.2 注意力机制：模型如何“聚焦”

第二章：上下文窗口打包的核心策略与技术

2.1 结构化与标准化数据格式：为模型提供清晰的“地图”

2.2 信息精炼与摘要生成：提取“核心思想”

2.2.1 抽取式摘要 (Extractive Summarization)

2.2.2 抽象式摘要 (Abstractive Summarization)

2.2.3 迭代与分层摘要 (Iterative/Hierarchical Summarization)

2.3 智能过滤与动态剪枝：只保留“必要信息”

2.3.1 基于语义相似度的过滤 (Semantic Similarity Filtering)

2.3.2 基于规则与关键字的过滤 (Rule-based/Keyword Filtering)

2.3.3 时间与上下文窗口滑动 (Temporal & Sliding Window)

2.4 数据压缩与编码优化：提高“信息密度”

2.4.1 Tokenization层面的优化

2.4.2 领域特定编码与符号化

2.5 多阶段与分层处理架构：分解“巨象”

2.5.1 Map-Reduce模式与LLM

2.5.2 递归问答与思维链 (CoT/ToT)

2.5.3 Agentic工作流 (Agentic Workflows)

第三章：实践中的考量与挑战

3.1 成本与性能的权衡

3.2 信息损失的风险

3.3 模型对噪音的鲁棒性

3.4 动态适应性

3.5 可解释性与调试

第四章：展望未来：更长、更智能的上下文

发表回复 取消回复

发表回复取消回复