解析 ‘Cognitive Load Balancing’：当上下文窗口接近饱和时，如何设计‘优先级淘汰算法’保留核心信息？ - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

尊敬的各位同仁，各位对人工智能系统设计充满热情的工程师们：

今天，我们齐聚一堂，探讨一个在构建智能系统中日益关键的挑战：如何在有限的上下文窗口中，通过精妙的“优先级淘汰算法”来保留核心信息，实现真正的“认知负载均衡”。随着大型语言模型（LLMs）在各种应用中扮演着核心角色，其上下文窗口（context window）的限制，成为了我们进行复杂、长时间对话和任务处理时不可避免的瓶颈。当这个“短期记忆”接近饱和时，如何明智地决定哪些信息应该被保留，哪些应该被淘汰，直接关系到系统的智能水平、响应质量以及用户体验。这不仅仅是一个技术细节，它触及了AI系统对“重要性”的理解和决策能力。

1. 上下文窗口：人工智能的短期记忆与瓶颈

要理解优先级淘汰算法，我们首先要深入理解其作用的舞台——上下文窗口。

1.1 什么是上下文窗口？

在大型语言模型中，上下文窗口指的是模型在生成当前输出时，能够“看到”并处理的输入文本的最大长度。这个长度通常以“token”为单位衡量。一个token可以是一个词、一个标点符号，甚至是词的一部分。

输入序列： 用户输入的指令、先前的对话历史、检索到的相关文档片段等，共同构成了模型的输入序列。
注意力机制： Transformer架构中的自注意力机制允许模型对输入序列中的每个token分配不同的权重，从而捕捉长距离依赖关系。然而，这个机制的计算复杂度与序列长度的平方成正比（O(N^2)），其中N是序列长度。
记忆与遗忘： 上下文窗口可以被看作是AI系统的“短期记忆”。超出这个窗口长度的信息，模型将“遗忘”，无法直接利用。

1.2 为什么上下文窗口是瓶颈？

计算成本： O(N^2)的计算复杂度意味着随着上下文窗口的增大，计算资源（尤其是GPU内存和计算时间）呈指数级增长。这使得超长上下文窗口在经济上和技术上都难以普及。
内存限制： 存储注意力矩阵和中间激活层需要大量的内存。
信息过载： 即使技术上允许更长的上下文，过多的信息也可能导致模型“迷失”，稀释了核心信息的权重，影响其推理和生成质量。这类似于人类在信息爆炸的环境中难以集中注意力。
模型架构限制： 即使最新的模型架构（如Mixtral 8x7B）拥有较大的上下文窗口（如32K），对于需要处理大量文档、长时间交互或复杂知识库的应用来说，依然是有限的。

当这个有限的短期记忆空间接近饱和时，我们面临的挑战是如何避免“信息丢失”或“核心信息稀释”，这正是优先级淘汰算法的用武之地。

2. 核心问题：饱和与信息丢失的风险

当上下文窗口接近饱和时，如果不采取策略性措施，新信息将简单地替换掉旧信息（例如，最老的信息被淘汰）。这种朴素的淘汰方式会带来严重的风险：

关键信息丢失： 最早进入上下文的重要指令、用户偏好、背景知识或关键事实可能被无情地淘汰。
任务中断： 如果任务所需的关键上下文被移除，模型可能无法完成当前任务，甚至偏离主题。
连贯性下降： 缺乏必要的上下文，对话或生成文本的连贯性和一致性会受到影响。
用户体验受损： 用户不得不重复提供信息，感到沮丧。

例如，在一个复杂的客服场景中，用户可能在对话开始时提供了他们的订单号和问题核心。如果后续对话冗长，而这些核心信息被淘汰，模型就无法有效地解决问题，需要用户反复重申。

因此，我们需要一种智能机制来评估上下文中的每一条信息，并根据其对当前或未来任务的“重要性”来决定其去留。这正是“优先级淘汰算法”的核心目标：在空间有限的情况下，确保最有价值的信息得以保留。

3. 定义“核心信息”：优先级的基石

在设计任何优先级淘汰算法之前，最根本的问题是：什么才算是“核心信息”？这个定义并非一成不变，它高度依赖于具体的应用场景、任务类型和系统目标。然而，我们可以总结出一些通用的评估维度：

时效性（Recency）： 信息被提及或访问的最近程度。通常，越新的信息越可能与当前任务相关。
相关性（Relevance）： 信息与当前用户意图、任务目标或最近交互内容的语义相似度。
重要性（Importance）：
- 用户明确指定： 用户通过特定指令或标记指明的信息。
- 系统预设： 系统指令、全局配置、关键变量等。
- 任务关键性： 完成当前任务所必需的事实、步骤或约束。
- 内在价值： 包含关键实体（人名、地点、时间）、数值数据、决策点等。
频率（Frequency）： 信息在过去被访问或引用的次数。高频访问可能意味着其重要性。
依赖性（Dependency）： 某些信息是理解其他信息的先决条件。例如，一个问题的答案可能依赖于问题本身。
唯一性/非冗余性（Uniqueness/Non-redundancy）： 如果同一信息以多种形式存在，可能只需要保留其最精简或最权威的版本。冗余信息可以被淘汰。
结构化信息（Structured Data）： 相对于自由文本，结构化数据（如JSON、XML片段）通常承载着更高密度的核心信息。
情感/情绪（Sentiment/Emotion）： 在某些对话场景中，用户的情绪变化可能是核心信息，需要被保留以进行情绪感知和响应。

这些维度可以单独使用，也可以组合起来，形成一个综合的优先级评分。

4. 优先级淘汰算法的分类与设计

我们可以将优先级淘汰算法大致分为几类：启发式（规则）方法、语义方法、学习方法以及混合方法。

4.1 启发式（规则）方法

这类方法基于预设的规则和经验，通常易于实现和理解，但在复杂场景下可能不够灵活。

4.1.1 最近最少使用（LRU）/最不常用（LFU）的变体

传统的LRU（Least Recently Used）和LFU（Least Frequently Used）是缓存淘汰的经典算法。但在AI上下文中，它们需要进行修改以适应“重要性”的概念。

加权LRU/LFU： 给每个上下文项分配一个初始权重，然后根据访问时间或频率动态调整。
- 示例： 系统指令可能拥有最高的初始权重，使得它们即使不常被访问，也难以被淘汰。
- 淘汰逻辑： 淘汰那些“权重 (1 – 衰减因子 时间) (1 – 频率衰减因子 频率)”最低的项。

4.4.2 基于标签/元数据的淘汰

这是最直接且强大的启发式方法之一。我们为每个上下文项附加元数据（标签、类型、显式优先级），然后根据这些元数据制定淘汰规则。

ContextItem 类定义：

import time
from enum import Enum, auto

class PriorityLevel(Enum):
    CRITICAL = auto()  # 绝不能淘汰
    HIGH = auto()      # 优先保留
    MEDIUM = auto()    # 正常淘汰规则
    LOW = auto()       # 优先淘汰
    EPHEMERAL = auto() # 临时信息，尽快淘汰

class ContextItem:
    def __init__(self, item_id: str, content: str,
                 priority: PriorityLevel = PriorityLevel.MEDIUM,
                 tags: list = None,
                 created_at: float = None,
                 last_accessed_at: float = None,
                 access_count: int = 0,
                 token_count: int = None):
        self.item_id = item_id
        self.content = content
        self.priority = priority
        self.tags = tags if tags is not None else []
        self.created_at = created_at if created_at is not None else time.time()
        self.last_accessed_at = last_accessed_at if last_accessed_at is not None else self.created_at
        self.access_count = access_count
        self.token_count = token_count # 实际的token数量，用于计算上下文窗口占用

    def touch(self):
        """模拟访问，更新访问时间和计数"""
        self.last_accessed_at = time.time()
        self.access_count += 1

    def __repr__(self):
        return (f"ContextItem(id='{self.item_id}', priority={self.priority.name}, "
                f"tags={self.tags}, tokens={self.token_count}, content='{self.content[:50]}...')")

    def get_priority_score(self, current_time: float, weight_recency: float = 0.5, weight_frequency: float = 0.3, weight_priority_level: float = 1.0) -> float:
        """
        计算一个综合优先级分数。分数越低越容易被淘汰。
        这里假设一个简单的线性组合，实际可能需要更复杂的非线性函数。
        """
        # 优先级级别的映射，CRITICAL应该有极高的基准分
        priority_map = {
            PriorityLevel.CRITICAL: 1000000, # 确保不被淘汰
            PriorityLevel.HIGH: 100,
            PriorityLevel.MEDIUM: 50,
            PriorityLevel.LOW: 10,
            PriorityLevel.EPHEMERAL: 1
        }

        base_priority_score = priority_map.get(self.priority, 0)

        # 时间衰减：越老分数越低
        recency_score = (current_time - self.last_accessed_at)
        # 频率提升：访问越多分数越高
        frequency_score = self.access_count

        # 组合分数，这里是一个示例，实际需要根据业务场景调整权重和函数形式
        # 注意：这里设计成分数越低越容易被淘汰，所以 recency_score 应该作为减项，frequency_score 作为加项
        # 简单处理：将 recency 转换为“新鲜度”分数，频率直接用

        # 我们可以设计一个逆向的“淘汰分数”，分数越高越容易被淘汰
        # 淘汰分数 = (时间衰减因子 * (current_time - self.last_accessed_at)) / (频率提升因子 * self.access_count + 1) - 优先级级别基础分
        # 为了避免除以0，access_count + 1

        # 更直观的优先级分数：越高越不容易被淘汰
        # 基础分 + 频率分 - 时间衰减分

        # 假设我们希望分数越高越不容易被淘汰
        # 优先级级别分数（越高越好）
        priority_level_val = {
            PriorityLevel.CRITICAL: 10000,
            PriorityLevel.HIGH: 1000,
            PriorityLevel.MEDIUM: 100,
            PriorityLevel.LOW: 10,
            PriorityLevel.EPHEMERAL: 1
        }[self.priority]

        # 新鲜度分数：越新越高
        # 简单反向处理时间差，或者使用指数衰减
        decay_half_life_seconds = 3600 # 假设半衰期为1小时
        recency_factor = 2 ** (-(current_time - self.last_accessed_at) / decay_half_life_seconds)

        # 频率分数：访问次数越多越高
        frequency_factor = self.access_count / 10.0 # 归一化，或使用对数

        # 组合成一个总分，越高越应该保留
        score = (weight_priority_level * priority_level_val +
                 weight_recency * recency_factor * 100 + # 放大recency的影响
                 weight_frequency * frequency_factor)

        return score

淘汰规则引擎：

class ContextManager:
    def __init__(self, max_tokens: int, tokenizer):
        self.max_tokens = max_tokens
        self.tokenizer = tokenizer
        self.context_items = {}  # {item_id: ContextItem}
        self.current_tokens = 0

    def add_item(self, item_id: str, content: str, priority: PriorityLevel = PriorityLevel.MEDIUM, tags: list = None):
        if item_id in self.context_items:
            # 如果已存在，更新内容或属性，并刷新访问时间
            item = self.context_items[item_id]
            self.current_tokens -= item.token_count # 减去旧的token数
            item.content = content
            item.token_count = len(self.tokenizer.encode(content))
            item.priority = priority
            item.tags = tags if tags is not None else []
            item.touch()
            self.current_tokens += item.token_count
        else:
            token_count = len(self.tokenizer.encode(content))
            item = ContextItem(item_id, content, priority, tags, token_count=token_count)
            self.context_items[item_id] = item
            self.current_tokens += token_count

        self._manage_context_size()
        return item

    def get_context_text(self) -> str:
        # 按照优先级和时间排序，构建最终的上下文文本
        # 这里需要一个稳定的排序，例如先按优先级降序，再按 last_accessed_at 降序
        sorted_items = sorted(
            self.context_items.values(),
            key=lambda x: (x.priority.value, x.last_accessed_at), # CRITICAL, HIGH, MEDIUM, LOW, EPHEMERAL
            reverse=True # 优先级高的在前，最近访问的在前
        )
        return "n".join([item.content for item in sorted_items])

    def _manage_context_size(self):
        """
        当上下文超出限制时，执行淘汰策略。
        这里实现一个基于标签和综合分数的淘汰策略。
        """
        if self.current_tokens <= self.max_tokens:
            return

        print(f"Context over limit: {self.current_tokens}/{self.max_tokens}. Initiating eviction.")

        # 1. 优先淘汰 EPHEMERAL 级别的信息
        ephemeral_items = [item for item in self.context_items.values() if item.priority == PriorityLevel.EPHEMERAL]
        ephemeral_items.sort(key=lambda x: x.last_accessed_at) # 最老的临时信息优先淘汰

        for item in ephemeral_items:
            if self.current_tokens <= self.max_tokens:
                break
            print(f"Evicting EPHEMERAL item: {item.item_id}")
            self.current_tokens -= item.token_count
            del self.context_items[item.item_id]

        if self.current_tokens <= self.max_tokens:
            return

        # 2. 计算所有非 CRITICAL 项的优先级分数，并按分数升序排列（分数越低越容易被淘汰）
        # CRITICAL 级别的项不参与淘汰
        current_time = time.time()
        evictable_items = [
            item for item in self.context_items.values()
            if item.priority != PriorityLevel.CRITICAL
        ]

        # 使用自定义的 get_priority_score 进行排序
        evictable_items.sort(key=lambda item: item.get_priority_score(current_time))

        for item in evictable_items:
            if self.current_tokens <= self.max_tokens:
                break

            print(f"Evicting item by score: {item.item_id} (Score: {item.get_priority_score(current_time):.2f})")
            self.current_tokens -= item.token_count
            del self.context_items[item.item_id]

        if self.current_tokens > self.max_tokens:
            print(f"WARNING: Context still over limit after full eviction attempt: {self.current_tokens}/{self.max_tokens}")
            # 此时可能需要截断最不重要的部分，或者进一步压缩

表格：基于标签的优先级示例

标签/优先级级别	描述	淘汰策略
`CRITICAL`	系统指令、用户身份、核心任务目标	永不淘汰（除非明确指令）
`HIGH`	最近的对话轮次、关键事实、用户偏好	最后淘汰，高分保留
`MEDIUM`	一般的对话内容、背景信息	正常淘汰，基于LRU/LFU/语义
`LOW`	寒暄、冗余信息、无关紧要的细节	优先淘汰
`EPHEMERAL`	临时计算结果、系统内部日志、短生命周期提示	最优先淘汰，通常在下次访问前清理

4.2 语义（内容感知）方法

这类方法超越了简单的元数据，通过理解内容的含义来评估其重要性。

4.2.1 相关性评分

使用嵌入（embeddings）技术来计算上下文项与当前查询/任务之间的语义相似度。相似度越高，相关性越强，优先级越高。

步骤：
1. 将当前用户输入（或任务描述）编码为向量（query embedding）。
2. 将上下文窗口中的每个文本片段编码为向量（context item embedding）。
3. 计算query embedding与每个context item embedding之间的余弦相似度。
4. 将相似度作为优先级评分的一部分。

代码示例：使用 SentenceTransformer 计算语义相关性

from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

# 假设我们有一个预训练的SentenceTransformer模型
# model = SentenceTransformer('all-MiniLM-L6-v2') 
# 在实际应用中，模型需要加载一次
# 为了演示，这里假设已经加载好模型

class SemanticContextItem(ContextItem):
    def __init__(self, item_id: str, content: str, model: SentenceTransformer,
                 priority: PriorityLevel = PriorityLevel.MEDIUM,
                 tags: list = None,
                 created_at: float = None,
                 last_accessed_at: float = None,
                 access_count: int = 0,
                 token_count: int = None):
        super().__init__(item_id, content, priority, tags, created_at, last_accessed_at, access_count, token_count)
        self.embedding = model.encode(content, convert_to_tensor=True)

    def get_semantic_priority_score(self, current_query_embedding: np.ndarray,
                                    weight_semantic: float = 0.8,
                                    weight_recency: float = 0.5,
                                    weight_frequency: float = 0.3,
                                    weight_priority_level: float = 1.0,
                                    current_time: float = None) -> float:
        """
        结合语义相似度、时效性、频率和预设优先级计算综合分数。
        """
        if current_time is None:
            current_time = time.time()

        # 1. 语义相似度
        # current_query_embedding 应该是 numpy 数组，self.embedding 也是 numpy 数组
        # 如果 self.embedding 是 tensor，需要转为 numpy
        item_embedding_np = self.embedding.cpu().numpy() if hasattr(self.embedding, 'cpu') else self.embedding

        similarity = cosine_similarity(current_query_embedding.reshape(1, -1), item_embedding_np.reshape(1, -1))[0][0]

        # 2. 传统优先级分数的计算（沿用之前的逻辑）
        priority_level_val = {
            PriorityLevel.CRITICAL: 10000,
            PriorityLevel.HIGH: 1000,
            PriorityLevel.MEDIUM: 100,
            PriorityLevel.LOW: 10,
            PriorityLevel.EPHEMERAL: 1
        }[self.priority]

        decay_half_life_seconds = 3600
        recency_factor = 2 ** (-(current_time - self.last_accessed_at) / decay_half_life_seconds)
        frequency_factor = self.access_count / 10.0 # 归一化

        # 3. 组合分数
        score = (weight_priority_level * priority_level_val +
                 weight_semantic * similarity * 1000 + # 放大语义相似度的影响
                 weight_recency * recency_factor * 100 +
                 weight_frequency * frequency_factor)

        return score

# 假设 ContextManager 进行了修改以支持语义
class SemanticContextManager(ContextManager):
    def __init__(self, max_tokens: int, tokenizer, embedding_model: SentenceTransformer):
        super().__init__(max_tokens, tokenizer)
        self.embedding_model = embedding_model

    def add_item(self, item_id: str, content: str, priority: PriorityLevel = PriorityLevel.MEDIUM, tags: list = None):
        if item_id in self.context_items:
            # 更新逻辑与之前类似，但要更新embedding
            item = self.context_items[item_id]
            self.current_tokens -= item.token_count
            item.content = content
            item.token_count = len(self.tokenizer.encode(content))
            item.priority = priority
            item.tags = tags if tags is not None else []
            item.embedding = self.embedding_model.encode(content, convert_to_tensor=True) # 更新embedding
            item.touch()
            self.current_tokens += item.token_count
        else:
            token_count = len(self.tokenizer.encode(content))
            item = SemanticContextItem(item_id, content, self.embedding_model, priority, tags, token_count=token_count)
            self.context_items[item_id] = item
            self.current_tokens += token_count

        self._manage_context_size()
        return item

    def _manage_context_size(self, current_query_text: str = None):
        """
        当上下文超出限制时，执行淘汰策略。
        如果提供了 current_query_text，则使用语义相关性进行淘汰。
        """
        if self.current_tokens <= self.max_tokens:
            return

        print(f"Context over limit: {self.current_tokens}/{self.max_tokens}. Initiating semantic eviction.")

        current_time = time.time()
        current_query_embedding = None
        if current_query_text:
            current_query_embedding = self.embedding_model.encode(current_query_text, convert_to_tensor=True).cpu().numpy()

        # 1. 优先淘汰 EPHEMERAL 级别的信息
        ephemeral_items = [item for item in self.context_items.values() if item.priority == PriorityLevel.EPHEMERAL]
        ephemeral_items.sort(key=lambda x: x.last_accessed_at)

        for item in ephemeral_items:
            if self.current_tokens <= self.max_tokens:
                break
            print(f"Evicting EPHEMERAL item: {item.item_id}")
            self.current_tokens -= item.token_count
            del self.context_items[item.item_id]

        if self.current_tokens <= self.max_tokens:
            return

        # 2. 计算所有非 CRITICAL 项的优先级分数，并按分数升序排列
        evictable_items = [
            item for item in self.context_items.values()
            if item.priority != PriorityLevel.CRITICAL
        ]

        if current_query_embedding is not None:
            # 使用语义分数进行排序
            evictable_items.sort(key=lambda item: item.get_semantic_priority_score(
                current_query_embedding, current_time=current_time))
        else:
            # 如果没有当前查询，退回到普通的优先级分数
            evictable_items.sort(key=lambda item: item.get_priority_score(current_time))

        for item in evictable_items:
            if self.current_tokens <= self.max_tokens:
                break

            score_method = "semantic" if current_query_embedding is not None else "heuristic"
            score = item.get_semantic_priority_score(current_query_embedding, current_time=current_time) if current_query_embedding is not None else item.get_priority_score(current_time)
            print(f"Evicting item by {score_method} score: {item.item_id} (Score: {score:.2f})")
            self.current_tokens -= item.token_count
            del self.context_items[item.item_id]

        if self.current_tokens > self.max_tokens:
            print(f"WARNING: Context still over limit after full eviction attempt: {self.current_tokens}/{self.max_tokens}")

4.2.2 基于图的依赖关系

如果上下文中的信息存在逻辑上的依赖关系（例如，问题A的答案依赖于问题A，一个概念的定义依赖于另一个概念），我们可以构建一个知识图谱。

构建图： 上下文中的每个信息块作为节点，它们之间的依赖关系作为边。
评估重要性：
- 入度/出度： 连接的节点越多，可能越重要。
- 最短路径： 核心节点往往是连接多个概念的枢纽。
- PageRank/Centrality： 评估节点在图中的重要性。
淘汰策略： 优先淘汰那些入度低、不被其他关键信息依赖的“叶子节点”。但需要确保被淘汰的信息不会破坏核心逻辑链。

代码示例：简化版图结构

from collections import defaultdict

class GraphContextItem(ContextItem):
    def __init__(self, item_id: str, content: str,
                 priority: PriorityLevel = PriorityLevel.MEDIUM,
                 tags: list = None,
                 created_at: float = None,
                 last_accessed_at: float = None,
                 access_count: int = 0,
                 token_count: int = None,
                 dependencies: list = None): # 依赖的其他item_id
        super().__init__(item_id, content, priority, tags, created_at, last_accessed_at, access_count, token_count)
        self.dependencies = dependencies if dependencies is not None else []
        self.dependents = set() # 哪些item依赖我

class DependencyGraph:
    def __init__(self):
        self.nodes = {} # {item_id: GraphContextItem}
        self.adjacency_list = defaultdict(set) # {item_id: set_of_dependent_item_ids}

    def add_item(self, item: GraphContextItem):
        self.nodes[item.item_id] = item
        for dep_id in item.dependencies:
            # item 依赖 dep_id，则 dep_id 是 item 的前驱，item 是 dep_id 的后继/依赖者
            if dep_id in self.nodes: # 确保依赖项存在
                self.nodes[dep_id].dependents.add(item.item_id)
            # 也可以在这里记录反向依赖，方便查找
            self.adjacency_list[dep_id].add(item.item_id) # dep_id 被 item 依赖

    def remove_item(self, item_id: str):
        if item_id not in self.nodes:
            return

        # 移除指向该节点的依赖
        for dep_id in self.nodes[item_id].dependencies:
            if dep_id in self.nodes:
                self.nodes[dep_id].dependents.discard(item_id)
            self.adjacency_list[dep_id].discard(item_id)

        # 移除该节点的所有出边
        for dependent_id in self.nodes[item_id].dependents.copy(): # 复制一份，避免在迭代时修改
            # 清除依赖这个 item_id 的项的 dependencies 列表
            if dependent_id in self.nodes:
                self.nodes[dependent_id].dependencies.remove(item_id)

        del self.nodes[item_id]
        if item_id in self.adjacency_list:
            del self.adjacency_list[item_id]

    def get_importance_score(self, item_id: str) -> int:
        """
        基于依赖关系计算重要性分数。
        例如：被依赖的次数 + 自身依赖的次数 （入度+出度）
        或者只计算被依赖的次数（入度），因为被依赖的项更难被移除。
        """
        if item_id not in self.nodes:
            return 0

        item = self.nodes[item_id]
        # 被依赖的次数：len(item.dependents)
        # 自身依赖的次数：len(item.dependencies)

        # 这里我们更关注“被多少其他关键信息所依赖”，被依赖越多越重要
        # 也可以结合 PageRank 或其他图算法
        return len(item.dependents)

# 在 ContextManager 中集成 DependencyGraph
class GraphContextManager(ContextManager):
    def __init__(self, max_tokens: int, tokenizer):
        super().__init__(max_tokens, tokenizer)
        self.dependency_graph = DependencyGraph()

    def add_item(self, item_id: str, content: str, priority: PriorityLevel = PriorityLevel.MEDIUM, tags: list = None, dependencies: list = None):
        # 创建 GraphContextItem
        token_count = len(self.tokenizer.encode(content))
        item = GraphContextItem(item_id, content, priority, tags, token_count=token_count, dependencies=dependencies)

        # 将 item 添加到 ContextManager 的 context_items
        self.context_items[item_id] = item
        self.current_tokens += token_count

        # 添加到依赖图
        self.dependency_graph.add_item(item)

        self._manage_context_size()
        return item

    def _manage_context_size(self):
        # ... (省略 EPHEMERAL 淘汰部分) ...

        # 在计算 evictable_items 的优先级时，结合图的重要性
        current_time = time.time()
        evictable_items = [
            item for item in self.context_items.values()
            if item.priority != PriorityLevel.CRITICAL
        ]

        evictable_items.sort(key=lambda item: (
            item.get_priority_score(current_time) + # 基础分
            self.dependency_graph.get_importance_score(item.item_id) * 100 # 图的重要性加权
        ))

        for item in evictable_items:
            if self.current_tokens <= self.max_tokens:
                break

            print(f"Evicting item by graph score: {item.item_id} (Graph Importance: {self.dependency_graph.get_importance_score(item.item_id)})")
            self.current_tokens -= item.token_count
            del self.context_items[item.item_id]
            self.dependency_graph.remove_item(item.item_id) # 从图中移除

        # ... (省略警告部分) ...

4.3 学习（自适应）方法

通过机器学习模型来预测上下文项的重要性，从而实现更智能、更自适应的淘汰策略。

4.3.1 强化学习（Reinforcement Learning, RL）

将上下文淘汰问题建模为一个强化学习问题。

Agent： 淘汰算法本身。
State（状态）： 当前上下文窗口的内容、当前的任务、上下文窗口的饱和度。
Action（动作）： 选择一个或多个上下文项进行淘汰。
Reward（奖励）：
- 正向奖励： 成功完成任务、生成高质量的响应、用户满意度高、上下文窗口有效利用。
- 负向奖励： 任务失败、需要用户重复信息、生成不相关或错误的内容、因淘汰关键信息导致的错误。
挑战：
- 奖励稀疏性： 任务完成的奖励可能很久才出现。
- 状态空间大： 上下文内容是高维的。
- 探索与利用： 如何在尝试不同淘汰策略（探索）和使用已知最优策略（利用）之间取得平衡。
- 需要大量的训练数据和仿真环境。

4.3.2 监督学习（Supervised Learning）

训练一个分类或回归模型来预测每个上下文项的重要性分数。

训练数据：
- 输入特征： 上下文项的各种属性（时效性、频率、长度、类型、标签、与当前查询的语义相似度、图中的重要性等）。
- 标签（Ground Truth）： 人工标注每个上下文项对于完成特定任务的重要性（例如：0-5分，或二元分类：重要/不重要）。或者，可以基于事后分析，标记那些在任务成功中被模型实际引用的上下文项为“重要”。
模型： 可以是决策树、随机森林、梯度提升树（XGBoost/LightGBM）、神经网络等。
流程：
1. 收集大量带有上下文和任务结果的数据。
2. 对每个上下文项进行特征提取和重要性标注。
3. 训练模型预测重要性分数。
4. 在实际运行时，使用该模型为每个上下文项生成一个实时优先级分数，然后按分数进行淘汰。

监督学习特征示例：

特征名称	类型	描述
`recency_score`	数值	(current_time – item.last_accessed_at) 的某种衰减函数
`frequency_score`	数值	item.access_count 的某种变换
`token_count`	数值	item.token_count
`priority_level_enum`	类别/数值	item.priority 的枚举值或映射的数值
`is_system_instruction`	布尔	item.tags 中是否包含 ‘SYSTEM_INSTRUCTION’
`semantic_similarity`	数值	item.embedding 与 current_query_embedding 的余弦相似度
`dependency_in_degree`	数值	在依赖图中，有多少其他项依赖于此项
`contains_entity`	布尔	内容是否包含命名实体（如人名、地名、组织）
`is_question`	布尔	内容是否是问题（可以通过问句检测模型判断）
`user_feedback_score`	数值	如果有用户显式反馈此项的重要性（例如，收藏、置顶）

4.4 混合方法

在实际系统中，通常会采用多种方法的组合，以发挥各自的优势。

分层淘汰：
1. 第一层（硬规则）： 立即淘汰 EPHEMERAL 类型的项，或强制保留 CRITICAL 项。
2. 第二层（启发式）： 对剩余项应用加权 LRU/LFU，或基于标签/类型进行初步筛选。
3. 第三层（语义/学习）： 对通过前两层筛选的项，使用语义相关性或学习模型进行精细化优先级评分，并淘汰分数最低的项。
加权综合评分： 将不同维度（时效性、频率、语义相关性、预设优先级、图重要性、学习模型预测分数）的评分进行归一化，然后通过加权求和，得到一个最终的综合优先级分数。

最终优先级分数 = w1 * (时效分) + w2 * (频率分) + w3 * (语义分) + w4 * (预设优先级分) + w5 * (图重要性分) + ...

这些权重 (w1, w2, …) 可以通过人工调整，也可以通过学习方法（如优化任务表现来调整权重）获得。

5. 设计健壮的优先级淘汰系统：架构考量

一个有效的优先级淘汰系统不仅仅是算法，更是一个需要周密设计的子系统。

5.1 上下文项的统一表示

所有进入上下文窗口的信息都应被封装成统一的 ContextItem 对象，包含以下关键属性：

id: 唯一标识符。
content: 原始文本内容。
token_count: 文本内容的token数量。
created_at: 创建时间戳。
last_accessed_at: 最后访问时间戳。
access_count: 访问次数。
priority_level: 枚举类型，如 CRITICAL, HIGH, MEDIUM, LOW, EPHEMERAL。
tags: 字符串列表，如 ["SYSTEM_INSTRUCTION", "USER_PREFERENCE", "FACT"]。
embedding: 语义向量（如果使用语义方法）。
dependencies: 依赖的其他 item_id 列表。
importance_score: 实时计算的综合优先级分数。

5.2 淘汰触发机制

何时启动淘汰过程？

硬性上限触发： current_tokens > max_tokens 时立即触发。
软性阈值触发： 当 current_tokens > max_tokens * 0.8（例如80%）时，预先启动部分淘汰，或发出警告。
周期性触发： 定期检查上下文窗口，即使未达上限，也淘汰优先级极低的项，以保持上下文精简。
任务切换触发： 当系统检测到用户意图或任务发生重大转变时，可以清空或大幅度淘汰与旧任务相关的信息。

5.3 淘汰策略编排

一个 ContextManager 类来管理所有上下文项，并协调淘汰过程：

class ContextManager:
    def __init__(self, max_tokens: int, tokenizer, embedding_model=None):
        self.max_tokens = max_tokens
        self.tokenizer = tokenizer
        self.embedding_model = embedding_model # Optional
        self.context_items = {}  # {item_id: ContextItem or SemanticContextItem or GraphContextItem}
        self.current_tokens = 0
        # 可以集成 DependencyGraph 如果需要
        self.dependency_graph = DependencyGraph() if True else None # 假设一直使用图

    def add_item(self, item_id: str, content: str, priority: PriorityLevel = PriorityLevel.MEDIUM, 
                 tags: list = None, dependencies: list = None):
        # 根据是否提供 embedding_model 或 dependencies 来创建不同类型的 ContextItem
        if self.embedding_model and dependencies is not None: # 同时支持语义和图
            token_count = len(self.tokenizer.encode(content))
            item = SemanticContextItem(item_id, content, self.embedding_model, priority, tags, token_count=token_count)
            # 这是一个简化的示例，实际需要创建一个结合了 Graph 和 Semantic 能力的 Item
            # 假设 SemanticContextItem 可以直接继承 GraphContextItem，或者 ContextManager 内部处理图逻辑
            item.dependencies = dependencies # 假设 SemanticContextItem 也有这个字段
            self.context_items[item_id] = item
            self.current_tokens += token_count
            if self.dependency_graph:
                self.dependency_graph.add_item(item)
        elif self.embedding_model:
            # 创建 SemanticContextItem
            pass # 略
        elif dependencies is not None:
            # 创建 GraphContextItem
            pass # 略
        else:
            # 创建基础 ContextItem
            pass # 略

        # ... 更新 item 或添加新 item 的逻辑 ...

        self._manage_context_size()
        return self.context_items[item_id]

    def _manage_context_size(self, current_query_text: str = None):
        if self.current_tokens <= self.max_tokens:
            return

        print(f"Context over limit: {self.current_tokens}/{self.max_tokens}. Initiating eviction.")

        current_time = time.time()
        current_query_embedding = None
        if self.embedding_model and current_query_text:
            current_query_embedding = self.embedding_model.encode(current_query_text, convert_to_tensor=True).cpu().numpy()

        # 1. 优先淘汰 EPHEMERAL 级别的信息
        # ... (与之前相同) ...

        # 2. 对剩余的可淘汰项计算综合分数
        evictable_items = [
            item for item in self.context_items.values()
            if item.priority != PriorityLevel.CRITICAL
        ]

        # 计算综合分数
        for item in evictable_items:
            combined_score = 0
            # 基础优先级分数
            combined_score += item.get_priority_score(current_time, weight_recency=0.2, weight_frequency=0.1, weight_priority_level=0.7)

            # 语义相关性分数
            if current_query_embedding is not None and hasattr(item, 'embedding'):
                item_embedding_np = item.embedding.cpu().numpy() if hasattr(item.embedding, 'cpu') else item.embedding
                similarity = cosine_similarity(current_query_embedding.reshape(1, -1), item_embedding_np.reshape(1, -1))[0][0]
                combined_score += similarity * 500 # 权重，放大影响

            # 图依赖分数
            if self.dependency_graph and hasattr(item, 'dependencies'):
                graph_importance = self.dependency_graph.get_importance_score(item.item_id)
                combined_score += graph_importance * 200 # 权重

            item.importance_score = combined_score # 将分数存储在 item 中，方便排序

        # 按分数升序排列（分数越低越容易被淘汰）
        evictable_items.sort(key=lambda item: item.importance_score)

        for item in evictable_items:
            if self.current_tokens <= self.max_tokens:
                break

            print(f"Evicting item: {item.item_id} (Combined Score: {item.importance_score:.2f})")
            self.current_tokens -= item.token_count
            del self.context_items[item.item_id]
            if self.dependency_graph:
                self.dependency_graph.remove_item(item.item_id) # 从图中移除

        if self.current_tokens > self.max_tokens:
            print(f"WARNING: Context still over limit after full eviction attempt: {self.current_tokens}/{self.max_tokens}")

5.4 保持连贯性和一致性

原子性淘汰： 尽量淘汰完整的逻辑单元（如一整句话、一个完整的代码块、一个完整的对话轮次），而不是截断。
依赖检查： 在淘汰一个项之前，检查是否有其他关键项依赖于它。如果有，则避免淘汰，或者同时淘汰所有依赖于它的项（需谨慎）。
摘要或压缩： 对于某些重要但过长的项，可以考虑将其压缩成简短的摘要，而不是完全淘汰。这是一种“软淘汰”策略。

5.5 用户反馈与覆盖

允许用户显式地“钉住”（pin）或“取消钉住”上下文项。被钉住的项应拥有 CRITICAL 优先级，确保不被淘汰。

6. 实现细节与最佳实践

高效数据结构：
- 使用 dict 存储 ContextItem，方便按 item_id 快速查找。
- 维护一个按优先级或淘汰分数排序的列表或优先队列，以便快速找到要淘汰的项。Python 的 heapq 模块可用于实现优先队列。
Tokenization 感知： 始终使用与目标LLM兼容的tokenizer来计算token数量，并确保淘汰时不会破坏token边界。
异步淘汰： 在高吞吐量的系统中，淘汰操作可能需要计算（尤其是语义嵌入），可以考虑在单独的线程或进程中异步执行，以避免阻塞主请求路径。
监控与调试：
- 记录每次淘汰的决策（哪些项被淘汰，为什么）。
- 监控上下文窗口的饱和度、淘汰率和淘汰对下游任务性能的影响。
- 提供工具来可视化当前上下文窗口的内容及其优先级分布。
参数调优： 启发式算法中的权重、衰减因子、阈值等参数需要根据实际应用场景进行反复测试和调优。

7. 挑战与未来方向

“重要性”的动态定义： 用户的意图、任务目标会动态变化，如何实时、准确地捕捉并调整“重要性”的定义是一个持续的挑战。
多模态上下文： 随着多模态AI的发展，上下文可能包含文本、图像、音频、视频等。如何统一评估这些不同模态信息的优先级将是新的难题。
主动式淘汰/预计算： 在上下文窗口饱和之前，预先识别可能被淘汰的项，或提前生成摘要。
与长期记忆集成： 将淘汰掉的信息并非简单丢弃，而是将其移入一个更高效、更持久的“长期记忆”系统（如向量数据库），并在需要时重新检索。这构成了AI系统完整的记忆管理体系。
可解释性： 对于学习型淘汰算法，理解模型为何做出某个淘汰决策，对于调试和建立信任至关重要。

8. 构建智慧记忆管理系统的关键一步

优先级淘汰算法是AI系统从简单记忆向智慧记忆管理迈进的关键一步。它使得AI系统能够在资源有限的情况下，更智能地聚焦于核心信息，提升对话的连贯性、任务的成功率和用户体验。没有一种“放之四海而皆准”的完美算法，最佳实践往往是结合具体应用场景，灵活运用启发式、语义和学习方法的混合策略，并持续优化。通过精心的设计和实现，我们可以赋予AI系统更强的“认知负载均衡”能力，使其在日益复杂的真实世界应用中，展现出更高的智能和效率。