什么是 ‘Cold Data’ 回收：内核如何判断哪些 Page Cache 已经很久没被访问并将其踢出内存？ - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

‘Cold Data’ 回收：Linux 内核如何判断哪些 Page Cache 已经很久没被访问并将其踢出内存？

各位技术同仁、编程爱好者，大家好！

今天，我们将深入探讨一个对系统性能至关重要的主题：Linux 内核如何智能地管理其 Page Cache，识别并回收那些“冷”数据。在操作系统中，内存是宝贵的资源，Page Cache 作为文件系统 I/O 性能优化的核心，其高效管理直接决定了应用程序的响应速度和整体系统吞吐量。当内存资源紧张时，内核必须做出艰难的决策：哪些数据应该保留在内存中以供未来快速访问，哪些数据可以被安全地“踢出”内存，为更活跃的数据腾出空间？这个决策过程，正是我们今天要聚焦的“冷数据回收”机制。

1. 引言：什么是 ‘Cold Data’ 回收？

在 Linux 系统中，当我们谈论“冷数据回收”，我们主要指的是内核对 Page Cache 中不再被频繁访问的页面进行识别、清理并最终释放内存的过程。Page Cache 是内核用来缓存文件数据和元数据的内存区域，旨在减少对慢速磁盘的访问。想象一下，你正在编辑一个大文件，或者运行一个需要频繁读取特定文件的程序。Page Cache 会将这些文件的数据块加载到内存中，以便后续的读操作可以直接从内存中获取，大大加快速度。

然而，内存是有限的。随着时间的推移，各种应用程序会访问不同的文件，Page Cache 会不断增长。当系统整体内存不足时，或者当某个应用程序需要大量内存时，内核就必须腾出空间。这时，那些已经很久没有被访问的文件数据页就成了回收的首选目标——它们是所谓的“冷数据”。

这里的核心挑战在于：内核如何“知道”一个页面是冷的还是热的？仅仅因为它被加载到内存中，并不意味着它就会一直被使用。一个页面可能在某个时刻被读取，然后就再也没有被访问过。内核需要一套精妙的算法来追踪页面的使用模式，并据此做出回收决策。

2. Page Cache：内存管理的核心组件

在深入回收机制之前，我们首先要理解 Page Cache 在 Linux 内存管理中的地位。

2.1 Page Cache 的基本作用

Page Cache 是一个块设备缓存，它将文件系统中的文件内容缓存到 RAM 中。当应用程序请求读取文件数据时，内核会首先检查 Page Cache。如果数据存在（缓存命中），则直接从内存返回；如果数据不存在（缓存未命中），内核会从磁盘读取数据，并将其放入 Page Cache，然后返回给应用程序。同样，当应用程序写入文件数据时，数据通常会先写入 Page Cache，然后由内核异步地写入磁盘（“回写”），从而提高写入性能。

每个 Page Cache 页面对应文件中的一个或多个文件系统块。在 Linux 内核中，这些页面由 struct page 结构体表示。

2.2 struct page 结构体：页面的身份与状态

struct page 是 Linux 内存管理中最核心的数据结构之一，它代表了一个物理内存页（通常是 4KB）。对于 Page Cache 中的页面，struct page 包含了大量关于该页面的元数据，这些元数据是内核进行冷热判断和回收决策的关键。

以下是 struct page 中与 Page Cache 和回收机制相关的一些关键成员（简化版）：

// 简化版的 struct page 结构体，仅包含与 Page Cache 和 LRU 相关字段
struct page {
    unsigned long flags;        // 页面状态标志，如 PG_referenced, PG_active, PG_dirty 等
    atomic_t _refcount;         // 页面引用计数
    struct list_head lru;      // 用于将页面链接到 LRU 列表
    struct address_space *mapping; // 指向文件 inode 的 address_space 结构体
    pgoff_t index;              // 页面在文件中的偏移量（页帧号）
    void *virtual;              // 页面的虚拟地址（如果映射到内核空间）
    // ... 其他成员 ...
};

其中，flags 字段是一个位图，存储了页面的各种状态信息。我们将在后续讨论中详细介绍几个关键的标志位。

3. 为什么需要回收：内存压力与性能权衡

内存回收（Reclamation）是操作系统不可避免的任务。当系统运行一段时间后，各种进程会申请内存，Page Cache 会存储大量文件数据。如果不对内存进行回收，系统迟早会耗尽物理内存，导致性能急剧下降甚至崩溃。

回收的根本原因是：

物理内存是有限的： 尽管现代服务器通常配备大量内存，但总有达到上限的时候。
新内存请求： 当进程需要新的内存时（例如，通过 malloc 分配堆内存，或者新的文件 I/O 导致 Page Cache 扩张），如果空闲内存不足，内核就必须回收一部分已占用的内存。
内存碎片： 即使总空闲内存量足够，如果碎片化严重，也可能无法满足大块内存的分配请求，需要回收并整理。

内核在进行内存回收时，面临一个性能权衡问题：

回收过多或过快： 可能将未来还会被访问的“热数据”从内存中踢出，导致后续访问时需要重新从磁盘加载，增加 I/O 延迟，降低系统性能。
回收过少或过慢： 可能导致系统内存耗尽，触发 OOM (Out Of Memory) 杀手，或者频繁地进行直接回收，阻塞进程，同样降低系统性能。

理想的回收机制应该能够准确识别并优先回收“冷数据”，同时尽量保留“热数据”，从而在内存可用性和系统性能之间取得最佳平衡。

4. LRU 的局限性与 Linux 内核的改进：2-LRU 算法

最早期的内存回收算法通常基于最近最少使用 (LRU – Least Recently Used) 原理。一个简单的 LRU 算法会将所有 Page Cache 页面维护在一个链表中，最近访问的页面放在链表头部，最久未访问的页面放在链表尾部。当需要回收内存时，就从链表尾部开始移除页面。

4.1 简单 LRU 的问题

然而，简单的 LRU 算法存在一些固有的问题：

突发性访问问题： 如果一个页面被一次性扫描，即使它在短时间内被大量访问，但之后再也没有被访问，它也会被视为“热”页面而长时间保留在内存中，从而挤占真正热页面的空间。例如，一个程序读取并处理一个巨大的日志文件，在处理过程中，文件的所有页面都会被加载到 Page Cache 并被标记为“最近使用”。一旦处理完成，这些页面可能再也不会被访问，但它们仍会停留在 LRU 列表的头部，阻止真正有用的页面进入。
“缓存污染”： 短期内大量数据的突发性访问会“污染”整个 LRU 列表，将真正热的数据挤到链表尾部，使得它们反而更容易被回收。

为了解决这些问题，Linux 内核采用了更复杂的、基于 “2-LRU” 思想的算法，它将 Page Cache 页面（以及匿名页面）划分为两个主要的 LRU 链表：活跃 (Active) 列表 和 非活跃 (Inactive) 列表。

4.2 活跃 (Active) 列表与非活跃 (Inactive) 列表

Linux 内核将所有可回收的页面（包括 Page Cache 页面和匿名页面）分成两大类，并分别挂载到两个不同的 LRU 链表中：

LRU_ACTIVE 列表 (活跃列表)： 存放那些被认为“热”的、当前正在被频繁访问的页面。这些页面不太可能被回收。
LRU_INACTIVE 列表 (非活跃列表)： 存放那些被认为“冷”的、可能不再被访问的页面。这些页面是回收的首选目标。

这两个列表是逻辑上的划分，每个内存区域 (Memory Zone) 都会维护自己的 active_list 和 inactive_list。

4.3 页面在这两个列表之间的迁移

页面的冷热判断和在这两个列表之间的迁移，是 2-LRU 算法的核心：

新页面进入： 当一个页面首次从磁盘加载到 Page Cache 时，它通常会被放置到 LRU_INACTIVE 列表的尾部。这是一种保守的策略，假设新加载的页面在没有被二次访问前，暂时是“冷”的。
页面访问时： 当一个页面被应用程序访问时（例如，通过 read() 系统调用），内核会检查它的状态。
- 如果页面已经在 LRU_ACTIVE 列表 中，则无需操作。
- 如果页面在 LRU_INACTIVE 列表 中，并且满足一定条件（例如，它的 PG_referenced 标志被设置），那么它会被移动到 LRU_ACTIVE 列表的头部。这表示该页面已被“重新激活”，从“冷”变为“热”。
- 如果页面在 LRU_INACTIVE 列表 中，但 PG_referenced 标志未设置，则它保持在原地，但 PG_referenced 标志会被设置，等待下次检查。
页面老化与降级： 内存回收机制（我们稍后讨论的 kswapd 或直接回收）会周期性地扫描 LRU_ACTIVE 列表。对于列表中的页面，它们会尝试清除 PG_referenced 标志。如果一个页面在随后的扫描周期中，其 PG_referenced 标志仍然没有被再次设置（意味着它在一段时间内没有被访问），那么它就会被从 LRU_ACTIVE 列表移动到 LRU_INACTIVE 列表的头部。这表示该页面正在“老化”，从“热”变为“冷”。

4.4 PG_referenced 标志的作用

PG_referenced 是 struct page 的 flags 字段中的一个关键位，它在 2-LRU 算法中扮演着“二次机会”的关键角色。

第一次访问： 当一个页面被应用程序访问时，如果它在 LRU_INACTIVE 列表，内核会尝试设置它的 PG_referenced 标志。
回收扫描： 当回收器扫描 LRU_INACTIVE 列表时，它会检查页面的 PG_referenced 标志。
- 如果 PG_referenced 标志已设置：这表明该页面在上次回收扫描后被访问过。内核会清除 PG_referenced 标志，并将页面移动到 LRU_ACTIVE 列表的头部，使其“升级”为热页面。
- 如果 PG_referenced 标志未设置：这表明该页面在上次回收扫描后没有被访问过。它确实是“冷”的，可以作为回收的候选。

这种机制有效地避免了简单 LRU 的问题：即使一个页面被短期内大量访问，只要它没有在后续的一段时间内再次被访问，它最终仍会被降级到 LRU_INACTIVE 列表并被回收。它给了页面一个“第二次机会”来证明其价值。

4.5 页面状态与 struct page 关键标志

除了 PG_referenced 和隐含的 PG_active (表示页面在活跃列表) 之外，struct page 的 flags 字段还有其他一些重要的标志位，它们影响着回收决策：

标志位	描述	对回收的影响
`PG_referenced`	页面在上次扫描后被引用过。	作为从 `INACTIVE` 列表升级到 `ACTIVE` 列表的依据。
`PG_active`	页面当前在 `LRU_ACTIVE` 列表中。	表明页面是“热”的，不应优先回收。
`PG_dirty`	页面内容已被修改，但尚未写入磁盘。	必须在回收前回写到磁盘。
`PG_writeback`	页面内容正在被写入磁盘（回写过程中）。	此时不能回收，必须等待回写完成。
`PG_locked`	页面被锁定，通常用于防止并发访问或在 I/O 操作进行时。	必须等待解锁才能回收。
`PG_swapcache`	页面是交换缓存的一部分（匿名页或被换出的 Page Cache 页）。	可以被换出到交换空间。
`PG_mappedto_swap`	页面已被映射到交换空间（通常用于匿名页）。	可以被换出到交换空间。
`PG_anon`	页面是匿名页面（非文件支持）。	回收时可以被换出到交换空间。
`PG_mlocked`	页面被 `mlock()` 系统调用锁定，不能被换出或回收。	无法回收。

5. 回收机制的幕后英雄：kswapd 与直接回收

Linux 内核的内存回收工作主要通过两种方式进行：异步的 kswapd 进程和同步的直接回收。

5.1 kswapd：异步回收

kswapd（kernel swap daemon）是内核中的一个守护进程，它的主要职责是在系统空闲内存低于某个阈值时，在后台主动回收内存，以确保系统始终有足够的空闲内存供应用程序使用。kswapd 是异步的，它在内存压力变大之前就开始工作，避免了内存耗尽时的紧急回收。

触发条件： 每个内存区域 (Memory Zone) 都有三个水位线 (Watermarks)：min, low, high。当区域的空闲内存降到 low 水位线以下时，kswapd 就会被唤醒。
工作原理： kswapd 唤醒后，会扫描各个 LRU 列表，重点是 LRU_INACTIVE 列表。它会尝试将页面从 LRU_ACTIVE 列表降级到 LRU_INACTIVE 列表，并从 LRU_INACTIVE 列表中选择页面进行回收。
目标： kswapd 的目标是将空闲内存提升到 high 水位线以上，然后再次进入睡眠。

kswapd 的存在，使得系统在大多数情况下能够平稳运行，避免因内存不足而导致的卡顿。

5.2 直接回收：同步压力

当系统内存极度紧张，以至于应用程序请求内存时，kswapd 无法及时腾出足够的内存，或者空闲内存已经降到了 min 水位线以下时，就会触发直接回收 (Direct Reclaim)。

触发条件： 应用程序在分配内存时发现空闲内存不足，并且 kswapd 已经无法满足需求。
工作原理： 此时，当前正在请求内存的进程会被阻塞，并主动参与到内存回收工作中。它会直接调用内存回收函数，扫描 LRU 列表并回收页面，直到有足够的内存来满足其请求。
影响： 直接回收是同步的，会阻塞当前进程，导致应用程序响应变慢，用户体验下降。因此，内核会尽量避免直接回收的发生，通过 kswapd 提前回收内存。

6. 冷数据判断与页面迁移的详细过程

现在，让我们更详细地分解回收器（无论是 kswapd 还是直接回收）如何扫描 LRU_INACTIVE 列表并做出回收决策。这个过程的核心逻辑通常在 shrink_page_list() 或类似函数中实现。

6.1 扫描 Inactive 列表

回收器会遍历 LRU_INACTIVE 列表中的页面。对于每一个页面，它都会进行一系列检查。

// 伪代码：简化版的 shrink_page_list 核心逻辑
// zone: 当前要回收的内存区域
// nr_to_scan: 本次扫描的目标页面数量
unsigned long shrink_page_list(struct zone *zone, unsigned long nr_to_scan) {
    LIST_HEAD(pages_to_free);
    LIST_HEAD(pages_to_activate);
    struct page *page;
    unsigned long nr_reclaimed = 0;
    unsigned long nr_scanned = 0;

    // 遍历 zone 的 inactive_list
    list_for_each_entry_safe(page, tmp_page, &zone->lru[LRU_INACTIVE].list, lru) {
        if (nr_scanned++ >= nr_to_scan)
            break;

        // 检查页面是否正在被使用或有特殊状态
        if (PageLocked(page) || PageWriteback(page) || PageMlocked(page)) {
            // 如果页面被锁定、正在回写或被 mlcok 锁定，则暂时跳过
            continue;
        }

        // 核心的冷热判断逻辑
        if (page_referenced(page, 0, &zone->vm_stat[NR_ANON_PAGES])) {
            // 页面被引用过，将其移到活跃列表
            list_move(&page->lru, &pages_to_activate); // 收集起来，稍后批量移动
            ClearPageReferenced(page); // 清除引用标志，等待下次检查
        } else {
            // 页面未被引用，是回收的候选者

            // 处理脏页 (Page Cache 特有)
            if (PageDirty(page)) {
                // 如果是脏页，需要将其写入磁盘。
                // 这通常涉及将页面从 LRU 列表中移除，然后加入到回写队列，
                // 等待回写完成后再释放。
                // 简化处理：这里假设我们将其标记为回写并跳过本次回收
                SetPageWriteback(page);
                mark_page_dirty(page); // 确保被调度回写
                continue;
            }

            // 处理文件映射页 (Page Cache 特有)
            if (page_mapping(page) && !PageAnon(page)) {
                // 如果是文件映射页 (Page Cache)，检查是否有用户空间映射
                if (try_to_unmap(page)) {
                    // 成功解除所有用户空间映射，可以回收
                    list_move(&page->lru, &pages_to_free); // 收集起来，稍后批量释放
                    nr_reclaimed++;
                } else {
                    // 无法解除映射 (例如，有进程正在使用)，暂时跳过
                    // 或者可以尝试将其移到 inactive 列表尾部，等待下次机会
                    // 实际内核中会更复杂，可能会将无法unmap的页重新放回 inactive 列表头部
                }
            }
            // 处理交换缓存页 (Page Cache 可以被换出，也可以是匿名页)
            else if (PageSwapCache(page)) {
                // 如果是交换缓存页，需要将其换出到交换空间
                // 简化处理：假设成功换出
                list_move(&page->lru, &pages_to_free); // 收集起来，稍后批量释放
                nr_reclaimed++;
            }
            // 否则，是干净的 Page Cache 或匿名页，可以直接释放
            else {
                list_move(&page->lru, &pages_to_free); // 收集起来，稍后批量释放
                nr_reclaimed++;
            }
        }
    }

    // 批量处理收集到的页面
    // 1. 将 pages_to_activate 移动到 zone 的 active_list 头部
    list_splice_tail_init(&pages_to_activate, &zone->lru[LRU_ACTIVE].list);
    // 2. 释放 pages_to_free 中的页面
    release_pages(&pages_to_free);

    return nr_reclaimed;
}

6.2 判断页面引用状态：page_referenced()

page_referenced() 函数是冷热判断的核心。它的任务是确定一个页面在最近一段时间内是否被 CPU 访问过。

检查 PG_referenced 标志： 首先，它会检查 struct page 的 PG_referenced 标志。如果这个标志被设置，说明页面在上次扫描后被访问过。
扫描页表 (PTE)： 更重要的是，page_referenced() 还会扫描所有映射到该页面的进程的页表 (Page Table Entries – PTE)。在页表中，每个 PTE 都有一个“访问位” (Accessed Bit)。如果这个位被设置，说明 CPU 通过该 PTE 访问了该页面。page_referenced() 会清除 PTE 的访问位，并将该页面的 PG_referenced 标志设置。

// 伪代码：简化版的 page_referenced 函数
// page: 要检查的页面
// return: 如果页面被引用过，返回 true；否则返回 false
bool page_referenced(struct page *page, int is_active_list, unsigned long *vm_flags) {
    bool referenced = false;

    // 1. 检查 PG_referenced 标志
    if (TestClearPageReferenced(page)) { // 如果标志被设置，说明被引用过
        referenced = true;
    }

    // 2. 扫描所有映射到此页面的页表 (PTE)
    // 这是真正探测页面是否被用户进程访问的关键步骤
    // 对于 Page Cache 页面，其 mapping 指向 inode 的 address_space
    // 通过 address_space 可以找到所有映射该文件的 VMA
    // 遍历 VMA 并扫描 PTE
    if (page_mapping(page)) { // 仅对文件映射页进行 PTE 扫描
        // 伪代码，实际内核实现非常复杂，涉及 MMU 结构和页表 walk
        // 遍历所有映射此页面的 VMA
        //   对于每个 VMA，找到对应的 PTE
        //     如果 PTE_present 且 PTE_accessed
        //       ClearPTEAccessed(pte); // 清除访问位
        //       referenced = true;
        //       break; // 只要找到一个被访问的 PTE 即可
    }

    return referenced;
}

如果 page_referenced() 返回 true，则该页面会被视为“热”页面，并被移回 LRU_ACTIVE 列表。如果返回 false，则该页面是“冷”的，可以进一步考虑回收。

6.3 处理脏页：回写

如果一个 Page Cache 页面被标记为 PG_dirty (脏页)，这意味着它的内容已被修改，但尚未写入磁盘。在回收脏页之前，内核必须将其内容回写到持久存储中。

回写过程： 回收器会尝试将脏页加入到回写队列中。这通常通过 mark_page_dirty() 和 congestion_wait() 等机制实现。回写是一个异步操作，页面在回写期间会被标记为 PG_writeback。
等待回写： 回收器不能直接释放正在回写的页面。它会跳过这些页面，或者等待回写完成。通常，回收器会选择跳过，让更“干净”的页面先被回收，而脏页则等待回写进程处理。

6.4 处理映射页：解除映射 (try_to_unmap)

对于 Page Cache 页面，它可能同时被一个或多个用户进程映射到它们的虚拟地址空间中。在回收这些页面之前，内核必须将它们从所有相关的进程页表中解除映射。这通过 try_to_unmap() 函数实现。

try_to_unmap() 会遍历所有映射到该页面的进程的虚拟内存区域 (VMA)，并从它们的页表中移除对应的 PTE。如果页面是脏的，它还会将页面的 PG_dirty 标志设置到 PTE 中，以确保数据被回写。如果 try_to_unmap() 成功移除了所有映射，则页面可以被回收。如果由于某种原因（例如，页面被锁定或有其他活动引用）未能解除映射，则该页面暂时不能被回收。

6.5 处理交换缓存页：换出

虽然 Page Cache 主要用于文件数据，但它也可以与交换空间交互。特别是对于匿名页面，或者那些被标记为可交换的 Page Cache 页面，当它们被回收时，如果它们是脏的，并且没有对应的文件位置可以回写，它们会被写入到交换分区（Swap Space）。

PG_swapcache 标志： 当一个页面被换出到交换空间时，它并不会立即从内存中移除。相反，它会成为一个“交换缓存页”，并设置 PG_swapcache 标志。这意味着该页面的内容已在交换空间中有一个副本。
回收交换缓存页： 当回收器遇到 PG_swapcache 页面时，如果该页面是干净的（即，内存中的内容与交换空间中的内容一致），并且没有其他引用，它就可以直接被释放。如果它是脏的，内核可能需要将其写回交换空间（更新交换空间中的副本）之后再释放。

6.6 页面最终释放

当一个页面经过上述所有检查，被确认为“冷”且可以安全回收时，它就会被添加到待释放列表中。最终，这些页面会被 __free_page() 或 free_pages_prepare() 等函数释放，归还给系统的空闲页面池。

7. 内存区域 (Memory Zones) 与水位线 (Watermarks)

Linux 内核为了更精细地管理内存，将物理内存划分为不同的内存区域 (Memory Zones)。常见的区域包括：

ZONE_DMA： 适用于支持 DMA (Direct Memory Access) 的设备。
ZONE_NORMAL： 内核和大多数用户进程可以直接访问的普通内存。
ZONE_HIGHMEM： 32 位系统上，内核不能直接映射的高端内存。在 64 位系统上，ZONE_NORMAL 通常覆盖所有物理内存，ZONE_HIGHMEM 不存在或很少使用。

每个 zone 都会维护自己独立的 LRU 列表、空闲页面列表以及一组水位线 (Watermarks)：

min watermark： 最低水位线。当一个 zone 的空闲内存低于此值时，系统就会进入紧急状态，所有请求内存的进程都会被阻塞并强制执行直接回收。
low watermark： 低水位线。当空闲内存低于此值时，kswapd 就会被唤醒，开始在后台回收内存。
high watermark： 高水位线。kswapd 的目标是回收内存直到空闲内存达到此值，然后再次进入睡眠。

这些水位线确保了内存回收是一个有层次、有策略的过程，尽量避免系统陷入内存枯竭的境地。

8. 用户空间提示与内核协同：`madvise` 和 `fadvise`

除了内核自动的冷热判断机制外，应用程序也可以通过系统调用向内核提供关于内存使用模式的“提示”，帮助内核做出更优的回收决策。

8.1 madvise() 系统调用

madvise() 用于告知内核进程虚拟地址空间中某个范围的预期使用模式。其中一个重要的标志是 MADV_DONTNEED：

#include <sys/mman.h>

int madvise(void *addr, size_t length, int advice);

当应用程序调用 madvise(addr, length, MADV_DONTNEED) 时，它告诉内核，指定内存区域 [addr, addr + length) 内的数据在近期内可能不会被再次访问。内核会尽可能地释放这些页面，或者至少将它们标记为回收的优先候选。

对于匿名页： 这些页面会被释放，其内容可能被丢弃（如果未修改）或写入交换空间（如果已修改）。
对于 Page Cache 页 (文件映射页)： 这些页面会被从进程的页表中解除映射，并加入到 LRU_INACTIVE 列表，清除 PG_referenced 标志，成为回收的优先目标。如果页面是脏的，内核会安排其回写。

8.2 fadvise64() 系统调用

fadvise64() 是针对文件描述符的建议，用于告知内核文件数据在 Page Cache 中的预期使用模式：

#include <fcntl.h>

int fadvise64(int fd, off_t offset, off_t len, int advice);

与 madvise() 类似，FADV_DONTNEED 建议内核释放指定文件区域 [offset, offset + len) 对应的 Page Cache 页面。

效果： 告诉内核这些页不再需要缓存。内核会将这些页面从 Page Cache 中移除（如果它们是干净的），或者安排回写后移除（如果它们是脏的）。它们不会被移动到 LRU 列表，而是直接被释放。

这些用户空间提示允许应用程序在明确知道某些数据不再需要时，主动通知内核，从而更早、更有效地回收内存，避免不必要的内存占用和潜在的性能问题。

9. 总结与展望

Linux 内核的 Page Cache 冷数据回收机制是一个复杂而精妙的系统，它通过 2-LRU 算法、PG_referenced 标志、kswapd 守护进程以及直接回收等多种手段，力求在有限的内存资源和应用程序性能之间取得最佳平衡。从页面的创建到其在活跃/非活跃列表间的迁移，再到最终的回收，每一步都体现了内核设计者对内存使用模式的深刻理解。

理解这些机制不仅能帮助我们更深入地掌握 Linux 内存管理，还能指导我们在开发应用程序时，通过合理利用 madvise 和 fadvise 等系统调用，更智能地与内核协作，共同优化系统性能。随着内存技术和系统负载模式的不断演进，Linux 内核的内存回收算法也在持续优化，未来的版本中可能会引入更多先进的机器学习或自适应策略，以实现更精准的冷热判断和更高效的内存利用。