PHP 核心内存池（Zend MM）的分配算法：从‘块管理’到‘页管理’的演型 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

各位同学，大家好！欢迎来到今天的“PHP 内部宇宙”公开课。

我是你们的向导。今天我们要聊的话题，听起来可能有点枯燥——内存管理。但请相信我，如果你想知道 PHP 为什么有时候快得飞起，有时候又卡得像只树懒，你就必须搞懂这个核心机制：Zend MM（Memory Manager，内存管理器）。

很多人以为 PHP 是一种解释型语言，所以它慢。这当然没错，但“解释”只是表象，真正的幕后推手是它那精妙得令人发指的内存分配算法。

今天，我们不谈 echo "Hello World"，我们谈的是 PHP 是如何在操作系统那个粗糙的砂纸上，通过自己的双手，雕刻出精致的内存宫殿的。

第一幕：当房东（操作系统）遇上房客（PHP）

想象一下，你的操作系统就是一个极其抠门的房东。你跟他说：“嘿，我要租个房间，大概 16 平米，我要睡觉，还要放衣服。”

操作系统会怎么干？它会从一大块地皮上切一块给你。但这块地皮可能 16 平米，也可能 1 平米，甚至 100 平米。如果你接着问：“我要租 17 平米”，房东会说：“对不起，刚才那块 16 平米已经租出去了，但这儿有一块 100 平米，你要不要先凑合一下？剩下的 84 平米你先空着，我不收你钱。”

这就是 malloc 和 free 的日常。这就叫外部碎片。随着时间的推移，墙上全是窟窿，没有一块能凑成一套完整的房子，虽然总空地面积够住一家人，但你根本没法住进去。

PHP 呢？PHP 不是一个卑微的房客，它是一个傲娇的装修工。它不打算跟操作系统讨价还价。PHP 会走到房东面前，拍出一叠钱：“我要把你楼下这一整层楼（Segment，段）都包下来！”

这就引出了 Zend MM 的核心哲学：预分配。

第二幕：从“块”到“页”的演变

早期的内存管理器（或者说是某些简单的 C 语言实现）喜欢搞“块管理”。什么意思呢？就像自助餐厅，我把盘子切好了，有的切 8 寸的，有的切 10 寸的，有的切 5 寸的。谁要吃，直接拿。

这种方法的缺点显而易见：内部碎片。你想吃个包子（小内存），结果给你端上来一大碗米饭（大内存）。你吃不完，剩下的只能浪费。

演变：PHP 的开发者在历史的长河中逐渐意识到，“切盘子”太蠢了。于是，他们发明了“页管理”模型。

1. 段—— 物理世界的砖块

这是最底层的概念。PHP 需要一大块连续的内存。它不会一次次地调用 malloc，那样太慢了，而且容易导致外部碎片。
PHP 会一次性向操作系统申请一大块内存，比如 1MB 或者 4MB（Segment）。

比喻：这就像你买断了一整层公寓楼。不管楼上有多少户人家（PHP 变量、字符串、数组），这都是你的地盘，你说了算。

2. 页—— 逻辑世界的方格

有了整层楼还不够，你得管理每一户人家。操作系统最小分配单位通常是 4KB（一页）。
所以，PHP 把这 1MB 的楼（Segment）切分成一个个 4KB 的小格子，这就是页。

比喻：4KB 就是楼里的标准户型。一扇门，一块地。

3. 块—— 房客的空间

在 4KB 的格子里，PHP 还要细分。你要存一个整数（ZVAL），只要 16 字节；你要存一个字符串，可能需要 100 字节。
所以，PHP 在页里面，继续切分，这就形成了块。

演变总结：从“盲目切分小块”到“先买楼（Segment），再按页（Page）分配，最后按需切块”。这就像是从“摆地摊卖饭团”进化到了“盖大楼精装修”。

第三幕：Zend MM 的核心数据结构

我们要看代码了。别慌，我们不写那种满屏 typedef 的 C 语言，我们用“伪代码 + 解释”的方式来看看 Zend MM 的骨架。

1. Heap（大管家）

首先，PHP 运行时有一个全局的 zend_mm_heap。它相当于大楼的物业管理处。

struct _zend_mm_heap {
    zend_mm_segment *segments;      // 指向楼下第一块地皮
    size_t           peak_size;     // 买楼一共花了多少钱
    size_t           size;          // 当前用了多少钱
    size_t           reserve;       // 预留空间
    // ... 还有一堆标志位
};

2. Segment（地皮）

每一块地皮里都装满了页。

struct _zend_mm_segment {
    zend_mm_segment *next;    // 指向下一块地皮
    char            heap_start[]; // 真正的内存数据从这里开始
};

3. Page（方格）

这是关键。Zend MM 并没有把每一页都做成死板的 4KB。它很聪明，它把 4KB 切成几个大的块。比如，8KB 的块，16KB 的块，32KB 的块。

struct _zend_mm_page_info {
    size_t        prev;       // 前一个空闲块的偏移量
    size_t        next;       // 下一个空闲块的偏移量
    size_t        first_free; // 第一个空闲块的偏移量
    // ... 这里的 magic numbers 决定了块的类型和大小
};

第四幕：分配算法—— Next Fit

现在，我们的 PHP 脚本跑起来了，需要分配内存。比如 new MyClass()。

这时候，大管家 zend_mm_heap 出场了。它不看操作系统，它看自己手里的“地皮”和“房间”。

Zend MM 使用了一种叫 Next Fit（下一次适应） 的策略。这玩意儿很有意思，跟别的分配器不太一样。

普通分配器：First Fit（首次适应）

“嘿，有没有 32KB 的空地？哦，第一块地皮有！用这块！”
缺点：你用掉了第一块，第二块、第三块永远空着。这会导致内存零散化，最后虽然总空间够，但找不到连续的一大块。

Next Fit（下一次适应）

“嘿，有没有 32KB 的空地？哦，刚才最后用到哪了？对，第 50 页。从第 51 页开始找！”

代码模拟：

class SimpleZendMM {
    private $pages = [];
    private $lastIndex = 0; // 记录上次分配到哪了

    public function allocate($size) {
        // 寻找合适的页
        // 注意：这里为了演示简单，假设每页大小等于块大小
        // 真实 Zend MM 要处理 8K/16K/32K 混合体
        $searchStart = $this->lastIndex; 

        for ($i = $searchStart; $i < count($this->pages); $i++) {
            if (empty($this->pages[$i])) {
                $this->pages[$i] = true; // 标记为占用
                $this->lastIndex = $i + 1; // 记录下次从这里找，提升效率
                return $i;
            }
        }

        // 如果跑完了没找到，说明满了，或者我们要换页了（触发 OS 分配）
        // 真实 Zend MM 会在这里调用 malloc 申请新的 Segment
        return -1;
    }

    public function free($pageIndex) {
        $this->pages[$pageIndex] = false;
        // 释放的时候，不需要重置 lastIndex，保持 Next Fit 的连续性
    }
}

$mm = new SimpleZendMM();
$mm->allocate(32); // 第0页
$mm->allocate(32); // 第1页
$mm->allocate(32); // 第2页
$mm->free(1);      // 释放第1页

// 再次申请
$mm->allocate(32); // 直接拿到第1页！

这种策略的优点：它能保持内存使用的局部性。就像你吃完饭坐的座位，你下次吃饭大概率还坐那，不用站起来重新找全场的桌子。这对于 CPU 缓存（Cache）非常友好！

第五幕：释放与合并—— 碎片的终结者

内存分配只是半场，内存释放才是重头戏。

假设我们分配了 3 个 32KB 的块（第 0、1、2 页），然后释放了第 1 页。现在第 0、1、2 页都空了。

这时候，如果操作系统只是把指针还给 malloc，那下一块内存分配可能还是不会连在一起。但 Zend MM 是个强迫症，它必须保证内存是紧凑的。

合并算法：

当 zend_mm_free 被调用时，它不仅把块放回空闲列表，还会问自己：

“我左边有哥们吗？”
“我右边有哥们吗？”

如果左边和右边都是空闲的，它会把这三个块“焊接”成一个大块！

这就是 Coalescing（合并）。

让我们看看代码逻辑（伪代码）：

void zend_mm_free(zend_mm_heap *heap, void *ptr) {
    // 1. 找到这块内存对应的页信息和偏移量
    // ...

    // 2. 检查前一个块
    void *prev_block = get_prev_block(ptr);
    if (is_free(prev_block)) {
        // 左边有地，合并！
        // 从空闲链表中摘掉前一个
        remove_free_block(prev_block);
        // 把前一个块和当前块合并
        merge_blocks(prev_block, ptr);
        // 更新当前指针指向合并后的头
        ptr = prev_block; 
    }

    // 3. 检查后一个块
    void *next_block = get_next_block(ptr);
    if (is_free(next_block)) {
        // 右边也有地，再合并！
        remove_free_block(next_block);
        merge_blocks(ptr, next_block);
        // 此时 ptr 已经指向了最大块的头
    }

    // 4. 把合并好的大块扔进空闲列表
    insert_free_block(ptr);
}

这一段代码，简直是程序员的艺术。它通过简单的指针操作，消除了内存碎片。这就解释了为什么 PHP 即使跑了一个庞大的日志分析脚本，内存占用依然很稳定——因为 Zend MM 在不断地打扫卫生，把零碎的砖块拼成大墙。

第六幕：ZVALs 和 Objects—— 优雅的存储

好，我们现在知道了页怎么管理。那 PHP 里那些乱七八糟的变量是怎么放进去的？

这就涉及到 ZVAL 结构。

在 Zend MM 中，分配的最小单位通常是一个 ZVAL。ZVAL 里面存了变量的类型（int, string, array）、值，以及引用计数（refcount）。

当你在 PHP 里写 $a = 1; $b = &$a; 时，zend_mm 的内部机制其实是在管理这些 ZVAL 的头部。

代码示例：ZVAL 的内存布局

// 伪代码展示 ZVAL 的结构
class ZVal {
    public $type;   // 1 byte, 比如 IS_LONG
    public $value;  // 指针，指向实际数据或指向另一块内存
    public $refcount; // 引用计数
}

// 在 Zend MM 中，ZVAL 头部通常是紧跟在数据前面的
struct _zval_struct {
    zend_value value;    // 实际数据或偏移量
    zend_refcounted refcounted; // 头部信息
    union { ... } type_info; // 类型信息
};

这里有个细节非常有趣：对齐。

为了防止 CPU 访问内存时产生错位，PHP 的内存块必须是特定字节的倍数（通常是 16 字节）。

比如你要存一个整数，占用 8 字节。如果按字节对齐，Zend MM 可能会给你分配 16 字节。剩下的 8 字节怎么处理？它会直接作为下一个变量的空间。这就是所谓的 Inline Storage（内联存储）。

当你要存一个字符串时，ZVAL 头部后面直接跟着字符串的数据。这极大地减少了内存拷贝。

第七幕：性能的代价与权衡

看到这里，你可能觉得：“哇，Zend MM 真牛逼！比 malloc 强多了！”

但是，亲爱的同学们，天下没有免费的午餐。Zend MM 也是有代价的。

CPU 开销：每次 new 之前，都要计算偏移量，都要检查指针，都要维护空闲链表。这在 C 语言里都是要算时间成本的。这就是为什么 PHP 的分配速度通常比原生 C 的 malloc 慢一点点。
碎片化的转移：我们将外部碎片（OS 级别）消灭了，但引入了内部碎片。因为我们要按页对齐，必须为 4KB 页面内的每一个块预留足够的头部信息。
代码复杂度：这种 C 代码写起来简直就是“头文件地狱”。几百个宏定义，几百个 #ifdef。维护 Zend MM 是一项系统工程。

第八幕：实战分析—— 为什么我会 OOM？

了解了这些，我们再回过头看那些常见的 PHP 问题，是不是就有一种“拨云见日”的感觉？

场景一：Fatal Error: Allowed memory size of 134217728 bytes exhausted

当你看到这个错误时，别急着加 ini_set('memory_limit', '-1')。
这其实是 Zend MM 的极限防御机制在报警。它已经把能用的内存页都切分完了，甚至把 OS 的内存都预购完了，还是不够。
这时候，你的 PHP 脚本就像一个无底洞，不停地调用 zend_mm_alloc。因为没有及时释放，空闲链表虽然维护了，但可能不够大，或者发生了一次剧烈的合并后，形成了一个巨大的块，但紧接着又分裂成了无数小块。

场景二：内存泄漏（疑似）

如果你发现你的脚本内存一直在涨，涨到 memory_limit 然后崩掉。
如果在 Zend MM 眼里，没有 free，那内存就不算释放。它只是把块变成了“空闲状态”，扔进了 free_pages 的列表里。
只要 PHP 进程不退出，这些内存就被 PHP 占据着，即使你的业务逻辑已经不用了。

第九幕：未来的演变（轻量级）

PHP 8.0 以后，引入了 JIT（Just-In-Time）。JIT 编译器在生成机器码时，也需要内存。现在的 Zend MM 甚至会“分身”，给 JIT 编译器预留一部分内存池，或者更聪明地处理大小写敏感的分配请求。

总结—— 听起来很酷，但别手痒

Zend MM 是一个极其精妙的设计，它完美地诠释了空间换时间以及局部性原理。

从“块管理”的粗暴，到“段-页-块”的三级管理体系，再到 Next Fit 算法和自动合并机制，每一个细节都是为了解决“如何高效利用内存”这个问题。

作为开发者，我们虽然大部分时间不用写 zend_mm_heap，但理解它的逻辑，能让你在写代码时更加谨慎：

少用大对象循环创建：因为每次创建都会在页中切分，产生头部开销。
及时释放：别指望 Zend MM 会自动帮你合并并回收，它只是尽力维持秩序，不是自动清洁工。
避免极端的内存碎片：如果你的代码逻辑导致了频繁的“分配-释放-分配”，那么 Zend MM 的空闲链表操作会非常频繁，这会拖慢你的脚本速度。

好了，今天的内存宫殿之旅就到这里。下次当你运行 php -v 或者看到脚本内存飙升时，希望你能想起今天聊的这些“页”和“块”，你会对 PHP 这个“笨小孩”刮目相看的。

下课！