利用FFI调用C标准库：使用mmap系统调用在PHP中开辟可执行内存空间 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

PHP与FFI：利用mmap开辟可执行内存空间

各位同学，大家好。今天我们来探讨一个比较高级的话题：如何在PHP中使用FFI（Foreign Function Interface）调用C标准库的mmap系统调用，从而在PHP中开辟可执行内存空间。这听起来有点像底层黑客技术，但它确实能在特定场景下提供显著的性能提升和灵活的动态代码生成能力。

什么是FFI？

FFI，即Foreign Function Interface，允许一种编程语言调用另一种编程语言编写的函数。在PHP中，FFI扩展使得我们可以直接调用C语言函数，而无需编写繁琐的扩展。这为PHP开发者打开了一扇通往底层系统功能的大门。

为什么要用mmap开辟可执行内存？

通常，PHP脚本在Zend引擎的虚拟机中执行，代码存储在只读的内存区域。直接修改代码是不允许的。但是，在某些情况下，我们可能需要动态生成代码并执行，例如：

即时编译（JIT）： 将PHP代码编译成机器码，然后直接执行，可以显著提高性能。
动态代码生成： 根据运行时参数生成特定的代码逻辑，例如，动态创建正则表达式匹配函数。
利用底层系统功能： 一些底层系统功能，如高性能计算库，可能需要直接在可执行内存中执行代码。

mmap系统调用可以将文件或设备映射到内存，或者创建匿名内存映射。通过指定PROT_EXEC权限，我们可以创建一个可执行的内存区域，然后将机器码写入该区域并执行。

mmap的基本原理

mmap (memory map) 是一个 POSIX 标准的系统调用，用于在进程的虚拟地址空间中创建映射。它允许进程访问文件、设备或者创建匿名内存区域，就像它们是进程地址空间的一部分一样。

其基本原型如下（C语言）：

void *mmap(void *addr, size_t length, int prot, int flags, int fd, off_t offset);

addr: 映射区的起始地址。通常设置为 NULL，让系统自动选择合适的地址。
length: 映射区的长度，以字节为单位。
prot: 内存保护标志，指定映射区的访问权限。常用的标志包括：
- PROT_READ: 可读
- PROT_WRITE: 可写
- PROT_EXEC: 可执行
- PROT_NONE: 禁止访问
flags: 映射标志，控制映射区的行为。常用的标志包括：
- MAP_SHARED: 共享映射，对映射区的修改会反映到文件或设备上（如果存在关联）。
- MAP_PRIVATE: 私有映射，对映射区的修改不会反映到文件或设备上。
- MAP_ANONYMOUS: 匿名映射，用于创建不与任何文件或设备关联的内存区域。
fd: 文件描述符。如果是匿名映射，则设置为 -1。
offset: 文件偏移量。如果是匿名映射，则设置为 0。

mmap 成功时返回映射区的起始地址，失败时返回 MAP_FAILED (通常是 (void *) -1)，并设置 errno 错误码。

在PHP中使用FFI调用mmap

首先，确保你的PHP环境已经安装并启用了FFI扩展。如果没有，可以使用以下命令安装：

pecl install ffi

然后在 php.ini 文件中启用 FFI 扩展：

extension=ffi.so

接下来，我们编写PHP代码来调用mmap函数。

<?php

// 定义C标准库的函数签名
$ffi = FFI::cdef(
    "void *mmap(void *addr, size_t length, int prot, int flags, int fd, off_t offset);
    int munmap(void *addr, size_t length);
    int mprotect(void *addr, size_t len, int prot);
    int sysconf(int name);",
    "libc.so.6" // 或者其他系统上的libc库路径，例如 /usr/lib/x86_64-linux-gnu/libc.so.6
);

// 定义常量
define('PROT_READ', 1);  // 0x1
define('PROT_WRITE', 2); // 0x2
define('PROT_EXEC', 4);  // 0x4
define('MAP_ANONYMOUS', 32); //0x20
define('MAP_PRIVATE', 2);  //0x02
define('MAP_FAILED', -1);
define('_SC_PAGESIZE', 30);

// 获取系统页面大小
$pageSize = $ffi->sysconf(_SC_PAGESIZE);
if ($pageSize <= 0) {
    die("Failed to get page size");
}

// 要分配的内存大小，必须是页面大小的倍数
$memorySize = $pageSize;

// 使用mmap分配可执行内存
$addr = $ffi->mmap(NULL, $memorySize, PROT_READ | PROT_WRITE | PROT_EXEC, MAP_PRIVATE | MAP_ANONYMOUS, -1, 0);

if ($addr == MAP_FAILED) {
    $errno = FFI::errno();
    die("mmap failed with error: " . $errno);
}

// 将地址转换为FFICData，方便后续操作
$memory = FFI::cast('char*', $addr);

// 写入机器码 (这里使用简单的 return 42 的机器码，x86-64)
// mov eax, 42; ret
$machineCode = "x48xC7xC0x2Ax00x00x00xC3"; // return 42

FFI::memcpy($memory, $machineCode, strlen($machineCode));

// 创建一个FFICData，表示函数指针
$func = FFI::cast('int (*)()', $addr);

// 调用函数
$result = $func();

echo "Result: " . $result . PHP_EOL; // 输出 Result: 42

// 释放内存
$ffi->munmap($addr, $memorySize);

?>

代码解释：

FFI::cdef(): 定义了我们需要使用的C函数（mmap, munmap, mprotect, sysconf）的签名。 libc.so.6 是Linux系统中标准C库的共享对象文件。
常量定义: 定义了 mmap 函数需要的常量，例如 PROT_READ、PROT_WRITE、PROT_EXEC、MAP_ANONYMOUS 和 MAP_PRIVATE。这些常量用于指定内存区域的访问权限和映射方式。
获取页面大小: 使用 sysconf 函数获取系统的页面大小。mmap 分配的内存大小必须是页面大小的倍数。
mmap(): 调用 mmap 函数分配可执行内存。
- NULL 表示让系统自动选择内存地址。
- $memorySize 指定分配的内存大小。
- PROT_READ | PROT_WRITE | PROT_EXEC 指定内存区域可读、可写、可执行。
- MAP_PRIVATE | MAP_ANONYMOUS 指定创建一个私有的匿名映射。
- -1 和 0 分别表示不与任何文件或设备关联，以及文件偏移量为 0。
错误处理: 检查 mmap 的返回值，如果失败，则输出错误信息并退出。
FFI::cast(): 将 mmap 返回的地址转换为 char* 类型的 FFI 对象，方便后续的内存操作。
写入机器码: 将机器码写入到分配的内存区域。示例中，写入的是一个简单的 "return 42" 的 x86-64 机器码。
创建函数指针: 使用 FFI::cast() 将内存地址转换为一个函数指针，其签名为 int (*)()，表示一个不接受任何参数并返回整数的函数。
调用函数: 通过函数指针调用刚刚写入的机器码。
输出结果: 输出函数执行的结果。
munmap(): 使用 munmap 函数释放分配的内存。

机器码解释 (return 42)：

指令	机器码	解释
`mov eax, 42`	`x48xC7xC0x2Ax00x00x00`	将整数 42 移动到 EAX 寄存器 (x86-64 下 EAX 的 64 位版本是 RAX)
`ret`	`xC3`	返回指令，将 EAX 寄存器的值作为返回值返回

这段机器码是x86-64架构下的指令，用于将值42放入EAX寄存器，然后返回。EAX寄存器通常用于存储函数的返回值。

安全性注意事项：

权限控制： 确保只授予必要的权限。不要轻易授予可写和可执行权限，除非绝对必要。
代码注入： 避免从不可信的来源获取机器码，防止恶意代码注入。
内存管理： 确保正确释放分配的内存，防止内存泄漏。
地址空间布局随机化 (ASLR)： 现代操作系统通常会启用 ASLR，这会使每次运行程序时内存地址都不同。这使得利用内存地址漏洞变得更加困难。但这也意味着你不能硬编码内存地址。

更复杂的例子：动态生成加法函数

我们可以更进一步，动态生成一个简单的加法函数。

<?php

// 定义C标准库的函数签名
$ffi = FFI::cdef(
    "void *mmap(void *addr, size_t length, int prot, int flags, int fd, off_t offset);
    int munmap(void *addr, size_t length);
    int mprotect(void *addr, size_t len, int prot);
    int sysconf(int name);",
    "libc.so.6"
);

// 定义常量
define('PROT_READ', 1);  // 0x1
define('PROT_WRITE', 2); // 0x2
define('PROT_EXEC', 4);  // 0x4
define('MAP_ANONYMOUS', 32); //0x20
define('MAP_PRIVATE', 2);  //0x02
define('MAP_FAILED', -1);
define('_SC_PAGESIZE', 30);

// 获取系统页面大小
$pageSize = $ffi->sysconf(_SC_PAGESIZE);
if ($pageSize <= 0) {
    die("Failed to get page size");
}

// 要分配的内存大小，必须是页面大小的倍数
$memorySize = $pageSize;

// 使用mmap分配可执行内存
$addr = $ffi->mmap(NULL, $memorySize, PROT_READ | PROT_WRITE | PROT_EXEC, MAP_PRIVATE | MAP_ANONYMOUS, -1, 0);

if ($addr == MAP_FAILED) {
    $errno = FFI::errno();
    die("mmap failed with error: " . $errno);
}

// 将地址转换为FFICData，方便后续操作
$memory = FFI::cast('char*', $addr);

// 动态生成加法函数的机器码 (x86-64)
// int add(int a, int b) { return a + b; }
// mov eax, edi  ; 将第一个参数 (a) 移动到 eax
// add eax, esi  ; 将第二个参数 (b) 加到 eax
// ret           ; 返回 eax 的值
$machineCode = "x89xf8x01xf0xc3";

FFI::memcpy($memory, $machineCode, strlen($machineCode));

// 创建一个FFICData，表示函数指针，接受两个整数参数，返回一个整数
$func = FFI::cast('int (*)(int, int)', $addr);

// 调用函数
$result = $func(10, 20);

echo "Result: " . $result . PHP_EOL; // 输出 Result: 30

// 释放内存
$ffi->munmap($addr, $memorySize);

?>

代码解释：

与之前的例子类似，首先定义 C 函数的签名，分配可执行内存，并将地址转换为 FFI 对象。
动态生成加法函数的机器码：
- x89xf8: mov eax, edi 将第一个参数（存储在EDI寄存器中）移动到EAX寄存器。 (a -> eax)
- x01xf0: add eax, esi 将第二个参数（存储在ESI寄存器中）加到EAX寄存器。 (eax += b)
- xc3: ret 返回EAX寄存器的值。
创建函数指针： 使用 FFI::cast() 将内存地址转换为一个函数指针，其签名为 int (*)(int, int)，表示一个接受两个整数参数并返回整数的函数。 x86-64架构下，函数的前几个参数通过寄存器传递，EDI, ESI 分别存储了第一个和第二个参数。
调用函数： 通过函数指针调用刚刚写入的机器码，传递参数 10 和 20。
输出结果： 输出函数执行的结果，应该为 30。
释放内存： 使用 munmap 函数释放分配的内存。

优化：使用mprotect修改权限

在上面的例子中，我们一开始就分配了可读、可写、可执行的内存。为了安全起见，更好的做法是先分配可读写的内存，写入机器码后，再使用 mprotect 修改内存权限为可读可执行。

<?php

// 定义C标准库的函数签名
$ffi = FFI::cdef(
    "void *mmap(void *addr, size_t length, int prot, int flags, int fd, off_t offset);
    int munmap(void *addr, size_t length);
    int mprotect(void *addr, size_t len, int prot);
    int sysconf(int name);",
    "libc.so.6"
);

// 定义常量
define('PROT_READ', 1);  // 0x1
define('PROT_WRITE', 2); // 0x2
define('PROT_EXEC', 4);  // 0x4
define('MAP_ANONYMOUS', 32); //0x20
define('MAP_PRIVATE', 2);  //0x02
define('MAP_FAILED', -1);
define('_SC_PAGESIZE', 30);

// 获取系统页面大小
$pageSize = $ffi->sysconf(_SC_PAGESIZE);
if ($pageSize <= 0) {
    die("Failed to get page size");
}

// 要分配的内存大小，必须是页面大小的倍数
$memorySize = $pageSize;

// 使用mmap分配可读写内存，但是不可执行
$addr = $ffi->mmap(NULL, $memorySize, PROT_READ | PROT_WRITE, MAP_PRIVATE | MAP_ANONYMOUS, -1, 0);

if ($addr == MAP_FAILED) {
    $errno = FFI::errno();
    die("mmap failed with error: " . $errno);
}

// 将地址转换为FFICData，方便后续操作
$memory = FFI::cast('char*', $addr);

// 动态生成加法函数的机器码 (x86-64)
// int add(int a, int b) { return a + b; }
// mov eax, edi  ; 将第一个参数 (a) 移动到 eax
// add eax, esi  ; 将第二个参数 (b) 加到 eax
// ret           ; 返回 eax 的值
$machineCode = "x89xf8x01xf0xc3";

FFI::memcpy($memory, $machineCode, strlen($machineCode));

// 使用mprotect将内存权限修改为可读可执行
$result = $ffi->mprotect($addr, $memorySize, PROT_READ | PROT_EXEC);
if ($result != 0) {
    $errno = FFI::errno();
    die("mprotect failed with error: " . $errno);
}

// 创建一个FFICData，表示函数指针，接受两个整数参数，返回一个整数
$func = FFI::cast('int (*)(int, int)', $addr);

// 调用函数
$result = $func(10, 20);

echo "Result: " . $result . PHP_EOL;

// 释放内存
$ffi->munmap($addr, $memorySize);

?>

代码修改说明：

在 mmap 中，只请求 PROT_READ | PROT_WRITE 权限，即只读写，不可执行。
在写入机器码后，调用 mprotect 函数，将内存区域的权限修改为 PROT_READ | PROT_EXEC，即只读可执行。

mprotect 的原型如下（C语言）：

int mprotect(void *addr, size_t len, int prot);

addr: 要修改权限的内存区域的起始地址。
len: 要修改权限的内存区域的长度，以字节为单位。
prot: 新的内存保护标志。

总结：开启了性能优化和动态代码生成的大门

通过FFI调用mmap，我们可以在PHP中开辟可执行内存，并动态生成机器码执行。虽然这涉及底层细节和安全风险，但它为性能优化和动态代码生成开辟了新的可能性。请务必谨慎使用，并充分理解其潜在的安全隐患。希望今天的讲座能对大家有所启发。