C++ 与沙盒隔离：如何利用 Linux Seccomp 机制给“野孩子”插件立规矩

各位听众，大家好！

欢迎来到今天的讲座。今天的主题有点硬核，有点冷门，但如果你是一个正经的软件架构师，或者是一个正在为“插件系统”掉头发的开发者，那么这堂课你绝对不能错过。

想象一下，你正在开发一个超级复杂的视频编辑软件，或者是一个拥有数百万下载量的游戏引擎。你的架构很棒，模块化设计，插件系统。这听起来很美好，对吧？就像把一群才华横溢的艺术家请到你的画廊里来画画。

但现实往往是残酷的。这些艺术家里，总有一个喝多了的，或者一个心怀不轨的。他可能不是想画画，他想用你的画笔去砸碎你的窗户，或者更糟——他想通过你的插件注入代码，把你的硬盘格式化掉。

这时候，你需要一个保安。一个极其冷酷、极其高效的保安。在 Linux 的世界里，这个保安的名字就叫 Seccomp。

今天，我们就来聊聊：如何用 C++ 结合 Linux 的 Seccomp 机制，给你的插件模块划一道红线，告诉它：“嘿，哥们，这事儿能干，那事儿不能干，越界就送你上路！”

第一部分：插件系统的“潘多拉魔盒”

首先，让我们直面现实。为什么我们需要沙盒？

在 C++ 的世界里，指针和内存管理是自由的，这种自由有时候就像是在走钢丝。当你把一个第三方插件加载到你的进程空间里时，你实际上是在邀请一个陌生人走进你的卧室。

这个陌生人（插件）拥有和你一样的权限。它能读取你的内存，它能调用你的函数，它甚至能直接修改你的全局变量。

场景模拟：

假设你的插件代码是这样的（C++）：

// 危险的插件代码
extern "C" void plugin_entry() {
    // 1. 读取全局配置
    int *secret_data = (int*)0xdeadbeef; 

    // 2. 修改它
    *secret_data = 0xDEADBEEF; 

    // 3. 最糟糕的：尝试执行系统命令
    system("rm -rf /"); // 嘿，我开玩笑的，但这就是它的潜质
}

在沙盒隔离之前，如果这个插件被恶意代码劫持，你的服务器可能瞬间变成一片废墟。

解决方案：

我们不能直接把所有插件都杀掉，那样太浪费了。我们需要的是权限最小化。让插件在运行时，只能做它该做的事，除此之外，哪怕是一个简单的 open（打开文件），如果它没权限，就应该直接被系统拒绝。

这时候，Seccomp 登场了。

第二部分：Seccomp 是什么？它是 Linux 内核的“读条”

Seccomp (Secure Computing Mode) 是 Linux 内核提供的一种机制，它可以在进程的上下文中过滤系统调用。

听着很枯燥，对吧？让我们用更通俗的话解释一下。

Seccomp 就像一个极其严格的安检员。

当你调用 read、write、open 这些函数时，你的程序会向操作系统内核发送请求。通常情况下，内核会像对待老朋友一样，立刻满足你的请求。

但当你开启了 Seccomp，情况就变了。内核不再是无脑的执行者，它变成了一个裁判。每当你的程序试图调用一个系统调用时，内核会先查一下你的“规则表”。

规则表里写了什么？
- read：允许。
- write：允许。
- open：禁止。
- execve：禁止。
- socket：禁止。
如果规则说“禁止”：
内核会直接返回一个错误，或者——如果你配置的是 KILL 模式——直接发送一个信号把进程干掉。

Seccomp 的核心哲学是白名单机制。与其告诉内核“不要让这个做那个”，不如告诉内核“只让这个做这个”。这就像是说“我不吃香菜”比说“我不吃除香菜以外的所有菜”要容易得多。

第三部分：从 `SECCOMP_MODE_STRICT` 到 `SECCOMP_MODE_FILTER`

Seccomp 有两种模式，就像保安有两个等级。

1. 严格模式 (`SECCOMP_MODE_STRICT`)

这是最简单的模式，就像是一个只有一条规则的保安。

一旦开启，进程只能执行以下三个系统调用：

read
write
exit

只要你想干别的，比如 open，或者 fork，进程就会立即崩溃。

代码示例：

#include <sys/prctl.h>
#include <linux/seccomp.h>

void setup_strict_seccomp() {
    // 这是给小孩子看的，太粗暴了，任何复杂的插件都会死在这里
    if (prctl(PR_SET_SECCOMP, SECCOMP_MODE_STRICT) == -1) {
        perror("prctl");
        exit(1);
    }
}

评价： 这种方式虽然安全，但是太死板了。你的插件想打印日志（write）都做不到，或者想加载资源（open）也做不到。这就像给一个人戴上了氧气面罩，虽然他不会死，但也别想干活了。

2. 过滤器模式 (`SECCOMP_MODE_FILTER`)

这是我们要重点讲的高级玩法。它允许你编写复杂的逻辑（BPF 程序）来过滤系统调用。这是现代 Linux 沙盒技术的基石，Docker、Firecracker 都在用。

第四部分：C++ 实战——构建你的 BPF 过滤器

在 C++ 中，我们通常不直接手写汇编级的 BPF 字节码（那太痛苦了，而且容易出错）。幸运的是，Linux 提供了一个用户空间库 libseccomp。它封装了繁琐的 BPF 编译过程，让我们可以用 C++ 的风格来写规则。

环境准备：
你需要安装 libseccomp-dev。
sudo apt-get install libseccomp-dev

目标：
我们要创建一个受限的插件环境。

允许： read, write, exit, exit_group, rt_sigreturn（这些是线程生存所必需的）。
禁止： open, openat, execve, fork, clone, socket, mmap（防止内存泄漏和代码注入）。

代码实现：

#include <stdio.h>
#include <stdlib.h>
#include <seccomp.h>
#include <sys/prctl.h>
#include <unistd.h>

// 一个简单的包装函数，用于设置 Seccomp 沙盒
// 这个函数通常在插件加载之前被主程序调用
void enable_seccomp_sandbox() {
    printf("[系统] 正在初始化 Seccomp 沙盒...n");

    // 1. 创建一个过滤器
    scmp_filter_ctx ctx = seccomp_init(SCMP_ACT_ALLOW); // 默认允许所有，然后我们再禁止

    if (ctx == NULL) {
        fprintf(stderr, "[错误] 无法初始化 Seccomp 上下文n");
        exit(1);
    }

    // 2. 定义规则（白名单逻辑）
    // 注意：这里我们使用 SCMP_ACT_ALLOW，意味着只有显式添加的调用会被允许，
    // 其余的统统禁止。这比 SCMP_ACT_DENY 更安全。

    // 允许基本的 I/O 和进程控制
    add_rule_allow(ctx, SCMP_SYS(read));
    add_rule_allow(ctx, SCMP_SYS(write));
    add_rule_allow(ctx, SCMP_SYS(exit));
    add_rule_allow(ctx, SCMP_SYS(exit_group));
    add_rule_allow(ctx, SCMP_SYS(rt_sigreturn));

    // 允许读取文件（如果插件需要加载资源）
    // 注意：这里只允许读取，禁止写入，防止破坏你的文件系统
    add_rule_allow(ctx, SCMP_SYS(open));
    add_rule_allow(ctx, SCMP_SYS(openat));
    add_rule_allow(ctx, SCMP_SYS(read));

    // 禁止执行外部程序（防止 Shellcode 注入）
    add_rule_deny(ctx, SCMP_SYS(execve));

    // 禁止创建新进程
    add_rule_deny(ctx, SCMP_SYS(fork));
    add_rule_deny(ctx, SCMP_SYS(clone));

    // 禁止网络通信（如果你不想插件连网）
    add_rule_deny(ctx, SCMP_SYS(socket));
    add_rule_deny(ctx, SCMP_SYS(bind));
    add_rule_deny(ctx, SCMP_SYS(listen));
    add_rule_deny(ctx, SCMP_SYS(accept));

    // 3. 加载过滤器到内核
    // 这一步非常关键。一旦执行成功，内核就会开始拦截系统调用。
    if (seccomp_load(ctx) < 0) {
        perror("seccomp_load");
        seccomp_release(ctx);
        exit(1);
    }

    printf("[系统] Seccomp 沙盒加载成功！限制已生效。n");

    // 4. 释放上下文（加载完成后就不需要了）
    seccomp_release(ctx);
}

// 辅助函数：添加允许规则
void add_rule_allow(scmp_filter_ctx ctx, scmp_num_t syscall_number) {
    int rc = seccomp_rule_add(ctx, SCMP_ACT_ALLOW, syscall_number, 0);
    if (rc != 0) {
        // 在实际应用中，这里应该有更复杂的日志记录
        // fprintf(stderr, "Warning: Failed to add allow rule for syscall %dn", syscall_number);
    }
}

// 辅助函数：添加禁止规则
void add_rule_deny(scmp_filter_ctx ctx, scmp_num_t syscall_number) {
    int rc = seccomp_rule_add(ctx, SCMP_ACT_KILL, syscall_number, 0);
    if (rc != 0) {
        // fprintf(stderr, "Warning: Failed to add deny rule for syscall %dn", syscall_number);
    }
}

// --- 模拟插件代码 ---

void malicious_plugin_logic() {
    printf("[插件] 正在尝试执行系统调用...n");

    // 尝试读取一个不存在的文件
    int fd = open("/etc/passwd", O_RDONLY);
    if (fd < 0) {
        printf("[插件] open 失败: %s (预期行为)n", strerror(errno));
    } else {
        printf("[插件] 哎呀！我居然打开了文件！这不应该发生！n");
        close(fd);
    }

    // 尝试创建一个子进程（如果规则允许）
    pid_t pid = fork();
    if (pid == 0) {
        printf("[插件] 子进程启动了！我要执行 rm -rf / 吗？n");
        system("echo 'Hello from sandbox'");
        exit(0);
    } else if (pid > 0) {
        wait(NULL);
        printf("[插件] 父进程等待子进程结束。n");
    }
}

int main() {
    // 1. 在插件加载前，主程序调用此函数开启沙盒
    enable_seccomp_sandbox();

    // 2. 插件开始运行
    malicious_plugin_logic();

    printf("[插件] 插件执行完毕。n");
    return 0;
}

运行结果分析：

当你运行这段代码时，你会看到这样的输出：

[系统] 正在初始化 Seccomp 沙盒...
[系统] Seccomp 沙盒加载成功！限制已生效。
[插件] 正在尝试执行系统调用...
[插件] open 失败: Operation not permitted (预期行为)
[插件] 父进程等待子进程结束。
[插件] 插件执行完毕。

注意，fork 调用成功了（因为我们在示例中允许了它，或者至少没有禁止它），但是 open 失败了。如果我们在代码里禁止了 fork，那么子进程创建时进程就会直接收到 SIGKILL 信号而崩溃。

第五部分：深入 BPF 逻辑——不仅仅是“允许/禁止”

上面的代码只是入门。Seccomp 的真正强大之处在于它的条件判断能力。BPF 指令集允许我们根据系统调用的参数来判断。

例如，你想允许 open，但是有一个条件：如果路径名包含 /tmp/，就允许；否则禁止。 或者你想允许 read，但是限制只能读前 4KB。

让我们看看如何使用 C++ 和 libseccomp 实现更复杂的逻辑。

场景： 插件需要加载资源，但我们不想让它修改系统文件。我们允许 open，但禁止 open 的 O_WRONLY 和 O_RDWR 标志。

#include <seccomp.h>

void setup_advanced_seccomp() {
    scmp_filter_ctx ctx = seccomp_init(SCMP_ACT_ALLOW);

    // 允许基本的 exit
    seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SCMP_SYS(exit), 0);

    // 允许 open，但是要检查参数
    // SCMP_SYS(open) 的参数：
    // 0: pathname (char*)
    // 1: flags (int)
    // 2: mode (mode_t)

    // 我们要允许 open，但是 flags 必须等于 O_RDONLY (0)
    // 使用 SCMP_CMP_EQ 进行相等比较
    int rc = seccomp_rule_add(
        ctx, 
        SCMP_ACT_ALLOW, 
        SCMP_SYS(open), 
        2, // 检查第 2 个参数
        scmp_cmp(SCMP_CMP_EQ, SCMP_CMP_NE, 0) // flags != 0 (即不是只读)
    );

    // 等等，上面的逻辑写反了。让我们重新写：
    // 允许 open，但是 flags 必须是只读模式 (O_RDONLY = 0)
    // 注意：SCMP_CMP_NE 意思是 "不等于"
    rc = seccomp_rule_add(
        ctx,
        SCMP_ACT_ALLOW,
        SCMP_SYS(open),
        2,
        scmp_cmp(SCMP_CMP_NE, SCMP_CMP_NE, 0) // flags 不等于 0 -> 允许
    );

    // 现在再禁止非只读模式
    // 允许 open，但是 flags 必须是 0 (只读)
    rc = seccomp_rule_add(
        ctx,
        SCMP_ACT_KILL, // 拒绝规则
        SCMP_SYS(open),
        2,
        scmp_cmp(SCMP_CMP_EQ, SCMP_CMP_NE, 0) // flags 等于 0 -> 杀掉
    );

    // 上面的写法有点绕，让我们用更清晰的方式：
    // 1. 默认允许所有 open
    seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SCMP_SYS(open), 0);
    // 2. 禁止 O_WRONLY (1) 和 O_RDWR (2)
    // SCMP_CMP_MASKED_EQ 可以用来检查位掩码
    // 我们希望 flags & (O_WRONLY | O_RDWR) == 0
    rc = seccomp_rule_add(
        ctx,
        SCMP_ACT_KILL,
        SCMP_SYS(open),
        2,
        scmp_cmp(SCMP_CMP_MASKED_EQ, SCMP_CMP_NE, O_WRONLY | O_RDWR) // 如果包含写标志，杀掉
    );

    seccomp_load(ctx);
    seccomp_release(ctx);
}

这里用到了什么魔法？
scmp_cmp 结构体允许我们定义比较操作符（EQ, NE, GT, LT, GE, LE, MASKED_EQ）。
这让我们能够精确地控制行为。例如，你可以写一个规则：“只允许 write 系统调用，且写入的文件描述符必须是 stdout (1)”。

第六部分：信号处理——被拒绝后的优雅退场

当 Seccomp 拒绝了一个系统调用，会发生什么？

默认情况下，如果规则是 SCMP_ACT_KILL，内核会发送 SIGSYS 信号给进程。

如果你的插件代码没有捕获 SIGSYS，进程就会直接崩溃，就像被枪打中了一样。这通常不是我们想要的效果。我们希望插件能够“优雅地”捕获这个错误，打印一条日志，然后告诉主程序：“我搞砸了，别用我了”。

如何捕获 SIGSYS？

#include <signal.h>
#include <stdio.h>
#include <unistd.h>

// 信号处理函数
void sigsys_handler(int sig, siginfo_t *si, void *unused) {
    printf("n!!! 警告 !!!n");
    printf("检测到非法系统调用尝试！n");
    printf("信号编号: %dn", sig);
    printf("系统调用号: %lun", (unsigned long)si->si_call_addr);
    printf("插件正在终止...nn");

    // 退出进程
    _exit(1);
}

void setup_sig_handler() {
    struct sigaction sa;
    sa.sa_flags = SA_SIGINFO;
    sigemptyset(&sa.sa_mask);
    sa.sa_sigaction = sigsys_handler;

    if (sigaction(SIGSYS, &sa, NULL) == -1) {
        perror("sigaction");
    }
}

// 测试代码
int main() {
    setup_sig_handler();
    setup_advanced_seccomp(); // 设置严格的规则

    // 触发错误：尝试写入
    int fd = open("/tmp/test.txt", O_WRONLY | O_CREAT, 0644);
    if (fd >= 0) {
        write(fd, "Hello", 5);
        close(fd);
    } else {
        printf("Open failed (expected)n");
    }

    // 触发错误：尝试调用不存在的系统调用
    // 这里我们模拟一个非法调用，实际上 Seccomp 只拦截允许列表之外的调用
    // 我们可以尝试调用一个非常底层的调用，或者直接触发 SIGSYS
    // 在实际代码中，通常是因为规则配置错误导致误杀，或者插件代码尝试了被禁止的调用

    printf("如果看到上面的警告，说明信号处理成功！n");
    return 0;
}

输出结果：

!!! 警告 !!!
检测到非法系统调用尝试！
信号编号: 31 (SIGSYS)
系统调用号: 0x7f1234567890
插件正在终止...

通过这种方式，你可以让插件在试图越界时“自杀”，而不是搞崩整个应用程序。

第七部分：性能考量与 JIT

你可能会问：“Seccomp 每次系统调用都要检查规则，会不会很慢？”

这是一个非常好的问题。在早期的 Linux 版本中，Seccomp 确实很慢，因为它使用的是 C 语言编写的解释器来遍历规则列表。

但是，现代的 Linux 内核使用了 BPF JIT (Just-In-Time) 编译器。

当你调用 seccomp_load 时，内核会将你的 BPF 字节码（即那一系列的 seccomp_rule_add 生成的规则）编译成机器码。

解释器模式： 就像你每次问问题都要去查字典，很慢。
JIT 模式： 就像你把字典背下来了，或者把答案直接写在脑子里，瞬间就能回答。

现代 CPU 上的 Seccomp 性能开销通常在 几百纳秒 级别，这对于绝大多数应用来说是可以忽略不计的。

结论： 不要担心性能，Seccomp 的开销微乎其微，但安全收益却是巨大的。

第八部分：Seccomp 与其他沙盒技术的组合拳

Seccomp 是最底层的机制，它负责“系统调用”这一层。但有时候，仅仅限制系统调用是不够的。

1. Seccomp + Chroot / Namespaces
如果你只是禁止了 open，插件依然可以读取 /proc/self/mem 或者访问 /dev/mem（如果内核配置允许）。所以，通常我们会把 Seccomp 和 Linux Namespaces（比如 CLONE_NEWNS）结合使用，把插件隔离在一个虚拟的文件系统中。

2. Seccomp + Capsicum (FreeBSD)
这完全是另一个故事了，但原理是一样的。

3. Seccomp + ptrace (调试器)
如果你在调试一个沙盒化的程序，你需要 ptrace 权限。这时候，你需要非常小心地配置 Seccomp 规则，确保 ptrace 系统调用被允许，同时禁止其他危险的调用。

第九部分：常见陷阱与最佳实践

在实战中，我见过很多人因为配置 Seccomp 而把程序搞崩。这里有几个“血泪教训”：

别忘了 exit_group：
如果你的插件是多线程的，或者使用了 C++ 的标准库，它们可能会调用 exit_group。如果你忘记允许这个系统调用，插件线程一退出，整个进程就会挂掉。这是一个经典的坑。
不要用 SCMP_ACT_DENY：
虽然你可以用 seccomp_rule_add(ctx, SCMP_ACT_DENY, ...)，但 libseccomp 文档强烈建议使用 SCMP_ACT_KILL 或 SCMP_ACT_ERRNO。因为 DENY 在某些旧内核上可能表现为 KILL，而在新内核上可能表现为 ERRNO，行为不一致。白名单优于黑名单。
信号处理程序的栈溢出：
在信号处理函数中，不要做太复杂的事情，更不要调用可能再次触发系统调用的函数（比如 malloc）。上面的例子中，我们在 sigsys_handler 里直接调用了 _exit，这是一个安全的做法。
动态链接库的问题：
你的插件依赖的动态链接库（.so）可能依赖一些特殊的系统调用（比如 mmap，mprotect）。如果你在主程序里开启了 Seccomp，那么插件加载时就会失败。你需要确保允许 mmap（因为 C++ 的 new 运算符最终会调用它）。

第十部分：总结——给野孩子立规矩

好了，伙计们，我们已经聊了很多。

Seccomp 是 Linux 内核赋予我们的最锋利的武器之一。它不需要改变你的代码架构，只需要在进程启动的瞬间，挂上一个过滤器，就能让一个拥有 root 权限的进程变成一个只能乖乖听话的平民。

对于 C++ 开发者来说，结合 libseccomp，实现一个插件沙盒只需要几十行代码。但这几十行代码，能为你省去多少麻烦？能为你挡住多少恶意攻击？

记住：

默认拒绝。
白名单。
捕获信号。
使用 libseccomp。

下次当你设计一个插件系统时，别再犹豫了。把 Seccomp 加进去。让那些试图越界的代码在内核层就被无情地拦截。这不仅仅是技术，这是对系统安全的一份责任。

愿你的代码像 Seccomp 规则一样，严丝合缝，滴水不漏。

谢谢大家！

C++ 与沙盒隔离：利用 C++ 结合 Linux Seccomp 机制限制受限插件模块的系统调用权限边界

C++ 与沙盒隔离：如何利用 Linux Seccomp 机制给“野孩子”插件立规矩

第一部分：插件系统的“潘多拉魔盒”

第二部分：Seccomp 是什么？它是 Linux 内核的“读条”

第三部分：从 `SECCOMP_MODE_STRICT` 到 `SECCOMP_MODE_FILTER`

1. 严格模式 (`SECCOMP_MODE_STRICT`)

2. 过滤器模式 (`SECCOMP_MODE_FILTER`)

第四部分：C++ 实战——构建你的 BPF 过滤器

第五部分：深入 BPF 逻辑——不仅仅是“允许/禁止”

第六部分：信号处理——被拒绝后的优雅退场

第七部分：性能考量与 JIT

第八部分：Seccomp 与其他沙盒技术的组合拳

第九部分：常见陷阱与最佳实践

第十部分：总结——给野孩子立规矩

发表回复取消回复

C++ 与沙盒隔离：如何利用 Linux Seccomp 机制给“野孩子”插件立规矩

第一部分：插件系统的“潘多拉魔盒”

第二部分：Seccomp 是什么？它是 Linux 内核的“读条”

第三部分：从 SECCOMP_MODE_STRICT 到 SECCOMP_MODE_FILTER

1. 严格模式 (SECCOMP_MODE_STRICT)

2. 过滤器模式 (SECCOMP_MODE_FILTER)

第四部分：C++ 实战——构建你的 BPF 过滤器

第五部分：深入 BPF 逻辑——不仅仅是“允许/禁止”

第六部分：信号处理——被拒绝后的优雅退场

第七部分：性能考量与 JIT

第八部分：Seccomp 与其他沙盒技术的组合拳

第九部分：常见陷阱与最佳实践

第十部分：总结——给野孩子立规矩

发表回复 取消回复

第三部分：从 `SECCOMP_MODE_STRICT` 到 `SECCOMP_MODE_FILTER`

1. 严格模式 (`SECCOMP_MODE_STRICT`)

2. 过滤器模式 (`SECCOMP_MODE_FILTER`)

发表回复取消回复