C++ 与沙盒隔离：利用 C++ 结合 Linux Seccomp 机制限制受限插件模块的系统调用权限边界 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

C++ 与沙盒隔离：利用 Linux Seccomp 机制限制受限插件模块的系统调用权限边界

在现代软件开发中，尤其是在构建需要加载第三方代码、用户自定义脚本或插件的系统时，安全性是一个不容忽视的核心挑战。当我们将不受信任的代码引入到主应用程序的执行环境中时，如何有效隔离并限制其潜在的恶意行为或意外错误，成为保障系统稳定性和安全性的关键。传统的防御机制，如权限管理、代码签名等，虽然重要，但在面对运行时行为限制时往往力有不逮。

本文将深入探讨如何利用 C++ 编程语言结合 Linux 内核提供的 Seccomp (Secure Computing Mode) 机制，为受限插件模块构建一个强大的沙盒隔离环境。我们将从 Seccomp 的基本原理出发，逐步深入到 libseccomp 库的实践应用，并通过详尽的 C++ 代码示例，演示如何构建一个能够加载插件并严格限制其系统调用权限边界的沙盒系统。

开篇引言：构建安全边界的必要性

想象一下，你正在开发一个复杂的应用程序，例如一个图像处理软件，它允许用户编写并加载自定义的滤镜插件；或者一个游戏引擎，允许玩家编写脚本来控制游戏逻辑；再或者是一个大型的云服务平台，需要执行用户提交的计算任务。在这些场景中，你所加载或执行的代码并非完全由你控制，它可能包含漏洞、恶意代码，或者仅仅是编写不当导致的行为异常。

如果不对这些“外部”代码进行隔离，它们可能：

窃取敏感数据： 访问不应访问的文件，读取配置文件，甚至尝试网络通信。
破坏系统完整性： 修改系统文件，删除重要数据，或者耗尽系统资源。
发起拒绝服务攻击： 无限循环、占用大量 CPU 或内存，导致宿主应用程序或整个系统崩溃。
提权攻击： 利用内核漏洞或其他机制尝试获取更高权限。

为了应对这些威胁，沙盒技术应运而生。沙盒提供了一个受控的、隔离的执行环境，限制了应用程序或模块与外部世界的交互能力。在 Linux 系统上，实现沙盒隔离有多种技术，其中 Seccomp 机制因其在系统调用层面提供细粒度控制而备受青睐。

沙盒技术概览与挑战

在 Linux 生态系统中，沙盒技术涵盖了多个层面，各有其适用场景和优缺点：

进程隔离 (Process Isolation)：
- fork() / exec()： 将不信任的代码运行在独立的进程中。这是最基本的隔离方式，一个进程的崩溃通常不会影响其他进程。
- chroot()： 改变进程的根目录，限制其文件系统可见性。但 chroot 并非完全安全，进程仍可逃逸。
- Linux Namespaces： 提供更强大的隔离能力，包括 PID、网络、挂载点、用户、IPC、UTS 等。这是容器技术（如 Docker）的基础。
- Capabilities： 将 root 用户的特权细分为更小的单元，允许进程只拥有其完成任务所需的最小特权。
虚拟机隔离 (Virtual Machine Isolation)：
- 通过 KVM、Xen 等虚拟化技术，将整个操作系统实例隔离起来。提供最强的隔离性，但资源开销和启动时间较大。
语言层面隔离：
- 某些语言（如 Java、Go、Rust）提供自己的安全沙盒机制或内存安全保证。但对于 C/C++ 这种底层语言，需要依赖操作系统提供的机制。

Seccomp (Secure Computing Mode) 则是一种在系统调用级别进行权限控制的机制。它允许进程过滤其可以发出的系统调用，甚至可以根据系统调用的参数来进一步限制。这意味着即使一个进程拥有了文件系统的访问权限，Seccomp 也可以阻止它调用 execve 来执行任意程序，或者阻止它调用 socket 进行网络通信。

Seccomp 的优势在于：

细粒度控制： 可以精确到某个系统调用及其参数。
内核实现： 过滤逻辑在内核态执行，效率高，难以绕过。
轻量级： 相较于虚拟机或容器，资源开销极小。

然而，Seccomp 也面临挑战：

复杂性： 需要精确识别应用程序运行所需的所有系统调用及其参数，这可能非常复杂。
兼容性： 不同的 Linux 版本和 CPU 架构可能存在系统调用编号的差异（尽管现代 Linux 内核通常提供稳定的 ABI）。
动态性： 应用程序的行为可能在运行时发生变化，导致难以预设完整的白名单。
库函数依赖： 高级库函数通常会包装多个底层系统调用，需要了解其内部实现细节。

Linux Seccomp 机制深度剖析

Seccomp 机制最初于 Linux 2.6.12 版本引入，提供了非常简单的过滤功能（Seccomp v1），只能将进程限制为只能执行 read()、write()、_exit() 和 sigreturn() 四个系统调用。这对于复杂的应用程序来说，限制过于严格。

随着时间的推移，Seccomp-BPF (Seccomp with Berkeley Packet Filter) 在 Linux 3.5 版本中被引入，极大地增强了 Seccomp 的能力。Seccomp-BPF 允许用户在内核中加载一个 BPF (Berkeley Packet Filter) 程序。这个 BPF 程序在每次系统调用发生时都会被执行，根据其逻辑决定是否允许该系统调用通过。

BPF (Berkeley Packet Filter) 简介

BPF 最初用于网络包过滤，但其强大的可编程性和内核执行特性使其在多种场景下得到应用，包括 Seccomp。对于 Seccomp 而言，当一个进程尝试执行系统调用时，内核会暂停该系统调用，并将系统调用号、参数等信息填充到一个 seccomp_data 结构体中，然后将这个结构体作为输入传递给预先加载的 BPF 程序。

BPF 程序本质上是一个虚拟机指令集，它会检查 seccomp_data 结构体中的字段（如系统调用号 nr，系统调用参数 args[0] 到 args[5]），然后返回一个“裁决结果”（Seccomp Action）。

Seccomp Actions (裁决结果)

BPF 程序返回的 Seccomp Action 决定了内核对该系统调用的处理方式。主要的 Seccomp Actions 如下：

Seccomp Action	描述
`SECCOMP_RET_ALLOW`	允许系统调用执行。
`SECCOMP_RET_KILL_PROCESS`	立即终止整个进程组。这是最严格的拒绝方式，通常作为默认动作，或者用于处理严重的安全违规。
`SECCOMP_RET_KILL_THREAD`	立即终止当前线程。
`SECCOMP_RET_ERRNO`	拒绝系统调用，并返回指定的错误码（例如 `EPERM`）。系统调用看起来就像失败了一样。
`SECCOMP_RET_TRACE`	将系统调用事件通知给父进程或调试器（通过 `ptrace`）。这对于沙盒的开发和调试非常有用，可以捕获被拒绝的系统调用并分析原因。
`SECCOMP_RET_LOG`	记录系统调用事件到内核审计日志（需要内核支持 `CONFIG_SECCOMP_FILTER_LOG`）。允许系统调用继续执行。主要用于审计和策略调试。
`SECCOMP_RET_USER_NOTIF`	(Linux 5.9+) 将系统调用事件发送到用户空间的一个文件描述符，允许用户空间程序对该系统调用进行仲裁。提供了更灵活的动态策略能力。

在构建安全沙盒时，通常推荐使用白名单（Whitelist）策略，即默认拒绝所有系统调用 (SECCOMP_RET_KILL_PROCESS 或 SECCOMP_RET_ERRNO 作为默认动作)，然后显式地允许那些应用程序需要的系统调用 (SECCOMP_RET_ALLOW)。

`seccomp(2)` 系统调用

直接编写 BPF 程序并将其加载到内核是一项复杂且容易出错的任务。因此，Linux 提供了 seccomp(2) 系统调用来与 Seccomp 机制交互。其基本原型如下：

#include <linux/seccomp.h>
#include <sys/syscall.h>

int seccomp(unsigned int operation, unsigned int flags, void *args);

operation: 指定要执行的操作。
- SECCOMP_SET_MODE_FILTER: 加载一个 BPF 过滤器。
- SECCOMP_MODE_STRICT: 启用 Seccomp v1 严格模式。
flags: 操作的标志位。
- SECCOMP_FILTER_FLAG_TSYNC: 将过滤器应用到所有线程。
- SECCOMP_FILTER_FLAG_LOG: 记录被拒绝的系统调用。
args: 指向 BPF 程序结构体（当 operation 为 SECCOMP_SET_MODE_FILTER 时）。

`libseccomp` 库

为了简化 Seccomp-BPF 的使用，社区开发了 libseccomp 库。它提供了一个高级 API，允许开发者以更友好的方式构建和加载 Seccomp 过滤器，而无需直接处理 BPF 字节码。libseccomp 负责将用户定义的规则翻译成 BPF 程序。

使用 libseccomp 的基本流程如下：

初始化： seccomp_init(default_action)，设置默认的 Seccomp Action。
添加规则： seccomp_rule_add(ctx, action, syscall_nr, arg_count, ...)，为特定的系统调用添加允许或拒绝规则，并可选地基于系统调用参数进行过滤。
加载过滤器： seccomp_load(ctx)，将构建好的 BPF 过滤器加载到内核。
释放资源： seccomp_release(ctx)。

C++ 环境下的 Seccomp 集成：`libseccomp` 实践

在 C++ 项目中，libseccomp 是集成 Seccomp 功能的首选方式。首先，确保你的系统上安装了 libseccomp-dev (或类似名称) 包。

# Debian/Ubuntu
sudo apt-get install libseccomp-dev

# Fedora/CentOS
sudo dnf install libseccomp-devel

基本 `libseccomp` 使用示例

让我们从一个最简单的例子开始：只允许 exit_group 和 read 系统调用，其他所有系统调用都将被终止进程。

#include <iostream>
#include <vector>
#include <sys/syscall.h> // For syscall numbers like SYS_read, SYS_exit_group
#include <seccomp.h>     // For libseccomp functions

// 辅助函数：打印错误信息并退出
void die(const char *msg) {
    perror(msg);
    exit(EXIT_FAILURE);
}

int main() {
    scmp_filter_ctx ctx;

    // 1. 初始化 Seccomp 过滤器上下文，设置默认动作为终止进程
    // 任何未明确允许的系统调用都会导致进程被杀死
    ctx = seccomp_init(SCMP_ACT_KILL_PROCESS);
    if (ctx == NULL) {
        die("seccomp_init");
    }

    // 2. 添加允许的系统调用规则
    // 允许 SYS_read 系统调用
    if (seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SYS_read, 0) < 0) {
        die("seccomp_rule_add for SYS_read");
    }

    // 允许 SYS_write 系统调用
    // 注意：这里我们允许了所有 write，但在实际应用中可能需要更精细的控制，
    // 例如只允许写入特定的文件描述符（如 stdout/stderr）
    if (seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SYS_write, 0) < 0) {
        die("seccomp_rule_add for SYS_write");
    }

    // 允许 SYS_exit_group 系统调用，以便进程可以正常退出
    // 注意：很多程序会调用 SYS_exit_group 而不是 SYS_exit
    if (seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SYS_exit_group, 0) < 0) {
        die("seccomp_rule_add for SYS_exit_group");
    }

    // 允许 SYS_close 系统调用，以便可以关闭文件描述符
    if (seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SYS_close, 0) < 0) {
        die("seccomp_rule_add for SYS_close");
    }

    // 允许 SYS_fstat 系统调用，因为一些标准库函数（如 cout）可能会在内部调用它
    if (seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SYS_fstat, 0) < 0) {
        die("seccomp_rule_add for SYS_fstat");
    }

    // 3. 加载 Seccomp 过滤器到内核
    if (seccomp_load(ctx) < 0) {
        die("seccomp_load");
    }

    std::cout << "Seccomp filter loaded. Trying allowed syscalls..." << std::endl;

    // 尝试执行允许的系统调用
    char buffer[10];
    ssize_t bytes_read = read(STDIN_FILENO, buffer, sizeof(buffer) - 1); // SYS_read
    if (bytes_read > 0) {
        buffer[bytes_read] = '';
        std::cout << "Read from stdin: " << buffer << std::endl; // SYS_write
    } else if (bytes_read == 0) {
        std::cout << "EOF on stdin." << std::endl;
    } else {
        perror("read");
    }

    // 尝试执行被禁止的系统调用
    std::cout << "Trying to execute a forbidden syscall (SYS_getpid)..." << std::endl;
    pid_t pid = getpid(); // SYS_getpid
    std::cout << "This line should ideally not be reached if filter works. PID: " << pid << std::endl;

    // 4. 释放 Seccomp 过滤器上下文
    seccomp_release(ctx); // 注意：一旦加载，过滤器就生效了，释放上下文不代表取消过滤器。
                          // 过滤器只能通过进程退出而移除。

    std::cout << "Exiting normally." << std::endl; // SYS_exit_group
    return 0;
}

编译与运行：

g++ -o seccomp_test seccomp_test.cpp -lseccomp
./seccomp_test

当你运行 seccomp_test 并输入一些文本后，它会打印你输入的内容。但当程序尝试调用 getpid() (对应 SYS_getpid) 时，由于 SYS_getpid 不在白名单中，内核会立即终止进程，你将看到类似 Killed 的输出，并且 pid 那一行以及后续的 Exiting normally. 都不会被打印。

限制系统调用参数

libseccomp 允许我们进一步限制系统调用的参数。例如，我们可能只允许 write 系统调用向标准输出 (文件描述符 1) 和标准错误 (文件描述符 2) 写入，而不允许写入其他文件。

#include <iostream>
#include <vector>
#include <sys/syscall.h>
#include <seccomp.h>
#include <unistd.h> // For STDOUT_FILENO, STDERR_FILENO

void die(const char *msg) {
    perror(msg);
    exit(EXIT_FAILURE);
}

int main() {
    scmp_filter_ctx ctx;

    ctx = seccomp_init(SCMP_ACT_KILL_PROCESS);
    if (ctx == NULL) {
        die("seccomp_init");
    }

    // 允许 SYS_exit_group 以便正常退出
    if (seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SYS_exit_group, 0) < 0) {
        die("seccomp_rule_add for SYS_exit_group");
    }
    // 允许 SYS_fstat, SYS_close, SYS_read
    if (seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SYS_fstat, 0) < 0) { die("seccomp_rule_add for SYS_fstat"); }
    if (seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SYS_close, 0) < 0) { die("seccomp_rule_add for SYS_close"); }
    if (seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SYS_read, 0) < 0) { die("seccomp_rule_add for SYS_read"); }

    // 允许 SYS_write，但只允许文件描述符为 STDOUT_FILENO 或 STDERR_FILENO
    // 参数 0 是文件描述符
    if (seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SYS_write, 1, SCMP_A0(SCMP_CMP_EQ, STDOUT_FILENO)) < 0) {
        die("seccomp_rule_add for SYS_write (stdout)");
    }
    if (seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SYS_write, 1, SCMP_A0(SCMP_CMP_EQ, STDERR_FILENO)) < 0) {
        die("seccomp_rule_add for SYS_write (stderr)");
    }

    if (seccomp_load(ctx) < 0) {
        die("seccomp_load");
    }

    std::cout << "Seccomp filter loaded with argument restrictions." << std::endl;

    // 尝试写入标准输出 (允许)
    std::cout << "This should be printed to stdout." << std::endl;

    // 尝试写入标准错误 (允许)
    fprintf(stderr, "This should be printed to stderr.n");

    // 尝试打开一个文件并写入 (被禁止的 syscall: SYS_openat)
    FILE *fp = fopen("test.txt", "w"); // Internally calls SYS_openat
    if (fp != NULL) {
        fprintf(fp, "This should not be written.n");
        fclose(fp);
        std::cerr << "Error: Managed to write to file, filter failed!" << std::endl;
    } else {
        std::cerr << "Expected: Failed to open file (good, filter worked)." << std::endl;
    }

    // 尝试调用另一个被禁止的 syscall (SYS_getuid)
    std::cout << "Trying to execute a forbidden syscall (SYS_getuid)..." << std::endl;
    uid_t uid = getuid(); // SYS_getuid
    std::cout << "This line should ideally not be reached. UID: " << uid << std::endl;

    seccomp_release(ctx);
    return 0;
}

编译与运行：

g++ -o seccomp_arg_test seccomp_arg_test.cpp -lseccomp
./seccomp_arg_test

运行此程序，你会看到 stdout 和 stderr 的输出。当程序尝试 fopen 文件时，它会失败（因为 SYS_openat 被默认规则拒绝），然后当它尝试 getuid() 时，进程会被终止。

关键点：

SCMP_A0: 代表系统调用的第一个参数（索引为 0）。libseccomp 支持 SCMP_A0 到 SCMP_A5。
SCMP_CMP_EQ: 比较操作符，表示“等于”。其他操作符包括 SCMP_CMP_NE (不等于), SCMP_CMP_GT (大于), SCMP_CMP_GE (大于等于), SCMP_CMP_LT (小于), SCMP_CMP_LE (小于等于), SCMP_CMP_MASKED_EQ (按位与后等于)。
第三个参数 1 表示我们正在添加一个参数比较规则。

识别必需的系统调用

这是 Seccomp 策略中最具挑战性的一步。一个看似简单的 C++ 程序或库函数，在底层可能涉及几十甚至上百个系统调用。
常用的方法：

strace 工具： 运行你的程序（或插件）并使用 strace -c -f -o syscalls.log ./your_program 来捕获所有系统调用及其参数。然后分析 syscalls.log 文件。
逐步构建： 从一个非常严格的白名单开始（例如只允许 exit_group），然后每次运行程序时，根据 Seccomp 报错信息（如果使用 SCMP_ACT_ERRNO 或 SCMP_ACT_TRACE）或进程终止来判断缺少的系统调用，并逐步添加到白名单中。
libseccomp 的 SECCOMP_RET_LOG： 在开发阶段，可以将默认动作设置为 SCMP_ACT_LOG | SCMP_ACT_ALLOW，让所有系统调用都通过，但将不匹配规则的系统调用记录到内核审计日志中。然后通过 dmesg 或 /var/log/audit/audit.log 查看日志。

// 示例：使用 SCMP_ACT_LOG 辅助调试
// ...
ctx = seccomp_init(SCMP_ACT_LOG | SCMP_ACT_KILL_PROCESS); // 默认行为是终止进程并记录日志
// ...
// 编译运行后，通过 dmesg -w 查看内核日志
// 你会看到类似 "audit: type=1326 audit(1678886400.000:123): auid=1000 uid=1000 gid=1000 ses=1 pid=1234 comm="seccomp_app" exe="/path/to/seccomp_app" sig=0 arch=c000003e syscall=231 compat=0 ip=0x40000000 code=0" 的日志
// 这里的 syscall=231 就是 SYS_exit_group，如果 Seccomp 策略有问题，你会看到其他被拒绝的 syscall 号码。

构建受限插件模块的沙盒环境

将 Seccomp 应用于插件模块，最安全和推荐的方式是让插件运行在一个独立的进程中。这样，即使插件代码尝试逃逸 Seccomp 限制，它也只能影响其自身的进程，而不会直接威胁到宿主应用程序。

架构设计考虑

进程分离：
- 宿主进程 (Host Process)： 负责加载插件、创建沙盒进程、与沙盒进程通信。
- 沙盒进程 (Sandbox Process)： 在 fork() 后由宿主进程创建，负责加载并执行插件代码，并在执行前应用 Seccomp 过滤器。
进程间通信 (IPC)：
- 管道 (Pipes)： 最简单、常用的单向或双向通信机制。
- 共享内存 (Shared Memory)： 性能高，但需要额外的同步机制。
- 套接字 (Sockets)： 更通用，可以用于不同机器间的通信，或在本地使用 Unix Domain Sockets。
- 对于插件场景，通常会定义一个清晰的接口，插件通过 IPC 与宿主进程交互，请求宿主进程提供的服务（例如日志记录、数据访问等），而不是直接进行系统调用。
插件加载：
- 使用 dlopen() 和 dlsym() 动态加载共享库 (.so 文件) 作为插件。

沙盒进程启动流程

宿主进程 main 函数启动。
宿主进程 fork() 创建子进程。
- fork() 返回 0 给子进程，返回子进程 PID 给父进程。
在子进程中：
- seccomp_init() 初始化 Seccomp 过滤器。 设置默认动作为 SCMP_ACT_KILL_PROCESS。
- seccomp_rule_add() 添加白名单系统调用。 允许插件执行其基本操作所需的系统调用，以及与宿主进程 IPC 所需的系统调用（如 read, write 到特定文件描述符）。
- seccomp_load() 加载过滤器。 此时，沙盒生效。
- dlopen() 加载插件共享库。
- dlsym() 获取插件入口函数。
- 调用插件入口函数。 插件代码开始执行，其系统调用受到 Seccomp 过滤器的严格限制。
- 插件执行完毕后，调用 exit_group() 退出。
在父进程中：
- waitpid() 等待子进程结束。
- 处理子进程的退出状态，判断插件是否正常完成或因安全违规而被终止。
- 可以通过 IPC 与子进程通信，发送任务或接收结果。

C++ 示例：一个简单的插件加载器与沙盒

我们将构建三个部分：

plugin_interface.h： 定义插件与宿主通信的接口。
simple_plugin.cpp： 一个示例插件，包含一个合法操作和一个尝试进行非法系统调用的操作。
sandbox_host.cpp： 宿主应用程序，负责创建沙盒进程，加载插件，并应用 Seccomp 策略。

1. plugin_interface.h

#ifndef PLUGIN_INTERFACE_H
#define PLUGIN_INTERFACE_H

#include <string>
#include <iostream>

// 定义插件的接口
class IPlugin {
public:
    virtual ~IPlugin() = default;
    virtual std::string getName() const = 0;
    virtual void executeSafeOperation() = 0;
    virtual void executeUnsafeOperation() = 0; // 这个操作会被沙盒阻止
};

// 插件工厂函数类型
// 所有的插件都必须实现这个函数，宿主程序通过它来创建插件实例
typedef IPlugin* (*create_plugin_func)();
typedef void (*destroy_plugin_func)(IPlugin*);

#endif // PLUGIN_INTERFACE_H

2. simple_plugin.cpp (一个示例插件)

#include "plugin_interface.h"
#include <iostream>
#include <fstream>
#include <unistd.h> // For getpid(), getuid()
#include <cstdio>   // For remove()

class SimplePlugin : public IPlugin {
public:
    std::string getName() const override {
        return "SimplePlugin v1.0";
    }

    void executeSafeOperation() override {
        // 这是一个安全的，只使用允许的系统调用的操作
        std::cout << "[Plugin] Safe operation executed. My PID: " << getpid() << std::endl;
        // 注意：getpid() 会被允许，因为我们通常需要它来调试或识别进程。
        // 但在严格的沙盒中，getpid() 也可能被禁止。
    }

    void executeUnsafeOperation() override {
        // 这个操作将尝试执行被 Seccomp 策略禁止的系统调用
        std::cout << "[Plugin] Trying to execute an unsafe operation..." << std::endl;

        // 尝试创建文件 (SYS_openat/SYS_creat) - 通常会被禁止
        std::ofstream outfile("plugin_output.txt");
        if (outfile.is_open()) {
            outfile << "This content should not be written by the plugin." << std::endl;
            outfile.close();
            std::cout << "[Plugin] Error: Managed to write to 'plugin_output.txt'! Filter failed." << std::endl;
            remove("plugin_output.txt"); // Clean up if somehow it succeeded
        } else {
            std::cout << "[Plugin] Expected: Failed to open 'plugin_output.txt' (good, filter likely worked)." << std::endl;
        }

        // 尝试获取用户ID (SYS_getuid) - 可能会被禁止
        uid_t uid = getuid();
        std::cout << "[Plugin] Current UID: " << uid << std::endl; // 这行很可能不会被执行
    }
};

// 插件工厂函数实现
extern "C" IPlugin* createPlugin() {
    return new SimplePlugin();
}

extern "C" void destroyPlugin(IPlugin* plugin) {
    delete plugin;
}

编译插件：

g++ -std=c++17 -fPIC -shared -o simple_plugin.so simple_plugin.cpp

3. sandbox_host.cpp (宿主应用程序)

#include "plugin_interface.h"
#include <iostream>
#include <string>
#include <vector>
#include <dlfcn.h>      // For dlopen, dlsym, dlclose
#include <unistd.h>     // For fork, exit, read, write, close, getpid
#include <sys/wait.h>   // For waitpid
#include <sys/syscall.h> // For syscall numbers
#include <seccomp.h>    // For libseccomp functions
#include <array>        // For std::array

// 辅助函数：打印错误信息并退出
void die(const char *msg) {
    perror(msg);
    exit(EXIT_FAILURE);
}

// 配置 Seccomp 过滤器的函数
void configure_seccomp_filter() {
    scmp_filter_ctx ctx;

    // 1. 初始化 Seccomp 过滤器上下文，设置默认动作为终止进程
    // 任何未明确允许的系统调用都会导致进程被杀死
    ctx = seccomp_init(SCMP_ACT_KILL_PROCESS);
    if (ctx == NULL) {
        die("seccomp_init");
    }

    // 2. 添加白名单系统调用
    // 这些是插件通常需要的最基本系统调用：

    // 允许进程正常退出
    if (seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SYS_exit_group, 0) < 0) { die("seccomp_rule_add SYS_exit_group"); }
    // 允许获取进程ID (用于日志或调试，可根据需要移除)
    if (seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SYS_getpid, 0) < 0) { die("seccomp_rule_add SYS_getpid"); }
    // 允许读写标准文件描述符（0, 1, 2）以及通过管道通信的文件描述符
    // 注意：这里的 fd 范围取决于你的 IPC 策略。我们假设 IPC 使用 stdin/stdout (0/1) 或特定管道。
    // 在本例中，我们将允许所有 read/write，但通常需要更精确的参数限制。
    if (seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SYS_read, 0) < 0) { die("seccomp_rule_add SYS_read"); }

    // 允许 write 到 stdout/stderr (fd 1, 2)
    if (seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SYS_write, 1, SCMP_A0(SCMP_CMP_EQ, STDOUT_FILENO)) < 0) { die("seccomp_rule_add SYS_write stdout"); }
    if (seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SYS_write, 1, SCMP_A0(SCMP_CMP_EQ, STDERR_FILENO)) < 0) { die("seccomp_rule_add SYS_write stderr"); }

    // 允许 close (例如关闭插件内部打开的文件，或者 dlclose 内部调用)
    if (seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SYS_close, 0) < 0) { die("seccomp_rule_add SYS_close"); }
    // 允许 fstat (C++ iostream 内部可能调用，用于检查文件类型)
    if (seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SYS_fstat, 0) < 0) { die("seccomp_rule_add SYS_fstat"); }
    // 允许 mmap, munmap (动态链接器和内存分配器需要)
    if (seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SYS_mmap, 0) < 0) { die("seccomp_rule_add SYS_mmap"); }
    if (seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SYS_munmap, 0) < 0) { die("seccomp_rule_add SYS_munmap"); }
    // 允许 mprotect (动态链接器需要)
    if (seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SYS_mprotect, 0) < 0) { die("seccomp_rule_add SYS_mprotect"); }
    // 允许 brk (动态内存分配器需要)
    if (seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SYS_brk, 0) < 0) { die("seccomp_rule_add SYS_brk"); }
    // 允许 arch_prctl (64位系统上的线程本地存储/寄存器相关)
    if (seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SYS_arch_prctl, 0) < 0) { die("seccomp_rule_add SYS_arch_prctl"); }
    // 允许 access (文件存在性检查，通常用于 dlopen 查找库，可根据需要限制参数)
    if (seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SYS_access, 0) < 0) { die("seccomp_rule_add SYS_access"); }
    // 允许 newfstatat (glibc 内部的文件状态检查，替代老旧的 stat)
    if (seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SYS_newfstatat, 0) < 0) { die("seccomp_rule_add SYS_newfstatat"); }
    // 允许 set_tid_address (线程相关的系统调用，由 glibc 内部使用)
    if (seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SYS_set_tid_address, 0) < 0) { die("seccomp_rule_add SYS_set_tid_address"); }
    // 允许 futex (用于同步原语，如互斥锁、条件变量)
    if (seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SYS_futex, 0) < 0) { die("seccomp_rule_add SYS_futex"); }
    // 允许 exit (另一个退出系统调用)
    if (seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SYS_exit, 0) < 0) { die("seccomp_rule_add SYS_exit"); }
    // 允许 statx (新的文件状态查询 syscall)
    if (seccomp_rule_add(ctx, SCMP_ACT_ALLOW, SYS_statx, 0) < 0) { die("seccomp_rule_add SYS_statx"); }

    // 3. 加载 Seccomp 过滤器到内核
    if (seccomp_load(ctx) < 0) {
        die("seccomp_load");
    }

    // 4. 释放 Seccomp 过滤器上下文 (过滤器已加载到内核，上下文对象可以释放)
    seccomp_release(ctx);

    std::cout << "[Sandbox] Seccomp filter loaded in child process." << std::endl;
}

int main(int argc, char *argv[]) {
    if (argc < 2) {
        std::cerr << "Usage: " << argv[0] << " <plugin_path>" << std::endl;
        return EXIT_FAILURE;
    }

    const char* plugin_path = argv[1];

    std::cout << "[Host] Starting sandbox host for plugin: " << plugin_path << std::endl;

    pid_t pid = fork();

    if (pid < 0) {
        die("fork failed");
    } else if (pid == 0) { // 子进程：沙盒环境
        std::cout << "[Sandbox] Child process started (PID: " << getpid() << "). Configuring Seccomp..." << std::endl;

        // 1. 配置 Seccomp 过滤器
        configure_seccomp_filter();

        // 2. 加载插件
        void *plugin_handle = dlopen(plugin_path, RTLD_LAZY);
        if (!plugin_handle) {
            std::cerr << "[Sandbox] Failed to load plugin: " << dlerror() << std::endl;
            exit(EXIT_FAILURE);
        }

        create_plugin_func create_plugin = (create_plugin_func)dlsym(plugin_handle, "createPlugin");
        destroy_plugin_func destroy_plugin = (destroy_plugin_func)dlsym(plugin_handle, "destroyPlugin");

        if (!create_plugin || !destroy_plugin) {
            std::cerr << "[Sandbox] Failed to find plugin functions: " << dlerror() << std::endl;
            dlclose(plugin_handle);
            exit(EXIT_FAILURE);
        }

        IPlugin *plugin = create_plugin();
        if (!plugin) {
            std::cerr << "[Sandbox] Failed to create plugin instance." << std::endl;
            dlclose(plugin_handle);
            exit(EXIT_FAILURE);
        }

        std::cout << "[Sandbox] Plugin '" << plugin->getName() << "' loaded and initialized." << std::endl;

        // 3. 执行插件的“安全”操作
        std::cout << "[Sandbox] Executing plugin's safe operation..." << std::endl;
        plugin->executeSafeOperation();

        // 4. 执行插件的“不安全”操作 (将被 Seccomp 阻止)
        std::cout << "[Sandbox] Executing plugin's unsafe operation (expecting termination)..." << std::endl;
        plugin->executeUnsafeOperation(); // 此调用会触发被禁止的系统调用，导致进程终止

        // 这段代码将不会被执行，因为上面的 unsafeOperation 会触发进程终止
        std::cout << "[Sandbox] Plugin finished execution." << std::endl;

        destroy_plugin(plugin);
        dlclose(plugin_handle);
        exit(EXIT_SUCCESS); // 如果走到这里，说明不安全操作未被完全阻止，需要检查策略
    } else { // 父进程：宿主进程
        int status;
        std::cout << "[Host] Child process (PID: " << pid << ") created. Waiting for it to finish..." << std::endl;

        if (waitpid(pid, &status, 0) == -1) {
            die("waitpid failed");
        }

        if (WIFEXITED(status)) {
            std::cout << "[Host] Child process exited normally with status: " << WEXITSTATUS(status) << std::endl;
        } else if (WIFSIGNALED(status)) {
            // WIFSIGNALED 表示进程被信号终止
            std::cout << "[Host] Child process terminated by signal: " << WTERMSIG(status) << std::endl;
            if (WTERMSIG(status) == SIGSYS) {
                // SIGSYS (31) 表示进程试图执行一个被 Seccomp 阻止的系统调用
                std::cout << "[Host] Child process was killed by SIGSYS (Seccomp violation) - expected behavior for unsafe operation!" << std::endl;
                return EXIT_SUCCESS; // 认为是预期成功
            } else {
                std::cout << "[Host] Child process terminated unexpectedly by signal." << std::endl;
                return EXIT_FAILURE;
            }
        } else {
            std::cout << "[Host] Child process terminated abnormally." << std::endl;
            return EXIT_FAILURE;
        }
    }

    return EXIT_SUCCESS;
}

编译宿主程序：

g++ -std=c++17 -o sandbox_host sandbox_host.cpp -ldl -lseccomp

运行示例：

首先编译插件：g++ -std=c++17 -fPIC -shared -o simple_plugin.so simple_plugin.cpp
然后编译宿主程序：g++ -std=c++17 -o sandbox_host sandbox_host.cpp -ldl -lseccomp
运行宿主程序并传入插件路径：./sandbox_host ./simple_plugin.so

预期输出（可能略有不同）：

[Host] Starting sandbox host for plugin: ./simple_plugin.so
[Host] Child process (PID: 12345) created. Waiting for it to finish...
[Sandbox] Child process started (PID: 12345). Configuring Seccomp...
[Sandbox] Seccomp filter loaded in child process.
[Sandbox] Plugin 'SimplePlugin v1.0' loaded and initialized.
[Sandbox] Executing plugin's safe operation...
[Plugin] Safe operation executed. My PID: 12345
[Sandbox] Executing plugin's unsafe operation (expecting termination)...
[Plugin] Trying to execute an unsafe operation...
[Plugin] Expected: Failed to open 'plugin_output.txt' (good, filter likely worked).
[Host] Child process terminated by signal: 31
[Host] Child process was killed by SIGSYS (Seccomp violation) - expected behavior for unsafe operation!

你会看到子进程在尝试 getuid() (或 fopen 内部的 openat) 时，被 SIGSYS 信号终止，父进程捕获到这个信号并打印了预期信息。这表明 Seccomp 过滤器成功阻止了插件的非法系统调用。

一些必要的系统调用及其用途 (基于 strace 常见输出):

系统调用号	名称	常见用途
`SYS_read`	`read`	从文件描述符读取数据 (如标准输入、管道)。
`SYS_write`	`write`	向文件描述符写入数据 (如标准输出、标准错误、管道)。
`SYS_close`	`close`	关闭文件描述符。
`SYS_exit_group`	`exit_group`	终止调用进程的所有线程并退出进程。
`SYS_exit`	`exit`	终止调用线程并退出进程 (通常由 `exit_group` 替代)。
`SYS_fstat`	`fstat`	获取文件描述符的状态信息 (如文件类型、大小)，C++ iostream 内部常用。
`SYS_newfstatat`	`fstatat`	更现代的 `fstat`，用于获取指定路径或文件描述符相对路径的文件状态。
`SYS_mmap`	`mmap`	内存映射文件或设备，或用于匿名内存分配，动态链接器、内存分配器需要。
`SYS_munmap`	`munmap`	解除内存映射。
`SYS_mprotect`	`mprotect`	改变内存区域的保护属性 (读、写、执行)，动态链接器需要。
`SYS_brk`	`brk`	改变数据段的结束地址，用于堆内存分配。
`SYS_arch_prctl`	`arch_prctl`	架构相关的进程控制，通常用于设置线程本地存储的基地址 (x86-64 架构)。
`SYS_access`	`access`	检查文件或目录是否存在以及进程是否有权限访问。`dlopen` 可能在查找共享库时使用。
`SYS_set_tid_address`	`set_tid_address`	设置线程退出时通知的地址，由 glibc 内部用于线程管理。
`SYS_futex`	`futex`	快速用户空间互斥锁，用于实现用户空间同步原语，如互斥量、条件变量。C++ 标准库多线程部分会使用。
`SYS_getpid`	`getpid`	获取当前进程的 PID。
`SYS_gettid`	`gettid`	获取当前线程的 TID。
`SYS_rseq`	`rseq`	(Linux 4.19+) 快速用户空间系统调用，用于实现高效的原子操作。
`SYS_clone`	`clone`	创建子进程或新线程 (如果插件有多线程需求，需要允许)。
`SYS_clone3`	`clone3`	(Linux 5.3+) 较新的 `clone` 版本。
`SYS_statx`	`statx`	(Linux 4.11+) 更现代的文件状态查询系统调用。

这个列表并非详尽无遗，实际所需的系统调用可能因 C++ 标准库版本、编译器、链接器以及插件本身的复杂性而异。在实际项目中，通过 strace 进行细致的分析是不可或缺的。

细粒度权限控制与挑战

构建一个健壮的 Seccomp 策略需要深入理解应用程序及其依赖库的行为。

识别必需的系统调用

如前所述，strace 是你的最佳工具。

完整跟踪： strace -f -o full_trace.log your_program。-f 选项会跟踪所有子进程。
分析日志： grep syscalls full_trace.log | sort | uniq -c | sort -nr 可以帮助你找出最频繁调用的系统调用。
逐步精炼： 从最常见的系统调用开始添加白名单，然后根据程序行为和 Seccomp 拒绝日志逐步添加。

管理系统调用参数

仅仅允许一个系统调用是不够的，你还需要限制其参数。

文件路径： 对于 openat (SYS_openat)、access (SYS_access) 等系统调用，可以限制文件描述符参数为 AT_FDCWD (当前工作目录)，并限制路径参数为沙盒内的特定目录前缀。例如，SCMP_A1(SCMP_CMP_EQ, (long)AT_FDCWD), SCMP_A2(SCMP_CMP_GE, (long)path_start_address), SCMP_A2(SCMP_CMP_LE, (long)path_end_address)，但这需要复杂的内存地址管理，更常见的是限制 open 的 flags，比如不允许 O_WRONLY 或 O_RDWR。
文件描述符： 对于 read、write，限制其第一个参数（文件描述符）只能是标准输入/输出/错误或者预设的 IPC 管道文件描述符。
网络操作： 对于 socket (SYS_socket)，可以限制其 domain (如只允许 AF_UNIX)、type 和 protocol 参数。
进程创建： 如果允许 clone (SYS_clone)，可能需要限制其 flags 参数，例如禁止 CLONE_NEWNET (创建新的网络命名空间) 或 CLONE_NEWPID (创建新的 PID 命名空间)。

处理信号、文件描述符与 IPC

信号： 默认情况下，Seccomp 可能会干扰信号处理。允许 rt_sigaction (SYS_rt_sigaction)、rt_sigprocmask (SYS_rt_sigprocmask) 是常见的需求。
预打开的文件描述符： 沙盒进程启动前，宿主进程可以预先打开一些文件描述符（例如指向日志文件或 IPC 管道），然后沙盒进程可以安全地使用这些已打开的文件描述符，而无需调用 open。
IPC： 管道是最简单的 IPC 方式。宿主进程 pipe() 创建管道，fork() 后，父子进程各自关闭不需要的管道端点，并通过 read()/write() 在允许的 FD 上通信。

性能考量

Seccomp 过滤器本身在内核中以 BPF 字节码执行，性能开销极低。每次系统调用都会增加几十纳秒的延迟，对于大多数应用来说可以忽略不计。主要的性能开销通常来自：

进程创建： fork() 和 exec() 有一定的开销，但通常只发生在沙盒启动时。
进程间通信 (IPC)： 如果插件需要频繁与宿主进程通信，IPC 的开销（上下文切换、数据拷贝）可能会成为瓶颈。在这种情况下，需要权衡 IPC 机制的选择（管道 vs. 共享内存 vs. Unix Domain Sockets）。

高级 Seccomp 策略与最佳实践

白名单 vs. 黑名单

始终使用白名单 (Whitelist) 策略。 默认动作设置为 SCMP_ACT_KILL_PROCESS 或 SCMP_ACT_ERRNO，然后只允许明确需要的系统调用。黑名单策略（默认允许，只禁止少数系统调用）是极其危险的，因为你永远无法穷尽所有潜在的恶意系统调用组合。

逐步构建策略

最小化初始白名单： 仅允许 exit_group 和 read/write 到宿主进程提供的 IPC 管道。
运行并观察： 运行你的插件，观察它因 Seccomp 违规而终止或返回错误。
分析并添加： 使用 strace 或内核日志 (SCMP_ACT_LOG) 找出被拒绝的系统调用，并将其添加到白名单中。对于每个新添加的系统调用，都要仔细考虑是否需要限制其参数。
迭代： 重复上述过程，直到插件能够正常运行其所有预期功能，并且不再有意外的 Seccomp 违规。

自动化策略生成

手动维护一个庞大的 Seccomp 白名单策略是一项繁琐且容易出错的工作。一些工具和方法可以帮助自动化这个过程：

go-seccomp-generator： 一个可以分析 strace 输出并生成 Seccomp 策略的工具。
自定义脚本： 编写脚本来解析 strace 日志，并根据规则生成 libseccomp 的 C++ 代码或 JSON 策略文件。
运行时学习： 某些高级沙盒系统（如 gVisor）可以在运行时监控系统调用，并动态调整策略，但这超出了纯 Seccomp 的范畴。

结合其他沙盒技术

Seccomp 虽然强大，但它只是沙盒防御体系中的一层。为了构建更强大的沙盒，应将其与其他 Linux 安全机制结合使用：

Linux Namespaces： 将插件放入独立的 PID、网络、文件系统 (mount)、用户等命名空间，进一步限制其对系统资源的可见性。
chroot()： 限制插件对文件系统的可见范围。
Capabilities： 剥夺插件进程不必要的特权，例如 CAP_NET_ADMIN (网络管理)、CAP_SYS_ADMIN (系统管理) 等。
Resource Limits (setrlimit)： 限制插件的 CPU 时间、内存使用、文件打开数量等资源。
Cgroups： 更细粒度地控制和隔离进程组的资源使用。
AppArmor/SELinux： 强制访问控制 (MAC) 机制，提供更高级别的安全策略。

通过多层防御，即使攻击者成功绕过 Seccomp 的某些限制，也可能在其他层被阻止。

总结与展望：安全无止境的旅程

利用 C++ 结合 Linux Seccomp 机制，我们能够为受限插件模块构建一套强大且高效的沙盒隔离方案。通过精确控制系统调用权限，我们能够大幅降低不受信任代码带来的安全风险和系统不稳定性。然而，构建完美的沙盒策略是一个持续的挑战，需要深入理解系统行为、细致分析代码路径，并不断迭代和优化。

随着 eBPF 技术在 Linux 内核中的持续演进，未来 Seccomp 策略的动态性和可编程性有望得到进一步增强，为 C++ 应用程序构建更智能、更灵活的安全边界提供可能。安全始终是一个没有终点的旅程，持续学习和适应新的威胁与技术是保障系统安全的关键。

C++ 与沙盒隔离：利用 Linux Seccomp 机制限制受限插件模块的系统调用权限边界

开篇引言：构建安全边界的必要性

沙盒技术概览与挑战

Linux Seccomp 机制深度剖析

BPF (Berkeley Packet Filter) 简介

Seccomp Actions (裁决结果)

seccomp(2) 系统调用

libseccomp 库

C++ 环境下的 Seccomp 集成：libseccomp 实践

基本 libseccomp 使用示例

限制系统调用参数

识别必需的系统调用

构建受限插件模块的沙盒环境

架构设计考虑

沙盒进程启动流程

C++ 示例：一个简单的插件加载器与沙盒

细粒度权限控制与挑战

识别必需的系统调用

管理系统调用参数

处理信号、文件描述符与 IPC

性能考量

高级 Seccomp 策略与最佳实践

白名单 vs. 黑名单

逐步构建策略

自动化策略生成

结合其他沙盒技术

总结与展望：安全无止境的旅程

发表回复 取消回复

`seccomp(2)` 系统调用

`libseccomp` 库

C++ 环境下的 Seccomp 集成：`libseccomp` 实践

基本 `libseccomp` 使用示例

发表回复取消回复