C++ `Valgrind` / `AddressSanitizer` (ASan) 的自定义检查器编写 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

哈喽，各位好！今天咱们来聊聊C++世界里的两大侦探：Valgrind和AddressSanitizer (ASan)，以及如何给他们配备更专业的装备——编写自定义检查器。

想象一下，Valgrind和ASan就像是两位经验丰富的警察，他们能帮你揪出内存泄漏、非法访问等各种C++程序中的犯罪行为。但是，有些犯罪手法比较隐蔽，需要更专业的工具才能发现。这就是自定义检查器发挥作用的地方。

第一部分：Valgrind 自定义检查器

Valgrind本身就是一个框架，它允许你编写自己的工具（tools）。这些工具可以拦截程序的内存操作，并进行各种自定义的检查。最常用的工具是Memcheck，用于检测内存错误。

1.1 Valgrind 工具架构

Valgrind 工具架构的核心在于 VCode 和 ICode。简单来说：

VCode: Valgrind 模拟CPU的指令集。
ICode: Valgrind将目标程序的机器码转换成一种中间表示（IR）。你的工具就是在这个IR上工作，检查内存操作。

编写Valgrind工具涉及到以下几个关键步骤：

定义工具结构体: 包含工具的状态和配置。
实现工具初始化函数: 设置工具状态，注册回调函数。
实现回调函数: 这些函数在特定事件发生时被调用，例如内存分配、释放、读取、写入等。
处理 ICode: 分析和修改 ICode，添加自定义的检查。

1.2 一个简单的 Valgrind 工具示例：内存分配计数器

咱们先来个热身，写一个最简单的工具，统计程序分配的内存总量。

// my_tool.c
#include "pub_tool_basics.h"
#include "pub_tool_tooliface.h"
#include "pub_tool_mallocfree.h"

typedef struct {
  ULong total_alloc_bytes;
} MyToolState;

static MyToolState* myToolState;

// 初始化函数
static void myTool_pre_clo_init(void) {
  // 什么也不做
}

// 命令行参数处理（可选）
static void myTool_post_clo_init(void) {
  // 初始化工具状态
  myToolState = (MyToolState*)VG_(malloc)("my_tool.state", sizeof(MyToolState));
  myToolState->total_alloc_bytes = 0;
}

// 退出函数
static void myTool_fini(Int exitcode) {
  VG_(printf)("Total allocated bytes: %llun", myToolState->total_alloc_bytes);
  VG_(free)(myToolState);
}

// 内存分配回调函数
static void myTool_malloc(void* addr, SizeT size) {
  myToolState->total_alloc_bytes += size;
}

// 内存释放回调函数
static void myTool_free(void* addr) {
  // 这里什么也不做，因为我们只关心分配的内存总量
}

// 工具接口
static const VG_TOOLIFACE(myTool) = {
  .pre_clo_init  = myTool_pre_clo_init,
  .post_clo_init = myTool_post_clo_init,
  .fini          = myTool_fini,

  .mallocfn      = myTool_malloc,
  .freefn        = myTool_free,

  .name          = "my_tool",
  .description   = "Counts total allocated bytes",
  .author        = "Your Name",
  .copyright_year= 2023,
};

VG_DETERMINE_INTERFACE(myTool)

编译和使用：

保存: 将代码保存为 my_tool.c。
编译: gcc -fPIC -shared -o my_tool.so my_tool.c
运行: valgrind --tool=my_tool ./your_program

这个工具很简单，只是统计了分配的内存总量。但它展示了Valgrind工具的基本结构。

1.3 深入：处理 ICode 进行更复杂的检查

要进行更复杂的检查，你需要深入了解 ICode。这意味着你需要分析程序的指令，并根据指令的类型执行相应的操作。

例如，你想检测是否使用了未初始化的变量。你可以拦截内存读取操作，检查读取的内存是否被初始化过。这需要：

拦截内存读取操作: 使用 VG_(needs_instruction_instrumentation) 和 VG_(instrument_instruction)。
分析 ICode: 确定指令是否是内存读取操作。
检查内存是否初始化: 如果是，则检查内存是否被初始化过。如果没有，则报告错误。

这部分比较复杂，需要深入研究Valgrind的API和ICode的结构。 Valgrind 的官方文档是你的好朋友。

1.4 Valgrind 自定义检查器的挑战

学习曲线陡峭: Valgrind API 非常复杂，需要花费大量时间学习。
性能开销: 自定义检查器会增加程序的运行时间。
调试困难: 调试 Valgrind 工具本身也很困难。

第二部分：AddressSanitizer (ASan) 自定义检查器

AddressSanitizer (ASan) 是一个快速的内存错误检测工具，它比 Valgrind 更快，但功能相对简单。ASan 的核心思想是：在内存分配和释放时，在分配的内存周围放置“隔离区”（shadow memory），并拦截内存访问操作，检查是否访问了隔离区。

2.1 ASan 的工作原理

Shadow Memory: ASan 使用 shadow memory 来跟踪内存的状态。对于每个字节的应用程序内存，ASan 都有一个对应的 shadow byte。shadow byte 的值表示应用程序内存的可访问性：
- 0: 可完全访问。
- > 0: 部分可访问（例如，分配块的头部或尾部）。
- < 0: 不可访问（例如，隔离区）。
拦截内存操作: ASan 拦截内存分配、释放、读取、写入等操作。
检查 Shadow Memory: 在每次内存访问时，ASan 都会检查对应的 shadow byte。如果 shadow byte 的值表示内存不可访问，则报告错误。

2.2 ASan 自定义检查器：编译时和运行时

ASan 自定义检查器可以在编译时和运行时进行。

编译时检查器: 使用 ASan 的 API 来插入自定义的检查代码。例如，可以使用 __asan_check_region 函数来检查内存区域是否可访问。
运行时检查器: 通过环境变量来配置 ASan 的行为。例如，可以设置 ASAN_OPTIONS 环境变量来启用或禁用某些检查。

2.3 一个简单的 ASan 编译时检查器示例：检查内存对齐

假设你想确保所有分配的内存都按照 16 字节对齐。你可以编写一个自定义的分配函数，并在其中使用 ASan 的 API 来检查对齐。

#include <stdlib.h>
#include <sanitizer/asan_interface.h>

void* my_aligned_malloc(size_t size) {
  void* ptr = malloc(size + 15); // 多分配一些空间，以便对齐
  if (!ptr) return nullptr;

  // 计算对齐后的地址
  void* aligned_ptr = (void*)(((uintptr_t)ptr + 15) & ~15);

  // 保存原始指针，以便 free
  ((void**)aligned_ptr)[-1] = ptr;

  // 检查对齐是否正确
  if (((uintptr_t)aligned_ptr % 16) != 0) {
    __asan_report_error(aligned_ptr, 16, 0, 1); // 报告错误
    return nullptr; // 或者直接 abort
  }

  return aligned_ptr;
}

void my_aligned_free(void* ptr) {
  if (!ptr) return;
  void* original_ptr = ((void**)ptr)[-1];
  free(original_ptr);
}

int main() {
  void* ptr = my_aligned_malloc(10);
  if (ptr) {
    // 使用 ptr
    my_aligned_free(ptr);
  }
  return 0;
}

编译和运行：

保存: 将代码保存为 my_asan_check.c。
编译: g++ -fsanitize=address my_asan_check.c -o my_asan_check
运行: ./my_asan_check

如果分配的内存没有按照 16 字节对齐，ASan 会报告错误。

2.4 ASan 自定义检查器的优势

速度快: ASan 比 Valgrind 快得多。
易于使用: ASan 的 API 相对简单。
集成方便: ASan 可以很容易地集成到现有的构建系统中。

2.5 ASan 自定义检查器的局限性

功能有限: ASan 的功能相对简单，只能检测常见的内存错误。
只能检测运行时错误: ASan 只能检测运行时错误，不能检测编译时错误。

第三部分：Valgrind vs. ASan：选择哪个？

Valgrind 和 ASan 各有优缺点。选择哪个取决于你的需求：

特性	Valgrind	AddressSanitizer (ASan)
速度	慢	快
功能	强大，可以检测各种内存错误，支持自定义工具	相对简单，主要检测常见的内存错误
易用性	复杂，API 学习曲线陡峭	简单，API 容易使用
适用场景	需要进行深入的内存分析，寻找复杂的内存错误	快速检测常见的内存错误，用于开发和测试阶段
性能开销	高	低
支持的平台	广泛	相对较少

结论：

开发和测试阶段: 优先使用 ASan，因为它速度快，可以快速检测常见的内存错误。
深入分析和调试阶段: 使用 Valgrind，因为它功能强大，可以检测各种内存错误，并支持自定义工具。

总结：

Valgrind 和 ASan 都是强大的内存错误检测工具。通过编写自定义检查器，你可以扩展它们的功能，使其能够检测更复杂的错误。虽然学习曲线比较陡峭，但掌握这些工具对于编写高质量的 C++ 代码至关重要。

希望今天的讲解对大家有所帮助！下次再见！

发表回复 取消回复

发表回复取消回复