C++ 核心转储（Core Dump）高级分析：解决复杂崩溃与内存损坏 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

哈喽，各位好！今天咱们来聊聊C++核心转储的高级分析，也就是俗称的“Core Dump”，这玩意儿，说白了，就是程序崩溃时，操作系统给你留下的“犯罪现场”。有了它，咱们才能像福尔摩斯一样，抽丝剥茧，找到bug的真凶。但很多时候，这个现场可不简单，错综复杂，需要一些高级技巧才能搞定。

一、 Core Dump 是个啥？

简单来说，Core Dump 是程序在崩溃瞬间，内存的快照。它包含了程序运行时的所有信息，比如：

代码段： 程序的可执行代码。
数据段： 全局变量、静态变量等。
堆栈段： 函数调用栈、局部变量等。
寄存器： CPU 各个寄存器的值。

有了这些信息，咱们就能还原程序崩溃时的状态，找到导致崩溃的原因。

二、Core Dump 从哪里来？

在 Linux 系统中，默认情况下，Core Dump 可能不会自动生成。你需要手动开启：

ulimit -c unlimited # 允许生成 Core Dump，大小不限制

或者，你也可以设置 Core Dump 文件的大小限制，比如：

ulimit -c 1024  # 允许生成 Core Dump，最大 1024 KB

设置完之后，运行崩溃的程序，就会在当前目录下生成一个名为 core (或者 core.进程ID) 的文件。文件名可以通过 /proc/sys/kernel/core_pattern 文件进行配置。

三、Core Dump 分析工具：GDB

分析 Core Dump 的利器，非 GDB (GNU Debugger) 莫属。

gdb 程序名 core文件名

比如：

gdb my_program core.12345

进入 GDB 后，它会自动加载 Core Dump 文件，并停在程序崩溃的地方。

四、GDB 常用命令

GDB 提供的命令非常丰富，这里介绍一些最常用的：

bt (backtrace): 查看函数调用栈，可以知道程序是如何一步步走到崩溃点的。
frame <frame number>: 切换到指定的栈帧。
info locals: 查看当前栈帧的局部变量。
print <variable>: 打印变量的值。
p <variable>: 打印变量的值，是 print 的简写。
x/<nfu> <address>: 检查内存地址的内容。 n 是要显示的内存单元的个数，f 是显示格式 (比如 x 是十六进制，d 是十进制，s 是字符串)， u 是内存单元的大小 (比如 b 是字节，h 是半字，w 是字，g 是双字)。
list <line number>: 显示源代码。
quit: 退出 GDB。

五、复杂崩溃场景分析

光会用 GDB 命令还不够，关键是要知道在什么情况下使用什么命令。下面咱们来看一些常见的复杂崩溃场景：

1. 空指针解引用

这是最常见的崩溃原因之一。程序试图访问一个空指针指向的内存地址，导致崩溃。

#include <iostream>

int main() {
  int *ptr = nullptr;
  *ptr = 10; // 空指针解引用
  std::cout << "Hello, world!" << std::endl;
  return 0;
}

编译并运行：

g++ -g null_pointer.cpp -o null_pointer
./null_pointer

生成 Core Dump 后，用 GDB 分析：

gdb null_pointer core

在 GDB 中，输入 bt，可以看到如下信息：

#0  0x0000000000400626 in main () at null_pointer.cpp:5

这说明崩溃发生在 null_pointer.cpp 的第 5 行，也就是 *ptr = 10; 这行代码。

再输入 print ptr，可以看到 ptr 的值为 0x0，证实了是空指针解引用导致的崩溃。

2. 堆内存损坏

堆内存损坏通常是由于内存越界读写、重复释放、释放未分配的内存等原因造成的。这种问题往往比较隐蔽，难以定位。

#include <iostream>
#include <cstdlib>

int main() {
  int *arr = new int[5];
  for (int i = 0; i < 10; ++i) { // 越界写入
    arr[i] = i;
  }
  delete[] arr;
  return 0;
}

编译并运行：

g++ -g heap_corruption.cpp -o heap_corruption
./heap_corruption

生成 Core Dump 后，用 GDB 分析：

gdb heap_corruption core

这种情况下，bt 可能不会直接指向越界写入的地方，而是指向 delete[] arr; 或者后续的内存分配操作。因为越界写入可能破坏了堆的元数据，导致后续的内存管理操作出错。

这时候，需要一些高级技巧：

Valgrind: Valgrind 是一个强大的内存调试工具，可以检测内存泄漏、越界读写等问题。在运行程序时，可以使用 Valgrind：
```
valgrind --leak-check=full ./heap_corruption
```
Valgrind 会详细报告内存错误的位置和类型。
手动检查内存： 如果 Valgrind 无法定位问题，可以尝试手动检查内存。在 GDB 中，可以使用 x 命令查看内存的内容。比如，查看 arr 指向的内存：
```
print arr
x/20xw arr
```
这会显示 arr 指向的内存的 20 个字 (4 字节) 的内容，以十六进制格式显示。通过观察内存的内容，可以发现是否被意外修改。
Heap Debugging Libraries: 一些库，例如 AddressSanitizer (ASan) 和 MemorySanitizer (MSan)，可以在编译时检测内存错误。使用方法是在编译时添加相应的编译选项：
```
g++ -g -fsanitize=address heap_corruption.cpp -o heap_corruption
```
程序在运行时，如果发生内存错误，会立即报告错误信息。

3. 多线程竞争

多线程程序中，由于线程之间的竞争条件，可能导致数据不一致、死锁等问题，最终导致崩溃。

#include <iostream>
#include <thread>
#include <mutex>

int counter = 0;
std::mutex mtx;

void increment() {
  for (int i = 0; i < 100000; ++i) {
    std::lock_guard<std::mutex> lock(mtx);
    counter++;
  }
}

int main() {
  std::thread t1(increment);
  std::thread t2(increment);

  t1.join();
  t2.join();

  std::cout << "Counter: " << counter << std::endl;
  return 0;
}

虽然这个例子使用了互斥锁来保护共享变量 counter，但如果锁的粒度不够细，仍然可能出现竞争条件。假设我们把互斥锁注释掉：

#include <iostream>
#include <thread>
//#include <mutex> // 注释掉互斥锁

int counter = 0;
//std::mutex mtx; // 注释掉互斥锁

void increment() {
  for (int i = 0; i < 100000; ++i) {
    //std::lock_guard<std::mutex> lock(mtx); // 注释掉互斥锁
    counter++;
  }
}

int main() {
  std::thread t1(increment);
  std::thread t2(increment);

  t1.join();
  t2.join();

  std::cout << "Counter: " << counter << std::endl;
  return 0;
}

编译并运行：

g++ -g thread_race.cpp -o thread_race -pthread
./thread_race

生成 Core Dump 后，用 GDB 分析：

gdb thread_race core

在 GDB 中，可以使用以下命令查看线程信息：

info threads: 查看所有线程的信息。
thread <thread number>: 切换到指定的线程。

切换到不同的线程，查看其调用栈和局部变量，可以帮助你找到竞争条件发生的地方。

此外，可以使用 ThreadSanitizer (TSan) 来检测线程竞争：

g++ -g -fsanitize=thread thread_race.cpp -o thread_race -pthread

TSan 会在运行时检测到线程竞争，并报告错误信息。

4. 栈溢出

栈溢出通常是由于递归调用过深、局部变量占用过多内存等原因造成的。

#include <iostream>

void recursive_function(int n) {
  char buffer[1024]; // 局部变量占用较大内存
  if (n > 0) {
    recursive_function(n - 1);
  }
}

int main() {
  recursive_function(10000); // 递归调用过深
  std::cout << "Hello, world!" << std::endl;
  return 0;
}

编译并运行：

g++ -g stack_overflow.cpp -o stack_overflow
./stack_overflow

生成 Core Dump 后，用 GDB 分析：

gdb stack_overflow core

在 GDB 中，输入 bt，可以看到如下信息：

#0  0x00000000004005f6 in recursive_function (n=9999) at stack_overflow.cpp:5
#1  0x00000000004005f6 in recursive_function (n=9998) at stack_overflow.cpp:5
#2  0x00000000004005f6 in recursive_function (n=9997) at stack_overflow.cpp:5
...

这说明 recursive_function 被递归调用了多次，导致栈溢出。

可以使用 -fstack-protector 编译选项来启用栈保护机制。栈保护机制会在函数返回时检查栈是否被破坏，如果被破坏，会立即终止程序，从而避免更严重的后果。

g++ -g -fstack-protector stack_overflow.cpp -o stack_overflow

5. 信号处理

程序在收到信号时，可能会执行信号处理函数。如果信号处理函数本身存在问题，或者信号处理函数与程序的主逻辑之间存在竞争条件，也可能导致崩溃。

#include <iostream>
#include <signal>
#include <unistd.h>

int *ptr = nullptr;

void signal_handler(int signum) {
  std::cout << "Signal " << signum << " received" << std::endl;
  *ptr = 10; // 信号处理函数中空指针解引用
  exit(signum);
}

int main() {
  signal(SIGSEGV, signal_handler); // 注册信号处理函数
  sleep(5);
  std::cout << "Hello, world!" << std::endl;
  return 0;
}

编译并运行：

g++ -g signal_handler.cpp -o signal_handler
./signal_handler

程序会注册一个信号处理函数，当收到 SIGSEGV 信号时，会执行 signal_handler 函数。signal_handler 函数中存在空指针解引用，会导致崩溃。

可以使用 GDB 的 handle 命令来控制信号的处理方式：

handle SIGSEGV stop print pass

这会告诉 GDB，当收到 SIGSEGV 信号时，停止程序执行，打印信号信息，并将信号传递给程序。这样，就可以在 GDB 中调试信号处理函数。

六、总结

Core Dump 分析是一项需要经验和技巧的工作。需要熟练掌握 GDB 的常用命令，并了解常见的崩溃原因。在分析 Core Dump 时，要结合程序的源代码，逐步缩小问题范围，最终找到 bug 的根源。

下面是一个表格，总结了常见的崩溃原因和相应的分析方法：

崩溃原因	分析方法
空指针解引用	使用 `bt` 和 `print` 命令，查看崩溃位置和空指针的值。
堆内存损坏	使用 Valgrind 或 ASan 检测内存错误。手动检查内存，查看是否被意外修改。
多线程竞争	使用 `info threads` 和 `thread` 命令查看线程信息。使用 TSan 检测线程竞争。
栈溢出	使用 `bt` 命令查看函数调用栈。启用栈保护机制。
信号处理	使用 `handle` 命令控制信号的处理方式。在 GDB 中调试信号处理函数。

希望今天的分享对大家有所帮助。记住，Core Dump 是你最好的朋友，它会告诉你程序崩溃的原因。只要你耐心分析，就能找到 bug 的真凶！

发表回复 取消回复

发表回复取消回复