C++实现程序崩溃转储（Core Dump）分析：利用GDB/LLDB进行事后调试 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，我们开始。

C++ 程序崩溃转储（Core Dump）分析：利用 GDB/LLDB 进行事后调试

大家好，今天我们来探讨一个重要的软件开发领域：C++ 程序崩溃转储分析，以及如何利用 GDB/LLDB 进行事后调试。当一个 C++ 程序崩溃时，生成 core dump 文件对于诊断和修复问题至关重要。这种事后调试方法允许我们在程序崩溃后检查其状态，从而找出导致崩溃的原因。

1. 什么是 Core Dump？

Core dump 是程序在异常终止时，操作系统将其内存镜像（包括代码、数据、堆栈和寄存器状态）保存到磁盘的文件。它可以被视为程序崩溃瞬间的快照。

2. 为什么需要 Core Dump？

诊断崩溃原因： Core dump 提供了程序崩溃时的详细状态信息，帮助开发者了解程序在崩溃前发生了什么。
调试复杂问题： 对于难以复现的崩溃或涉及多线程、内存泄漏等复杂问题，core dump 是非常有用的调试工具。
事后分析： 可以在程序崩溃后进行分析，而无需重新运行程序或重现崩溃场景。
追踪内存错误： Core dump 可以用来检测内存泄漏、野指针等内存相关的问题。

3. 如何生成 Core Dump 文件？

默认情况下，某些操作系统可能禁用 core dump 的生成。要启用 core dump，需要进行一些配置。

3.1 在 Linux 系统上启用 Core Dump

检查 ulimit 设置： 使用 ulimit -c 命令查看 core dump 文件大小的限制。如果输出为 0，表示 core dump 被禁用。
设置 ulimit： 使用 ulimit -c unlimited 命令取消 core dump 文件大小的限制。或者设置一个具体的大小，例如 ulimit -c 1024000 (1GB)。
设置 core dump 文件名： 可以通过修改 /proc/sys/kernel/core_pattern 文件来设置 core dump 文件的存储路径和文件名格式。例如，echo "/tmp/core.%e.%p.%t" | sudo tee /proc/sys/kernel/core_pattern 将 core dump 文件存储在 /tmp 目录下，文件名包含程序名、进程 ID 和时间戳。
永久修改： 要永久修改 core dump 设置，可以将 ulimit -c unlimited 添加到 /etc/security/limits.conf 文件中，或者修改 /etc/sysctl.conf 文件，添加 kernel.core_pattern=/tmp/core.%e.%p.%t 并执行 sudo sysctl -p。

3.2 在 macOS 系统上启用 Core Dump

macOS 的 core dump 机制与 Linux 略有不同。

检查 core dump 是否启用： 使用 sysctl kern.corefile 命令查看 core dump 文件的存储路径。如果输出类似于 kern.corefile: /cores/core.%P，则表示 core dump 已启用。
启用 core dump (如果未启用): 通常情况下，macOS 默认启用 core dump。如果需要启用，可以运行 sudo launchctl limit core unlimited 。需要重启终端或 shell 才能使设置生效。
设置 core dump 文件名和路径： 可以通过 sudo sysctl kern.corefile=/path/to/your/cores/core.%P 来设置 core dump 文件的存储路径和文件名格式。 %P 会被进程 ID 替换。

4. 使用 GDB/LLDB 分析 Core Dump

有了 core dump 文件后，就可以使用 GDB (GNU Debugger) 或 LLDB (Low Level Debugger) 进行分析。 GDB 常用于 Linux 系统，而 LLDB 是 macOS 上默认的调试器。

4.1 使用 GDB 分析 Core Dump

启动 GDB： 使用以下命令启动 GDB 并加载 core dump 文件：
```
gdb <executable_file> <core_file>
```
其中 <executable_file> 是生成 core dump 的可执行文件，<core_file> 是 core dump 文件的路径。

常用 GDB 命令：

命令	描述
`bt`	显示堆栈跟踪 (backtrace)，展示函数调用链，可以查看程序执行到崩溃点的调用过程。
`frame <n>`	切换到堆栈中的第 n 帧。
`info locals`	显示当前帧的局部变量。
`print <var>`	打印变量 `<var>` 的值。
`list`	显示当前源代码行的上下文。
`quit`	退出 GDB。
`info threads`	显示所有线程的信息。
`thread <id>`	切换到指定的线程。

示例：

假设我们有一个程序 my_program，它崩溃并生成了 core dump 文件 core.12345。

gdb my_program core.12345

在 GDB 提示符下，可以执行以下命令：

bt  // 查看堆栈跟踪
frame 2 // 切换到堆栈中的第 2 帧
info locals // 显示当前帧的局部变量
print my_variable // 打印变量 my_variable 的值
list // 显示当前源代码行的上下文

4.2 使用 LLDB 分析 Core Dump

启动 LLDB： 使用以下命令启动 LLDB 并加载 core dump 文件：
```
lldb <executable_file> -c <core_file>
```
其中 <executable_file> 是生成 core dump 的可执行文件，<core_file> 是 core dump 文件的路径。

常用 LLDB 命令：

命令	描述
`bt`	显示堆栈跟踪 (backtrace)。
`frame select <n>`	切换到堆栈中的第 n 帧。
`frame variable`	显示当前帧的局部变量。
`print <var>`	打印变量 `<var>` 的值。
`list`	显示当前源代码行的上下文。
`quit`	退出 LLDB。
`thread list`	显示所有线程的信息。
`thread select <id>`	切换到指定的线程。

示例：

假设我们有一个程序 my_program，它崩溃并生成了 core dump 文件 core.12345。

lldb my_program -c core.12345

在 LLDB 提示符下，可以执行以下命令：

bt  // 查看堆栈跟踪
frame select 2 // 切换到堆栈中的第 2 帧
frame variable // 显示当前帧的局部变量
print my_variable // 打印变量 my_variable 的值
list // 显示当前源代码行的上下文

5. 示例代码与 Core Dump 分析

以下是一个简单的 C++ 程序，它会导致空指针解引用，从而产生崩溃。

#include <iostream>

int main() {
  int *ptr = nullptr;
  std::cout << *ptr << std::endl; // 空指针解引用
  return 0;
}

编译程序：
```
g++ -g crash_program.cpp -o crash_program
```
-g 选项用于添加调试信息，这对于使用 GDB/LLDB 进行调试至关重要。
运行程序：
```
./crash_program
```
程序会崩溃，并生成一个 core dump 文件（假设文件名为 core.xxxxx）。

使用 GDB 分析 Core Dump：

gdb crash_program core.xxxxx

在 GDB 提示符下：

bt

输出可能如下所示：

#0  0x0000000000400607 in main () at crash_program.cpp:5
#1  0x00007ffff7a08b97 in __libc_start_main (main=0x4005d6 <main()>, argc=1, argv=0x7fffffffe3f8, init=<optimized out>, fini=<optimized out>, rtld_fini=<optimized out>, stack_end=0x7fffffffe3e8) at ../csu/libc-start.c:310
#2  0x000000000040049a in _start ()

这表明崩溃发生在 crash_program.cpp 文件的第 5 行，即 std::cout << *ptr << std::endl; 处。结合代码，可以很容易地发现问题是空指针 ptr 被解引用。

6. 解决常见 Core Dump 分析问题

缺少调试信息： 如果在编译时没有使用 -g 选项，core dump 文件可能缺少足够的调试信息，使得分析变得困难。确保在编译时添加 -g 选项。
stripped 可执行文件： 有时，为了减小文件大小，可执行文件会被 "stripped"，即移除调试信息。确保使用未 stripped 的可执行文件进行调试。
动态链接库： 如果程序使用了动态链接库，并且在加载 core dump 时 GDB/LLDB 找不到这些库，可能会出现问题。可以使用 set solib-search-path 命令告诉 GDB/LLDB 动态链接库的搜索路径。例如： set solib-search-path /path/to/libraries。
Core Dump 文件损坏： 极少数情况下，core dump 文件可能损坏，导致 GDB/LLDB 无法正确加载。

7. Core Dump 文件大小的管理

Core dump 文件可能非常大，特别是对于大型应用程序。因此，需要合理管理 core dump 文件的大小和存储。

限制 Core Dump 文件大小： 可以使用 ulimit -c 命令限制 core dump 文件的大小。
压缩 Core Dump 文件： 可以使用 gzip 或其他压缩工具压缩 core dump 文件，以节省磁盘空间。
定期清理 Core Dump 文件： 定期检查和清理旧的 core dump 文件，以避免磁盘空间耗尽。

8. 多线程程序的 Core Dump 分析

对于多线程程序，core dump 文件包含了所有线程的状态信息。可以使用 info threads (GDB) 或 thread list (LLDB) 命令查看所有线程的信息，并使用 thread <id> (GDB) 或 thread select <id> (LLDB) 命令切换到指定的线程进行分析。

9. 使用 valgrind 分析内存问题

虽然 GDB/LLDB 可以帮助分析 core dump，但是对于内存泄漏、野指针等内存问题，使用 Valgrind 等专门的内存分析工具可能更有效。 Valgrind 可以检测程序中的各种内存错误，并提供详细的报告。

10. 一个更复杂的例子

#include <iostream>
#include <vector>

void access_vector(std::vector<int>& vec, int index) {
  try {
    std::cout << "Accessing element at index: " << index << std::endl;
    std::cout << "Value: " << vec.at(index) << std::endl; // 使用 at() 进行安全访问
  } catch (const std::out_of_range& e) {
    std::cerr << "Caught an exception: " << e.what() << std::endl;
    throw; // 重新抛出异常
  }
}

int main() {
  std::vector<int> my_vector = {1, 2, 3};
  try {
    access_vector(my_vector, 5); // 访问越界
  } catch (const std::exception& e) {
    std::cerr << "Main caught an exception: " << e.what() << std::endl;
    // 在这里不处理异常，让程序崩溃生成 core dump
  }

  return 0;
}

编译： g++ -g vector_example.cpp -o vector_example
运行： ./vector_example 会导致程序因为未处理的异常而崩溃。
分析： gdb vector_example core.xxxxx

在 GDB 中，使用 bt 命令查看堆栈跟踪。堆栈跟踪会显示 access_vector 函数抛出了 std::out_of_range 异常，并且这个异常没有被 main 函数处理，最终导致程序崩溃。通过检查 my_vector 的大小和访问的索引值，可以很容易地确定是数组越界访问导致了问题。

最后说两句

Core dump 是一个强大的事后调试工具，熟练掌握 GDB/LLDB 的使用对于分析 C++ 程序崩溃至关重要。通过仔细分析 core dump 文件，可以快速定位问题，提高开发效率。另外，要记住，编译时添加调试信息、合理管理 core dump 文件大小以及结合 Valgrind 等内存分析工具，可以更好地利用 core dump 进行程序调试。

更多IT精英技术系列讲座，到智猿学院

C++ 程序崩溃转储（Core Dump）分析：利用 GDB/LLDB 进行事后调试

发表回复 取消回复

发表回复取消回复