C++ Debugging Symbols (DWARF/PDB)：理解调试信息格式与生成 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位观众老爷们，欢迎来到今天的“C++调试符号大揭秘”讲座！今天咱们不搞虚的，直接上干货，保证让各位听完之后，对C++调试符号——特别是DWARF和PDB这俩货——有一个透彻的了解，以后调试bug的时候，腰不酸了，腿不疼了，一口气能解决仨！

咱们先来聊聊，啥叫调试符号？

1. 调试符号：程序界的“藏宝图”

想象一下，你写了一大段C++代码，编译运行后，程序崩了！屏幕上飘过一堆十六进制的地址，一脸懵逼，完全不知道错在哪里。这时候，调试符号就派上用场了！

调试符号，简单来说，就是编译器在编译过程中，额外生成的一些信息，这些信息就像一张“藏宝图”，告诉调试器（比如GDB、Visual Studio Debugger）以下这些重要信息：

变量在哪儿： 某个变量在内存中的地址是多少？
函数在哪儿： 某个函数的代码从哪个地址开始，到哪个地址结束？
代码在哪儿： 源代码的哪一行对应着哪一段机器码？
类型信息： 变量是什么类型的？结构体长什么样？
行号信息： 哪一行代码对应哪一个机器指令？

有了这些信息，调试器就能把那些冰冷的十六进制地址，转换成我们看得懂的源代码、变量名、函数名，方便我们定位问题。

2. DWARF vs. PDB：两大阵营的对决

现在市面上常见的调试符号格式主要有两个：

DWARF (Debugging With Attributed Record Formats)： 这是个开放的标准，在Linux、macOS等类Unix系统上非常流行。
PDB (Program Database)： 这是微软搞的，是Windows平台上主要的调试符号格式。

你可以把它们想象成两种不同的“藏宝图”格式，虽然目的都是为了帮助我们找到bug，但实现方式却各有千秋。

3. DWARF：开放、灵活的“藏宝图”

DWARF的设计哲学是开放和灵活。它使用一种基于“属性记录”的格式，可以描述各种复杂的C++特性，比如：

类和继承： DWARF可以描述类的成员变量、成员函数，以及继承关系。
模板： DWARF可以处理C++模板，告诉调试器模板参数的类型。
异常处理： DWARF可以记录异常处理的信息，方便调试器在抛出异常时定位到代码。
内联函数： DWARF可以记录内联函数的信息，即使函数被编译器内联展开了，也能找到对应的源代码。

3.1 DWARF的数据结构

DWARF使用一种树状结构来组织调试信息，主要的节点类型包括：

Compilation Unit (CU)： 一个CU对应于一个编译单元（通常是一个.cpp文件）。
Die (Debugging Information Entry)： 每个Die代表一个程序实体，比如变量、函数、类型等。
Attribute: Die的属性，描述程序实体的特征。

例如，我们可以用DWARF来描述一个简单的C++类：

class MyClass {
public:
    int x;
    void foo(int y);
};

void MyClass::foo(int y) {
    x = y;
}

对应的DWARF信息可能会包含以下内容：

一个CU，对应于包含MyClass定义的.cpp文件。
一个Die，代表MyClass类，包含属性：
- 类名：MyClass
- 成员变量：x（类型为int）
- 成员函数：foo
一个Die，代表MyClass::foo函数，包含属性：
- 函数名：MyClass::foo
- 参数：y（类型为int）
- 代码起始地址
- 代码结束地址

3.2 如何生成DWARF调试信息？

在使用GCC或Clang编译C++代码时，可以通过-g选项来生成DWARF调试信息：

g++ -g -o myprogram myprogram.cpp

-g选项会告诉编译器，在生成可执行文件的同时，生成DWARF调试信息。默认情况下，GCC和Clang会生成DWARF版本2的调试信息。可以使用-gdwarf-version=选项来指定DWARF版本。例如，要生成DWARF版本4的调试信息，可以使用：

g++ -g -gdwarf-4 -o myprogram myprogram.cpp

不同的DWARF版本在支持的特性和数据结构上有所不同。一般来说，较新的DWARF版本会提供更多的调试信息和更好的性能。

3.3 DWARF的存储位置

DWARF调试信息可以存储在以下几个地方：

可执行文件中： 这是最简单的方式，调试信息直接嵌入到可执行文件中。但是，这会使可执行文件变得很大。
*.debug_ section:* 调试信息被存储在可执行文件的`.debug_`节中
单独的.dwo文件： 这种方式将调试信息存储在单独的文件中，可以减小可执行文件的大小。通常，.dwo文件与可执行文件放在同一个目录下。
单独的.dwp文件： DWP文件包含了多个DWO文件的信息，可以更进一步减少debug信息占用的空间。

可以使用objdump或readelf等工具来查看DWARF调试信息：

objdump -g myprogram
readelf -w myprogram

4. PDB：Windows平台的“独门秘籍”

PDB是微软开发的，主要用于Windows平台。与DWARF相比，PDB更注重性能和效率。它使用一种二进制的格式，可以快速地读取和写入调试信息。

4.1 PDB的特点

二进制格式： PDB使用二进制格式存储调试信息，比DWARF的文本格式更紧凑，读取速度更快。
增量更新： PDB支持增量更新，这意味着每次编译只需要更新修改过的部分，而不需要重新生成整个PDB文件。
与Visual Studio集成： PDB与Visual Studio调试器紧密集成，可以提供良好的调试体验。

4.2 如何生成PDB文件？

在使用Visual Studio编译C++代码时，可以通过以下方式生成PDB文件：

Debug配置： 在Visual Studio中，选择Debug配置，编译器会自动生成PDB文件。
/Zi 选项： 在编译选项中，添加/Zi选项，可以强制编译器生成PDB文件。

PDB文件通常与可执行文件放在同一个目录下，文件名与可执行文件名相同，扩展名为.pdb。例如，如果可执行文件名为myprogram.exe，则PDB文件名为myprogram.pdb。

4.3 PDB的内容

PDB文件包含了大量的调试信息，包括：

符号表： 包含了程序中所有符号的信息，比如变量名、函数名、类名等。
类型信息： 包含了程序中所有类型的信息，比如结构体、类、枚举等。
行号信息： 包含了源代码行号与机器码地址的对应关系。
源文件信息： 包含了源文件的路径和名称。

5. DWARF vs. PDB：一些细节对比

为了让大家更直观地了解DWARF和PDB的区别，我整理了一个表格：

特性	DWARF	PDB
平台	类Unix (Linux, macOS)	Windows
格式	开放标准，基于属性记录的文本格式	微软私有，二进制格式
性能	相对较慢	相对较快
增量更新	不支持	支持
复杂类型支持	良好	良好
工具支持	GDB, LLDB, objdump, readelf	Visual Studio Debugger, windbg, pdbedit
文件扩展名	.debug_*, .dwo, .dwp	.pdb

6. 调试技巧：如何更好地利用调试符号？

掌握了调试符号的知识，还要学会如何利用它们来提高调试效率。以下是一些建议：

确保调试符号可用： 在调试之前，一定要确保调试符号已经生成，并且调试器能够找到它们。
使用调试器： 熟练使用调试器（比如GDB、Visual Studio Debugger），可以方便地查看变量的值、单步执行代码、设置断点等。
查看调用堆栈： 当程序崩溃时，查看调用堆栈可以帮助你找到问题发生的函数调用链。
利用条件断点： 在满足特定条件时才触发断点，可以帮助你定位到特定的bug。
善用日志： 在代码中添加适当的日志，可以帮助你了解程序的运行状态。

7. 代码示例：生成和使用DWARF调试信息

下面是一个简单的C++代码示例，演示如何生成和使用DWARF调试信息：

#include <iostream>

int add(int a, int b) {
    int sum = a + b;
    return sum;
}

int main() {
    int x = 10;
    int y = 20;
    int result = add(x, y);
    std::cout << "Result: " << result << std::endl;
    return 0;
}

编译代码：

使用以下命令编译代码，并生成DWARF调试信息：
```
g++ -g -o myprogram myprogram.cpp
```
使用GDB调试：

使用GDB调试程序：
```
gdb myprogram
```
在GDB中，可以设置断点、查看变量的值、单步执行代码等。例如，可以在add函数中设置断点：
```
break add
```
然后运行程序：
```
run
```
当程序执行到add函数时，GDB会暂停执行，并显示当前的源代码行。可以使用print命令查看变量的值：
```
print a
print b
print sum
```
可以使用next命令单步执行代码：
```
next
```

8. 代码示例：生成和使用PDB调试信息

下面是一个简单的C++代码示例，演示如何生成和使用PDB调试信息：

#include <iostream>

int main() {
    int a = 10;
    int b = 20;
    int sum = a + b;
    std::cout << "Sum: " << sum << std::endl;
    return 0;
}

在Visual Studio中创建项目：

创建一个新的C++控制台应用程序项目。
编译代码：

选择Debug配置，编译代码。Visual Studio会自动生成PDB文件。
使用Visual Studio Debugger调试：

在Visual Studio中，设置断点、查看变量的值、单步执行代码等。例如，可以在sum = a + b;这一行设置断点，然后运行程序。当程序执行到断点时，Visual Studio会暂停执行，并显示当前的源代码行。可以查看a、b、sum的值。

9. 总结：调试符号是你的好朋友！

调试符号是C++开发中不可或缺的一部分。理解调试符号的格式和生成方式，可以帮助你更高效地调试程序，更快地找到bug。记住，DWARF和PDB都是你的好朋友，善用它们，让你的编程之路更加顺畅！

好了，今天的讲座就到这里。希望大家有所收获！下次再见！

发表回复 取消回复

发表回复取消回复