C++ `gprof` / `oprofile`：基于采样的性能分析工具在 C++ 中的应用 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

哈喽，各位好！今天咱们聊聊C++世界里两个非常实用的性能分析工具——gprof和oprofile。它们就像侦探一样，能帮你找出程序里的“罪魁祸首”，揪出那些消耗大量CPU时间的瓶颈函数，让你写出更高效、更快速的代码。

一、性能分析的重要性：别让你的程序“慢吞吞”

在开始之前，咱们先来说说为什么需要性能分析。想象一下，你辛辛苦苦写了一个程序，功能很强大，但运行起来却慢吞吞的，用户体验极差。这时候，你是不是很想知道问题出在哪里？是某个算法效率太低？还是某个函数被频繁调用？性能分析工具就是用来解决这些问题的。

通过性能分析，你可以：

找出性能瓶颈： 确定程序中哪些部分消耗了最多的CPU时间。
优化代码： 针对瓶颈部分进行优化，提高程序运行速度。
更好地理解代码： 性能分析可以帮助你更深入地了解代码的执行过程，发现潜在的问题。

二、gprof：老牌的函数级性能分析器

gprof 是一个老牌的性能分析工具，它通过采样的方式来收集程序运行时的信息。简单来说，gprof 会定期中断程序的执行，记录下当前正在执行的函数，然后根据这些记录来统计每个函数的执行时间和调用关系。

1. gprof 的工作原理

编译时插桩： 在编译时，gprof 会在每个函数的入口和出口处插入一些额外的代码（称为插桩），用来记录函数的调用信息。
运行时采样： 在程序运行时，gprof 会定期中断程序的执行，记录下当前正在执行的函数。
生成 gmon.out 文件： 程序运行结束后，gprof 会将收集到的信息保存在一个名为 gmon.out 的文件中。
分析报告： 使用 gprof 命令分析 gmon.out 文件，生成性能分析报告。

2. 使用 gprof 的步骤

编译时启用 gprof： 在编译时，需要加上 -pg 选项，告诉编译器启用 gprof。
```
g++ -pg your_program.cpp -o your_program
```
运行程序： 正常运行你的程序。
```
./your_program
```
运行结束后，会在当前目录下生成一个 gmon.out 文件。
生成分析报告： 使用 gprof 命令分析 gmon.out 文件，生成性能分析报告。
```
gprof your_program gmon.out > report.txt
```
这将生成一个名为 report.txt 的文本文件，里面包含了性能分析报告。

3. gprof 报告解读

gprof 生成的报告通常包含以下几个部分：

Flat Profile： 显示每个函数消耗的 CPU 时间，以及占总时间的百分比。

Flat profile:

Each sample counts as 0.01 seconds.
  %   cumulative   self              self     total           
 time   seconds   seconds    calls  ms/call  ms/call  name    
 33.33      0.01      0.01        1   10.00   10.00  expensive_function
 33.33      0.02      0.01        2    5.00    5.00  another_expensive_function
 33.33      0.03      0.01        1   10.00   10.00  main

% time: 函数消耗的CPU时间占总时间的百分比。
cumulative seconds: 累计消耗的时间。
self seconds: 函数自身消耗的时间。
calls: 函数被调用的次数。
ms/call: 每次调用消耗的平均时间。

Call Graph Profile： 显示函数的调用关系，以及每个函数被调用时消耗的时间。

Call graph (explanation follows)

granularity: each sample hit covers 2 byte(s) for 33.33% of 0.03 seconds

 index % time    self  children    called     name
                 0.01    0.00       1/1           main [1]
 [1]   33.3    0.01    0.00       1         expensive_function [1]
                 0.01    0.00       1/1           main [1]
-----------------------------------------------
                 0.01    0.00       1/2           main [1]
 [2]   33.3    0.01    0.00       2         another_expensive_function [2]
                 0.01    0.00       1/2           main [1]
-----------------------------------------------
 [3]   33.3    0.01    0.00       1         main [3]
                   0.01    0.00       1         expensive_function [1]
                   0.01    0.00       2         another_expensive_function [2]

index: 函数的索引。
% time: 函数及其子函数消耗的CPU时间占总时间的百分比。
self: 函数自身消耗的时间。
children: 函数调用的子函数消耗的时间。
called: 函数被调用的次数。

4. gprof 的优缺点

优点：
- 简单易用，上手快。
- 可以提供函数级的性能分析报告。
- 可以显示函数的调用关系。
缺点：
- 基于采样，精度有限。
- 插桩会带来一定的性能开销。
- 无法分析动态链接库中的函数。
- 在多线程程序中，结果可能不准确。

5. gprof 示例代码

#include <iostream>
#include <chrono>
#include <thread>

void expensive_function() {
    for (int i = 0; i < 10000000; ++i) {
        // 模拟耗时操作
        double x = i * 3.14159;
    }
}

void another_expensive_function() {
    for (int i = 0; i < 5000000; ++i) {
        // 模拟耗时操作
        double x = i * 2.71828;
    }
}

int main() {
    std::cout << "Starting the program...n";

    expensive_function();
    another_expensive_function();
    another_expensive_function();

    std::cout << "Program finished.n";
    return 0;
}

编译并运行：

g++ -pg example.cpp -o example
./example
gprof example gmon.out > report.txt

查看report.txt，你就能看到expensive_function和another_expensive_function消耗了大部分CPU时间。

三、oprofile：系统级的性能分析器

oprofile 是一个系统级的性能分析工具，它不需要修改源代码，就可以对整个系统进行性能分析。oprofile 基于硬件性能计数器，可以更精确地测量程序的性能。

1. oprofile 的工作原理

硬件性能计数器： 现代CPU都内置了硬件性能计数器，可以用来测量各种事件，例如CPU周期数、指令数、Cache命中率等。
采样： oprofile 会定期读取硬件性能计数器的值，然后根据这些值来统计程序的性能。
生成报告： oprofile 会将收集到的信息生成性能分析报告。

2. 使用 oprofile 的步骤

安装 oprofile： 在大多数Linux发行版中，可以使用包管理器安装 oprofile。

sudo apt-get install oprofile  # Debian/Ubuntu
sudo yum install oprofile      # CentOS/RHEL

收集数据： 使用 opcontrol 命令来启动和停止数据收集。

sudo opcontrol --setup --event=CPU_CLK_UNHALTED:10000  # 设置事件和采样频率
sudo opcontrol --start        # 启动数据收集
./your_program                # 运行你的程序
sudo opcontrol --stop         # 停止数据收集
sudo opcontrol --dump         # 将数据保存到文件

--setup: 设置采样事件和频率。CPU_CLK_UNHALTED 表示CPU周期数，10000 表示每10000个CPU周期采样一次。
--start: 启动数据收集。
--stop: 停止数据收集。
--dump: 将数据保存到文件。

生成分析报告： 使用 opreport 命令生成性能分析报告。
```
opreport -l your_program > report.txt  # 生成函数级别的报告
opreport -g > callgraph.txt           # 生成调用图
```
- -l: 生成函数级别的报告。
- -g: 生成调用图。

3. oprofile 报告解读

oprofile 生成的报告通常包含以下信息：

函数级别的报告： 显示每个函数消耗的CPU周期数，以及占总周期数的百分比。
```
CPU_CLK_UNHALTED samples  %        symbol name
478039                  46.9374  expensive_function
286824                  28.1962  another_expensive_function
152497                  14.9904  main
```
- CPU_CLK_UNHALTED samples: 函数消耗的CPU周期数。
- %: 函数消耗的CPU周期数占总周期数的百分比。
- symbol name: 函数名。
调用图： 显示函数的调用关系，以及每个函数被调用时消耗的CPU周期数。

4. oprofile 的优缺点

优点：
- 系统级分析，无需修改源代码。
- 基于硬件性能计数器，精度更高。
- 可以分析动态链接库中的函数。
- 对多线程程序的支持更好。
缺点：
- 配置和使用相对复杂。
- 需要root权限才能运行。
- 在某些情况下，可能会影响系统性能。

5. oprofile 示例代码

使用与 gprof 相同的示例代码：

#include <iostream>
#include <chrono>
#include <thread>

void expensive_function() {
    for (int i = 0; i < 10000000; ++i) {
        // 模拟耗时操作
        double x = i * 3.14159;
    }
}

void another_expensive_function() {
    for (int i = 0; i < 5000000; ++i) {
        // 模拟耗时操作
        double x = i * 2.71828;
    }
}

int main() {
    std::cout << "Starting the program...n";

    expensive_function();
    another_expensive_function();
    another_expensive_function();

    std::cout << "Program finished.n";
    return 0;
}

编译：

g++ example.cpp -o example

使用 oprofile 分析：

sudo opcontrol --setup --event=CPU_CLK_UNHALTED:10000
sudo opcontrol --start
sudo ./example
sudo opcontrol --stop
sudo opcontrol --dump
opreport -l example > report.txt

查看report.txt，你就能看到expensive_function和another_expensive_function消耗了大部分CPU周期。

四、gprof 和 oprofile 的比较

特性	`gprof`	`oprofile`
分析级别	函数级	系统级
工作原理	编译时插桩 + 运行时采样	硬件性能计数器 + 采样
是否需要修改代码	需要 (编译时添加 `-pg` 选项)	不需要
精度	较低	较高
对多线程的支持	较差	较好
是否需要root权限	不需要	需要
使用难度	简单	相对复杂
能否分析动态库	不能	能
性能开销	编译时插桩会带来一定的性能开销	采样可能会影响系统性能

五、一些建议

选择合适的工具： gprof 适合快速定位函数级别的性能瓶颈，而 oprofile 适合更深入的系统级性能分析。
多次运行： 性能分析结果可能会受到系统负载的影响，建议多次运行程序，取平均值。
关注重点： 关注消耗CPU时间最多的函数，优先优化这些函数。
结合其他工具： 可以结合其他性能分析工具，例如 perf、valgrind 等，进行更全面的分析。
不要过度优化： 过度的优化可能会导致代码可读性降低，维护成本增加。

六、总结

gprof 和 oprofile 是 C++ 开发中非常有用的性能分析工具。通过它们，你可以找出程序中的性能瓶颈，优化代码，提高程序运行速度。希望今天的讲解能帮助你更好地理解和使用这两个工具，写出更高效、更快速的 C++ 代码！记住，性能分析就像给程序做体检，及早发现问题，才能避免“大病缠身”。

祝各位编程愉快！

发表回复 取消回复

发表回复取消回复