C++ Profile-Guided Optimization (PGO) 实践：基于运行时数据的极致性能调优 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

哈喽，各位好！今天我们来聊聊一个听起来很高大上，但其实用起来贼有意思的东西：C++ Profile-Guided Optimization (PGO)，也就是“基于运行时数据的极致性能调优”。说白了，就是让编译器不再瞎猜，而是根据程序实际运行情况来优化代码，让你的程序跑得飞起！

一、什么是 PGO？为啥要用它？

想象一下，你是一位建筑师，要设计一栋摩天大楼。你有两种选择：

盲猜流： 拍脑袋决定哪里用什么材料，哪里放电梯，全凭经验。
数据流： 先做用户调研，了解大家最常去哪些楼层，哪些地方人流量最大，再根据这些数据来优化设计。

PGO 就相当于第二种方案。编译器在编译代码时，如果没有 PGO，它只能根据一些静态分析（比如代码结构、变量类型）来做优化，很多时候都是瞎猜。而有了 PGO，编译器就能根据程序运行时的真实数据（比如哪些函数被调用最频繁、哪些分支被执行最多）来做更精准的优化。

为啥要用 PGO？简单粗暴：因为它能让你的程序更快！

更精准的内联： 编译器知道哪些函数调用频繁，可以更有针对性地进行内联，减少函数调用开销。
更好的分支预测： 编译器知道哪些分支更容易被执行，可以调整分支预测策略，减少 CPU 的空转。
更优的数据布局： 编译器可以根据数据的使用频率，重新排列数据在内存中的布局，提高缓存命中率。

总之，PGO 就是让编译器“开了天眼”，能看到你的程序在实际运行中是怎么工作的，从而做出更明智的优化决策。

二、PGO 的工作流程：三步走

PGO 的使用其实很简单，只需要三步：

Instrumentation（插桩编译）： 编译程序，生成带有额外代码的版本，用于收集运行时数据。
Profiling（运行剖析）： 运行插桩后的程序，收集运行时数据，生成 профилировочные данные（Profile Data）。
Optimized Build（优化编译）： 使用收集到的 профилировочные данные重新编译程序，生成优化后的版本。

接下来，我们用一个简单的例子来演示 PGO 的整个流程。

三、实战演练：一个简单的排序程序

我们写一个简单的排序程序，并用 PGO 来优化它。

#include <iostream>
#include <vector>
#include <algorithm>
#include <random>

// 一个简单的冒泡排序函数
void bubbleSort(std::vector<int>& arr) {
  int n = arr.size();
  for (int i = 0; i < n - 1; ++i) {
    for (int j = 0; j < n - i - 1; ++j) {
      if (arr[j] > arr[j + 1]) {
        std::swap(arr[j], arr[j + 1]);
      }
    }
  }
}

int main() {
  // 创建一个随机数生成器
  std::random_device rd;
  std::mt19937 gen(rd());
  std::uniform_int_distribution<> distrib(1, 100);

  // 创建一个包含 10000 个随机整数的向量
  std::vector<int> data(10000);
  for (int i = 0; i < data.size(); ++i) {
    data[i] = distrib(gen);
  }

  // 排序
  bubbleSort(data);

  // 验证排序结果 (optional)
  for (int i = 0; i < data.size() - 1; ++i) {
    if (data[i] > data[i + 1]) {
      std::cerr << "排序失败！" << std::endl;
      return 1;
    }
  }

  std::cout << "排序成功！" << std::endl;
  return 0;
}

1. 插桩编译（Instrumentation）：

使用 -fprofile-generate 选项编译代码，生成插桩后的版本。

GCC/Clang:

g++ -fprofile-generate=./pgo_data/ -o bubble_sort bubble_sort.cpp

或者

clang++ -fprofile-generate=./pgo_data/ -o bubble_sort bubble_sort.cpp

这里 ./pgo_data/ 是一个目录，用于存放生成的 профилировочные данные。

MSVC:
```
cl /c /GL /Gy bubble_sort.cpp
link /LTCG:PGINSTRUMENT bubble_sort.obj
```
MSVC 使用 /GL 和 /Gy 开启链接时代码生成，/LTCG:PGINSTRUMENT 开启插桩。

2. 运行剖析（Profiling）：

运行插桩后的程序，让它执行一些有代表性的工作负载，收集运行时数据。

./bubble_sort

运行结束后，会在 ./pgo_data/ 目录下生成一些 .profraw 文件（GCC/Clang）或者 .pgd 文件（MSVC）。这些文件包含了程序的运行时 профилировочные данные。如果希望增加样本数量，可以多次运行程序，每次运行都会将数据追加到 профилировочные данные 中。

GCC/Clang:

如果多次运行插桩程序，需要将 .profraw 文件合并成一个 .profdata 文件。
```
llvm-profdata merge -output=bubble_sort.profdata ./pgo_data/*.profraw
```
MSVC:

使用 vcperf 工具合并数据。
```
vcperf /start MySessionName
bubble_sort.exe
vcperf /stop MySessionName bubble_sort.pgd
```
如果需要合并多个 .pgd 文件，可以使用 pgomgr 工具。

3. 优化编译（Optimized Build）：

使用收集到的 профилировочные данные重新编译代码，生成优化后的版本。

GCC/Clang:

使用 -fprofile-use 选项指定 профилировочные данные 文件。

g++ -fprofile-use=bubble_sort.profdata -o bubble_sort_optimized bubble_sort.cpp

或者

clang++ -fprofile-use=bubble_sort.profdata -o bubble_sort_optimized bubble_sort.cpp

MSVC:

使用 /LTCG:PGOPTIMIZE 选项指定 .pgd 文件。

cl /c /GL /Gy bubble_sort.cpp
link /LTCG:PGOPTIMIZE bubble_sort.obj

现在，你就得到了一个经过 PGO 优化的 bubble_sort_optimized 程序。可以用它来替换原来的程序，享受性能提升的乐趣吧！

四、一些需要注意的点

数据代表性： PGO 的效果很大程度上取决于 профилировочные данные 的质量。你需要确保运行插桩后的程序时，执行了具有代表性的工作负载，才能让编译器做出正确的优化决策。
代码稳定性： PGO 对代码的稳定性有一定的要求。如果代码经常变动，之前的 профилировочные данные 可能就失效了，需要重新进行 PGO。
编译时间： PGO 会增加编译时间，因为需要进行两次编译。
平台差异： 不同编译器和平台的 PGO 实现可能有所不同，具体用法需要参考官方文档。
并非万能药： PGO 并不是万能的，有些程序可能无法从中受益。

五、高级技巧：更上一层楼

分层 PGO： 可以先用粗略的 профилировочные данные 进行一次 PGO，然后再用更精确的 профилировочные данные 进行第二次 PGO，进一步提升性能。
增量 PGO： 对于大型项目，可以只对修改过的代码进行 PGO，减少编译时间。
自定义 профилировочные данные： 有些编译器允许你自定义 профилировочные данные 的收集方式，例如可以指定哪些函数需要收集 профилировочные данные。

六、PGO 适用场景

PGO 最适合以下场景：

性能敏感型应用： 比如游戏、图形渲染、高性能计算等。
长时间运行的应用： 比如服务器程序，可以让编译器有更多的时间来收集 профилировочные данные。
代码相对稳定的应用： 比如一些底层库，可以避免频繁的 PGO。

七、不同编译器下的 PGO 使用方法

编译器	插桩编译选项	运行剖析	优化编译选项
GCC	`-fprofile-generate=DIR`	运行插桩后的程序，然后使用 `llvm-profdata merge -output=OUTPUT_FILE DIR/*.profraw` 合并数据	`-fprofile-use=FILE`
Clang	`-fprofile-generate=DIR`	运行插桩后的程序，然后使用 `llvm-profdata merge -output=OUTPUT_FILE DIR/*.profraw` 合并数据	`-fprofile-use=FILE`
MSVC	`/c /GL /Gy` + `link /LTCG:PGINSTRUMENT`	运行插桩后的程序，可以使用 `vcperf` 工具收集 профилировочные данные，也可以使用 `pgomgr` 工具合并 профилировочные данные	`/c /GL /Gy` + `link /LTCG:PGOPTIMIZE`
ICC	`-prof-gen=dir`	运行插桩后的程序，然后使用 `profmerge -dir dir` 合并数据	`-prof-use=dir`

八、总结

PGO 是一种非常有效的性能优化手段，可以帮助你榨干程序的每一滴性能。虽然使用起来稍微麻烦一点，但带来的收益绝对是值得的。如果你对程序的性能有极致的要求，不妨尝试一下 PGO，相信它会给你带来惊喜。

记住，PGO 不是魔法，它只是让编译器更聪明地优化代码。想要获得最佳的性能，还需要结合其他的优化手段，比如算法优化、数据结构优化、并发优化等等。

希望今天的分享对大家有所帮助！祝大家编码愉快，程序跑得飞快！

发表回复 取消回复

发表回复取消回复