线上CPU飙高但无法定位热点方法？Arthas火焰图生成与热点代码反编译追踪

大家好，今天我们来聊聊线上CPU飙高的问题，以及如何利用Arthas这款强大的工具来定位热点方法，并进一步追踪问题代码。相信很多同学都遇到过这种情况：线上服务突然CPU占用率飙升，告警信息铺天盖地，但是通过简单的监控指标，却难以确定具体是哪个方法或者哪段代码导致的问题。这时候，就需要借助一些更深入的诊断工具来帮助我们排查。Arthas，就是其中的佼佼者。

CPU飙高问题排查思路

在深入Arthas之前，我们先来梳理一下排查CPU飙高问题的一般思路：

监控告警： 首先，我们需要有完善的监控体系，能够在CPU占用率超过阈值时及时告警。常用的监控指标包括：CPU使用率、Load Average、GC相关指标等。
定位进程： 通过操作系统命令（如top、htop）或者监控系统，确定是哪个Java进程占用了过高的CPU资源。
线程分析： 确定进程后，需要分析进程内的线程情况，找出CPU占用率最高的线程。可以使用top -H -p <pid>命令（Linux）或者jstack <pid>命令来查看线程信息。
代码分析： 找到高CPU占用率的线程后，需要进一步分析线程正在执行的代码，确定是哪个方法或者哪段代码导致了问题。这通常是比较困难的一步，也是我们今天要重点讨论的内容。

Arthas简介与基本用法

Arthas是Alibaba开源的一款Java诊断工具，它功能强大，使用方便，可以帮助我们解决很多线上问题。Arthas提供了很多命令，可以查看应用的各种状态，包括线程信息、内存信息、类信息等。

安装与启动

Arthas的安装非常简单，只需要下载arthas-boot.jar包，然后执行java -jar arthas-boot.jar即可。启动后，Arthas会自动检测正在运行的Java进程，选择需要诊断的进程即可。

常用命令

dashboard：实时显示当前系统的各项信息，包括线程、内存、GC、CPU等。
thread：查看当前线程的信息，可以根据CPU占用率排序。
jvm：查看JVM的各种信息，包括内存、GC、线程池等。
classloader：查看ClassLoader的信息。
sc：搜索类的信息。
sm：搜索方法的信息。
jad：反编译指定类的方法。
watch：观察指定方法的入参、返回值、异常等信息。
trace：方法执行链路追踪，可以统计方法的执行时间。
stack：输出当前方法被调用的调用栈。
tt：Time Tunnel，记录方法每次调用的入参、返回值、异常等信息，可以用于事后分析。

火焰图（Flame Graph）生成

当CPU占用率很高，并且通过thread命令也无法快速定位到问题代码时，可以使用火焰图来帮助我们分析。火焰图是一种可视化工具，可以清晰地展示CPU的调用栈，帮助我们快速找到热点方法。

生成火焰图的步骤：

使用perf工具采样： 首先，需要使用perf工具对Java进程进行采样，记录CPU的调用栈信息。
```
perf record -F 99 -p <pid> -g -o perf.data
```
- -F 99：指定采样频率为99Hz，即每秒采样99次。
- -p <pid>：指定要采样的进程ID。
- -g：启用调用栈信息记录。
- -o perf.data：指定输出文件名为perf.data。
使用arthas生成火焰图： 然后，使用Arthas的async-profiler命令将perf.data文件转换为火焰图。
```
async-profiler -d 30 -f flamegraph.html -e cpu perf.data
```
- -d 30：指定采样时间为30秒。
- -f flamegraph.html：指定输出文件名为flamegraph.html。
- -e cpu：指定采样事件为CPU。
查看火焰图： 最后，打开flamegraph.html文件，就可以看到生成的火焰图。

火焰图解读：

火焰图的横轴表示采样数，纵轴表示调用栈深度。每个方块代表一个函数调用，方块越宽，表示该函数占用的CPU时间越多，也就越有可能是热点方法。

通过火焰图，我们可以快速找到占用CPU时间最多的方法，然后就可以针对该方法进行优化或者排查问题。

热点代码反编译与追踪

找到热点方法后，我们需要进一步分析该方法的代码，确定是否存在性能问题或者Bug。Arthas提供了jad命令，可以将指定类的方法反编译成Java代码。

使用jad命令反编译：

jad --source-only <类名> <方法名>

--source-only：只显示源代码，不显示其他信息。
<类名>：指定要反编译的类名。
<方法名>：指定要反编译的方法名。

反编译后，我们可以仔细阅读代码，查找潜在的性能问题，例如：

循环中的重复计算： 避免在循环中进行不必要的计算，可以将计算结果缓存起来。
频繁的对象创建： 频繁的对象创建会增加GC的压力，可以使用对象池来减少对象创建的次数。
阻塞操作： 避免在主线程中进行阻塞操作，可以使用异步编程或者线程池来处理。
锁竞争： 过多的锁竞争会导致线程阻塞，可以使用更细粒度的锁或者无锁数据结构来减少锁竞争。

示例：

假设我们通过火焰图发现com.example.OrderService.processOrder方法占用了大量的CPU时间，我们可以使用jad命令来反编译该方法：

jad --source-only com.example.OrderService processOrder

反编译后，我们发现processOrder方法的代码如下：

public void processOrder(Order order) {
    for (OrderItem item : order.getItems()) {
        // 重复计算商品价格
        BigDecimal price = item.getPrice().multiply(item.getQuantity());
        // ...
    }
}

可以看到，在循环中重复计算了商品价格，这会导致性能问题。我们可以将商品价格缓存起来，避免重复计算：

public void processOrder(Order order) {
    for (OrderItem item : order.getItems()) {
        // 缓存商品价格
        BigDecimal price = item.getPrice().multiply(item.getQuantity());
        item.setTotalPrice(price);
        // ...
    }
}

修改代码后，重新部署，再次生成火焰图，可以看到com.example.OrderService.processOrder方法的CPU占用率明显降低了。

高级用法：`trace`与`tt`命令

除了jad命令，Arthas还提供了trace和tt命令，可以帮助我们更深入地分析热点方法的执行情况。

trace命令：

trace命令可以统计方法的执行时间，并输出方法的调用链路。这可以帮助我们找到方法执行耗时的原因。

trace <类名> <方法名>

例如，我们可以使用trace命令来统计com.example.OrderService.processOrder方法的执行时间：

trace com.example.OrderService processOrder

trace命令会输出方法的调用链路，以及每个方法的执行时间。通过分析这些信息，我们可以找到方法执行耗时的瓶颈。

tt命令：

tt命令可以记录方法每次调用的入参、返回值、异常等信息。这可以用于事后分析，帮助我们重现问题场景。

tt -t <类名> <方法名>

-t：表示记录方法每次调用的信息。

例如，我们可以使用tt命令来记录com.example.OrderService.processOrder方法的调用信息：

tt -t com.example.OrderService processOrder

tt命令会将每次方法调用的信息记录下来，并分配一个索引号。我们可以使用tt -i <索引号>命令来查看指定索引号的调用信息：

tt -i 1000

通过tt命令，我们可以查看方法每次调用的入参、返回值、异常等信息，这可以帮助我们重现问题场景，并找到问题的根源。

实战案例：解决线上CPU飙高问题

下面我们通过一个实战案例来演示如何使用Arthas解决线上CPU飙高问题。

问题描述：

线上服务CPU占用率持续超过80%，告警信息不断。通过top命令发现是Java进程占用了过高的CPU资源。

排查步骤：

定位进程： 使用top命令找到Java进程的PID。
线程分析： 使用top -H -p <pid>命令查看线程信息，找到CPU占用率最高的线程。

生成火焰图： 使用perf工具采样，并使用Arthas生成火焰图。

perf record -F 99 -p <pid> -g -o perf.data
async-profiler -d 30 -f flamegraph.html -e cpu perf.data

分析火焰图： 打开flamegraph.html文件，发现com.example.ReportService.generateReport方法占用了大量的CPU时间。
反编译代码： 使用jad命令反编译com.example.ReportService.generateReport方法。
```
jad --source-only com.example.ReportService generateReport
```
发现问题： 通过阅读代码，发现generateReport方法中存在一个复杂的SQL查询，该查询没有使用索引，导致查询速度很慢。
解决问题： 在数据库中为该查询添加索引，重新部署。
验证： 再次生成火焰图，发现com.example.ReportService.generateReport方法的CPU占用率明显降低了，CPU占用率恢复正常。

不同场景下的Arthas命令选择

以下表格总结了不同CPU占用高场景下，可能适用的Arthas命令，供参考：

CPU占用高场景	推荐的 Arthas 命令
无法确定具体方法导致的CPU高	`thread -n <count>` (查看最繁忙的线程) -> `perf record` + `async-profiler` (生成火焰图) -> `jad` (反编译热点方法)
怀疑某个方法导致CPU高	`trace <类名> <方法名>` (追踪方法执行时间) -> `stack <类名> <方法名>` (查看方法调用栈) -> `tt -t <类名> <方法名>` (记录方法每次调用的信息) -> `jad` (反编译方法)
怀疑GC导致CPU高	`dashboard` (查看GC相关指标) -> `jvm` (查看JVM信息) -> 如果发现频繁Full GC，则需要进一步分析内存泄漏问题，可以使用JProfiler或MAT等工具。
怀疑锁竞争导致CPU高	`thread -b` (查看阻塞的线程) -> `dump` (导出线程堆栈信息，然后使用工具分析锁竞争情况)
怀疑死循环导致CPU高	`thread -n <count>` (查看最繁忙的线程) -> `stack <线程ID>` (查看线程堆栈信息，确认是否存在死循环)
代码热更新后CPU高，怀疑新代码有问题	`classloader` (查看ClassLoader信息，确认是否加载了新的类) -> `jad <类名>` (反编译新代码) -> 对比新旧代码，找出差异。
偶发性CPU高，难以重现	`tt -t <类名> <方法名>` (记录方法每次调用的信息) -> 等待问题重现，然后分析记录的调用信息。

总结和回顾

今天，我们学习了如何使用Arthas来诊断线上CPU飙高问题。我们首先梳理了排查CPU飙高问题的一般思路，然后介绍了Arthas的安装和常用命令。重点讲解了如何使用perf工具和Arthas生成火焰图，以及如何解读火焰图。最后，我们通过一个实战案例演示了如何使用Arthas解决线上CPU飙高问题。

希望今天的分享能够帮助大家更好地理解和使用Arthas，解决线上问题。遇到问题时，不要慌张，冷静分析，借助工具，一定能够找到问题的根源。