Arthas高级特性：Trace、Watch、Stack等命令在复杂调用链追踪的实战

各位听众，大家好！今天我们来聊聊 Arthas 的高级特性，特别是 Trace、Watch 和 Stack 命令在复杂调用链追踪中的实战应用。在微服务架构日益普及的今天，服务间的调用链越来越复杂，问题定位也变得更加困难。Arthas 作为一款强大的在线诊断工具，其提供的 Trace、Watch 和 Stack 命令可以帮助我们快速定位问题，提高开发效率。

一、Arthas 简介与安装

Arthas 是一款阿里巴巴开源的 Java 在线诊断工具。它允许你在不重启应用的情况下，诊断生产环境中的各种问题，例如 CPU 高占用、内存溢出、线程阻塞、类加载冲突等等。

安装 Arthas:

Arthas 的安装非常简单，只需要下载启动脚本即可：

curl -L https://arthas.aliyun.com/install.sh | sh

下载完成后，运行 as.sh 脚本，它会自动检测 Java 进程并让你选择需要诊断的进程。

./as.sh

选择需要诊断的 Java 进程后，即可进入 Arthas 的命令行界面。

二、Trace 命令：追踪方法调用链

Trace 命令用于追踪方法的调用链，并输出每个节点的耗时。这对于分析方法调用瓶颈非常有用。

基本用法:

trace 包名.类名 方法名

例如，我们要追踪 com.example.service.OrderService 的 createOrder 方法的调用链：

trace com.example.service.OrderService createOrder

执行命令后，Arthas 会开始监听 createOrder 方法的调用，并在方法调用结束后，输出整个调用链的耗时信息。

高级用法:

条件表达式: 可以通过 -E 参数指定条件表达式，只追踪满足条件的调用。
```
trace -E 'params[0].amount > 100' com.example.service.OrderService createOrder
```
这个命令只会追踪 createOrder 方法中，第一个参数（假设第一个参数是订单对象，且订单对象有 amount 属性）的 amount 大于 100 的调用。
指定耗时过滤: 可以通过 #cost> 参数指定耗时过滤，只追踪耗时超过指定时间的调用。
```
trace com.example.service.OrderService createOrder '#cost>100'
```
这个命令只会追踪 createOrder 方法中，耗时超过 100 毫秒的调用。
指定深度: 可以通过 --depth 参数指定追踪深度，限制追踪的层数。
```
trace --depth 3 com.example.service.OrderService createOrder
```
这个命令只会追踪 createOrder 方法的调用链，最多追踪 3 层。

实战案例：追踪订单创建流程中的性能瓶颈

假设我们有一个电商系统，用户下单流程涉及到多个服务：

用户发起订单创建请求。
订单服务 (com.example.service.OrderService) 接收请求，创建订单。
订单服务调用库存服务 (com.example.service.InventoryService) 扣减库存。
订单服务调用支付服务 (com.example.service.PaymentService) 发起支付。

用户反馈下单速度很慢，我们需要定位哪个环节导致了性能瓶颈。

首先，我们使用 Trace 命令追踪 OrderService.createOrder 方法：

trace com.example.service.OrderService createOrder

输出结果可能如下：

Press Q or Ctrl+C to abort.
Affect(class-cnt:1 , method-cnt:1) cost in 18 ms.
`---[18.399ms] com.example.service.OrderService:createOrder()
    `---[1.197ms] com.example.service.InventoryService:deductInventory()
    `---[16.855ms] com.example.service.PaymentService:createPayment()

从结果中可以看出，PaymentService.createPayment 方法耗时最长，可能是性能瓶颈所在。我们可以进一步追踪 PaymentService.createPayment 方法：

trace com.example.service.PaymentService createPayment

通过分析 PaymentService.createPayment 方法的调用链，我们可以找到更具体的性能瓶颈，例如数据库操作慢、网络延迟高等原因。

三、Watch 命令：观察方法执行时的参数、返回值和异常

Watch 命令用于观察指定方法执行时的参数、返回值和抛出的异常。这对于分析方法执行结果是否符合预期非常有用。

基本用法:

watch 包名.类名 方法名 '{params, returnObj, throwExp}'

例如，我们要观察 com.example.service.UserService 的 getUserById 方法的参数、返回值和异常：

watch com.example.service.UserService getUserById '{params, returnObj, throwExp}'

执行命令后，Arthas 会开始监听 getUserById 方法的调用，并在方法调用结束后，输出参数、返回值和异常信息。

高级用法:

指定表达式: 可以使用 OGNL 表达式来获取更详细的信息。
```
watch com.example.service.UserService getUserById 'params[0].id + " " + returnObj.name'
```
这个命令会输出 getUserById 方法的第一个参数的 id 属性和返回值的 name 属性。
条件表达式: 可以通过 -E 参数指定条件表达式，只观察满足条件的调用。
```
watch -E 'params[0] == 100' com.example.service.UserService getUserById '{params, returnObj, throwExp}'
```
这个命令只会观察 getUserById 方法中，第一个参数等于 100 的调用。
指定次数: 可以通过 -n 参数指定观察的次数。
```
watch -n 5 com.example.service.UserService getUserById '{params, returnObj, throwExp}'
```
这个命令只会观察 getUserById 方法的 5 次调用。

实战案例：验证用户注册逻辑的正确性

假设我们有一个用户注册功能，UserService.registerUser 方法负责处理用户注册逻辑。我们需要验证注册时，用户信息的各个字段是否正确设置。

我们可以使用 Watch 命令观察 UserService.registerUser 方法的参数：

watch com.example.service.UserService registerUser 'params[0]'

输出结果会显示 registerUser 方法的第一个参数（假设是用户对象），我们可以检查用户对象的各个字段是否符合预期，例如用户名、密码、邮箱等。

如果注册过程中出现了异常，我们可以观察 throwExp 属性：

watch com.example.service.UserService registerUser '{params[0], throwExp}'

通过观察异常信息，我们可以快速定位注册失败的原因，例如用户名已存在、邮箱格式错误等。

四、Stack 命令：查看方法调用栈

Stack 命令用于查看指定方法的调用栈。这对于分析方法是如何被调用的非常有用。

基本用法:

stack 包名.类名 方法名

例如，我们要查看 com.example.service.ProductService 的 getProductById 方法的调用栈：

stack com.example.service.ProductService getProductById

执行命令后，Arthas 会输出 getProductById 方法的调用栈信息，包括调用该方法的各个方法、类和行号。

高级用法:

条件表达式: 可以通过 -E 参数指定条件表达式，只查看满足条件的调用栈。
```
stack -E '#cost>10' com.example.service.ProductService getProductById
```
这个命令只会查看耗时超过10ms的getProductById方法的调用栈。
指定深度: stack 命令本身没有直接指定深度的参数，但是可以通过结合 trace 命令的 --depth 参数来间接实现类似的效果。先用 trace 追踪一定深度的调用链，然后针对链上的关键方法使用 stack 命令。

实战案例：分析死锁原因

假设我们的应用出现了死锁，我们需要定位死锁发生的具体位置和原因。

首先，我们可以使用 thread 命令查看线程信息，找到死锁的线程 ID。

然后，我们可以使用 Stack 命令查看死锁线程的调用栈：

stack com.example.example.DeadlockExample method1

stack com.example.example.DeadlockExample method2

通过对比死锁线程的调用栈，我们可以找到它们分别持有的锁和等待的锁，从而分析死锁的原因。例如，线程 A 持有锁 1，等待锁 2；线程 B 持有锁 2，等待锁 1，这就形成了一个典型的死锁场景。

五、Trace、Watch 和 Stack 命令的结合使用

在实际应用中，Trace、Watch 和 Stack 命令通常需要结合使用，才能更有效地定位问题。

案例：排查异步任务执行失败的原因

假设我们有一个异步任务，使用 @Async 注解标记。该任务执行失败，但没有明确的错误日志。

使用 Trace 命令追踪异步任务的入口方法，查看调用链和耗时。
```
trace com.example.service.AsyncService asyncTask
```
通过 Trace 命令，我们可以确定异步任务是否被正确调用，以及调用链中是否存在异常。
使用 Watch 命令观察异步任务的参数和返回值，查看输入输出是否符合预期。
```
watch com.example.service.AsyncService asyncTask '{params, returnObj, throwExp}'
```
通过 Watch 命令，我们可以检查异步任务的输入参数是否正确，以及是否抛出了异常。如果抛出了异常，我们可以查看异常信息，定位问题原因。
如果 Watch 命令没有发现异常，可以使用 Stack 命令查看异步任务执行时的调用栈，分析任务执行的上下文。
```
stack com.example.service.AsyncService asyncTask
```
通过 Stack 命令，我们可以了解异步任务是如何被调用的，以及是否存在线程上下文的问题。

六、注意事项与最佳实践

谨慎使用： Arthas 命令会对应用程序的性能产生一定影响，特别是在高并发场景下。因此，在使用 Arthas 命令时，需要谨慎评估影响，避免对生产环境造成不必要的负担。
控制范围： 尽量缩小 Trace、Watch 和 Stack 命令的作用范围，只追踪或观察需要分析的方法。可以通过条件表达式来限制追踪或观察的范围，减少对性能的影响。
及时停止： 在问题定位完成后，及时停止 Arthas 命令，释放资源。
安全： Arthas 具有强大的诊断能力，但也存在一定的安全风险。需要对 Arthas 进行安全加固，例如限制访问权限、禁用敏感命令等。

命令对比表

命令	作用	主要参数	适用场景
Trace	追踪方法调用链，输出每个节点的耗时	方法名, -E (条件表达式), #cost> (耗时过滤), –depth (深度)	性能瓶颈定位，了解方法之间的调用关系，分析耗时长的环节。
Watch	观察方法执行时的参数、返回值和异常	方法名, ‘{params, returnObj, throwExp}’, -E (条件表达式), -n (次数), OGNL表达式	验证方法输入输出是否符合预期，排查异常原因，观察方法执行过程中的状态。
Stack	查看指定方法的调用栈	方法名	分析方法是如何被调用的，定位死锁原因，了解方法执行的上下文。

最后，希望大家能够在实际工作中灵活运用 Arthas 的高级特性，提升问题定位效率，为应用的稳定运行保驾护航。

总结：Arthas强大的诊断能力

Trace命令追踪调用链，帮助定位性能瓶颈；Watch命令观察方法执行细节，验证逻辑正确性；Stack命令查看方法调用栈，分析调用关系，三者结合使用，可以快速定位复杂问题。

Arthas高级特性：Trace、Watch、Stack等命令在复杂调用链追踪的实战

发表回复 取消回复

发表回复取消回复