JFR飞行记录器文件过大无法分析？事件过滤与JMC火焰图堆栈聚合技巧

大家好，今天我们来探讨一个在使用Java Flight Recorder (JFR) 时经常遇到的问题：JFR文件过大，导致分析困难。我们将重点讲解如何通过事件过滤和JMC (Java Mission Control) 的火焰图堆栈聚合技巧来解决这个问题。

问题背景：JFR文件膨胀的原因

JFR 记录了JVM运行时的大量信息，包括CPU使用率、内存分配、垃圾回收、线程活动、I/O操作等等。在长时间运行的应用中，这些数据的积累会导致JFR文件变得非常庞大，动辄几个GB甚至几十GB。

JFR文件过大带来的问题：

分析耗时： JMC等分析工具加载和处理大型JFR文件需要很长时间，降低了问题排查效率。
内存占用： 分析工具需要占用大量内存来加载和处理数据，可能导致OOM。
信息过载： 大量的数据中可能包含许多无关信息，难以快速定位关键问题。

因此，我们需要有效地过滤和聚合JFR数据，以便更高效地进行分析。

策略一：事件过滤 – 精准捕获关键事件

JFR 允许我们配置需要记录的事件类型和阈值，从而减少不必要的数据记录。事件过滤主要分为两种方式：

配置文件方式 (.jfc)： 通过编写JFR配置文件来指定需要记录的事件。
运行时动态配置： 在应用启动时或运行时，通过JVM参数来配置JFR。

1. 配置文件方式 (.jfc)

JFR配置文件是一个XML文件，用于定义需要记录的事件和相关的配置。

示例：myprofile.jfc

<?xml version="1.0" encoding="UTF-8"?>
<configuration version="2.0">
  <control>
    <event name="jdk.CPULoad">
      <setting name="enabled">true</setting>
      <setting name="period">10 ms</setting>
      <setting name="threshold">0 ms</setting>
    </event>
    <event name="jdk.GarbageCollection">
      <setting name="enabled">true</setting>
      <setting name="period">everyChunk</setting>
      <setting name="threshold">0 ms</setting>
    </event>
    <event name="jdk.ObjectAllocationSample">
      <setting name="enabled">true</setting>
      <setting name="period">10 ms</setting>
      <setting name="threshold">10 ms</setting>
    </event>
    <event name="jdk.ThreadPark">
      <setting name="enabled">true</setting>
      <setting name="threshold">10 ms</setting>
    </event>
    <event name="jdk.SocketRead">
       <setting name="enabled">true</setting>
       <setting name="threshold">20 ms</setting>
    </event>
  </control>
</configuration>

配置项说明：

<event name="事件名称">：指定要配置的事件类型，例如 jdk.CPULoad， jdk.GarbageCollection等。
<setting name="enabled">true/false</setting>：是否启用该事件的记录。
<setting name="period">时间/everyChunk</setting>：事件的采样周期。
- 时间：例如 10 ms 表示每 10 毫秒采样一次。
- everyChunk：表示每个JFR chunk 都会记录一次该事件。
<setting name="threshold">时间</setting>：事件的阈值，只有当事件的持续时间超过该阈值时才会被记录。

启动JFR时指定配置文件：

java -XX:StartFlightRecording=filename=myrecording.jfr,settings=myprofile.jfc MyApp

更详细的配置文件示例，关注特定方法的执行时间:

<?xml version="1.0" encoding="UTF-8"?>
<configuration version="2.0">
  <control>
    <event name="jdk.ExecutionSample">
      <setting name="enabled">true</setting>
      <setting name="period">10 ms</setting>
      <setting name="stackDepth">128</setting>
      <filter>
        <method name="com.example.MyClass.myMethod" owner="com.example.MyClass" descriptor="()V" />
      </filter>
    </event>
  </control>
</configuration>

这个配置只会记录 com.example.MyClass.myMethod() 方法的执行样本。stackDepth 设置堆栈深度。

2. 运行时动态配置

可以通过 jcmd 命令在运行时动态地配置JFR。

示例：启用GC事件，并设置采样周期：

jcmd <pid> JFR.configure recording=1 settings='name=jdk.GarbageCollection#enabled=true,name=jdk.GarbageCollection#period=1s'

示例：停止记录某个事件:

jcmd <pid> JFR.configure recording=1 settings='name=jdk.CPULoad#enabled=false'

事件过滤的原则：

明确目标： 在开始记录之前，明确要诊断的问题类型，例如性能瓶颈、内存泄漏、死锁等。
精简配置： 只启用与目标问题相关的事件，避免记录不必要的数据。
阈值设置： 合理设置事件的阈值，例如只记录执行时间超过一定阈值的SQL查询或方法调用。
动态调整： 在分析过程中，根据需要动态调整事件的配置，逐步缩小问题范围。

常见的事件过滤配置示例：

事件类型	描述	建议配置
`jdk.CPULoad`	CPU 使用率，包括 JVM CPU 使用率和系统 CPU 使用率。	`enabled=true, period=100ms` 如果关注 CPU 瓶颈，可以启用并设置较短的采样周期。
`jdk.GarbageCollection`	垃圾回收事件，包括 GC 类型、耗时、回收前后内存使用量等。	`enabled=true, period=everyChunk` 启用并设置 `everyChunk`，以便记录每次GC事件。
`jdk.ObjectAllocationSample`	对象分配采样，记录对象分配的类型、大小、分配位置等。	`enabled=true, period=10ms, threshold=10ms` 启用并设置合适的采样周期和阈值，避免记录过多的对象分配信息。
`jdk.ThreadPark`	线程park事件，记录线程阻塞的原因、阻塞时间等。	`enabled=true, threshold=10ms` 启用并设置合适的阈值，以便记录长时间的线程阻塞事件。
`jdk.SocketRead` / `jdk.SocketWrite`	Socket读写事件，记录Socket读写的字节数、耗时等。	`enabled=true, threshold=20ms` 启用并设置合适的阈值，以便记录慢速的Socket读写事件。
`jdk.FileRead` / `jdk.FileWrite`	文件读写事件，记录文件读写的字节数、耗时等。	`enabled=true, threshold=20ms` 启用并设置合适的阈值，以便记录慢速的文件读写事件。
`jdk.ExecutionSample`	执行采样，记录方法的执行信息，包括方法名、类名、堆栈信息等。	`enabled=true, period=20ms, stackDepth=64` 启用并设置合适的采样周期和堆栈深度。如果只需要关注特定方法，可以使用过滤器。
`jdk.LockContention`	锁竞争事件，记录锁的持有者、等待者、竞争时间等。	`enabled=true, threshold=10ms` 启用并设置合适的阈值，以便记录长时间的锁竞争事件。
`com.example.MyCustomEvent`	自定义事件，可以根据业务需求自定义事件，例如记录特定业务逻辑的执行时间、状态等。	`enabled=true, period=everyChunk` 根据具体需求配置。

自定义事件：

JFR 还允许我们自定义事件，以便记录特定于应用程序的信息。

示例：

import jdk.jfr.*;

@Name("com.example.MyCustomEvent")
@Label("My Custom Event")
@Description("This is a custom JFR event.")
public class MyCustomEvent extends Event {

    @Label("Request ID")
    public String requestId;

    @Label("Execution Time (ms)")
    public long executionTime;

    public static void main(String[] args) {
        MyCustomEvent event = new MyCustomEvent();
        event.requestId = "12345";
        event.executionTime = 100;
        event.begin(); // Start timing
        // ... Your code here ...
        event.end();   // End timing
        if (event.shouldCommit()) {
            event.commit();
        }
    }
}

编译并运行代码后，MyCustomEvent 事件将被记录到 JFR 文件中。

策略二：JMC火焰图堆栈聚合 – 快速定位热点代码

即使经过事件过滤，JFR文件仍然可能包含大量数据。JMC 的火焰图功能可以帮助我们快速定位热点代码。

火焰图的原理：

火焰图是一种可视化的堆栈跟踪图，用于展示代码的执行路径和时间占比。

X轴： 表示时间，越宽表示该方法执行的时间越长。
Y轴： 表示堆栈深度，从下到上表示方法的调用链。
颜色： 通常用于区分不同的代码模块。

JMC火焰图的使用：

打开JFR文件： 在JMC中打开需要分析的JFR文件。
选择 "Flame View" 选项卡： 在JMC的界面中，选择 "Flame View" 选项卡。
配置火焰图：
- Aggregation: 选择聚合方式，例如 "Sampled Time" (基于采样时间聚合) 或 "Event Count" (基于事件计数聚合)。
- Filter: 可以根据线程、类、方法等条件过滤数据。
查看火焰图： JMC 会根据配置生成火焰图，可以通过鼠标悬停、点击等操作查看方法的执行时间和调用关系。

堆栈聚合的技巧：

按线程聚合： 可以按线程聚合火焰图，以便分析特定线程的执行情况。
按类/方法聚合： 可以按类或方法聚合火焰图，以便快速定位热点类或方法。
时间范围选择： 可以选择特定的时间范围，以便分析特定时间段内的性能问题。
忽略特定包/类： 可以忽略特定的包或类，例如 JDK 内部类，以便更专注于应用程序代码。
使用 "Focus" 功能： JMC 提供了 "Focus" 功能，可以选中火焰图中的某个节点，然后点击 "Focus" 按钮，以便只显示该节点及其相关的调用链。

示例：定位CPU消耗高的代码：

选择 "Flame View" 选项卡。
Aggregation: 选择 "Sampled Time"。
Filter: 可以选择特定的线程或类。
查看火焰图： 在火焰图中，找到宽度最大的节点，该节点对应的代码就是CPU消耗最高的代码。

JMC火焰图高级技巧：

上下文菜单： 在火焰图的节点上右键单击，可以查看方法的详细信息，例如方法签名、类名、包名等。
跳转到源代码： 如果JMC配置了源代码路径，可以在火焰图的节点上右键单击，选择 "Go to Source"，JMC 将会自动打开源代码编辑器，并定位到该方法的代码行。
比较火焰图： JMC 允许比较两个火焰图，以便分析性能差异。

示例：比较两个时间段的火焰图：

分别加载两个JFR文件，或者在同一个JFR文件中选择两个不同的时间段。
在JMC中打开两个火焰图。
使用 JMC 的比较功能，选择 "Compare" 选项卡。
JMC 将会显示两个火焰图的差异，可以快速找到性能变化的代码。

策略三：组合应用 – 事件过滤与火焰图的协同

事件过滤和火焰图并非相互独立的策略，而是可以组合应用，以达到更好的分析效果。

示例：

初步分析： 首先，使用 JMC 打开 JFR 文件，查看整体的性能概况，例如 CPU 使用率、内存使用率、GC 情况等。
事件过滤： 根据初步分析的结果，确定需要关注的事件类型，并配置 JFR 配置文件，只记录与目标问题相关的事件。
重新记录： 重新启动应用程序，并使用配置好的 JFR 配置文件进行记录。
火焰图分析： 使用 JMC 打开新的 JFR 文件，利用火焰图功能定位热点代码。
迭代优化： 根据火焰图的分析结果，优化代码，并重复上述步骤，直到问题解决。

例如：

发现CPU使用率高，初步怀疑是某个方法执行时间过长。

事件过滤： 启用 jdk.ExecutionSample 事件，并设置合适的采样周期和堆栈深度。
火焰图分析： 使用 JMC 打开 JFR 文件，查看火焰图，找到宽度最大的节点，该节点对应的代码就是CPU消耗最高的代码。
代码优化： 针对该方法进行优化，例如减少计算量、优化算法等。
重新测试： 重新运行应用程序，并使用 JFR 记录性能数据，验证优化效果。

代码示例：使用 JFR API 编程方式控制

除了使用命令行和JMC，还可以通过JFR的API在代码中控制事件的记录和配置。

import jdk.jfr.*;
import jdk.jfr.consumer.*;
import java.io.IOException;
import java.nio.file.Path;
import java.nio.file.Paths;
import java.time.Duration;
import java.util.List;

public class JFRControlExample {

    public static void main(String[] args) throws IOException {

        // 1. 创建并启动一个 JFR 记录
        Recording recording = new Recording();
        recording.setName("MyRecording");
        recording.setMaxSize(10 * 1024 * 1024); // 10MB
        recording.setDuration(Duration.ofSeconds(10));
        recording.enable("jdk.CPULoad").withPeriod(Duration.ofMillis(100));
        recording.enable("jdk.GarbageCollection").withPeriod(Duration.ofSeconds(1));

        recording.start();

        try {
            // 模拟一些工作
            for (int i = 0; i < 1000000; i++) {
                Math.random();
            }
        } finally {
            recording.stop();

            // 2. 将记录保存到文件
            Path output = Paths.get("myrecording.jfr");
            recording.dump(output);
            System.out.println("JFR recording saved to: " + output);

            // 3. 读取 JFR 文件并解析事件
            try (var stream = new FlightStream(output)) {
                while (true) {
                    Event event = stream.readEvent();
                    if (event == null) {
                        break;
                    }

                    if (event instanceof jdk.jfr.consumer.RecordedEvent) {
                        jdk.jfr.consumer.RecordedEvent recordedEvent = (jdk.jfr.consumer.RecordedEvent) event;
                        String eventName = recordedEvent.getEventType().getName();

                        if (eventName.equals("jdk.CPULoad")) {
                            double jvmUser = recordedEvent.getDouble("jvmUser");
                            double systemUser = recordedEvent.getDouble("systemUser");
                            System.out.println("CPU Load - JVM User: " + jvmUser + ", System User: " + systemUser);
                        } else if (eventName.equals("jdk.GarbageCollection")) {
                            String gcName = recordedEvent.getString("name");
                            Duration duration = recordedEvent.getDuration("duration");
                            System.out.println("GC Event - Name: " + gcName + ", Duration: " + duration);
                        }
                    }
                }
            }
        }
    }
}

这个例子展示了如何使用JFR API 创建、配置、启动、停止和读取JFR recording。使用API可以更灵活地控制JFR的行为，并集成到自动化测试和监控系统中。

其他优化技巧

除了事件过滤和火焰图堆栈聚合，还有一些其他的优化技巧可以帮助我们处理大型JFR文件：

增大JFR chunk size: 可以通过 -XX:FlightRecorderOptions:chunksize=<size> 参数增大 JFR chunk size，减少 chunk 的数量，从而减少文件的元数据开销。
限制JFR文件大小： 可以通过 -XX:FlightRecorderOptions:maxsize=<size> 参数限制 JFR 文件的大小，避免文件无限增长。
使用JFR命令行工具： JFR 提供了一些命令行工具，例如 jfr print 和 jfr assemble，可以用于打印 JFR 文件的内容和组装 JFR 文件。

总结：高效分析JFR文件

面对庞大的JFR文件，不要慌张。通过事件过滤，我们可以精确地捕获关键事件，减少不必要的数据记录。通过JMC的火焰图堆栈聚合功能，我们可以快速定位热点代码，找到性能瓶颈。结合其他的优化技巧，我们可以更高效地分析JFR文件，解决各种性能问题。记住，明确目标、精简配置、动态调整，是使用 JFR 的关键原则。

希望今天的分享能帮助大家更好地利用 JFR 进行性能分析和问题排查。