JAVA 如何结合 Prometheus + Grafana 搭建完整性能监控体系 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，我们开始今天的讲座，主题是“JAVA 如何结合 Prometheus + Grafana 搭建完整性能监控体系”。

引言：为什么我们需要性能监控？

在一个复杂的Java应用环境中，性能问题往往难以预料。内存泄漏、线程死锁、数据库连接池耗尽等问题都可能导致应用崩溃或性能下降。如果没有有效的监控手段，排查这些问题就像大海捞针。Prometheus和Grafana的组合提供了一个强大的监控解决方案，能够帮助我们实时了解应用的各项性能指标，及时发现并解决问题。

第一部分：Prometheus 简介与 JAVA 集成

Prometheus是一个开源的系统监控和告警工具包。它以时间序列数据的形式存储指标，并提供强大的查询语言PromQL用于分析这些数据。

1.1 Prometheus 的核心概念

指标 (Metrics): 指标是 Prometheus 监控的基本单元。它们是带有时间戳的数值数据，例如CPU使用率、内存使用量、请求延迟等。
目标 (Targets): 目标是 Prometheus 抓取指标数据的来源。通常是HTTP endpoints，Prometheus会定期向这些endpoints发送请求，获取指标数据。
抓取 (Scraping): 抓取是指 Prometheus 定期从目标获取指标数据的过程。
PromQL: Prometheus Query Language，用于查询和分析指标数据的强大查询语言。
exporters: 用于将现有系统和应用暴露为 Prometheus 可以抓取的格式的组件。

1.2 JAVA 应用如何暴露 Prometheus 指标

有多种方式可以使 Java 应用暴露 Prometheus 指标。最常见的方法是使用 Micrometer。

Micrometer 是一个 Java 指标库，它提供了一个简单的 API 来收集各种指标，并且可以轻松地导出到不同的监控系统，包括 Prometheus。

1.2.1 添加 Micrometer 依赖

首先，需要在项目的 pom.xml 文件中添加 Micrometer 和 Prometheus 的依赖：

<dependencies>
    <dependency>
        <groupId>io.micrometer</groupId>
        <artifactId>micrometer-core</artifactId>
    </dependency>
    <dependency>
        <groupId>io.micrometer</groupId>
        <artifactId>micrometer-registry-prometheus</artifactId>
    </dependency>
    <!-- 如果使用Spring Boot -->
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-actuator</artifactId>
    </dependency>
</dependencies>

1.2.2 创建 Prometheus Endpoint

如果使用 Spring Boot，可以通过 spring-boot-starter-actuator 自动暴露 Prometheus endpoint。只需要在 application.properties 或 application.yml 文件中添加以下配置：

management.endpoints.web.exposure.include=prometheus
management.metrics.export.prometheus.enabled=true

或者，在 application.yml 中：

management:
  endpoints:
    web:
      exposure:
        include: prometheus
  metrics:
    export:
      prometheus:
        enabled: true

这将会在 /actuator/prometheus 路径下暴露 Prometheus 指标。

如果不使用 Spring Boot，则需要手动创建一个 endpoint 来暴露指标。

import io.micrometer.core.instrument.MeterRegistry;
import io.micrometer.prometheus.PrometheusConfig;
import io.micrometer.prometheus.PrometheusMeterRegistry;
import io.prometheus.client.CollectorRegistry;

import javax.servlet.ServletException;
import javax.servlet.http.HttpServlet;
import javax.servlet.http.HttpServletRequest;
import javax.servlet.http.HttpServletResponse;
import java.io.IOException;
import java.io.PrintWriter;

public class PrometheusEndpoint extends HttpServlet {

    private final PrometheusMeterRegistry registry;

    public PrometheusEndpoint() {
        CollectorRegistry collectorRegistry = new CollectorRegistry();
        registry = new PrometheusMeterRegistry(PrometheusConfig.DEFAULT, collectorRegistry);
    }

    public MeterRegistry getRegistry() {
        return registry;
    }

    @Override
    protected void doGet(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException {
        resp.setStatus(HttpServletResponse.SC_OK);
        resp.setContentType("text/plain; version=0.0.4; charset=utf-8");

        PrintWriter writer = resp.getWriter();
        writer.write(registry.scrape());
        writer.flush();
    }
}

需要将这个Servlet注册到你的web容器中，并映射到一个URL路径，例如 /prometheus。

1.2.3 使用 Micrometer 收集指标

现在可以使用 Micrometer 来收集各种指标。例如，可以创建一个计数器来记录请求的数量：

import io.micrometer.core.instrument.Counter;
import io.micrometer.core.instrument.MeterRegistry;

public class MyService {

    private final Counter requestCounter;

    public MyService(MeterRegistry registry) {
        requestCounter = Counter.builder("my_service.requests")
                .description("Number of requests to my service")
                .register(registry);
    }

    public void processRequest() {
        requestCounter.increment();
        // ... 处理请求的逻辑
    }
}

或者，可以记录请求的延迟：

import io.micrometer.core.instrument.Timer;
import io.micrometer.core.instrument.MeterRegistry;

import java.time.Duration;

public class MyService {

    private final Timer requestTimer;

    public MyService(MeterRegistry registry) {
        requestTimer = Timer.builder("my_service.request_latency")
                .description("Latency of requests to my service")
                .register(registry);
    }

    public void processRequest() {
        long startTime = System.nanoTime();
        // ... 处理请求的逻辑
        long endTime = System.nanoTime();
        requestTimer.record(Duration.ofNanos(endTime - startTime));
    }
}

1.3 配置 Prometheus 抓取 JAVA 应用的指标

在 Prometheus 的配置文件 prometheus.yml 中，需要配置 Prometheus 抓取 Java 应用的指标。

scrape_configs:
  - job_name: 'java-app'
    metrics_path: '/actuator/prometheus'  # 或者 /prometheus, 取决于你的配置
    static_configs:
      - targets: ['localhost:8080']  # 你的 Java 应用的地址

job_name 是一个用于标识这个抓取任务的名称。metrics_path 是 Java 应用暴露 Prometheus 指标的路径。targets 是 Java 应用的地址。

1.4 验证 Prometheus 是否成功抓取指标

启动 Prometheus 后，可以通过 Prometheus 的 Web UI (通常是 http://localhost:9090) 来验证 Prometheus 是否成功抓取了 Java 应用的指标。

在 Prometheus 的 Web UI 中，可以输入 PromQL 查询语句来查询指标数据。例如，可以输入 my_service_requests_total 来查询 my_service.requests 指标的总数。

第二部分：Grafana 简介与配置

Grafana 是一个开源的数据可视化工具，它可以从各种数据源 (包括 Prometheus) 中读取数据，并以图表、仪表盘等形式展示这些数据。

2.1 Grafana 的核心概念

数据源 (Data Source): 数据源是 Grafana 读取数据的来源。例如，Prometheus、MySQL、Elasticsearch 等。
仪表盘 (Dashboard): 仪表盘是 Grafana 中用于展示数据的面板集合。
面板 (Panel): 面板是仪表盘中的一个独立的图表或仪表。
查询 (Query): 查询是用于从数据源中获取数据的语句。在 Grafana 中，通常使用 PromQL 来查询 Prometheus 数据。

2.2 配置 Grafana 连接 Prometheus

启动 Grafana: 下载并安装 Grafana，然后启动 Grafana 服务。默认情况下，Grafana 的 Web UI 运行在 http://localhost:3000。
添加数据源: 登录 Grafana Web UI，点击 "Configuration" -> "Data sources"，然后点击 "Add data source"。
选择 Prometheus: 在数据源列表中选择 Prometheus。
配置 Prometheus 连接信息: 在 Prometheus 的配置页面中，输入 Prometheus 的 URL (例如 http://localhost:9090)，然后点击 "Save & test"。如果配置正确，Grafana 会显示 "Data source is working" 的消息。

2.3 创建 Grafana 仪表盘

创建仪表盘: 点击 "+" -> "Dashboard"，创建一个新的仪表盘。
添加面板: 点击 "Add new panel"，添加一个新的面板。
选择图表类型: 在面板的配置页面中，选择一个图表类型 (例如 "Graph", "Gauge", "Single stat" 等)。
配置查询: 在面板的查询编辑器中，输入 PromQL 查询语句来获取数据。例如，可以输入 rate(my_service_request_latency_sum[5m]) / rate(my_service_request_latency_count[5m]) 来查询 my_service.request_latency 指标的平均延迟 (5分钟内的平均值)。
配置图表选项: 在面板的配置页面中，可以配置图表的各种选项，例如标题、轴标签、颜色等。
保存仪表盘: 点击 "Save" 按钮，保存仪表盘。

2.4 常用监控指标与 Grafana 配置示例

以下是一些常用的 Java 应用监控指标以及在 Grafana 中配置这些指标的示例：

指标名称	描述	PromQL 查询示例	Grafana 图表类型
`jvm_memory_used_bytes`	JVM 堆内存使用量	`jvm_memory_used_bytes{area="heap"}`	Graph
`jvm_memory_max_bytes`	JVM 堆内存最大值	`jvm_memory_max_bytes{area="heap"}`	Graph
`jvm_gc_collection_seconds_sum`	JVM GC 收集时间总和	`rate(jvm_gc_collection_seconds_sum[5m])`	Graph
`jvm_gc_collection_seconds_count`	JVM GC 收集次数	`rate(jvm_gc_collection_seconds_count[5m])`	Graph
`process_cpu_usage`	进程 CPU 使用率	`rate(process_cpu_usage_seconds_total[5m])`	Graph
`process_open_fds`	进程打开的文件描述符数量	`process_open_fds`	Graph
`logback_events_total{level="error"}`	Logback 错误日志数量	`increase(logback_events_total{level="error"}[5m])`	Graph
`my_service_requests_total`	自定义请求计数	`rate(my_service_requests_total[5m])`	Graph
`my_service_request_latency_seconds_sum`	自定义请求延迟总和	`rate(my_service_request_latency_seconds_sum[5m]) / rate(my_service_request_latency_count[5m])`	Graph
`my_service_request_latency_seconds_count`	自定义请求延迟计数	`rate(my_service_request_latency_seconds_count[5m])`	Graph
`system_cpu_usage`	系统CPU 使用率	`100 - (avg by (instance)(rate(node_cpu_seconds_total{mode="idle"}[5m])) * 100)`	Graph
`system_memory_usage`	系统内存使用率	`(node_memory_MemTotal_bytes - node_memory_MemAvailable_bytes) / node_memory_MemTotal_bytes * 100`	Graph

第三部分：告警配置

Prometheus 还可以配置告警规则，当某些指标超过预设的阈值时，Prometheus 会触发告警。

3.1 告警规则

告警规则定义了告警的条件和行为。告警规则通常写在 .rules 文件中。

groups:
  - name: example
    rules:
      - alert: HighRequestLatency
        expr: rate(my_service_request_latency_seconds_sum[5m]) / rate(my_service_request_latency_seconds_count[5m]) > 0.5
        for: 1m
        labels:
          severity: warning
        annotations:
          summary: "High request latency"
          description: "Request latency is higher than 0.5 seconds"

alert：告警的名称。
expr：PromQL 表达式，用于判断是否触发告警。
for：持续时间，只有当表达式在指定的时间内都为真时，才会触发告警。
labels：告警的标签，可以用于分类和过滤告警。
annotations：告警的注释，可以包含告警的详细信息。

3.2 配置 Prometheus 加载告警规则

需要在 prometheus.yml 文件中配置 Prometheus 加载告警规则。

rule_files:
  - "rules/*.rules"

这将告诉 Prometheus 加载 rules 目录下所有以 .rules 结尾的文件。

3.3 配置 Alertmanager

Alertmanager 是 Prometheus 的告警管理组件，它可以接收 Prometheus 发送的告警，并根据配置的规则进行处理，例如发送邮件、短信等。

需要下载并安装 Alertmanager，然后配置 Alertmanager 的配置文件 alertmanager.yml。

route:
  receiver: 'email-notifications'
  repeat_interval: 5m

receivers:
  - name: 'email-notifications'
    email_configs:
      - to: '[email protected]'
        from: '[email protected]'
        smarthost: 'smtp.example.com:587'
        auth_username: 'prometheus'
        auth_password: 'your_password'
        tls_config:
          insecure_skip_verify: true

这个配置会将所有告警发送到指定的邮箱。

需要在 prometheus.yml 文件中配置 Prometheus 将告警发送到 Alertmanager。

alerting:
  alertmanagers:
    - static_configs:
        - targets:
          - localhost:9093

这将告诉 Prometheus 将告警发送到 localhost:9093，也就是 Alertmanager 的地址。

3.4 告警示例

假设配置了上述告警规则，当 my_service_request_latency 的平均延迟超过 0.5 秒时，Prometheus 会触发一个名为 HighRequestLatency 的告警。Alertmanager 接收到这个告警后，会发送一封邮件到 [email protected]。

第四部分：最佳实践与注意事项

指标命名规范: 使用一致的指标命名规范，例如 application_component_metric_unit。
标签的使用: 合理使用标签可以更好地分类和过滤指标。
监控指标的选择: 选择与业务相关的关键指标进行监控。
告警阈值的设置: 设置合理的告警阈值，避免误报或漏报。
性能测试: 在生产环境部署之前，进行充分的性能测试，以确保监控系统的稳定性和准确性。
安全: 注意Prometheus和Grafana的安全配置，例如启用身份验证和授权。
资源规划: 根据应用规模和监控指标的数量，合理规划 Prometheus 和 Grafana 的资源。
持续优化: 定期审查和优化监控配置，以适应应用的变化。

第五部分：高级主题

使用 Service Discovery: 使用 Service Discovery (例如 Consul, Kubernetes) 自动发现监控目标。
自定义 Exporter: 如果现有的 Exporter 无法满足需求，可以编写自定义的 Exporter。
PromQL 高级查询: 学习 PromQL 的高级查询技巧，例如使用聚合函数、时间范围选择器、子查询等。
Grafana 变量: 使用 Grafana 变量可以创建更灵活和可重用的仪表盘。
Grafana 告警: Grafana 也可以配置告警，与 Prometheus 告警配合使用可以实现更完善的告警系统。
联邦 Prometheus: 对于大规模的分布式系统，可以使用联邦 Prometheus 来聚合多个 Prometheus 实例的数据。

通过 Prometheus 和 Grafana 搭建了一个完整的 Java 应用性能监控体系，可以实时了解应用的各项性能指标，及时发现并解决问题，确保应用的稳定性和可靠性。
本讲座介绍了 Prometheus 和 Grafana 的基本概念和配置方法，并提供了一些常用的监控指标和 Grafana 配置示例。希望这些信息能够帮助大家更好地使用 Prometheus 和 Grafana 来监控 Java 应用。

发表回复 取消回复

发表回复取消回复