MySQL运维与监控之：`MySQL`的`P_S`（`Performance Schema`）：其在性能监控中的作用。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，下面进入正题。

MySQL性能监控的利器：Performance Schema (P_S) 深度剖析

大家好，今天我们来深入探讨MySQL运维与监控中一个非常重要的组成部分：Performance Schema (P_S)。P_S是MySQL官方提供的一个强大的性能分析工具，它能够帮助我们深入了解MySQL服务器内部的运行状态，从而进行性能瓶颈的定位和优化。

1. 什么是Performance Schema？

Performance Schema (P_S) 是MySQL 5.5版本引入的一个性能监控特性。它本质上是一个存储引擎，专门用于收集服务器运行时的各种性能数据。这些数据涵盖了服务器内部大量的操作，如SQL语句的执行、锁的等待、内存的使用、I/O的活动等等。 P_S的数据存储在内存中，并且通过一系列的表对外提供查询接口。这使得我们可以通过SQL语句来方便地访问和分析这些性能数据。

与传统的慢查询日志不同，P_S 提供了更细粒度的性能信息，可以帮助我们找到更深层次的性能瓶颈，而不仅仅是执行时间长的SQL语句。

2. Performance Schema 的优势

低开销： P_S的设计目标之一就是尽可能地降低对服务器性能的影响。通过采样和聚合等技术，P_S能够在保持较低开销的同时，提供相对准确的性能数据。默认情况下，P_S只收集有限的事件，以减少性能损耗。
细粒度： P_S 能够监控到非常细粒度的操作，例如某个函数的执行时间、某个锁的等待时间、某个I/O操作的延迟等等。这使得我们可以更加精确地定位性能瓶颈。
实时性： P_S 的数据是实时更新的，这意味着我们可以实时地监控服务器的运行状态，及时发现并解决问题。
SQL接口： P_S的数据通过一系列的表对外提供查询接口，我们可以使用标准的SQL语句来访问和分析这些数据，这大大降低了学习和使用成本。
可配置性： P_S 的监控范围和数据收集方式是可以配置的。我们可以根据自己的需求来选择需要监控的事件，以及调整数据收集的频率。
统计信息聚合： P_S能够将低级别的事件信息聚合为高级别的统计信息，方便我们进行分析和监控。例如，可以将单个SQL语句的执行时间聚合为整个语句类型的平均执行时间。

3. Performance Schema 的架构

P_S 的架构可以简单地分为三个部分：

Instrument： Instrument 是 P_S 中最基本的监控单元。每一个 Instrument 对应着服务器内部的一个特定操作，例如一个函数的执行、一个锁的获取、一个I/O操作的发生等等。 P_S 通过 Instrument 来跟踪这些操作的性能数据。
Consumer： Consumer 负责将 Instrument 收集到的数据进行处理和存储。 P_S 提供了多种 Consumer，可以将数据存储到不同的表中，例如事件表、统计表等等。
Table： Table 是 P_S 对外提供查询接口的方式。通过查询这些表，我们可以获取到服务器的各种性能数据。 P_S 提供了大量的表，涵盖了服务器内部的各个方面。

可以用下图来简单表示：

+---------------------+    +---------------------+    +---------------------+
|     Instrument     | -> |      Consumer      | -> |       Table       |
| (e.g., SQL Query) |    | (e.g., Event Table) |    | (e.g., events_statements_summary_by_digest) |
+---------------------+    +---------------------+    +---------------------+

4. Performance Schema 的配置

P_S 的配置主要涉及到 Instrument 和 Consumer 的启用和禁用。

启用和禁用 Instrument：

可以通过修改 setup_instruments 表来启用和禁用 Instrument。例如，要启用所有与 SQL 语句相关的 Instrument，可以执行以下 SQL 语句：
```
UPDATE performance_schema.setup_instruments SET enabled = 'YES' WHERE name LIKE 'statement/%';
```
要禁用所有与 SQL 语句相关的 Instrument，可以执行以下 SQL 语句：
```
UPDATE performance_schema.setup_instruments SET enabled = 'NO' WHERE name LIKE 'statement/%';
```
启用和禁用 Consumer：

可以通过修改 setup_consumers 表来启用和禁用 Consumer。例如，要启用所有事件相关的 Consumer，可以执行以下 SQL 语句：
```
UPDATE performance_schema.setup_consumers SET enabled = 'YES' WHERE name LIKE '%events%';
```
要禁用所有事件相关的 Consumer，可以执行以下 SQL 语句：
```
UPDATE performance_schema.setup_consumers SET enabled = 'NO' WHERE name LIKE '%events%';
```

注意： 修改 setup_instruments 和 setup_consumers 表需要 SUPER 权限。修改后，需要重启 MySQL 服务器才能生效，或者执行 FLUSH INSTRUMENTS 和 FLUSH TABLES 命令。建议重启服务器，以确保配置完全生效。

5. Performance Schema 常用表

P_S 提供了大量的表，涵盖了服务器内部的各个方面。下面列出一些常用的表：

表名	描述
`events_statements_current`	包含当前正在执行的语句的事件信息。
`events_statements_history`	包含最近执行的语句的事件信息。默认情况下，只保存最近10个事件。
`events_statements_history_long`	包含更长时间段内执行的语句的事件信息。默认情况下，只保存最近10000个事件。
`events_statements_summary_by_digest`	按照SQL语句的摘要（digest）进行分组，统计每个SQL语句的执行次数、总执行时间、平均执行时间、最大执行时间等等。这是最常用的表之一，可以帮助我们找到执行频率高、执行时间长的SQL语句。
`events_waits_current`	包含当前正在等待的事件信息，例如锁等待、I/O等待等等。
`events_waits_history`	包含最近发生的等待事件信息。
`events_waits_summary_global_by_event_name`	按照事件名称进行分组，统计每个事件的等待次数、总等待时间、平均等待时间、最大等待时间等等。可以帮助我们找到导致服务器性能瓶颈的等待事件。
`global_status`	包含服务器的全局状态信息，例如连接数、线程数、QPS、TPS等等。虽然不是P_S的专属，但是通常与P_S结合使用。
`global_variables`	包含服务器的全局变量信息。虽然不是P_S的专属，但是通常与P_S结合使用。
`threads`	包含当前所有线程的信息，例如线程ID、线程状态、线程执行的SQL语句等等。
`memory_summary_global_by_event_name`	按照事件名称进行分组，统计每个事件的内存使用情况。可以帮助我们找到内存泄漏或者内存使用过多的事件。
`file_summary_by_event_name`	按照事件名称进行分组，统计每个事件的文件I/O操作情况。可以帮助我们找到I/O瓶颈。

6. Performance Schema 的使用示例

下面通过几个示例来演示如何使用 P_S 进行性能分析。

示例 1：查找执行时间最长的 SQL 语句
```
SELECT
    DIGEST_TEXT,
    COUNT_STAR,
    SUM_TIMER_WAIT / 1000000000000 AS total_latency,
    AVG_TIMER_WAIT / 1000000000000 AS avg_latency,
    MAX_TIMER_WAIT / 1000000000000 AS max_latency
FROM
    performance_schema.events_statements_summary_by_digest
ORDER BY
    SUM_TIMER_WAIT DESC
LIMIT 10;
```
这个查询语句会返回执行时间最长的 10 条 SQL 语句的摘要信息、执行次数、总执行时间、平均执行时间和最大执行时间。
其中，DIGEST_TEXT 是 SQL 语句的摘要，COUNT_STAR 是执行次数，SUM_TIMER_WAIT 是总执行时间，AVG_TIMER_WAIT 是平均执行时间，MAX_TIMER_WAIT 是最大执行时间。时间单位是皮秒，需要除以 1000000000000 转换为秒。
示例 2：查找锁等待时间最长的事件
```
SELECT
    EVENT_NAME,
    COUNT_STAR,
    SUM_TIMER_WAIT / 1000000000000 AS total_latency,
    AVG_TIMER_WAIT / 1000000000000 AS avg_latency,
    MAX_TIMER_WAIT / 1000000000000 AS max_latency
FROM
    performance_schema.events_waits_summary_global_by_event_name
WHERE
    EVENT_NAME LIKE 'wait/lock/%'
ORDER BY
    SUM_TIMER_WAIT DESC
LIMIT 10;
```
这个查询语句会返回锁等待时间最长的 10 个事件的名称、等待次数、总等待时间、平均等待时间和最大等待时间。
其中，EVENT_NAME 是事件的名称，COUNT_STAR 是等待次数，SUM_TIMER_WAIT 是总等待时间，AVG_TIMER_WAIT 是平均等待时间，MAX_TIMER_WAIT 是最大等待时间。时间单位是皮秒，需要除以 1000000000000 转换为秒。
示例 3：查找当前正在执行的 SQL 语句
```
SELECT
    THREAD_ID,
    PROCESSLIST_ID,
    PROCESSLIST_USER,
    PROCESSLIST_HOST,
    PROCESSLIST_DB,
    SQL_TEXT
FROM
    performance_schema.threads
WHERE
    PROCESSLIST_STATE != '';
```
这个查询语句会返回当前正在执行的 SQL 语句的线程ID、进程ID、用户名、主机名、数据库名和SQL语句。
其中，THREAD_ID 是线程ID，PROCESSLIST_ID 是进程ID，PROCESSLIST_USER 是用户名，PROCESSLIST_HOST 是主机名，PROCESSLIST_DB 是数据库名，SQL_TEXT 是SQL语句。
示例 4：分析特定SQL语句的执行计划

首先，找到你需要分析的SQL语句的 DIGEST 值，可以通过示例1中的查询找到。然后，你可以使用MySQL的 EXPLAIN 命令结合SQL语句的摘要来分析执行计划。但是，P_S本身不直接提供执行计划，需要结合其他工具和命令。
```
-- 假设你找到了一个 DIGEST 值为 'xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx' 的SQL语句
-- 你需要构造一个与该摘要对应的SQL语句，然后使用 EXPLAIN 命令
EXPLAIN SELECT * FROM your_table WHERE your_condition; -- 将 'your_table' 和 'your_condition' 替换为实际的表名和条件
```
EXPLAIN 命令会返回SQL语句的执行计划，包括使用的索引、扫描的行数等等。通过分析执行计划，你可以找到SQL语句的性能瓶颈，例如缺少索引、全表扫描等等。
示例 5：监控内存使用情况
```
SELECT
    EVENT_NAME,
    COUNT_ALLOC,
    SUM_NUMBER_OF_BYTES_ALLOCATED,
    SUM_NUMBER_OF_BYTES_FREE
FROM
    performance_schema.memory_summary_global_by_event_name
ORDER BY
    SUM_NUMBER_OF_BYTES_ALLOCATED DESC
LIMIT 10;
```
这个查询语句会返回内存使用最多的 10 个事件的名称、分配次数、总分配字节数和总释放字节数。
其中，EVENT_NAME 是事件的名称，COUNT_ALLOC 是分配次数，SUM_NUMBER_OF_BYTES_ALLOCATED 是总分配字节数，SUM_NUMBER_OF_BYTES_FREE 是总释放字节数。通过分析内存使用情况，你可以找到内存泄漏或者内存使用过多的事件。

7. Performance Schema 的注意事项

启用 P_S 会带来一定的性能开销。 虽然 P_S 的设计目标之一就是尽可能地降低对服务器性能的影响，但是启用 P_S 仍然会带来一定的性能开销。因此，建议只在需要进行性能分析的时候才启用 P_S，并在分析完成后及时禁用 P_S。
P_S 的数据存储在内存中。 这意味着服务器重启后，P_S 的数据会丢失。如果需要长期保存 P_S 的数据，可以将 P_S 的数据定期导出到磁盘上。
P_S 的数据量可能会很大。 P_S 能够监控到非常细粒度的操作，因此 P_S 的数据量可能会很大。为了避免 P_S 占用过多的内存，可以调整 P_S 的配置，例如减少监控的事件数量、降低数据收集的频率等等。
P_S 的数据可能不准确。 P_S 通过采样和聚合等技术来降低对服务器性能的影响，因此 P_S 的数据可能不完全准确。但是，P_S 的数据仍然可以提供有价值的参考信息，帮助我们进行性能分析。
权限问题： 访问和修改 Performance Schema 需要特定的权限，例如 SELECT 和 UPDATE 权限。确保你的用户拥有足够的权限来使用 P_S。
数据类型： P_S 中很多时间相关的字段使用皮秒作为单位。在进行数据分析时，需要将其转换为更常用的单位，例如秒或毫秒。
与其他监控工具结合使用： P_S 可以与其他监控工具结合使用，例如 Prometheus、Grafana 等。可以将 P_S 的数据导出到这些工具中，进行更加灵活和可视化的监控。

8. P_S 与其他监控工具的比较

特性	Performance Schema (P_S)	慢查询日志 (Slow Query Log)	MySQL Enterprise Monitor (MEM)
数据来源	服务器内部实时数据	基于文件记录的慢查询语句	基于代理的监控数据
数据粒度	非常细粒度，涵盖各种事件	仅限于慢查询语句	汇总的性能指标
性能开销	较低，但仍有一定开销	较低，但可能影响磁盘I/O	较高，需要部署和维护代理
实时性	实时更新	延迟较高	准实时
易用性	SQL接口，需要一定的SQL知识	文本文件，需要解析	图形化界面，易于使用
可配置性	非常灵活，可以配置各种事件	有限，只能设置阈值	可配置，但不如P_S灵活
功能	深入的性能分析	慢查询语句的定位	全面的监控和管理
适用场景	深入的性能瓶颈分析	快速定位慢查询语句	整体的服务器监控和管理
是否需要付费	免费	免费	需要付费

9. 总结：Performance Schema 是性能监控的强大工具

Performance Schema 是 MySQL 运维和监控中不可或缺的工具。它提供了细粒度、实时、可配置的性能数据，可以帮助我们深入了解服务器的运行状态，找到性能瓶颈，并进行优化。虽然使用 P_S 需要一定的 SQL 知识，并且会带来一定的性能开销，但是它所提供的价值是巨大的。通过合理地配置和使用 P_S，我们可以更好地管理和优化 MySQL 服务器的性能。