MySQL 8.0 持久化优化器统计信息（Persistent Optimizer Statistics）的管理 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位数据库老铁们，欢迎来到今天的MySQL 8.0“持久化优化器统计信息”专场脱口秀！我是你们的老朋友，人称“数据库段子手”的程序猿小强。今天咱们不聊风花雪月，就来扒一扒MySQL这个默默奉献的老黄牛背后的“数据八卦”。

想象一下，你的数据库就像一家餐厅，每天都有成千上万的顾客点菜（SQL查询）。优化器就是这家餐厅的“智能点餐系统”，它负责根据菜单（数据库表结构）和顾客的口味（查询条件）来选择最佳的上菜路线（执行计划）。

但是，如果这个“智能点餐系统”对顾客的口味一无所知，或者顾客的口味变化了它还不知道，那结果会怎样？轻则上菜速度慢，顾客抱怨；重则点错菜，直接砸招牌！😱

所以，优化器需要“统计信息”这个情报员，来了解顾客的口味，也就是数据的分布情况。而MySQL 8.0的“持久化优化器统计信息”就像是给这个情报员配备了一个“永不断电的笔记本”，让它能随时记录、更新顾客的口味变化，保证“智能点餐系统”始终保持最佳状态。

第一幕：统计信息的重要性——“知己知彼，百战不殆”

在深入了解“持久化”之前，我们先来回顾一下统计信息的重要性。它就像是优化器的“眼睛”，让它能看到数据的全貌。

数据分布： 知道哪些菜（数据）最受欢迎（频率高），哪些菜比较冷门。例如，某个字段的唯一值很多，还是重复值很多？
数据范围： 知道每道菜的价格范围（数据范围），例如，某个数值字段的最大值和最小值是多少？
数据关联： 知道不同菜品之间的搭配关系（数据关联），例如，两个表之间的关联度如何？

有了这些信息，优化器才能做出明智的选择，例如：

选择合适的索引： 如果某个字段经常被用来做查询条件，而且唯一值很多，那么在这个字段上建立索引就能大大提高查询速度。反之，如果唯一值很少，索引的效率可能还不如全表扫描。
选择合适的连接方式： 当需要连接多个表时，优化器会根据表的大小和连接条件来选择最佳的连接方式，例如，Nested Loop Join、Hash Join、Merge Join等。
估算查询成本： 优化器会根据统计信息来估算不同执行计划的成本，选择成本最低的计划。

就像孙子兵法里说的：“知己知彼，百战不殆”。优化器只有了解数据的分布情况，才能选择最佳的执行计划，让你的SQL查询跑得飞快！🚀

第二幕：传统统计信息的痛点——“昙花一现，人走茶凉”

在MySQL 8.0之前，统计信息是存储在内存中的。这意味着什么呢？

易失性： 每次MySQL服务器重启，统计信息都会丢失，需要重新收集。这就像情报员的笔记本是“一次性”的，每次换班都要重新记录。
不一致性： 如果在收集统计信息期间，数据发生了变化，那么收集到的统计信息可能就不准确了。这就像情报员在记录顾客口味时，顾客突然改变了主意，导致记录的信息不准确。
手动维护： 需要手动执行ANALYZE TABLE命令来收集统计信息。这就像每次都要手动让情报员去收集信息，非常麻烦。

这些痛点导致了以下问题：

查询性能不稳定： 每次重启服务器后，查询性能可能会下降，需要等待统计信息重新收集完成后才能恢复。
维护成本高： 需要定期手动收集统计信息，增加了维护成本。
难以诊断性能问题： 如果查询性能突然下降，很难确定是由于统计信息过期导致的。

总之，传统的统计信息就像“昙花一现，人走茶凉”，无法长期有效地支撑优化器的工作。😩

第三幕：持久化统计信息——“永不断电的笔记本”

MySQL 8.0引入了“持久化优化器统计信息”，就像给情报员配备了一个“永不断电的笔记本”，让它可以随时记录、更新顾客的口味变化，并且在服务器重启后也能保留这些信息。

主要特性：

持久化存储： 统计信息存储在INFORMATION_SCHEMA.TABLE_STATISTICS和INFORMATION_SCHEMA.COLUMN_STATISTICS表中，这意味着即使服务器重启，统计信息也不会丢失。
自动更新： 可以配置MySQL自动更新统计信息，例如，根据表的修改频率来自动更新。
手动控制： 仍然可以使用ANALYZE TABLE命令手动收集统计信息，并且可以指定收集的粒度和方法。
版本控制： 可以查看统计信息的版本，了解统计信息的更新时间。
直方图支持： 支持直方图统计信息，可以更准确地描述数据的分布情况。

如何使用：

开启持久化统计信息： 默认情况下，持久化统计信息是开启的。可以通过optimizer_persistent_stats参数来控制是否开启。
```
SHOW GLOBAL VARIABLES LIKE 'optimizer_persistent_stats';
```
收集统计信息： 使用ANALYZE TABLE命令收集统计信息。
```
ANALYZE TABLE your_table;
```

查看统计信息： 可以通过查询INFORMATION_SCHEMA.TABLE_STATISTICS和INFORMATION_SCHEMA.COLUMN_STATISTICS表来查看统计信息。

SELECT * FROM INFORMATION_SCHEMA.TABLE_STATISTICS WHERE TABLE_NAME = 'your_table';
SELECT * FROM INFORMATION_SCHEMA.COLUMN_STATISTICS WHERE TABLE_NAME = 'your_table';

控制统计信息的更新： 可以通过STATS_PERSISTENT和STATS_AUTO_RECALC参数来控制统计信息的更新。
- STATS_PERSISTENT: 指定是否使用持久化统计信息。
- STATS_AUTO_RECALC: 指定是否自动重新计算统计信息。
```
ALTER TABLE your_table STATS_PERSISTENT = 1; -- 开启持久化统计信息
ALTER TABLE your_table STATS_AUTO_RECALC = 1; -- 开启自动重新计算统计信息
```
使用直方图： 可以使用ANALYZE TABLE ... HISTOGRAM ON ...命令来收集直方图统计信息。
```
ANALYZE TABLE your_table UPDATE HISTOGRAM ON your_column;
```

第四幕：实战演练——“让你的SQL飞起来”

说了这么多理论，不如来点实际的。我们来模拟一个场景，看看持久化统计信息是如何提升查询性能的。

假设我们有一个orders表，存储了订单信息，包含order_id、customer_id、order_date、amount等字段。

CREATE TABLE orders (
    order_id INT PRIMARY KEY,
    customer_id INT,
    order_date DATE,
    amount DECIMAL(10, 2)
);

现在，我们需要查询某个客户在某个时间段内的订单总额。

SELECT SUM(amount) FROM orders WHERE customer_id = 123 AND order_date BETWEEN '2023-01-01' AND '2023-01-31';

如果没有持久化统计信息，或者统计信息过期，优化器可能会选择错误的执行计划，例如，全表扫描。但是，如果有了持久化统计信息，优化器就能更准确地估算查询成本，选择合适的索引，例如，在customer_id和order_date字段上建立联合索引。

CREATE INDEX idx_customer_order_date ON orders (customer_id, order_date);

通过对比有无持久化统计信息的查询性能，我们可以看到明显的提升。🚀

第五幕：注意事项——“细节决定成败”

虽然持久化统计信息很强大，但也需要注意一些细节，才能发挥它的最大威力。

定期更新统计信息： 虽然可以自动更新，但建议根据表的修改频率，定期手动更新统计信息，以保证统计信息的准确性。
控制更新频率： 频繁更新统计信息会消耗资源，影响性能。需要根据实际情况，合理控制更新频率。
选择合适的统计信息收集方法： 不同的统计信息收集方法可能会产生不同的结果。需要根据数据的特点，选择合适的收集方法。
关注直方图： 对于数据分布不均匀的字段，可以使用直方图来更准确地描述数据的分布情况。
监控统计信息的状态： 可以通过查询INFORMATION_SCHEMA.TABLE_STATISTICS和INFORMATION_SCHEMA.COLUMN_STATISTICS表来监控统计信息的状态，例如，更新时间、版本号等。

第六幕：总结——“工欲善其事，必先利其器”

各位老铁，今天我们一起深入了解了MySQL 8.0的“持久化优化器统计信息”，它就像是给优化器配备了一个“永不断电的笔记本”，让它可以随时记录、更新数据的分布情况，从而选择最佳的执行计划，让你的SQL查询跑得飞快！

“工欲善其事，必先利其器”。掌握了“持久化优化器统计信息”这个利器，你就能更好地管理你的MySQL数据库，让它在你的业务中发挥更大的价值！💰

希望今天的脱口秀对大家有所帮助。如果觉得有用，记得点赞、收藏、转发！咱们下期再见！👋

发表回复 取消回复

发表回复取消回复