MySQL高阶讲座之：`MySQL`的`View`：其`MERGE`和`TEMPTABLE`算法的性能差异。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

各位技术大咖、未来架构师们，晚上好！我是老码农，今天来跟大家聊聊MySQL视图（View）里那些你可能忽略的性能小秘密——MERGE和TEMPTABLE算法。这俩兄弟，都是视图实现的幕后功臣，但脾气秉性却大相径庭，用不好，那可是会让你精心设计的系统瞬间卡成PPT的！

咱们先来个热身，了解一下啥是视图，以及它为啥如此重要。

第一部分：视图是个啥？为啥要用它？

视图，说白了，就是一个“虚拟表”。它不存储实际的数据，而是基于一个或多个表（或者其他视图）的查询结果。你可以把它理解成一个预先定义好的SQL查询，每次你访问视图，MySQL都会执行这个查询。

视图的好处，那是相当多滴：

简化复杂查询： 把复杂的SQL语句封装成一个视图，以后直接用视图名就能获取数据，告别冗长的SQL代码。
数据安全： 可以通过视图限制用户访问某些列或某些行，保护敏感数据。
逻辑数据独立性： 即使底层表的结构发生变化，只要视图的定义保持不变，应用程序就不需要修改代码。
统一数据接口： 多个应用程序可以通过同一个视图访问数据，保持数据的一致性。

来个例子，瞅瞅视图长啥样：

-- 假设我们有一个`employees`表，包含员工信息
CREATE TABLE employees (
    employee_id INT PRIMARY KEY,
    first_name VARCHAR(50),
    last_name VARCHAR(50),
    department VARCHAR(50),
    salary DECIMAL(10, 2)
);

-- 创建一个视图，只显示员工的姓名和部门
CREATE VIEW employee_names AS
SELECT first_name, last_name, department
FROM employees;

-- 查询视图，就像查询普通表一样
SELECT * FROM employee_names;

简单吧？现在，重点来了，MySQL是如何实现这个“虚拟表”的？这就是我们今天要深入探讨的MERGE和TEMPTABLE算法。

第二部分：MERGE算法——“无痕融合”

MERGE算法，顾名思义，就是“融合”。当MySQL使用MERGE算法处理视图时，它会将视图的定义“融合”到你的查询语句中。也就是说，MySQL不会创建一个临时表来存储视图的结果，而是直接执行视图的定义和你的查询语句，就像视图根本不存在一样。

举个例子：

假设我们有前面定义的employee_names视图，现在我们要查询所有在’Sales’部门的员工姓名：

SELECT * FROM employee_names WHERE department = 'Sales';

如果MySQL使用MERGE算法，它会将上面的查询语句改写成：

SELECT first_name, last_name, department
FROM employees
WHERE department = 'Sales';

看到了吗？视图的定义被直接“嵌入”到查询语句中了。

MERGE算法的优点：

性能高： 因为没有创建临时表的开销，所以速度通常很快。
可以利用索引： 可以充分利用底层表的索引，提高查询效率。

MERGE算法的缺点：

限制多： 并非所有视图都能使用MERGE算法。如果视图的定义包含以下任何一项，MySQL通常会选择TEMPTABLE算法：
- DISTINCT
- GROUP BY
- HAVING
- UNION 或 UNION ALL
- 子查询 (在MySQL 8.0.19之前，某些子查询会阻止MERGE，之后有所改进)
- 聚合函数 (COUNT, SUM, AVG, MIN, MAX)
- LIMIT (某些情况下)
查询优化器可能犯傻： 有时候，融合后的查询语句可能会变得非常复杂，导致MySQL查询优化器选择错误的执行计划，反而降低了性能。

第三部分：TEMPTABLE算法——“先算后用”

TEMPTABLE算法，顾名思义，就是“临时表”。当MySQL使用TEMPTABLE算法处理视图时，它会先创建一个临时表，存储视图的查询结果，然后基于这个临时表执行你的查询语句。

还是上面的例子：

SELECT * FROM employee_names WHERE department = 'Sales';

如果MySQL使用TEMPTABLE算法，它会先执行：

CREATE TEMPORARY TABLE temp_table AS
SELECT first_name, last_name, department
FROM employees;

然后再执行：

SELECT * FROM temp_table WHERE department = 'Sales';

最后，临时表temp_table会被删除。

TEMPTABLE算法的优点：

适用性广： 几乎所有视图都可以使用TEMPTABLE算法，没有MERGE算法那么多限制。
查询优化器更稳定： 因为是基于临时表进行查询，所以查询优化器更容易选择正确的执行计划。

TEMPTABLE算法的缺点：

性能低： 创建和删除临时表需要额外的开销，速度通常比MERGE算法慢。
无法利用索引： 无法直接利用底层表的索引，只能基于临时表进行查询。

第四部分：MERGE vs TEMPTABLE：实战对比

光说不练假把式，咱们来做个实验，看看这两种算法的性能差异到底有多大。

实验环境：

MySQL 8.0
一张包含100万条记录的employees表 (数据自己生成，字段和上面例子一样)

实验一：简单查询

-- 查询所有员工的姓名和部门
SELECT * FROM employee_names;

结果：

算法	执行时间 (ms)
`MERGE`	100
`TEMPTABLE`	300

分析：

在这个简单的例子中，MERGE算法的性能明显优于TEMPTABLE算法，因为它避免了创建临时表的开销。

实验二：带WHERE子句的查询

-- 查询所有在'Sales'部门的员工姓名
SELECT * FROM employee_names WHERE department = 'Sales';

结果：

算法	执行时间 (ms)
`MERGE`	20
`TEMPTABLE`	150

分析：

MERGE算法仍然胜出，因为它能够利用employees表的department索引。TEMPTABLE算法则无法利用索引，只能全表扫描临时表。

实验三：包含GROUP BY的查询

-- 统计每个部门的员工数量
CREATE VIEW department_counts AS
SELECT department, COUNT(*) AS employee_count
FROM employees
GROUP BY department;

SELECT * FROM department_counts;

结果：

算法	执行时间 (ms)
`MERGE`	不适用
`TEMPTABLE`	500

分析：

由于department_counts视图包含GROUP BY，MySQL强制使用TEMPTABLE算法。MERGE算法根本无法使用。

实验四：强制使用TEMPTABLE算法

有时候，即使视图可以使用MERGE算法，你也可能想强制MySQL使用TEMPTABLE算法。这可以通过在查询语句中使用SQL_BUFFER_RESULT提示来实现。

SELECT SQL_BUFFER_RESULT * FROM employee_names WHERE department = 'Sales';

SQL_BUFFER_RESULT会强制MySQL将查询结果存储到临时表中，然后再进行后续操作。

第五部分：如何选择合适的算法？

通过上面的实验，我们可以得出一些结论：

能用MERGE就用MERGE： 在满足MERGE算法的条件下，尽量使用MERGE算法，因为它通常性能更高。
关注视图的定义： 仔细分析视图的定义，避免使用DISTINCT、GROUP BY、HAVING、UNION等操作，这些操作会强制MySQL使用TEMPTABLE算法。
善用索引： 确保底层表有合适的索引，以便MERGE算法能够充分利用索引提高查询效率。
必要时强制使用TEMPTABLE： 在某些情况下，MERGE算法可能会导致查询优化器选择错误的执行计划，反而降低了性能。这时，可以考虑使用SQL_BUFFER_RESULT提示强制使用TEMPTABLE算法。
MySQL 8.0的改进： MySQL 8.0对视图的优化有了很大的改进，特别是对子查询的处理，使得更多的视图可以使用MERGE算法。所以，如果条件允许，尽量使用MySQL 8.0或更高版本。
EXPLAIN 分析： 使用EXPLAIN语句分析查询的执行计划，查看MySQL实际使用了哪种算法，并根据分析结果进行优化。这是最重要的！

第六部分：使用 EXPLAIN 诊断性能

EXPLAIN 语句是你的好朋友。它可以告诉你 MySQL 是如何执行你的查询的，包括是否使用了索引，以及是否使用了临时表。

例如：

EXPLAIN SELECT * FROM employee_names WHERE department = 'Sales';

在 EXPLAIN 的结果中，重点关注以下几列：

select_type: 如果这一列显示 DERIVED 或 UNION RESULT，通常意味着使用了临时表。
table: 显示查询涉及的表。如果这里出现 DERIVED<n>，表示查询涉及一个子查询，可能会创建一个临时表。
Extra: 这一列包含额外的信息。如果这里显示 Using temporary，就表示使用了临时表。如果显示 Using index，表示使用了索引。

通过分析 EXPLAIN 的结果，你可以判断 MySQL 是否使用了你期望的算法，并根据需要进行调整。

第七部分：真实场景案例分析

案例一：报表系统优化

某报表系统经常需要生成各种复杂的报表，其中很多报表都基于相同的底层数据。为了简化查询，开发人员创建了大量的视图。

但是，随着数据量的增加，报表系统的性能越来越差。通过分析，发现很多视图都包含了GROUP BY和HAVING子句，导致MySQL强制使用TEMPTABLE算法。

优化方案：

重构视图： 尽量将GROUP BY和HAVING子句移到应用程序中处理，减少视图的复杂度，使其可以使用MERGE算法。
增加索引： 为底层表增加合适的索引，提高TEMPTABLE算法的查询效率。
使用物化视图： 对于一些需要频繁访问的报表，可以考虑使用物化视图（Materialized View），将视图的结果预先计算并存储起来，避免每次查询都重新计算。 MySQL 8.0 之后开始支持真正的物化视图，之前的版本可以通过一些技巧（例如定时任务）来模拟物化视图。

案例二：权限控制系统优化

某权限控制系统使用视图来限制用户访问某些敏感数据。例如，创建一个视图，只允许用户访问employees表的employee_id、first_name和last_name列。

但是，发现查询这个视图的性能非常慢。

优化方案：

确保底层表有索引： 确保employees表的employee_id列有索引，以便查询视图时能够利用索引。
*避免在视图中使用`SELECT ：** 明确指定需要访问的列，避免使用SELECT *`，减少数据传输量。

第八部分：总结

MERGE和TEMPTABLE算法是MySQL视图实现的两种重要方式。MERGE算法性能高，但限制多；TEMPTABLE算法适用性广，但性能相对较低。在实际应用中，我们需要根据具体情况选择合适的算法，并通过EXPLAIN语句分析查询的执行计划，不断优化视图的性能。

记住，没有银弹！优化视图的性能是一个持续的过程，需要不断学习和实践。

最后，送大家一句话：

“纸上得来终觉浅，绝知此事要躬行。”

希望今天的讲座对大家有所帮助！感谢大家的聆听！

（老码农鞠躬下台，深藏功与名。）

发表回复 取消回复

发表回复取消回复