MySQL优化器与执行计划之：`MySQL`的`视图`优化：`MERGE`和`TEMPTABLE`算法的底层实现。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，我们开始今天的讲座，主题是MySQL优化器与执行计划之：MySQL的视图优化：MERGE和TEMPTABLE算法的底层实现。

一、视图及其存在的意义

在深入研究视图优化之前，我们先来回顾一下什么是视图以及为什么我们需要它。

视图本质上是一个虚拟表，它基于一个或多个表的查询结果。视图不存储实际的数据，而是存储查询定义。每次访问视图时，MySQL都会执行视图定义中包含的查询。

视图的主要优点包括：

简化复杂查询： 视图可以将复杂的查询逻辑封装起来，使用户可以通过简单的名称访问复杂的数据集。
数据安全性： 视图可以限制用户对底层表的访问，只允许他们查看和操作视图中定义的数据。
数据抽象： 视图可以隐藏底层表的结构，为用户提供一个更加友好的数据接口。
逻辑数据独立性： 应用程序可以使用视图来访问数据，而无需关心底层表的物理结构。如果底层表的结构发生变化，只需要修改视图的定义，而不需要修改应用程序的代码。

例如，我们有两个表：customers 和 orders。

CREATE TABLE customers (
    customer_id INT PRIMARY KEY,
    customer_name VARCHAR(255),
    city VARCHAR(255)
);

CREATE TABLE orders (
    order_id INT PRIMARY KEY,
    customer_id INT,
    order_date DATE,
    total_amount DECIMAL(10, 2),
    FOREIGN KEY (customer_id) REFERENCES customers(customer_id)
);

INSERT INTO customers (customer_id, customer_name, city) VALUES
(1, 'Alice Smith', 'New York'),
(2, 'Bob Johnson', 'Los Angeles'),
(3, 'Charlie Brown', 'Chicago');

INSERT INTO orders (order_id, customer_id, order_date, total_amount) VALUES
(101, 1, '2023-01-15', 150.00),
(102, 2, '2023-02-20', 200.00),
(103, 1, '2023-03-10', 100.00),
(104, 3, '2023-04-05', 250.00);

我们可以创建一个视图来显示每个客户的总订单金额：

CREATE VIEW customer_order_summary AS
SELECT
    c.customer_name,
    c.city,
    SUM(o.total_amount) AS total_order_amount
FROM
    customers c
JOIN
    orders o ON c.customer_id = o.customer_id
GROUP BY
    c.customer_name, c.city;

现在，我们可以像查询普通表一样查询这个视图：

SELECT * FROM customer_order_summary;

二、 MySQL视图的优化策略：MERGE和TEMPTABLE

MySQL提供了两种主要的视图优化策略：MERGE 和 TEMPTABLE。优化器会根据视图的复杂性和查询的上下文来选择合适的策略。

MERGE算法： 这种算法将视图的定义与查询视图的语句合并，然后直接在底层表上执行合并后的查询。它避免了创建临时表，通常可以提高性能，尤其是在视图定义相对简单的情况下。
TEMPTABLE算法： 这种算法首先创建一个临时表来存储视图的结果，然后基于这个临时表执行查询。当视图定义比较复杂，或者查询包含需要物化的操作（例如DISTINCT、GROUP BY、UNION 等）时，MySQL可能会选择使用TEMPTABLE算法。

2.1 MERGE算法详解

当MySQL选择使用MERGE算法时，它会将查询视图的语句与视图的定义合并成一个单一的查询。这个合并后的查询直接在底层表上执行，就像视图不存在一样。

让我们看一个例子。假设我们有以下视图：

CREATE VIEW high_value_customers AS
SELECT customer_id, customer_name
FROM customers
WHERE city = 'New York';

现在，我们查询这个视图：

SELECT * FROM high_value_customers WHERE customer_name LIKE 'A%';

如果MySQL选择使用MERGE算法，它会将这个查询转换为以下等效的查询：

SELECT customer_id, customer_name
FROM customers
WHERE city = 'New York' AND customer_name LIKE 'A%';

可以看到，视图的定义被直接插入到查询语句中，避免了创建临时表。

优点：

性能高，避免了创建和维护临时表的开销。
可以使用底层表的索引，提高查询效率。

缺点：

只能用于简单的视图定义。
如果视图定义过于复杂，合并后的查询可能会变得非常庞大，难以优化。

MERGE算法的使用限制：

并不是所有的视图都可以使用MERGE算法。以下是一些常见的限制：

视图定义中包含 DISTINCT、GROUP BY、HAVING、UNION 或 UNION ALL。
视图定义中包含子查询。
视图定义中引用了 TEMPORARY 表。
视图定义中包含 ORDER BY 或 LIMIT (MySQL 8.0.19之前)。

2.2 TEMPTABLE算法详解

当MySQL无法使用MERGE算法时，它会选择使用TEMPTABLE算法。这种算法首先创建一个临时表来存储视图的结果，然后基于这个临时表执行查询。

让我们看一个例子。假设我们有以下视图：

CREATE VIEW customer_order_counts AS
SELECT
    c.customer_id,
    c.customer_name,
    COUNT(o.order_id) AS order_count
FROM
    customers c
LEFT JOIN
    orders o ON c.customer_id = o.customer_id
GROUP BY
    c.customer_id, c.customer_name;

现在，我们查询这个视图：

SELECT * FROM customer_order_counts WHERE order_count > 1;

由于视图定义中包含 GROUP BY，MySQL很可能会选择使用TEMPTABLE算法。这意味着MySQL会先创建一个临时表来存储customer_order_counts视图的结果，然后在这个临时表上执行 WHERE order_count > 1 的查询。

优点：

可以用于复杂的视图定义。
可以处理包含需要物化的操作的视图。

缺点：

性能相对较低，需要创建和维护临时表。
无法直接使用底层表的索引，可能会导致全表扫描。

TEMPTABLE算法的底层实现：

创建临时表： MySQL会根据视图的定义创建一个临时表。临时表的结构与视图的结果集相同。
填充临时表： MySQL会执行视图定义中的查询，并将结果插入到临时表中。
执行查询： MySQL会在临时表上执行查询视图的语句。
删除临时表： 查询完成后，MySQL会删除临时表。

三、如何影响MySQL的视图优化决策

虽然MySQL优化器会自动选择合适的优化策略，但在某些情况下，我们可以通过一些技巧来影响优化器的决策。

3.1 使用ALGORITHM子句

我们可以使用 ALGORITHM 子句来显式地指定视图的优化算法。

ALGORITHM = MERGE：强制MySQL使用MERGE算法。如果视图不满足MERGE算法的限制，MySQL会报错。
ALGORITHM = TEMPTABLE：强制MySQL使用TEMPTABLE算法。
ALGORITHM = UNDEFINED：让MySQL自己选择优化算法（默认行为）。

例如：

CREATE ALGORITHM = MERGE VIEW high_value_customers AS
SELECT customer_id, customer_name
FROM customers
WHERE city = 'New York';

注意： 强制使用 MERGE 算法可能会导致查询失败，如果视图定义不符合 MERGE 算法的要求。因此，在使用 ALGORITHM = MERGE 时，需要仔细检查视图的定义。

3.2 重构视图定义

有时候，我们可以通过重构视图的定义来提高性能。例如，我们可以将复杂的视图分解成多个简单的视图，或者将一些计算操作移到视图之外。

例如，假设我们有以下视图：

CREATE VIEW complex_view AS
SELECT
    c.customer_name,
    c.city,
    SUM(o.total_amount) AS total_order_amount,
    AVG(o.total_amount) AS average_order_amount
FROM
    customers c
JOIN
    orders o ON c.customer_id = o.customer_id
GROUP BY
    c.customer_name, c.city
HAVING
    SUM(o.total_amount) > 100;

这个视图比较复杂，MySQL很可能会选择使用TEMPTABLE算法。我们可以将这个视图分解成两个视图：

CREATE VIEW customer_order_summary AS
SELECT
    c.customer_name,
    c.city,
    SUM(o.total_amount) AS total_order_amount
FROM
    customers c
JOIN
    orders o ON c.customer_id = o.customer_id
GROUP BY
    c.customer_name, c.city;

CREATE VIEW high_value_customers AS
SELECT * FROM customer_order_summary WHERE total_order_amount > 100;

这样，high_value_customers 视图的定义就变得简单了，MySQL更有可能选择使用MERGE算法。

3.3 使用索引

确保底层表上有适当的索引可以提高查询效率，无论MySQL使用哪种优化算法。对于 MERGE 算法，索引可以直接在底层表上使用。对于 TEMPTABLE 算法，虽然不能直接利用底层表的索引，但是索引可以加速创建临时表的过程。

四、如何查看MySQL的执行计划

我们可以使用 EXPLAIN 语句来查看MySQL的执行计划。执行计划可以告诉我们MySQL使用了哪些优化策略，以及如何执行查询。

例如：

EXPLAIN SELECT * FROM customer_order_summary WHERE total_order_amount > 100;

EXPLAIN 语句会返回一个包含多个列的表格，其中比较重要的列包括：

select_type：表示查询的类型。如果查询使用了视图，这个列会显示 DERIVED 或 VIEW。
table：表示查询访问的表。如果查询使用了视图，这个列会显示视图的名称。
type：表示MySQL使用的访问类型。常见的访问类型包括 ALL（全表扫描）、index（索引扫描）、range（范围扫描）、ref（使用非唯一索引）等。
possible_keys：表示MySQL可能使用的索引。
key：表示MySQL实际使用的索引。
Extra：包含关于查询执行的额外信息。例如，如果MySQL使用了临时表，这个列会显示 Using temporary。如果MySQL使用了文件排序，这个列会显示 Using filesort。

通过分析执行计划，我们可以了解MySQL的优化策略，并找出查询性能瓶颈。

五、示例代码与分析

接下来，我们通过一些具体的例子来演示MERGE 和 TEMPTABLE 算法的使用。

示例1：简单的MERGE视图

-- 创建一个简单的视图
CREATE VIEW customer_cities AS
SELECT customer_id, customer_name, city
FROM customers;

-- 查询视图
EXPLAIN SELECT * FROM customer_cities WHERE city = 'New York';

在这个例子中，MySQL很可能会选择使用MERGE算法。执行计划的 select_type 列会显示 VIEW，table 列会显示 customers，表示查询直接在 customers 表上执行。

示例2：包含GROUP BY的TEMPTABLE视图

-- 创建一个包含GROUP BY的视图
CREATE VIEW order_summary AS
SELECT customer_id, SUM(total_amount) AS total_amount
FROM orders
GROUP BY customer_id;

-- 查询视图
EXPLAIN SELECT * FROM order_summary WHERE total_amount > 100;

在这个例子中，MySQL很可能会选择使用TEMPTABLE算法。执行计划的 select_type 列会显示 DERIVED，table 列会显示 <derived2>（表示一个派生表，也就是临时表），Extra 列会显示 Using temporary。

示例3：强制使用MERGE算法

-- 强制使用MERGE算法
CREATE ALGORITHM = MERGE VIEW customer_names AS
SELECT customer_id, customer_name
FROM customers;

-- 查询视图
EXPLAIN SELECT * FROM customer_names WHERE customer_name LIKE 'A%';

在这个例子中，我们强制MySQL使用MERGE算法。如果视图定义不符合MERGE算法的限制，MySQL会报错。

示例4：优化包含UNION ALL的视图

CREATE VIEW all_orders AS
SELECT order_id, customer_id, order_date, total_amount FROM orders WHERE order_date BETWEEN '2023-01-01' AND '2023-03-31'
UNION ALL
SELECT order_id, customer_id, order_date, total_amount FROM orders WHERE order_date BETWEEN '2023-04-01' AND '2023-06-30';

EXPLAIN SELECT * FROM all_orders WHERE total_amount > 200;

这个视图使用了 UNION ALL，通常会导致 TEMPTABLE 算法。为了优化，可以尝试将对视图的过滤条件下推到各个 UNION ALL 的子查询中：

EXPLAIN SELECT order_id, customer_id, order_date, total_amount FROM orders WHERE order_date BETWEEN '2023-01-01' AND '2023-03-31' AND total_amount > 200
UNION ALL
SELECT order_id, customer_id, order_date, total_amount FROM orders WHERE order_date BETWEEN '2023-04-01' AND '2023-06-30' AND total_amount > 200;

这样，优化器可能会选择直接在 orders 表上进行查询，避免使用临时表。

六、不同MySQL版本的差异

MySQL版本之间的优化器行为可能存在差异。例如，在MySQL 8.0.19之前，包含 ORDER BY 或 LIMIT 的视图不能使用 MERGE 算法。在MySQL 8.0及更高版本中，对窗口函数的支持更加完善，窗口函数可能会影响优化器的选择。因此，在进行视图优化时，需要考虑MySQL的版本。

七、总结与思考

我们今天探讨了MySQL视图的优化策略，重点介绍了MERGE 和 TEMPTABLE 算法的底层实现以及如何影响MySQL的优化决策。理解这些概念对于编写高性能的SQL语句至关重要。
视图的优化取决于视图的复杂性以及具体的SQL语句，选择哪种优化算法是MySQL根据内部的成本计算决定的。
理解这些算法可以帮助开发者更好地设计视图，并根据实际情况调整查询策略，从而提高数据库的性能。

发表回复 取消回复

发表回复取消回复