MySQL高级讲座篇之：MySQL 8.0的`Common Table Expressions`与`Recursive CTE`的性能考量。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

各位观众老爷们，晚上好！我是你们的老朋友，今天咱们聊聊MySQL 8.0里那个让人又爱又恨的Common Table Expressions (CTE)，特别是它的递归版本 (Recursive CTE)。这玩意儿用好了那是神兵利器，用不好那就是性能噩梦。咱们今天就来好好扒一扒，看看这CTE到底是个什么玩意儿，怎么用才能让它跑得更快。

第一部分：CTE是什么？能吃吗？

首先，咱得知道CTE是啥。简单来说，CTE就像一个临时的视图（view）。它在你执行一个查询的时候，先定义一个命名的结果集，然后在接下来的查询里就可以像使用一个表一样使用它。但是，注意，它只在当前查询里有效，查询结束了，它也就消失了。

那它能吃吗？当然不能！但是它可以让你的SQL代码更好“消化”。

举个例子，假设我们要查询销售额高于平均销售额的订单。没有CTE，你可能得这么写：

SELECT order_id, amount
FROM orders
WHERE amount > (SELECT AVG(amount) FROM orders);

这没啥问题，但是如果这个平均销售额需要在多个地方使用，或者查询逻辑更复杂，这段代码就会变得冗长而难以阅读。有了CTE，你可以这么写：

WITH AverageSales AS (
    SELECT AVG(amount) AS avg_amount
    FROM orders
)
SELECT order_id, amount
FROM orders, AverageSales
WHERE amount > AverageSales.avg_amount;

或者更优雅的写法：

WITH AverageSales AS (
    SELECT AVG(amount) AS avg_amount
    FROM orders
)
SELECT o.order_id, o.amount
FROM orders o
JOIN AverageSales a ON o.amount > a.avg_amount;

看到了吗？我们先用 WITH 定义了一个名为 AverageSales 的CTE，它包含了平均销售额。然后在主查询里，我们就可以像使用一个表一样使用 AverageSales 。这样代码的可读性就大大提高了。

第二部分：Recursive CTE，祖宗十八代都给你查出来！

Recursive CTE，递归CTE，是CTE的一个更强大的变体。它允许你定义一个可以递归调用的CTE，也就是CTE内部可以引用自身。这在处理层级数据，比如组织结构、分类目录、家谱等等，非常有用。

例如，假设我们有一个员工表 employees，里面包含了员工的ID、姓名和上级领导的ID：

CREATE TABLE employees (
    employee_id INT PRIMARY KEY,
    employee_name VARCHAR(255),
    manager_id INT,
    FOREIGN KEY (manager_id) REFERENCES employees(employee_id)
);

INSERT INTO employees (employee_id, employee_name, manager_id) VALUES
(1, '张三', NULL),
(2, '李四', 1),
(3, '王五', 1),
(4, '赵六', 2),
(5, '钱七', 3),
(6, '孙八', 4),
(7, '周九', 5);

现在，我们要查出张三（employee_id=1）的所有下属。如果没有递归CTE，你可能得写一堆复杂的自连接，而且还不知道要连接多少次。有了递归CTE，这个问题就变得非常简单：

WITH RECURSIVE Subordinates AS (
    -- 基础情况：找到老板（张三）
    SELECT employee_id, employee_name, manager_id, 0 AS level
    FROM employees
    WHERE employee_id = 1

    UNION ALL

    -- 递归情况：找到老板的下属
    SELECT e.employee_id, e.employee_name, e.manager_id, s.level + 1 AS level
    FROM employees e
    JOIN Subordinates s ON e.manager_id = s.employee_id
)
SELECT employee_id, employee_name, level
FROM Subordinates;

这段代码看起来有点复杂，我们来分解一下：

WITH RECURSIVE Subordinates AS (...)：定义一个名为 Subordinates 的递归CTE。RECURSIVE 关键字告诉MySQL这是一个递归CTE。
基础情况（Base Case）：SELECT employee_id, employee_name, manager_id, 0 AS level FROM employees WHERE employee_id = 1：这部分定义了递归的起点，也就是找到张三，并设置他的层级为0。
UNION ALL：将基础情况和递归情况的结果合并。注意，这里必须使用 UNION ALL 而不是 UNION。UNION 会去重，而递归CTE通常需要保留重复的行。
递归情况（Recursive Case）：SELECT e.employee_id, e.employee_name, e.manager_id, s.level + 1 AS level FROM employees e JOIN Subordinates s ON e.manager_id = s.employee_id：这部分定义了递归的规则，也就是找到所有上级领导是已经在 Subordinates 中的员工。每次递归，层级都会加1。

这段代码会一直递归下去，直到找不到更多符合条件的下属为止。

第三部分：性能考量，小心玩火！

虽然Recursive CTE很强大，但是如果使用不当，可能会导致性能问题。这是因为递归CTE的执行方式比较特殊，MySQL需要不断地迭代执行，直到满足终止条件。

以下是一些需要注意的性能问题：

死循环：如果你的递归CTE没有定义明确的终止条件，或者终止条件永远无法满足，那么它就会陷入死循环，直到MySQL报错或者服务器崩溃。

例如，如果我们把上面的代码里的 WHERE employee_id = 1 去掉，那么它就会一直递归下去，因为每个员工都有上级领导（除了张三，但是递归已经开始了）。
数据量过大：如果你的层级数据非常庞大，那么递归CTE可能会生成大量的数据，导致查询速度非常慢。
索引缺失：如果你的查询没有使用合适的索引，那么MySQL可能需要扫描整个表才能找到符合条件的记录，这会大大降低查询速度。

那么，如何优化Recursive CTE的性能呢？

确保有明确的终止条件：这是最重要的一点。你需要确保你的递归CTE最终能够停止，否则就会陷入死循环。
限制递归深度：MySQL 8.0 引入了 max_recursion_depth 系统变量，可以用来限制递归的深度。如果你的递归深度超过了这个限制，MySQL就会报错。你可以根据你的实际情况调整这个变量的值。
```
SET max_recursion_depth = 1000; -- 设置最大递归深度为1000
```
使用索引：确保你的查询使用了合适的索引。特别是递归情况中的连接条件，一定要有索引。在上面的例子中，employees.manager_id 应该有一个索引。
```
CREATE INDEX idx_manager_id ON employees(manager_id);
```
避免不必要的计算：在递归CTE中，尽量避免不必要的计算。例如，如果你的递归情况只需要用到员工的ID和上级领导的ID，那么就不要把员工的姓名也包含在CTE中。
考虑替代方案：在某些情况下，Recursive CTE可能不是最佳选择。你可以考虑使用其他的替代方案，例如存储过程、自定义函数或者应用程序代码。

第四部分：性能测试，是骡子是马，拉出来溜溜！

光说不练假把式，咱们来做个简单的性能测试。为了模拟层级结构，我们创建一个名为 categories 的表，用来存储商品分类信息：

CREATE TABLE categories (
    category_id INT PRIMARY KEY,
    category_name VARCHAR(255),
    parent_id INT,
    FOREIGN KEY (parent_id) REFERENCES categories(category_id)
);

-- 插入一些测试数据
INSERT INTO categories (category_id, category_name, parent_id) VALUES
(1, '电子产品', NULL),
(2, '电脑', 1),
(3, '笔记本电脑', 2),
(4, '台式电脑', 2),
(5, '手机', 1),
(6, '智能手机', 5),
(7, '功能手机', 5),
(8, '服装', NULL),
(9, '男装', 8),
(10, '女装', 8),
(11, 'T恤', 9),
(12, '衬衫', 9),
(13, '连衣裙', 10),
(14, '半身裙', 10);

现在，我们要查询电子产品（category_id=1）的所有子分类。我们先用Recursive CTE来实现：

WITH RECURSIVE Subcategories AS (
    SELECT category_id, category_name, parent_id, 0 AS level
    FROM categories
    WHERE category_id = 1

    UNION ALL

    SELECT c.category_id, c.category_name, c.parent_id, s.level + 1 AS level
    FROM categories c
    JOIN Subcategories s ON c.parent_id = s.category_id
)
SELECT category_id, category_name, level
FROM Subcategories;

然后，我们用循环来模拟Recursive CTE，看看性能如何：

-- 存储过程实现
DROP PROCEDURE IF EXISTS GetSubcategories;
DELIMITER //
CREATE PROCEDURE GetSubcategories(IN root_category_id INT)
BEGIN
    CREATE TEMPORARY TABLE IF NOT EXISTS Subcategories (
        category_id INT PRIMARY KEY,
        category_name VARCHAR(255),
        parent_id INT,
        level INT
    );

    DELETE FROM Subcategories;

    INSERT INTO Subcategories (category_id, category_name, parent_id, level)
    SELECT category_id, category_name, parent_id, 0
    FROM categories
    WHERE category_id = root_category_id;

    SET @level := 0;
    SET @row_count := 1;

    WHILE @row_count > 0 DO
        SET @level := @level + 1;

        INSERT INTO Subcategories (category_id, category_name, parent_id, level)
        SELECT c.category_id, c.category_name, c.parent_id, @level
        FROM categories c
        JOIN Subcategories s ON c.parent_id = s.category_id
        WHERE NOT EXISTS (SELECT 1 FROM Subcategories WHERE category_id = c.category_id AND level = @level);

        SET @row_count := ROW_COUNT();
    END WHILE;

    SELECT category_id, category_name, level FROM Subcategories;

    DROP TEMPORARY TABLE IF EXISTS Subcategories;
END //
DELIMITER ;

CALL GetSubcategories(1);

我们可以使用 EXPLAIN 命令来分析查询计划，看看MySQL是如何执行这些查询的。

EXPLAIN
WITH RECURSIVE Subcategories AS (
    SELECT category_id, category_name, parent_id, 0 AS level
    FROM categories
    WHERE category_id = 1

    UNION ALL

    SELECT c.category_id, c.category_name, c.parent_id, s.level + 1 AS level
    FROM categories c
    JOIN Subcategories s ON c.parent_id = s.category_id
)
SELECT category_id, category_name, level
FROM Subcategories;

EXPLAIN CALL GetSubcategories(1);

通过 EXPLAIN 命令，我们可以看到MySQL使用了哪些索引，以及扫描了多少行数据。这可以帮助我们找到性能瓶颈，并进行相应的优化。

第五部分：真实案例，从入门到精通！

理论讲了一堆，咱们来看几个真实案例，看看Recursive CTE在实际项目中是如何应用的。

组织结构查询：就像我们前面举的例子，可以使用Recursive CTE来查询员工的上下级关系。
分类目录查询：可以使用Recursive CTE来查询商品的分类目录。例如，查询某个分类下的所有子分类，或者查询某个商品所属的所有上级分类。
权限管理：可以使用Recursive CTE来查询用户的权限。例如，查询某个用户拥有的所有权限，包括直接授予的权限和通过角色继承的权限。
网络拓扑：可以使用Recursive CTE来查询网络设备的连接关系。例如，查询某个设备连接的所有其他设备，或者查询某个设备到另一个设备的所有路径。

第六部分：总结，别光看不练！

总而言之，Recursive CTE是一个非常强大的工具，可以用来处理层级数据。但是，在使用Recursive CTE的时候，一定要注意性能问题，确保有明确的终止条件，限制递归深度，使用索引，避免不必要的计算。

最后，希望大家能够多多练习，熟练掌握Recursive CTE的使用方法，让你的SQL代码更加优雅高效！

今天的讲座就到这里，感谢大家的观看！下次再见！

发表回复 取消回复

发表回复取消回复