MySQL高级特性之：`MySQL`的`Common Table Expressions`（`CTE`）：其在复杂查询中的可读性与性能。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

MySQL 高级特性：Common Table Expressions (CTE) – 提升复杂查询的可读性与性能

大家好！今天我们来深入探讨 MySQL 的一个强大且实用的特性：Common Table Expressions，简称 CTE。CTE 允许我们在单个查询中定义命名的临时结果集，这对于处理复杂查询，提高代码可读性以及在某些情况下优化性能至关重要。

1. 什么是 CTE？

简单来说，CTE 就像一个临时视图，它只在当前查询中有效。它不是一个实际存储在数据库中的对象，而是在查询执行期间动态创建的。CTE 的主要目的是将复杂的查询分解成更小的、更易于理解的部分，从而提高代码的可读性和可维护性。

2. CTE 的语法

CTE 的基本语法如下：

WITH
  cte_name1 AS (
    SELECT ...
  ),
  cte_name2 AS (
    SELECT ...
  ),
  ...
SELECT ...
FROM cte_name1, cte_name2, ...
WHERE ...;

WITH 关键字表示我们要定义一个或多个 CTE。
cte_name1, cte_name2, … 是 CTE 的名称，必须是唯一的。
AS (SELECT ...) 定义了 CTE 的查询逻辑。
SELECT ... FROM cte_name1, cte_name2, ... 是最终的查询，它可以引用之前定义的 CTE。

3. CTE 的优势

提高可读性: 将复杂查询分解成更小的、更易于理解的部分，使代码更易于阅读和维护。
代码重用: 在同一查询中多次引用同一个 CTE，避免重复编写相同的查询逻辑。
递归查询: CTE 支持递归，允许我们查询具有层级结构的数据，例如组织架构或目录树。
逻辑组织: 有助于将查询逻辑组织成更清晰的层次结构，使代码更易于理解和调试。
潜在的性能优化: 在某些情况下，MySQL 优化器可以更好地优化 CTE，从而提高查询性能。

4. CTE 的类型

MySQL 支持两种类型的 CTE：

非递归 CTE: 这是最常见的 CTE 类型，它定义了一个简单的查询，其结果集可以在后续的查询中使用。
递归 CTE: 递归 CTE 允许 CTE 引用自身，从而可以查询具有层级结构的数据。

5. 非递归 CTE 示例

假设我们有两个表：orders 和 customers。orders 表包含订单信息，customers 表包含客户信息。

CREATE TABLE customers (
    customer_id INT PRIMARY KEY,
    customer_name VARCHAR(255),
    city VARCHAR(255)
);

CREATE TABLE orders (
    order_id INT PRIMARY KEY,
    customer_id INT,
    order_date DATE,
    total_amount DECIMAL(10, 2),
    FOREIGN KEY (customer_id) REFERENCES customers(customer_id)
);

INSERT INTO customers (customer_id, customer_name, city) VALUES
(1, 'Alice', 'New York'),
(2, 'Bob', 'Los Angeles'),
(3, 'Charlie', 'Chicago'),
(4, 'David', 'New York');

INSERT INTO orders (order_id, customer_id, order_date, total_amount) VALUES
(101, 1, '2023-01-15', 100.00),
(102, 2, '2023-02-20', 250.00),
(103, 1, '2023-03-10', 150.00),
(104, 3, '2023-04-05', 300.00),
(105, 4, '2023-05-12', 200.00);

现在，我们想查询每个城市中订单总额超过 200 美元的客户的姓名和订单总额。我们可以使用 CTE 来实现这个查询：

WITH
  CityOrders AS (
    SELECT
      c.city,
      c.customer_name,
      SUM(o.total_amount) AS total_order_amount
    FROM
      customers c
      JOIN orders o ON c.customer_id = o.customer_id
    GROUP BY
      c.city,
      c.customer_name
  )
SELECT
  city,
  customer_name,
  total_order_amount
FROM
  CityOrders
WHERE
  total_order_amount > 200;

在这个例子中，我们定义了一个名为 CityOrders 的 CTE，它计算了每个城市中每个客户的订单总额。然后，我们使用 SELECT 语句从 CityOrders CTE 中选择订单总额超过 200 美元的客户的姓名和订单总额。

没有 CTE 的等效查询:

SELECT
  c.city,
  c.customer_name,
  SUM(o.total_amount) AS total_order_amount
FROM
  customers c
  JOIN orders o ON c.customer_id = o.customer_id
GROUP BY
  c.city,
  c.customer_name
HAVING
  SUM(o.total_amount) > 200;

虽然这个查询也能得到相同的结果，但当逻辑更加复杂时，使用 CTE 可以显著提高可读性。

6. 递归 CTE 示例

假设我们有一个名为 employees 的表，它包含员工的 ID、姓名和经理的 ID。

CREATE TABLE employees (
    employee_id INT PRIMARY KEY,
    employee_name VARCHAR(255),
    manager_id INT,
    FOREIGN KEY (manager_id) REFERENCES employees(employee_id)
);

INSERT INTO employees (employee_id, employee_name, manager_id) VALUES
(1, 'John', NULL),
(2, 'Alice', 1),
(3, 'Bob', 1),
(4, 'Charlie', 2),
(5, 'David', 2),
(6, 'Eve', 3);

现在，我们想查询所有 John 的下属员工，包括直接下属和间接下属。我们可以使用递归 CTE 来实现这个查询：

WITH RECURSIVE
  Subordinates AS (
    SELECT
      employee_id,
      employee_name,
      manager_id
    FROM
      employees
    WHERE
      manager_id IS NULL -- John is the root
    UNION ALL
    SELECT
      e.employee_id,
      e.employee_name,
      e.manager_id
    FROM
      employees e
      JOIN Subordinates s ON e.manager_id = s.employee_id
  )
SELECT
  employee_id,
  employee_name
FROM
  Subordinates
WHERE
  employee_id != 1; -- Exclude John

WITH RECURSIVE 关键字表示我们要定义一个递归 CTE。
Subordinates 是 CTE 的名称。
第一个 SELECT 语句是基本情况，它选择了所有没有经理的员工（John）。
第二个 SELECT 语句是递归情况，它选择了所有经理是 Subordinates CTE 中已存在的员工的员工。
UNION ALL 将基本情况和递归情况的结果合并在一起。

递归 CTE 的结构

递归 CTE 必须包含两个部分，通过 UNION ALL 或 UNION DISTINCT 连接：

Anchor Member (基本情况): 这是 CTE 的初始查询，它定义了递归的起点。它通常选择层级结构的根节点。
Recursive Member (递归情况): 这个查询引用 CTE 自身，用于迭代层级结构，找到下一层级的节点。

理解递归 CTE 的执行过程

执行 Anchor Member，生成初始结果集。
执行 Recursive Member，将 CTE 自身视为包含 Anchor Member 结果集的表。
将 Recursive Member 的结果集添加到 CTE 的结果集中。
重复步骤 2 和 3，直到 Recursive Member 返回空结果集，或者达到递归限制（由 max_recursion_depth 系统变量控制）。
最终 CTE 的结果集就是所有迭代的结果集的并集。

7. CTE 的性能考虑

虽然 CTE 可以提高代码的可读性，但在某些情况下，它可能会影响查询性能。

物化: MySQL 优化器可以选择将 CTE 物化，这意味着将 CTE 的结果集存储在临时表中。这可能会导致性能下降，特别是对于大型 CTE。
重复计算: 如果 CTE 在查询中被多次引用，MySQL 优化器可能会重复计算 CTE 的结果集，从而导致性能下降。
索引: CTE 不会自动继承底层表的索引。如果 CTE 的查询逻辑需要使用索引，则需要在 CTE 的查询语句中明确指定索引。

优化 CTE 性能的技巧

避免不必要的 CTE: 如果查询逻辑不复杂，则不需要使用 CTE。
优化 CTE 的查询逻辑: 确保 CTE 的查询逻辑尽可能高效，避免使用复杂的连接和子查询。
使用索引: 在 CTE 的查询语句中明确指定索引，以提高查询性能。
避免物化: 可以使用 MATERIALIZED 和 NO_MATERIALIZED 提示来控制 CTE 的物化行为。
测试和分析: 使用 EXPLAIN 命令分析查询的执行计划，找出性能瓶颈，并进行相应的优化。

8. CTE 与临时表

CTE 和临时表都允许我们存储中间结果集，但它们之间存在一些关键区别：

特性	CTE	临时表
生命周期	仅在当前查询中有效	在会话期间有效，或者直到显式删除
存储	不一定物化，可能在内存中计算	始终存储在磁盘上（或内存中的临时表）
可见性	仅在当前查询中可见	在创建它的会话中可见
性能	可能更快，因为可以避免磁盘 I/O	可能更慢，因为涉及磁盘 I/O
语法	使用 `WITH` 关键字定义	使用 `CREATE TEMPORARY TABLE` 语句创建
适用场景	复杂查询的逻辑分解，递归查询	需要在多个查询中共享中间结果集，数据量大

通常，如果只需要在单个查询中使用中间结果集，并且数据量不大，那么 CTE 是一个更好的选择。如果需要在多个查询中使用中间结果集，或者数据量很大，那么临时表可能更适合。

9. MATERIALIZED 和 NO_MATERIALIZED 提示

MySQL 8.0.19 引入了 MATERIALIZED 和 NO_MATERIALIZED 提示，允许我们控制 CTE 的物化行为。

MATERIALIZED: 强制 MySQL 优化器将 CTE 物化。
NO_MATERIALIZED: 阻止 MySQL 优化器将 CTE 物化。

示例：

WITH
  MATERIALIZED CityOrders AS (
    SELECT
      c.city,
      c.customer_name,
      SUM(o.total_amount) AS total_order_amount
    FROM
      customers c
      JOIN orders o ON c.customer_id = o.customer_id
    GROUP BY
      c.city,
      c.customer_name
  )
SELECT
  city,
  customer_name,
  total_order_amount
FROM
  CityOrders
WHERE
  total_order_amount > 200;

使用这些提示可以帮助我们更好地控制查询的执行计划，并优化性能。需要注意的是，过度使用这些提示可能会适得其反，因此应该仔细测试和分析查询的性能。

10. CTE 的局限性

不能被索引: CTE 本身不能被直接索引，因为它们是临时的、查询级别的结构。
调试困难: 复杂的 CTE 可能会难以调试，特别是当出现性能问题时。
部分 MySQL 版本限制: 在一些较老的 MySQL 版本中，对 CTE 的支持可能不完整或存在 bug。

11. 实战案例

假设我们有一个电商网站，需要统计每个月的新增用户数和总用户数。

CREATE TABLE users (
    user_id INT PRIMARY KEY,
    username VARCHAR(255),
    registration_date DATE
);

INSERT INTO users (user_id, username, registration_date) VALUES
(1, 'user1', '2023-01-10'),
(2, 'user2', '2023-01-20'),
(3, 'user3', '2023-02-05'),
(4, 'user4', '2023-02-15'),
(5, 'user5', '2023-03-01'),
(6, 'user6', '2023-03-10');

我们可以使用 CTE 来实现这个统计：

WITH
  MonthlyRegistrations AS (
    SELECT
      DATE_FORMAT(registration_date, '%Y-%m') AS registration_month,
      COUNT(*) AS new_users
    FROM
      users
    GROUP BY
      registration_month
  ),
  CumulativeUsers AS (
    SELECT
      registration_month,
      new_users,
      SUM(new_users) OVER (
        ORDER BY
          registration_month
      ) AS total_users
    FROM
      MonthlyRegistrations
  )
SELECT
  registration_month,
  new_users,
  total_users
FROM
  CumulativeUsers;

在这个例子中，我们首先定义了一个 MonthlyRegistrations CTE，它计算了每个月的新增用户数。然后，我们定义了一个 CumulativeUsers CTE，它使用窗口函数 SUM() OVER() 计算了每个月的总用户数。

12. CTE 的一些最佳实践

命名清晰: 使用描述性的名称来命名 CTE，以便于理解其用途。
保持简洁: 尽量保持 CTE 的查询逻辑简洁明了，避免过度复杂的查询。
避免嵌套过深: 尽量避免 CTE 嵌套过深，否则可能会影响可读性和性能。
使用 EXPLAIN 分析: 使用 EXPLAIN 命令分析查询的执行计划，找出性能瓶颈，并进行相应的优化。
充分测试: 在生产环境中使用 CTE 之前，进行充分的测试，确保其性能和正确性。

通过 CTE 提高代码可读性，利用递归处理层级数据，优化性能需要仔细测试和分析

总而言之，MySQL 的 CTE 是一个强大的工具，可以提高复杂查询的可读性、可维护性和潜在的性能。掌握 CTE 的语法和用法，并了解其优缺点，可以帮助我们编写更高效、更易于理解的 SQL 代码。

感谢大家的参与！希望今天的讲座对大家有所帮助。祝大家编程愉快！

MySQL 高级特性：Common Table Expressions (CTE) – 提升复杂查询的可读性与性能

发表回复 取消回复

发表回复取消回复