MySQL的临时表：内部实现机制、内存与磁盘使用，以及如何优化避免生成？ - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

MySQL 临时表：深入剖析与优化策略

大家好，今天我们来深入探讨MySQL的临时表。临时表是MySQL在执行查询过程中用于存储中间结果集的一种特殊表。理解临时表的内部机制、内存与磁盘的使用情况，以及如何优化查询以避免不必要的临时表生成，对于提升MySQL数据库的性能至关重要。

一、临时表的概念与分类

临时表是在MySQL服务器的生命周期内短暂存在的表，主要用于以下场景：

复杂查询: 当执行复杂的查询，例如包含GROUP BY, ORDER BY, DISTINCT, UNION等操作时，MySQL可能需要创建临时表来存储中间结果。
子查询优化: 某些情况下，MySQL会使用临时表来物化子查询的结果，以便更高效地处理外层查询。
存储过程和触发器: 存储过程和触发器中可以显式创建和使用临时表。

MySQL 临时表可以分为两种类型：

内存临时表 (Memory Temporary Table): 存储在内存中，速度快，但受到tmp_table_size 和 max_heap_table_size 参数的限制。如果临时表的大小超过这些限制，MySQL会自动将其转换为磁盘临时表。
磁盘临时表 (MyISAM/InnoDB Temporary Table): 存储在磁盘上，速度较慢，但可以存储更大的数据量。磁盘临时表使用的存储引擎取决于 internal_tmp_disk_storage_engine 系统变量，MySQL 5.7.23及以后默认使用 InnoDB。

类型	存储位置	速度	容量限制	适用场景
内存临时表	内存	快	受 `tmp_table_size` 和 `max_heap_table_size` 限制，取两者最小值。	数据量小，对性能要求高的场景
磁盘临时表	磁盘	慢	受磁盘空间限制	数据量大，内存不足以容纳的场景

二、临时表的内部实现机制

MySQL创建临时表的过程大致如下：

查询分析: MySQL优化器分析查询语句，判断是否需要创建临时表。
临时表创建: 如果需要，MySQL会根据预估的数据量和配置参数选择创建内存临时表或磁盘临时表。
数据填充: 将中间结果集写入临时表。
后续操作: 基于临时表执行后续的排序、分组、连接等操作。
临时表销毁: 查询完成后，MySQL会自动销毁临时表。

内存临时表:

使用MEMORY存储引擎，数据存储在内存中，访问速度非常快。
如果数据量超过tmp_table_size 和 max_heap_table_size 的最小值，MySQL会将内存临时表转换为磁盘临时表。
MEMORY存储引擎使用哈希索引，适用于等值查找，但不支持范围查找。

磁盘临时表:

使用MyISAM 或 InnoDB 存储引擎，数据存储在磁盘上。
速度比内存临时表慢，但可以存储更大的数据量。
MyISAM 使用表锁，并发性能较差。 InnoDB使用行锁，并发性能较好。
从MySQL 5.7.23开始，internal_tmp_disk_storage_engine 默认设置为 InnoDB，提高了磁盘临时表的并发性能。

三、内存与磁盘使用

临时表对内存和磁盘的使用情况直接影响数据库的性能。

内存使用:

tmp_table_size: 控制单个会话内存临时表的最大大小。
max_heap_table_size: 控制 MEMORY 存储引擎表的最大大小，也影响内存临时表的最大大小。
如果查询需要创建多个内存临时表，内存消耗会迅速增加。

磁盘使用:

磁盘临时表存储在tmpdir 指定的临时目录中。
如果临时目录所在磁盘空间不足，查询可能会失败。
磁盘临时表的I/O操作会显著降低查询性能。

示例：演示临时表从内存到磁盘的转换

假设我们有如下配置：

SHOW VARIABLES LIKE 'tmp_table_size';
SHOW VARIABLES LIKE 'max_heap_table_size';

假设输出如下：

Variable_name   | Value
----------------|-------
tmp_table_size  | 16777216  (16MB)
max_heap_table_size | 16777216  (16MB)

我们有一个名为 orders 的表，包含 order_id, customer_id, order_date, amount 等字段。

CREATE TABLE orders (
    order_id INT PRIMARY KEY AUTO_INCREMENT,
    customer_id INT,
    order_date DATE,
    amount DECIMAL(10, 2)
);

-- 插入大量数据，使得分组后的结果集超过16MB
INSERT INTO orders (customer_id, order_date, amount)
SELECT
    FLOOR(RAND() * 1000),
    DATE(NOW() - INTERVAL FLOOR(RAND() * 365) DAY),
    ROUND(RAND() * 100, 2)
FROM
    information_schema.COLUMNS
LIMIT 1000000;

现在执行一个分组查询：

EXPLAIN SELECT customer_id, SUM(amount) FROM orders GROUP BY customer_id ORDER BY SUM(amount) DESC;

查看 EXPLAIN 的输出，如果 Extra 列包含 Using temporary 和 Using filesort，则表示MySQL使用了临时表和文件排序。如果 Extra 列还包含 Using temporary; Using filesort; Using filesort 这样的信息，则表示临时表已经从内存转换到磁盘。

可以通过调整 tmp_table_size 和 max_heap_table_size 来影响临时表的使用，但更大的内存临时表并不总是更好，因为会占用更多的系统资源。

四、如何优化查询避免生成临时表

避免不必要的临时表可以显著提高查询性能。以下是一些常用的优化技巧：

优化GROUP BY 子句:
- 确保GROUP BY 子句中的列有索引。
- 避免在GROUP BY 子句中使用表达式或函数。
- 如果只需要部分分组结果，可以使用WHERE 子句进行过滤。
示例:

假设我们有一个名为 sales 的表，包含 product_id, sales_date, quantity, price 等字段。
```
CREATE TABLE sales (
    product_id INT,
    sales_date DATE,
    quantity INT,
    price DECIMAL(10, 2),
    INDEX (product_id, sales_date)
);
```
优化前的查询：
```
EXPLAIN SELECT product_id, SUM(quantity * price) FROM sales WHERE YEAR(sales_date) = 2023 GROUP BY product_id;
```
这个查询在 YEAR(sales_date) 上使用了函数，导致无法使用索引，可能需要创建临时表。

优化后的查询：
```
EXPLAIN SELECT product_id, SUM(quantity * price) FROM sales WHERE sales_date BETWEEN '2023-01-01' AND '2023-12-31' GROUP BY product_id;
```
这个查询使用范围查询代替函数，可以使用 sales_date 索引，避免创建临时表。
优化ORDER BY 子句:
- 确保ORDER BY 子句中的列有索引，并且与WHERE 子句中的列匹配。
- 避免在ORDER BY 子句中使用表达式或函数。
- 尽可能使用LIMIT 子句限制结果集的大小。
示例:
```
CREATE TABLE products (
    product_id INT PRIMARY KEY,
    product_name VARCHAR(255),
    price DECIMAL(10, 2),
    category_id INT,
    INDEX (category_id, price)
);
```
优化前的查询：
```
EXPLAIN SELECT product_id, product_name, price FROM products WHERE category_id = 1 ORDER BY price DESC;
```
如果 category_id 和 price 没有联合索引，MySQL可能会使用文件排序，需要创建临时表。

优化后的查询 (假设已经创建了 category_id 和 price 的联合索引):
```
EXPLAIN SELECT product_id, product_name, price FROM products WHERE category_id = 1 ORDER BY price DESC LIMIT 10;
```
创建联合索引，并使用 LIMIT 子句限制结果集的大小，可以避免创建临时表。

优化DISTINCT 子句:

确保DISTINCT 子句中的列有索引。
尽可能使用EXISTS 或 IN 子句代替DISTINCT。

示例:

CREATE TABLE customers (
    customer_id INT PRIMARY KEY,
    city VARCHAR(255),
    INDEX (city)
);

CREATE TABLE orders (
    order_id INT PRIMARY KEY,
    customer_id INT,
    order_date DATE
);

优化前的查询：

EXPLAIN SELECT DISTINCT city FROM customers WHERE customer_id IN (SELECT customer_id FROM orders WHERE order_date > '2023-01-01');

这个查询可能会创建临时表来去重。

优化后的查询：

EXPLAIN SELECT c.city FROM customers c WHERE EXISTS (SELECT 1 FROM orders o WHERE o.customer_id = c.customer_id AND o.order_date > '2023-01-01');

使用 EXISTS 子句代替 DISTINCT，可以避免创建临时表。

优化UNION 子句:

尽可能使用UNION ALL 代替 UNION，因为 UNION ALL 不会去重。
如果需要去重，可以考虑使用GROUP BY 子句代替UNION。

示例:

CREATE TABLE table1 (
    id INT PRIMARY KEY,
    value VARCHAR(255)
);

CREATE TABLE table2 (
    id INT PRIMARY KEY,
    value VARCHAR(255)
);

优化前的查询：

EXPLAIN SELECT id, value FROM table1 WHERE value LIKE '%a%' UNION SELECT id, value FROM table2 WHERE value LIKE '%b%';

这个查询会创建临时表来去重。

优化后的查询 (如果不需要去重):

EXPLAIN SELECT id, value FROM table1 WHERE value LIKE '%a%' UNION ALL SELECT id, value FROM table2 WHERE value LIKE '%b%';

使用 UNION ALL 可以避免创建临时表。

避免在WHERE子句中使用OR条件:

OR 条件通常会导致全表扫描，可以使用UNION ALL 或者索引优化来避免全表扫描。

示例:

CREATE TABLE users (
    id INT PRIMARY KEY,
    username VARCHAR(255),
    email VARCHAR(255),
    INDEX (username),
    INDEX (email)
);

优化前的查询：

EXPLAIN SELECT * FROM users WHERE username = 'john' OR email = '[email protected]';

这个查询可能会导致全表扫描。

优化后的查询：

EXPLAIN SELECT * FROM users WHERE username = 'john'
UNION ALL
SELECT * FROM users WHERE email = '[email protected]' AND username != 'john';

或者，创建一个包含 username 和 email 的联合索引，也可以避免全表扫描。

子查询优化:

尽量将子查询转换为连接查询。
使用EXISTS 或 IN 子句代替相关子查询。

示例:

CREATE TABLE employees (
    employee_id INT PRIMARY KEY,
    department_id INT,
    salary DECIMAL(10, 2)
);

CREATE TABLE departments (
    department_id INT PRIMARY KEY,
    department_name VARCHAR(255)
);

优化前的查询：

EXPLAIN SELECT employee_id, salary FROM employees WHERE department_id IN (SELECT department_id FROM departments WHERE department_name LIKE '%Sales%');

这个查询可能会执行多次子查询。

优化后的查询：

EXPLAIN SELECT e.employee_id, e.salary FROM employees e JOIN departments d ON e.department_id = d.department_id WHERE d.department_name LIKE '%Sales%';

将子查询转换为连接查询，可以避免多次执行子查询。

索引优化:
- 创建合适的索引是避免临时表的最重要手段。
- 分析查询语句，找出需要索引的列。
- 定期检查和优化索引，删除不必要的索引。

五、监控和诊断临时表的使用

可以使用以下方法监控和诊断临时表的使用情况：

EXPLAIN 语句: 使用 EXPLAIN 语句分析查询语句，查看是否使用了临时表。
SHOW STATUS 语句: 使用 SHOW STATUS LIKE 'Created_tmp%'; 语句查看临时表的创建数量。
MySQL Performance Schema: Performance Schema 提供了更详细的临时表使用信息，例如临时表的创建时间、大小等。

示例:

SHOW STATUS LIKE 'Created_tmp_tables';
SHOW STATUS LIKE 'Created_tmp_disk_tables';

这些命令会显示创建的内存临时表和磁盘临时表的数量。如果 Created_tmp_disk_tables 的值很高，则需要重点关注查询优化。

六、配置优化

除了优化查询语句外，还可以通过调整MySQL的配置参数来优化临时表的使用：

tmp_table_size: 控制单个会话内存临时表的最大大小。
max_heap_table_size: 控制 MEMORY 存储引擎表的最大大小，也影响内存临时表的最大大小。
internal_tmp_disk_storage_engine: 指定磁盘临时表使用的存储引擎 (MySQL 5.7.23及以后默认使用 InnoDB)。
tmpdir: 指定临时文件的存储目录。

示例:

SET GLOBAL tmp_table_size = 67108864; -- 64MB
SET GLOBAL max_heap_table_size = 67108864; -- 64MB
SET GLOBAL internal_tmp_disk_storage_engine = InnoDB;

需要注意的是，调整这些参数需要根据实际情况进行，盲目增大内存临时表的大小可能会导致系统资源不足。

七、避免临时表，提升数据库性能

通过理解临时表的内部机制，优化查询语句，以及合理配置MySQL参数，可以有效避免不必要的临时表生成，从而显著提升数据库的性能。记住，良好的索引设计是避免临时表的最重要手段。持续监控和分析查询性能，并根据实际情况进行优化，是保持数据库高性能的关键。

MySQL 临时表：深入剖析与优化策略

发表回复 取消回复

发表回复取消回复