MySQL性能优化与索引之：`MySQL`的`limit`分页优化：如何避免全表扫描。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

MySQL `limit` 分页优化：如何避免全表扫描

大家好，今天我们来聊聊 MySQL 中 limit 分页优化。分页是 Web 应用中非常常见的功能，当数据量较大时，如果没有正确地使用 limit，很容易导致性能问题，特别是全表扫描。本次讲座将深入探讨 limit 的工作原理、常见的性能问题以及多种优化策略，并结合实际的代码示例进行说明。

1. limit 的基本原理和常见问题

limit 子句用于限制查询结果返回的行数。其基本语法如下：

SELECT * FROM table_name LIMIT offset, row_count;

其中：

offset：指定从哪一行开始返回结果，它的值从 0 开始计数。
row_count：指定返回的行数。

如果没有指定 offset，则默认从第一行开始返回结果。

常见问题：深度分页性能瓶颈

当 offset 值非常大时，比如 limit 1000000, 10，MySQL 需要先扫描 1000000 行数据，然后丢弃这些数据，最后返回后面的 10 行。这导致了大量的 I/O 开销和 CPU 资源浪费，极大地降低了查询效率。这就是我们常说的深度分页问题。

为什么会慢？

MySQL 引擎（例如 InnoDB）会从索引或者全表扫描中读取数据。即使你使用了索引，MySQL 也需要找到 offset 指定的位置，然后从该位置开始读取 row_count 行数据。对于深度分页，MySQL 仍然需要扫描大量不需要的数据，才能找到起始位置。

2. 性能分析：explain 命令

使用 explain 命令可以分析 SQL 查询的执行计划，帮助我们了解查询的性能瓶颈。例如：

EXPLAIN SELECT * FROM products LIMIT 1000000, 10;

explain 命令会返回一个结果集，其中包含以下关键信息：

type: 查询的访问类型。常见的类型有 ALL (全表扫描), index (索引扫描), range (索引范围扫描), ref (非唯一索引查找), eq_ref (唯一索引查找), const (常量查找), system。 ALL 通常是性能最差的，应尽量避免。
possible_keys: 可能使用的索引。
key: 实际使用的索引。
rows: MySQL 估计需要扫描的行数。

如果 explain 显示 type 为 ALL，rows 值很大，则表示查询使用了全表扫描，并且需要扫描大量行，这通常是性能问题的根源。

3. 优化策略：避免全表扫描

以下是一些常用的 limit 分页优化策略，旨在避免全表扫描，提高查询效率。

3.1 使用覆盖索引

覆盖索引是指索引包含了查询所需的所有列，MySQL 可以直接从索引中获取数据，而无需回表查询。回表查询是指通过索引找到行数据的位置后，还需要根据主键再次到数据表中查找完整的行数据。

示例：

假设 products 表包含 id, name, price 等列，并且我们经常需要根据 id 进行分页查询。

-- 原始查询
SELECT id, name, price FROM products LIMIT 1000000, 10;

-- 创建覆盖索引 (假设id是主键)
CREATE INDEX idx_id ON products (id);

-- 优化后的查询
SELECT id FROM products LIMIT 1000000, 10;
SELECT id, name, price FROM products WHERE id IN (SELECT id FROM products LIMIT 1000000, 10);

解释：

首先创建一个包含 id 列的索引 idx_id。
优化后的查询首先利用覆盖索引 idx_id 获取 id 列表。由于只需要 id 列，可以直接从索引中获取，避免了回表查询。
然后，使用 IN 子句根据 id 列表从 products 表中获取完整的行数据。

优点： 避免了全表扫描，减少了 I/O 开销。

缺点： 需要创建额外的索引，增加了索引维护的成本。

3.2 使用书签（Seek Method）

书签方法是指记录上一页最后一条数据的某个唯一标识（例如 id），然后在下一页查询时，直接从该标识之后的数据开始查询。

示例：

-- 第一页
SELECT id, name, price FROM products ORDER BY id LIMIT 10;

-- 假设第一页最后一条数据的 id 为 10

-- 第二页
SELECT id, name, price FROM products WHERE id > 10 ORDER BY id LIMIT 10;

-- 假设第二页最后一条数据的 id 为 20

-- 第三页
SELECT id, name, price FROM products WHERE id > 20 ORDER BY id LIMIT 10;

解释：

每次查询都根据上一页最后一条数据的 id 作为条件，直接跳过前面的数据，避免了扫描大量不需要的数据。

优点： 简单易懂，适用于 id 是自增主键的情况。

缺点： 如果 id 不是自增的，或者存在空洞（例如删除了一些数据），可能会导致分页结果不准确。另外，需要保证 id 的唯一性。

3.3 使用延迟关联（Deferred Join）

延迟关联是指先通过索引查询到 id 列表，然后再根据 id 列表与原表进行关联查询。

示例：

-- 原始查询
SELECT * FROM products LIMIT 1000000, 10;

-- 优化后的查询
SELECT p.*
FROM products p
JOIN (SELECT id FROM products LIMIT 1000000, 10) AS sub
ON p.id = sub.id;

解释：

首先，子查询 (SELECT id FROM products LIMIT 1000000, 10) 利用索引查询到 id 列表。
然后，将 id 列表与 products 表进行关联查询，获取完整的行数据。

优点： 避免了全表扫描，只扫描需要的行。

缺点： 子查询仍然需要扫描大量数据才能找到起始位置，但相比于直接扫描整个 products 表，性能有所提升。

3.4 优化器提示（Optimizer Hints）

MySQL 允许使用优化器提示来影响查询的执行计划。例如，可以使用 FORCE INDEX 提示强制 MySQL 使用指定的索引。

示例：

SELECT * FROM products FORCE INDEX (idx_id) LIMIT 1000000, 10;

解释：

FORCE INDEX (idx_id) 提示告诉 MySQL 强制使用 idx_id 索引。

优点： 可以精确控制查询的执行计划。

缺点： 需要了解 MySQL 的优化器，并且需要根据实际情况进行调整。过度使用优化器提示可能会导致性能下降。

4. 不同优化策略的比较

为了更清晰地了解不同优化策略的优缺点，我们可以使用表格进行比较：

优化策略	优点	缺点	适用场景
覆盖索引	避免回表查询，减少 I/O 开销	需要创建额外的索引，增加索引维护的成本	查询只需要索引包含的列
书签方法	简单易懂	`id` 需要是自增的，且不存在空洞，否则可能导致分页结果不准确。需要保证 `id` 的唯一性。	`id` 是自增主键
延迟关联	避免全表扫描，只扫描需要的行	子查询仍然需要扫描大量数据才能找到起始位置	需要返回所有列
优化器提示	可以精确控制查询的执行计划	需要了解 MySQL 的优化器，并且需要根据实际情况进行调整。过度使用优化器提示可能会导致性能下降。	需要精确控制查询的执行计划
存储过程优化	将分页逻辑封装在存储过程中，可以更好地利用 MySQL 的执行计划缓存，提升性能。	需要编写和维护存储过程，增加开发和维护的成本。	复杂的业务逻辑，需要多次查询和计算。

5. 存储过程优化

将分页逻辑封装在存储过程中也是一种有效的优化手段。存储过程可以预编译并存储在 MySQL 服务器上，可以更好地利用 MySQL 的执行计划缓存，提升性能。

示例：

DELIMITER //
CREATE PROCEDURE get_products_by_page(IN page_num INT, IN page_size INT)
BEGIN
  DECLARE offset_val INT;
  SET offset_val = (page_num - 1) * page_size;

  SELECT * FROM products LIMIT offset_val, page_size;
END //
DELIMITER ;

-- 调用存储过程
CALL get_products_by_page(100001, 10);

解释：

创建了一个名为 get_products_by_page 的存储过程，接受 page_num (页码) 和 page_size (每页记录数) 作为输入参数。
计算 offset 值，并使用 limit 子句查询数据。

优点：

可以更好地利用 MySQL 的执行计划缓存。
可以将复杂的业务逻辑封装在存储过程中，提高代码的可维护性。

缺点：

需要编写和维护存储过程，增加开发和维护的成本。

6. 实际案例分析

假设有一个名为 orders 的表，包含以下字段：

id (bigint, primary key, auto_increment)
user_id (int, indexed)
order_time (datetime, indexed)
amount (decimal)
status (enum(‘pending’, ‘shipped’, ‘completed’, ‘cancelled’))

我们需要根据 user_id 和 order_time 进行分页查询。

原始查询：

SELECT * FROM orders WHERE user_id = 123 ORDER BY order_time DESC LIMIT 100000, 10;

优化策略：

由于需要根据 order_time 排序，并且 order_time 已经建立了索引，我们可以使用覆盖索引和延迟关联相结合的方式进行优化。

SELECT o.*
FROM orders o
JOIN (SELECT id FROM orders WHERE user_id = 123 ORDER BY order_time DESC LIMIT 100000, 10) AS sub
ON o.id = sub.id;

解释：

子查询 (SELECT id FROM orders WHERE user_id = 123 ORDER BY order_time DESC LIMIT 100000, 10) 利用 user_id 和 order_time 索引查询到 id 列表。
然后，将 id 列表与 orders 表进行关联查询，获取完整的行数据。

这种优化方式可以有效地避免全表扫描，提高查询效率。

7. 优化的注意事项

在进行 limit 分页优化时，需要注意以下几点：

索引的选择： 选择合适的索引是优化的关键。需要根据实际的查询条件和排序规则选择索引。
数据类型： 确保索引列的数据类型与查询条件的数据类型一致，避免隐式类型转换。
分页参数： 对分页参数进行校验，防止恶意攻击，例如 page_num 小于 1，或者 page_size 过大。
性能测试： 在生产环境中进行性能测试，评估优化效果。

8. 更进一步：优化数据库结构

如果分页性能问题非常严重，可以考虑优化数据库结构，例如：

数据归档： 将历史数据归档到其他表中，减少主表的数据量。
垂直拆分： 将不常用的列拆分到其他表中，减少主表的宽度。
水平拆分： 将数据按照某种规则拆分到多个表中，减少单个表的数据量。

当然，数据库结构优化是一个复杂的过程，需要根据具体的业务场景进行分析和设计。

总结：高效分页的关键在于优化索引和避免全表扫描

本次讲座主要介绍了 MySQL 中 limit 分页优化的常见问题和优化策略。核心思想是利用索引避免全表扫描，并根据实际情况选择合适的优化方案。记住，没有万能的优化方案，需要根据具体的业务场景进行分析和测试。

MySQL limit 分页优化：如何避免全表扫描

发表回复 取消回复

MySQL `limit` 分页优化：如何避免全表扫描

发表回复取消回复