LIMIT 子句的性能问题与大偏移量优化方案 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位技术控们，晚上好！我是你们的老朋友，江湖人称“代码诗人”的吟游程序猿。今天，咱们不吟诗，不作赋，就聊聊数据库里一个让人又爱又恨的小家伙——LIMIT 子句。

你可能觉得 LIMIT 很简单，不就是限制一下返回结果的数量吗？Too young, too simple! 当 LIMIT 遇上大偏移量（offset），就像《西游记》里的唐僧遇上了妖怪，表面风平浪静，实则暗流涌动，性能问题分分钟教你做人。

今天，咱们就来深入剖析 LIMIT 的性能问题，并献上各种优化方案，让你的数据库查询像孙悟空一样，一个筋斗云十万八千里，快到飞起！

一、LIMIT 的前世今生：简单而美好？

LIMIT 子句，顾名思义，就是用来限制查询结果的数量。它通常和 ORDER BY 子句一起使用，先排序，再截取，就像从一堆美女中选出前三甲，公平公正，童叟无欺。

SELECT * FROM products ORDER BY price DESC LIMIT 10;

这条 SQL 语句的意思是：从 products 表中，按照 price 降序排列，然后取出前 10 条记录。是不是很简单？是不是很美好？

然而，现实往往是残酷的。当我们需要查询第 10000 到 10010 条记录时，事情就变得复杂起来了。

SELECT * FROM products ORDER BY price DESC LIMIT 10 OFFSET 10000;

这条 SQL 语句看起来也没什么问题，但它背后隐藏着巨大的性能隐患。就像一颗定时炸弹💣，随时可能引爆你的数据库服务器。

二、LIMIT + 大偏移量：性能杀手登场！

为什么 LIMIT 加上大偏移量会导致性能问题呢？这要从数据库的底层实现说起。

简单来说，数据库在执行 LIMIT OFFSET 查询时，会经历以下几个步骤：

全表扫描或索引扫描： 根据 ORDER BY 子句，数据库需要扫描整个表，或者使用索引进行排序。
排序： 将扫描到的所有数据进行排序。
丢弃： 丢弃前 OFFSET 条记录。
返回： 返回 LIMIT 数量的记录。

看到问题了吗？关键在于第 3 步：丢弃！

想象一下，你要从 10000 个苹果中，挑出最后 10 个最红的。你需要先把 10000 个苹果都拿出来，排好队，然后把前面 9990 个苹果扔掉，最后留下 10 个。

这 9990 个被丢弃的苹果，就是性能浪费的罪魁祸首。它们被扫描、被排序，最终却被无情地抛弃，白白浪费了 CPU 和 IO 资源。这就像你辛辛苦苦写了一篇 10000 字的论文，结果导师只看了最后 10 个字，然后说：“不行，重写！” 😭

为了更直观地说明问题，我们来看一个表格：

操作	数据量	耗时
扫描	10010 条	T1
排序	10010 条	T2
丢弃	10000 条	T3
返回	10 条	T4
总耗时		T1+T2+T3+T4

可以看到，总耗时主要取决于 T1、T2 和 T3。当 OFFSET 很大时，T3 就会变得非常长，导致整个查询变得缓慢。

三、优化方案：拯救你的数据库！

既然找到了问题的根源，接下来就是对症下药，拯救你的数据库了。下面，我将介绍几种常用的优化方案，就像给你的数据库注入了一剂强心针💪，让它重焕活力！

1. 子查询优化：化繁为简

这种方案的核心思想是：先通过子查询找到需要返回的记录的 ID，然后再根据 ID 查询完整的数据。

SELECT * FROM products WHERE id IN (SELECT id FROM products ORDER BY price DESC LIMIT 10 OFFSET 10000);

这种方法可以减少主查询的数据量，从而提高查询效率。但是，这种方法也有一些限制：

必须有唯一 ID： 表中必须有一个唯一标识符（如 id）。
适用场景有限： 这种方法只适用于 ORDER BY 子句中只包含单个字段的情况。

2. 延迟关联：曲线救国

延迟关联的思想和子查询类似，也是先找到需要返回的 ID，然后再根据 ID 查询完整的数据。但是，延迟关联使用了连接查询，而不是子查询。

SELECT p.* FROM products p JOIN (SELECT id FROM products ORDER BY price DESC LIMIT 10 OFFSET 10000) AS t ON p.id = t.id;

这种方法通常比子查询更高效，因为连接查询可以利用索引进行优化。

3. 使用书签：记住上次的位置

这种方法适用于分页查询的场景。我们可以记录上次查询的最后一条记录的排序字段值，然后使用 WHERE 子句过滤掉不需要的记录。

例如，如果上次查询的最后一条记录的 price 值为 100，那么我们可以这样查询下一页的数据：

SELECT * FROM products WHERE price < 100 ORDER BY price DESC LIMIT 10;

这种方法避免了使用 OFFSET 子句，从而提高了查询效率。但是，这种方法也有一些限制：

排序字段必须唯一： 如果排序字段不唯一，那么需要使用多个字段进行排序。
适用场景有限： 这种方法只适用于分页查询的场景。

4. 覆盖索引：减少 IO

如果查询只需要返回索引中的字段，那么可以使用覆盖索引来避免回表查询。

例如，如果我们需要查询 products 表中的 id 和 price 字段，并且按照 price 排序，那么可以创建一个包含 id 和 price 字段的索引。

CREATE INDEX idx_price_id ON products (price, id);

这样，数据库就可以直接从索引中获取数据，而不需要回表查询，从而提高查询效率。

5. 优化器提示：告诉数据库怎么做

有些数据库支持优化器提示（optimizer hints），可以用来告诉数据库如何执行查询。

例如，在 MySQL 中，可以使用 STRAIGHT_JOIN 提示来强制数据库使用指定的连接顺序。

SELECT STRAIGHT_JOIN p.* FROM products p JOIN (SELECT id FROM products ORDER BY price DESC LIMIT 10 OFFSET 10000) AS t ON p.id = t.id;

使用优化器提示需要谨慎，因为错误的提示可能会导致性能下降。

6. 数据归档：减轻负担

如果只需要查询最近的数据，可以将历史数据归档到其他表中，从而减少查询的数据量。

例如，可以将 products 表中超过一年的数据归档到 products_archive 表中。

7. 使用 NoSQL 数据库：换个思路

如果关系型数据库的性能无法满足需求，可以考虑使用 NoSQL 数据库。NoSQL 数据库通常具有更高的可扩展性和性能。

例如，可以使用 MongoDB 来存储 products 数据，并使用其强大的索引功能进行查询。

总结：没有银弹，只有适合你的方案

上面介绍了几种常用的 LIMIT + 大偏移量优化方案，每种方案都有其优缺点和适用场景。选择哪种方案，需要根据具体的业务需求和数据特点进行权衡。

记住，没有银弹！只有适合你的方案才是最好的方案。

为了方便大家理解，我将各种优化方案的优缺点总结在一个表格中：

优化方案	优点	缺点	适用场景
子查询优化	简单易懂，适用于大多数数据库。	必须有唯一 ID，只适用于 `ORDER BY` 子句中只包含单个字段的情况。	数据量不大，且有唯一 ID 的情况。
延迟关联	通常比子查询更高效，可以利用索引进行优化。	实现稍微复杂。	数据量较大，且需要利用索引进行优化的情况。
使用书签	避免使用 `OFFSET` 子句，效率高。	排序字段必须唯一，只适用于分页查询的场景。	分页查询，且排序字段唯一的情况。
覆盖索引	避免回表查询，减少 IO。	需要创建额外的索引，可能会增加写入操作的开销。	查询只需要返回索引中的字段的情况。
优化器提示	可以强制数据库使用指定的执行计划。	需要谨慎使用，错误的提示可能会导致性能下降。	对数据库执行计划有深入了解的情况。
数据归档	减少查询的数据量，提高查询效率。	需要维护额外的归档表，增加维护成本。	只需要查询最近的数据的情况。
使用 NoSQL 数据库	具有更高的可扩展性和性能。	需要学习新的技术，迁移成本较高。	关系型数据库性能无法满足需求的情况。

四、实战演练：代码说话

光说不练假把式，接下来，咱们来一个实战演练，看看这些优化方案在实际应用中的效果。

假设我们有一个 products 表，包含 100 万条记录，数据结构如下：

CREATE TABLE `products` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `name` varchar(255) NOT NULL,
  `price` decimal(10,2) NOT NULL,
  `category_id` int(11) NOT NULL,
  `created_at` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP,
  PRIMARY KEY (`id`),
  KEY `idx_category_id` (`category_id`),
  KEY `idx_price` (`price`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

现在，我们需要查询价格最高的第 10000 到 10010 条记录。

1. 原始查询：

SELECT * FROM products ORDER BY price DESC LIMIT 10 OFFSET 10000;

这条查询语句的执行时间非常长，几乎无法忍受。

2. 子查询优化：

SELECT * FROM products WHERE id IN (SELECT id FROM products ORDER BY price DESC LIMIT 10 OFFSET 10000);

这条查询语句的执行时间有所缩短，但仍然不够理想。

3. 延迟关联：

SELECT p.* FROM products p JOIN (SELECT id FROM products ORDER BY price DESC LIMIT 10 OFFSET 10000) AS t ON p.id = t.id;

这条查询语句的执行时间明显缩短，效果比较明显。

4. 使用书签：

首先，我们需要查询价格最高的 10000 条记录中的最后一条记录的 price 值。

SELECT price FROM products ORDER BY price DESC LIMIT 1 OFFSET 9999;

假设查询到的 price 值为 100，那么我们可以这样查询下一页的数据：

SELECT * FROM products WHERE price < 100 ORDER BY price DESC LIMIT 10;

这种方法的执行时间非常短，几乎可以忽略不计。

5. 覆盖索引：

CREATE INDEX idx_price_id ON products (price, id);

SELECT id, price FROM products ORDER BY price DESC LIMIT 10 OFFSET 10000;

这条查询语句的执行时间也比较短，因为可以直接从索引中获取数据。

五、总结与展望：优化永无止境

今天，我们深入探讨了 LIMIT 子句的性能问题，并介绍了多种优化方案。希望这些方案能够帮助你解决实际工作中的性能瓶颈。

但是，优化永无止境。随着数据量的增长和业务需求的不断变化，我们需要不断学习新的技术，探索新的优化方案。

最后，我想用一句诗来结束今天的分享：

代码优化路漫漫，吾将上下而求索！ 🚀

谢谢大家！希望今天的分享对你有所帮助。如果你有任何问题，欢迎在评论区留言。咱们下期再见！ 😉

发表回复 取消回复

发表回复取消回复