复合索引（Composite Index）的设计原则与最佳实践 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好嘞，各位观众老爷们，咱们今天不说风花雪月，聊点硬核的——数据库复合索引！

想象一下，你是一位身怀绝技的快递员，每天穿梭于高楼大厦之间，负责把包裹准确快速地送到收件人手中。你手中的快递单上，有收件人的姓名、电话号码、地址等信息。

没有索引： 如果你是一个勤勤恳恳的老实人，每次送快递都要挨家挨户地问：“请问有没有叫张三的？电话号码是138xxxxxxxx？住在xx小区xx栋xx楼？” 天呐，这效率简直感人，估计送完一天，腿都要跑断，头发也要愁掉光！
单列索引： 后来，你觉得这样不行，太慢了！于是，你建立了一个“姓名索引”，按照姓名的字母顺序排列。这样，每次送快递，你先找到姓“张”的区域，然后再找“张三”。嗯，效率提高了一点点，但是如果叫“张三”的人太多，你还是要一个个核对电话号码和地址，还是有点慢。
复合索引： 终于，你顿悟了！你建立了一个“姓名+电话号码”的复合索引。这样，每次送快递，你直接找到“张三”并且电话号码是“138xxxxxxxx”的包裹，一步到位！效率瞬间起飞！🚀

这就是复合索引的魅力！

一、什么是复合索引？

简单来说，复合索引就是由多个列组合而成的索引。它就像一个“组合拳”，可以同时利用多个列的信息来加速查询。

与单列索引相比，复合索引的优势在于：

更精确的定位： 复合索引可以根据多个列的值进行过滤，从而更精确地定位到目标数据。
减少回表： 如果查询只需要索引中的列，那么就不需要回表查询，直接从索引中获取数据，大大提高了查询效率。（回表：通过索引找到数据的指针，然后根据指针去数据表中查找完整的数据行）
覆盖索引： 当查询的所有字段都包含在复合索引中时，我们称之为“覆盖索引”。覆盖索引可以避免回表查询，极大地提高查询效率。

二、复合索引的设计原则

设计复合索引可不是随便把几个列堆在一起就完事儿了，这里面可是大有学问！就像调制鸡尾酒一样，不同成分的比例会直接影响口感。🍹

以下是一些设计复合索引的重要原则：

最左前缀原则（The Leftmost Prefix Rule）

这是复合索引最重要的原则，没有之一！它就像武林秘籍中的总纲，掌握了它，你就掌握了复合索引的精髓。

最左前缀原则指的是，查询必须从复合索引的最左边的列开始，并且不能跳过任何列。

举个例子，假设我们有一个复合索引 idx_name_age_city(name, age, city)，那么以下查询可以使用该索引：
- SELECT * FROM users WHERE name = '张三'
- SELECT * FROM users WHERE name = '张三' AND age = 20
- SELECT * FROM users WHERE name = '张三' AND age = 20 AND city = '北京'
而以下查询则无法使用该索引：
- SELECT * FROM users WHERE age = 20 （跳过了最左边的 name 列）
- SELECT * FROM users WHERE city = '北京' （跳过了最左边的 name 和 age 列）
- SELECT * FROM users WHERE age = 20 AND city = '北京' （跳过了最左边的 name 列）
可以把复合索引想象成一棵树，只有沿着树的枝干才能到达叶子节点。如果你直接跳到中间的枝干，那肯定找不到目标叶子。 🌳

总结： 查询条件必须包含复合索引的最左边的列，并且不能跳过任何列，才能有效利用索引。
选择性（Selectivity）

选择性是指索引列中唯一值的数量与总行数的比例。选择性越高，索引的效果越好。

举个例子，假设我们有一个 gender 列，只有两个值：’男’ 和 ‘女’。那么 gender 列的选择性就很低，即使在 gender 列上建立索引，效果也不会很好。因为数据库需要扫描一半的行才能找到目标数据。

相反，如果有一个 email 列，每个用户的 email 都是唯一的，那么 email 列的选择性就很高，在 email 列上建立索引可以快速定位到目标数据。

在设计复合索引时，应该将选择性高的列放在前面，选择性低的列放在后面。这样可以更快地过滤掉不相关的数据，提高查询效率。

总结： 选择性高的列放在复合索引的前面，选择性低的列放在后面，提高索引的过滤效果。
列的顺序

复合索引中列的顺序非常重要，不同的顺序会导致不同的查询效率。

一般来说，应该将以下列放在前面：
- 经常用于过滤的列： 这些列可以快速缩小查询范围。
- 选择性高的列： 这些列可以更精确地定位到目标数据。
- 值分布均匀的列： 这些列可以避免索引倾斜，提高查询效率。（索引倾斜：索引中某些值的数量远远大于其他值，导致查询效率下降）
例如，假设我们有一个 orders 表，包含 customer_id、order_date 和 order_amount 三个列。如果我们经常需要根据 customer_id 和 order_date 来查询订单，那么可以创建一个复合索引 idx_customer_date(customer_id, order_date)。

总结： 经常用于过滤、选择性高、值分布均匀的列放在复合索引的前面，提高查询效率。
索引长度

索引的长度会影响索引的性能。一般来说，索引的长度越短，索引的性能越好。

在创建复合索引时，应该尽量选择长度较短的列。如果必须使用长度较长的列，可以考虑使用前缀索引。

前缀索引是指只索引列的前缀部分。例如，假设我们有一个 name 列，长度为 100 个字符。我们可以创建一个前缀索引 idx_name_prefix(name(10))，只索引 name 列的前 10 个字符。

前缀索引可以减少索引的长度，提高索引的性能。但是，前缀索引也会降低索引的选择性。因此，在选择前缀长度时，需要在性能和选择性之间进行权衡。

总结： 尽量选择长度较短的列，如果必须使用长度较长的列，可以考虑使用前缀索引，并在性能和选择性之间进行权衡。
避免过度索引

索引可以提高查询效率，但是也会增加数据库的维护成本。每个索引都需要占用磁盘空间，并且在插入、更新和删除数据时，都需要维护索引。

因此，应该避免过度索引。只创建必要的索引，删除不使用的索引。

可以使用一些工具来分析索引的使用情况，例如 MySQL 的 performance_schema 和 PostgreSQL 的 pg_stat_statements。

总结： 只创建必要的索引，删除不使用的索引，减少数据库的维护成本。

三、复合索引的最佳实践

掌握了复合索引的设计原则，接下来我们来看一些实际应用中的最佳实践。

覆盖索引优化

覆盖索引是指查询的所有字段都包含在索引中。覆盖索引可以避免回表查询，极大地提高查询效率。

在设计复合索引时，应该尽量将查询中经常使用的字段都包含在索引中。

例如，假设我们有一个 users 表，包含 id、name、age 和 city 四个列。如果我们经常需要查询用户的 name 和 age，那么可以创建一个复合索引 idx_name_age(name, age)。

这样，当我们执行以下查询时，就可以使用覆盖索引：
```
SELECT name, age FROM users WHERE name = '张三';
```
而当我们执行以下查询时，就无法使用覆盖索引，需要回表查询：
```
SELECT name, age, city FROM users WHERE name = '张三';
```
总结： 尽量将查询中经常使用的字段都包含在索引中，使用覆盖索引避免回表查询。
利用索引排序

索引不仅可以加速查询，还可以加速排序。

如果查询需要对结果进行排序，并且排序的字段包含在索引中，那么数据库可以直接从索引中获取排序后的数据，而不需要进行额外的排序操作。

例如，假设我们有一个 orders 表，包含 customer_id、order_date 和 order_amount 三个列。如果我们经常需要根据 order_date 对订单进行排序，那么可以创建一个复合索引 idx_customer_date(customer_id, order_date)。

这样，当我们执行以下查询时，就可以利用索引排序：
```
SELECT * FROM orders WHERE customer_id = 123 ORDER BY order_date;
```
总结： 如果查询需要对结果进行排序，并且排序的字段包含在索引中，可以利用索引排序，避免额外的排序操作。
注意范围查询

范围查询（例如 >、<、BETWEEN、LIKE）会影响索引的使用。

如果范围查询的列不是复合索引的最左边的列，那么范围查询后面的列将无法使用索引。

例如，假设我们有一个复合索引 idx_name_age_city(name, age, city)。当我们执行以下查询时，city 列将无法使用索引：
```
SELECT * FROM users WHERE name = '张三' AND age > 20 AND city = '北京';
```
因为 age 列是一个范围查询，它会中断索引的使用。

因此，在设计复合索引时，应该将范围查询的列放在最后面。

总结： 范围查询会影响索引的使用，应该将范围查询的列放在复合索引的最后面。
定期维护索引

随着数据的不断变化，索引可能会变得碎片化，导致查询效率下降。

因此，应该定期维护索引，例如重建索引、优化索引等。

可以使用一些工具来分析索引的碎片化程度，例如 MySQL 的 ANALYZE TABLE 和 PostgreSQL 的 VACUUM。

总结： 定期维护索引，保持索引的性能。

四、案例分析

让我们来看一个实际的案例，加深对复合索引的理解。

假设我们有一个 products 表，包含以下列：

id：产品 ID
name：产品名称
category_id：产品类别 ID
price：产品价格
create_time：创建时间

我们经常需要根据 category_id 和 price 来查询产品，并且按照 create_time 进行排序。

那么，我们可以创建一个复合索引 idx_category_price_time(category_id, price, create_time)。

这个索引的设计考虑了以下因素：

category_id 和 price 经常用于过滤，因此放在前面。
create_time 用于排序，因此放在最后面。
这个索引可以覆盖查询中经常使用的字段，避免回表查询。
这个索引可以利用索引排序，避免额外的排序操作。

五、总结

复合索引是一种强大的工具，可以显著提高数据库的查询效率。但是，要合理地设计和使用复合索引，需要深入理解其设计原则和最佳实践。

希望今天的讲解能够帮助大家更好地理解复合索引，并在实际工作中灵活运用，写出更高效的 SQL 语句！ 👏

最后，记住一句口诀：最左前缀要记牢，选择性高放前头，范围查询放最后，定期维护不能少！

祝大家编程愉快，Bug 远离！ 😎

发表回复 取消回复

发表回复取消回复