PHP `MySQL` 索引优化：`B-Tree`、复合索引与覆盖索引 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

各位观众老爷，大家好！我是你们的老朋友，今天咱们聊聊PHP和MySQL这对“欢喜冤家”的索引优化那些事儿。别担心，咱们不搞那些枯燥的理论，争取用最接地气的方式，把B-Tree、复合索引、覆盖索引这些听起来高大上的概念，给你们安排得明明白白。

索引，数据库的“葵花宝典”

索引这玩意儿，就好比咱们查字典时的目录，能让你快速找到想要的内容，不用一页一页地翻。对于数据库来说，索引能大大提高查询速度，尤其是在数据量大的时候，简直就是救命稻草。

B-Tree索引：索引界的“扛把子”

MySQL里最常用的索引类型就是B-Tree索引。为啥叫B-Tree呢？因为它的结构就像一棵平衡树。平衡树的好处就是，不管你查哪个数据，速度都差不多快，不会出现“查这个快，查那个慢”的尴尬情况。

简单来说，B-Tree索引的原理是：

有序存储： 将索引列的值按照顺序排列。
多路搜索： 每个节点可以存储多个值，这样可以减少树的深度，提高搜索效率。
叶子节点存储数据地址： 叶子节点存储的是指向实际数据行的指针，通过指针可以直接找到数据。

举个例子，假设我们有个users表，里面有id、name、age这些字段。我们给age字段建个B-Tree索引：

CREATE INDEX idx_age ON users(age);

现在，我们要查询所有年龄等于25岁的用户：

SELECT * FROM users WHERE age = 25;

有了idx_age索引，MySQL就可以直接从B-Tree索引中找到age=25的节点，然后通过节点里的指针，快速定位到users表中对应的行，而不用全表扫描。

复合索引：索引界的“组合拳”

复合索引，顾名思义，就是由多个列组成的索引。它可以解决一些单列索引无法解决的问题，尤其是在多条件查询的时候，效果更佳。

假设我们有个orders表，里面有user_id、order_time、amount这些字段。我们想查询某个用户在某个时间段内的订单：

SELECT * FROM orders WHERE user_id = 123 AND order_time BETWEEN '2023-01-01' AND '2023-01-31';

如果只给user_id建索引，MySQL会先根据user_id找到所有符合条件的数据，然后再过滤order_time。这样效率不高。

这时候，我们可以建一个复合索引：

CREATE INDEX idx_user_time ON orders(user_id, order_time);

这个索引会先按照user_id排序，然后在每个user_id内部，再按照order_time排序。这样，MySQL就可以直接从索引中找到user_id=123，并且order_time在指定时间段内的订单，效率大大提高。

复合索引的“最左前缀原则”

使用复合索引的时候，一定要注意“最左前缀原则”。啥意思呢？就是说，查询条件必须包含索引的最左边的列，才能用到索引。

比如，我们有idx_user_time(user_id, order_time)这个索引：

WHERE user_id = 123：能用到索引。
WHERE user_id = 123 AND order_time = '2023-01-15'：能用到索引。
WHERE order_time = '2023-01-15'：不能用到索引！因为没有包含最左边的user_id列。

所以，创建复合索引的时候，要考虑查询的频率和条件，把最常用的列放在最左边。

覆盖索引：索引界的“全能王”

覆盖索引是指，查询只需要从索引中就能获取所有需要的数据，而不需要再回表查询。啥是回表查询呢？就是说，MySQL先通过索引找到数据行的指针，然后拿着指针再去表中读取完整的行数据。回表查询会增加IO操作，降低查询效率。

举个例子，假设我们有个products表，里面有id、name、price这些字段。我们经常需要查询某个商品的价格：

SELECT price FROM products WHERE name = 'iPhone';

如果只给name建索引，MySQL会先根据name找到对应的id，然后再拿着id去表中读取price。这就是回表查询。

但是，如果我们创建一个覆盖索引：

CREATE INDEX idx_name_price ON products(name, price);

这个索引包含了name和price两个字段。这样，MySQL就可以直接从索引中找到name='iPhone'对应的price，而不需要回表查询，效率大大提高。

覆盖索引的“代价”

虽然覆盖索引很牛逼，但是也要付出代价的。索引越大，占用的存储空间就越多，维护索引的成本也越高。所以，创建覆盖索引的时候，要仔细权衡利弊，不要盲目追求“全覆盖”。

索引优化的一些“骚操作”

除了上面说的B-Tree、复合索引、覆盖索引之外，还有一些其他的索引优化技巧：

选择合适的索引列： 经常出现在WHERE子句、ORDER BY子句、GROUP BY子句中的列，可以考虑建索引。
索引列的数据类型要小： 数据类型越小，索引占用的空间就越小，查询速度也越快。比如，能用TINYINT就不要用INT。
字符串索引要使用前缀索引： 如果字符串太长，可以只索引字符串的前几个字符。比如：
```
CREATE INDEX idx_name ON users(name(10)); -- 只索引name字段的前10个字符
```

避免在WHERE子句中使用函数或表达式： 这样会导致索引失效。比如：

-- 索引失效
SELECT * FROM users WHERE YEAR(birthday) = 1990;

-- 优化方法
SELECT * FROM users WHERE birthday BETWEEN '1990-01-01' AND '1990-12-31';

定期分析和优化表： 使用ANALYZE TABLE命令可以分析表的索引统计信息，帮助MySQL更好地选择索引。使用OPTIMIZE TABLE命令可以优化表的存储结构，减少碎片。

索引优化的一些“坑”

索引虽然好，但是用不好也会挖坑：

不要滥用索引： 索引越多，维护成本越高，而且会影响INSERT、UPDATE、DELETE操作的性能。
注意索引的顺序： 复合索引的顺序很重要，要根据查询的频率和条件来决定。
避免冗余索引： 如果已经有了idx_user_time(user_id, order_time)索引，就不要再建idx_user_id(user_id)索引了，因为前者已经包含了后者的功能。
注意数据倾斜： 如果某个索引列的值分布不均匀，比如某个值的数量特别多，会导致查询效率下降。

一些“实用代码”示例

咱们来点实际的，看看一些常见的索引优化场景：

场景1：分页查询优化

-- 原始SQL，效率很低
SELECT * FROM articles ORDER BY publish_time DESC LIMIT 10000, 10;

-- 优化后的SQL，利用索引
SELECT a.* FROM articles a
INNER JOIN (SELECT id FROM articles ORDER BY publish_time DESC LIMIT 10000, 10) b ON a.id = b.id;

场景2：统计查询优化

-- 原始SQL，全表扫描
SELECT COUNT(*) FROM orders WHERE status = 1;

-- 优化后的SQL，利用索引
CREATE INDEX idx_status ON orders(status);
SELECT COUNT(*) FROM orders WHERE status = 1;

场景3：模糊查询优化

-- 原始SQL，索引失效
SELECT * FROM products WHERE name LIKE '%iphone%';

-- 优化后的SQL，使用全文索引（适用于MyISAM引擎）
ALTER TABLE products ADD FULLTEXT INDEX idx_name(name);
SELECT * FROM products WHERE MATCH(name) AGAINST('iphone');

-- 优化后的SQL，使用前缀索引（适用于InnoDB引擎）
CREATE INDEX idx_name ON products(name(20));
SELECT * FROM products WHERE name LIKE 'iphone%';

总结：索引优化的“三板斧”

理解B-Tree索引的原理： 知道索引是怎么工作的，才能更好地利用索引。
灵活运用复合索引： 根据查询的条件，创建合适的复合索引，避免全表扫描。
尽量使用覆盖索引： 减少回表查询，提高查询效率。

最后，给大家留个思考题：

假设我们有个logs表，里面有user_id、log_time、operation这些字段。我们经常需要查询某个用户在某个时间段内的操作记录，并且按照时间倒序排列。请问，应该如何创建索引才能达到最佳的查询效率？

各位观众老爷，今天的讲座就到这里了。希望大家能够学以致用，在实际项目中灵活运用索引优化技巧，让你的数据库跑得更快，飞得更高！如果觉得讲得还不错，记得点个赞，下次再见！

发表回复 取消回复

发表回复取消回复