聚簇索引（Clustered Index）与二级索引（Secondary Index）的区别与性能影响 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位观众老爷，各位技术大咖，欢迎来到“索引漫谈”专场。今天咱不搞学术报告，就唠嗑，用最接地气的方式，聊聊数据库里两位“重量级”选手：聚簇索引（Clustered Index）和二级索引（Secondary Index）。

开场白：数据，你的家在哪儿？

想象一下，你是一位图书管理员，面对着浩如烟海的书籍，你是怎么快速找到目标书籍的？最简单的办法是给书编号，然后按照编号顺序排列在书架上。这，就是聚簇索引的思想雏形。

而如果你想通过作者姓名或者书名来找书呢？难道每次都要把所有的书都翻一遍？当然不行！这时候，你可以创建一个索引卡片，卡片上记录作者姓名和对应的书籍编号。这，就是二级索引的思路。

主角登场：聚簇索引——“亲儿子”待遇

聚簇索引，顾名思义，就是让数据“聚集”在一起的索引。它就像数据库表里的“亲儿子”，拥有至高无上的地位。为什么这么说呢？因为它决定了数据在磁盘上的物理存储顺序。

数据存储方式： 数据行的物理存储顺序与聚簇索引的顺序完全一致。也就是说，如果你按ID作为聚簇索引，那么数据行在磁盘上也是按照ID从小到大排列的。
唯一性： 在一张表里，聚簇索引只能有一个。就像一个家里，只能有一个户口本一样。
查询效率： 由于数据和索引存储在一起，查找时可以直接定位到数据行，效率极高。这就像直接去书架上取书，一步到位！

用一个表格来总结一下聚簇索引的特点：

特性	描述	比喻
存储方式	数据行的物理存储顺序与索引顺序一致	书籍按照编号排列在书架上
唯一性	一个表只能有一个聚簇索引	一个家庭只有一个户口本
查询效率	查询时直接定位到数据行，效率极高	直接去书架上取书
更新/插入	更新聚簇索引列或插入数据时，可能需要移动数据行，成本较高	调整书架上书籍的顺序，比较麻烦

举个栗子：

假设我们有一个用户表 users，包含字段 id (主键，自增), name, age, email。如果我们以 id 作为聚簇索引，那么数据在磁盘上就是按照 id 的顺序存储的。

CREATE TABLE users (
    id INT PRIMARY KEY,  -- id 作为聚簇索引
    name VARCHAR(255),
    age INT,
    email VARCHAR(255)
);

当我们执行以下查询时：

SELECT * FROM users WHERE id = 10;

数据库可以直接通过聚簇索引定位到 id 为 10 的数据行，无需扫描整个表。

聚簇索引的优缺点：

优点：
- 查询速度快，尤其是在范围查询和排序时。
- 可以减少磁盘I/O，提高整体性能。
缺点：
- 更新和插入数据时，可能需要移动数据行，成本较高。
- 选择不当的聚簇索引列，可能会导致性能下降。例如，选择一个频繁更新的列作为聚簇索引，会导致大量的页面移动。

友情提示： 选择聚簇索引列时要慎重！一般来说，选择主键或者一个很少更新且经常用于查询的列作为聚簇索引。

配角登场：二级索引——“好帮手”一枚

二级索引，又称非聚簇索引，就像数据库表里的“好帮手”，可以创建多个，用来辅助查询。

数据存储方式： 二级索引存储的是索引列的值和指向数据行的指针（或主键值）。也就是说，二级索引本身不存储实际的数据行，而是存储了一个指向数据行的“快捷方式”。
唯一性： 一个表可以有多个二级索引。
查询效率： 查询时需要先通过二级索引找到对应的数据行的指针，然后再根据指针去磁盘上读取数据行。这个过程称为“回表查询”。

用一个表格来总结一下二级索引的特点：

特性	描述	比喻
存储方式	存储索引列的值和指向数据行的指针（或主键值）	索引卡片，记录作者姓名和书籍编号
唯一性	一个表可以有多个二级索引	可以有多个索引卡片，分别按照作者、书名等排序
查询效率	查询时需要先通过二级索引找到指针，然后回表查询数据行	先查索引卡片，找到书籍编号，再去书架上取书
更新/插入	更新或插入数据时，需要更新二级索引，但不会移动数据行	更新索引卡片，但不需要调整书架上书籍的顺序

举个栗子：

继续使用上面的 users 表，我们可以创建一个基于 name 列的二级索引：

CREATE INDEX idx_name ON users (name);

当我们执行以下查询时：

SELECT * FROM users WHERE name = '张三';

数据库会先通过 idx_name 索引找到 name 为 ‘张三’ 的数据行的指针，然后再根据指针去磁盘上读取数据行。

二级索引的优缺点：

优点：
- 可以提高查询效率，尤其是在非聚簇索引列上的查询。
- 可以创建多个索引，满足不同的查询需求。
- 更新和插入数据时，不会移动数据行，成本相对较低。
缺点：
- 需要额外的存储空间来存储索引。
- 更新和插入数据时，需要更新索引，会增加一定的开销。
- 回表查询会增加一定的开销。

回表查询：甜蜜的负担

回表查询是二级索引的一个重要概念。当我们通过二级索引找到数据行的指针后，还需要根据指针去磁盘上读取数据行。这个过程称为回表查询。

回表查询会增加一定的开销，因为需要进行额外的磁盘I/O。但是，在某些情况下，回表查询是不可避免的。

如何减少回表查询？

覆盖索引： 如果查询只需要索引列的值，而不需要其他列的值，那么可以创建一个覆盖索引。覆盖索引是指索引包含了查询所需的所有列，这样就可以避免回表查询。

例如，如果我们需要查询 name 为 ‘张三’ 的用户的 email，可以创建一个包含 name 和 email 列的覆盖索引：
```
CREATE INDEX idx_name_email ON users (name, email);
```
这样，查询时就可以直接从索引中获取 email 的值，而不需要回表查询。
合理使用索引： 不要创建过多的索引，因为索引会占用额外的存储空间，并且会增加更新和插入数据的开销。

索引的选择：没有银弹

选择合适的索引是一个需要权衡的过程。没有一种索引方案是万能的，需要根据具体的业务场景和查询需求来选择。

选择聚簇索引：
- 选择主键或者一个很少更新且经常用于查询的列。
- 避免选择频繁更新的列。
选择二级索引：
- 选择经常用于查询的列。
- 考虑创建覆盖索引来减少回表查询。
- 不要创建过多的索引。

总结：相爱相杀的兄弟

聚簇索引和二级索引就像一对相爱相杀的兄弟，各有优缺点，需要根据具体的场景来选择使用。

聚簇索引： 决定了数据的物理存储顺序，查询效率高，但更新成本高。
二级索引： 辅助查询，可以创建多个，但需要回表查询。

最后的彩蛋：索引优化小技巧

分析查询语句： 使用 EXPLAIN 命令来分析查询语句的执行计划，可以帮助你了解数据库是如何使用索引的。
定期维护索引： 定期重建索引可以提高索引的效率。
监控索引的使用情况： 监控索引的使用情况可以帮助你发现哪些索引是无效的，可以删除这些索引来减少存储空间的占用。

结束语：索引之路，永无止境

索引优化是一个永无止境的过程。随着业务的发展和数据量的增长，我们需要不断地调整和优化索引策略，才能保证数据库的性能。

希望今天的分享能帮助大家更好地理解聚簇索引和二级索引，并在实际工作中灵活运用。感谢大家的收听！咱们下期再见！ 👋

发表回复 取消回复

发表回复取消回复