MySQL存储引擎之：`InnoDB`的`Clustered Index`：其在主键索引和数据页中的物理存储。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，下面是一篇关于MySQL InnoDB存储引擎中聚集索引的技术文章，以讲座模式呈现。

MySQL InnoDB 聚集索引 (Clustered Index) 深度剖析

大家好！今天我们来深入探讨 MySQL InnoDB 存储引擎中最核心的概念之一：聚集索引（Clustered Index）。聚集索引的设计直接影响到数据的物理存储方式，因此理解它对于优化数据库性能至关重要。

什么是聚集索引？

简单来说，聚集索引决定了表中数据的物理存储顺序。在 InnoDB 中，表的数据实际上是按照主键（Primary Key）顺序存储在数据页中的。如果没有显式定义主键，InnoDB 会选择一个非空的唯一索引作为聚集索引。如果既没有主键也没有合适的唯一索引，InnoDB 会隐式创建一个隐藏的主键索引来作为聚集索引。

关键点：

数据即索引： InnoDB 中，数据本身就是聚集索引的一部分。
物理顺序： 数据行按照聚集索引的键值顺序存储在磁盘上。
每个表只有一个聚集索引： 因为数据只能以一种物理顺序存储。

聚集索引与数据页

InnoDB 将数据存储在数据页（Data Page）中，默认大小为 16KB。数据页是 InnoDB 存储的最小单元。聚集索引的叶子节点直接存储数据行，而不是像其他索引那样存储指向数据行的指针。

为了更好地理解，我们假设有一个 users 表，包含 id (主键), name, 和 email 字段。

CREATE TABLE users (
    id INT PRIMARY KEY,
    name VARCHAR(255),
    email VARCHAR(255)
);

假设 id 是主键，那么 users 表的数据在磁盘上会按照 id 的顺序存储。每个数据页会包含多个 users 表的行数据，并且这些行数据在页内也是有序的（按照 id 排序）。

数据页的结构 (简化模型):

Header	Row 1 (id=1, name=’Alice’, email=’[email protected]’)	Row 2 (id=2, name=’Bob’, email=’[email protected]’)	…	Footer

当我们要查询 id=2 的用户时，InnoDB 首先会根据聚集索引的 B+ 树结构找到包含 id=2 的数据页，然后在这个数据页内进行查找，直接取出对应的行数据。

主键索引与聚集索引的关系

在 InnoDB 中，主键是聚集索引的默认选择。也就是说，当我们定义了主键时，InnoDB 就会使用这个主键来组织数据的物理存储。

示例：

-- 创建表时显式定义主键
CREATE TABLE products (
    product_id INT PRIMARY KEY,
    product_name VARCHAR(255),
    price DECIMAL(10, 2)
);

-- 插入数据
INSERT INTO products (product_id, product_name, price) VALUES
(1, 'Laptop', 1200.00),
(2, 'Mouse', 25.00),
(3, 'Keyboard', 75.00);

在这个例子中，product_id 是主键，因此数据会按照 product_id 的顺序存储。这意味着 product_id=1 的数据会存储在 product_id=2 的数据之前，依此类推。

如果没有主键会怎样？

如果没有显式定义主键，InnoDB 会按照以下规则选择聚集索引：

选择第一个非空的唯一索引： 如果表中有非空的唯一索引，InnoDB 会选择其中一个作为聚集索引。
隐式创建主键： 如果既没有主键也没有合适的唯一索引，InnoDB 会隐式创建一个隐藏的主键索引（长度为6字节的rowid）来作为聚集索引。

不建议不设置主键：

显式定义主键通常是最佳实践。依赖隐式主键可能会导致性能问题，因为你无法控制数据的物理存储顺序，并且隐式主键的长度较小，可能在数据量大的时候出现性能瓶颈。

聚集索引的优势

查询效率高： 对于基于主键的范围查询，聚集索引的效率非常高，因为数据是连续存储的。例如，查询 id 在 100 到 200 之间的用户，InnoDB 可以直接扫描包含这些 id 的数据页，而不需要进行随机 I/O。
减少 I/O 操作： 由于数据和索引存储在一起，可以减少磁盘 I/O 操作。

聚集索引的劣势

插入速度慢： 当插入数据时，如果插入的位置不是在聚集索引的末尾，InnoDB 需要移动已有的数据来保持数据的物理顺序，这会影响插入速度。特别是对于随机插入，性能影响更大。
二级索引需要额外的空间： 二级索引（Secondary Index，也称为非聚集索引）的叶子节点存储的是主键值，而不是指向数据行的指针。这意味着每次使用二级索引进行查询时，都需要先找到主键值，然后通过聚集索引找到对应的数据行，这个过程称为 "回表"（Table Lookup）。因此，二级索引需要额外的存储空间来存储主键值。
更新代价高： 更新聚集索引列的成本很高，因为它可能涉及移动数据行。

二级索引与回表

二级索引是除了聚集索引之外的其他索引。二级索引的叶子节点存储的是索引列的值和对应数据行的主键值。

示例：

假设我们为 users 表的 email 字段创建一个二级索引：

CREATE INDEX idx_email ON users (email);

这个索引的叶子节点会存储 email 的值和对应用户的 id (主键值)。

查询过程：

当我们执行以下查询时：

SELECT * FROM users WHERE email = '[email protected]';

InnoDB 首先会使用 idx_email 索引找到 email = '[email protected]' 对应的 id 值（假设是 1）。
然后，InnoDB 会使用聚集索引（主键 id）找到 id = 1 的数据行。

这个过程就是 "回表"。

回表的代价：

回表需要额外的 I/O 操作，因为它需要访问两个不同的索引结构：二级索引和聚集索引。因此，应该尽量避免不必要的回表。

减少回表的方法：

覆盖索引（Covering Index）： 如果查询只需要索引中的字段，而不需要访问数据行，那么就可以避免回表。例如，如果查询只需要 id 和 email 字段：
```
SELECT id, email FROM users WHERE email = '[email protected]';
```
由于 id 和 email 都包含在 idx_email 索引中，因此可以直接从索引中获取数据，而不需要回表。为了实现覆盖索引，需要将查询中用到的字段都包含在索引中。
使用联合索引： 可以创建包含多个字段的联合索引，以满足不同的查询需求，减少回表的可能性。

聚集索引的设计原则

选择合适的列作为主键： 选择经常用于查询、过滤和排序的列作为主键。
主键应该尽可能短： 主键越短，二级索引占用的空间就越小，查询效率也越高。
避免使用随机值作为主键： 避免使用 UUID 或 GUID 等随机值作为主键，因为这会导致大量的随机 I/O，影响插入性能。应该尽量使用自增的整数作为主键。
避免频繁更新主键： 频繁更新主键会导致数据的物理位置发生变化，影响性能。

聚集索引的适用场景

范围查询： 聚集索引非常适合范围查询，例如查询某个时间段内的订单。
排序： 如果查询需要按照某个字段排序，并且该字段是聚集索引，那么可以避免额外的排序操作。
分页： 聚集索引可以方便地实现分页功能。

聚集索引的限制

每个表只能有一个聚集索引： 由于数据只能以一种物理顺序存储，因此每个表只能有一个聚集索引。
聚集索引的列必须是唯一的： 聚集索引的列必须是唯一的，以保证数据的物理顺序。

代码示例

下面我们通过一些代码示例来演示聚集索引的使用和优化。

示例 1：使用自增整数作为主键

-- 创建表
CREATE TABLE orders (
    order_id INT AUTO_INCREMENT PRIMARY KEY,
    customer_id INT,
    order_date DATETIME,
    total_amount DECIMAL(10, 2)
);

-- 插入数据
INSERT INTO orders (customer_id, order_date, total_amount) VALUES
(1, '2023-01-01', 100.00),
(2, '2023-01-02', 200.00),
(1, '2023-01-03', 150.00);

-- 查询某个时间段内的订单
SELECT * FROM orders WHERE order_date BETWEEN '2023-01-01' AND '2023-01-03';

在这个例子中，order_id 是自增整数，作为主键，可以保证数据的物理顺序。范围查询 order_date 可以高效地利用聚集索引。

示例 2：避免使用随机值作为主键

-- 不好的实践：使用 UUID 作为主键
CREATE TABLE products (
    product_id VARCHAR(36) PRIMARY KEY,  -- UUID
    product_name VARCHAR(255),
    price DECIMAL(10, 2)
);

-- 好的实践：使用自增整数作为主键
CREATE TABLE products (
    product_id INT AUTO_INCREMENT PRIMARY KEY,
    product_name VARCHAR(255),
    price DECIMAL(10, 2)
);

使用 UUID 作为主键会导致大量的随机 I/O，影响插入性能。应该尽量使用自增的整数作为主键。

示例 3：覆盖索引

-- 创建表
CREATE TABLE users (
    id INT PRIMARY KEY,
    name VARCHAR(255),
    email VARCHAR(255),
    phone VARCHAR(20)
);

-- 创建索引
CREATE INDEX idx_email ON users (email, id, phone); -- 覆盖索引

-- 查询 email 和 phone
SELECT email, phone FROM users WHERE email = '[email protected]'; -- 覆盖索引

-- 查询 email, name, phone
SELECT email, name, phone FROM users WHERE email = '[email protected]'; -- 非覆盖索引，需要回表

第一个查询可以使用覆盖索引，避免回表。第二个查询需要访问 name 字段，而 name 字段不在 idx_email 索引中，因此需要回表。

总结

聚集索引是 InnoDB 存储引擎的核心概念，它决定了数据的物理存储顺序。合理地设计聚集索引可以显著提高查询性能，减少 I/O 操作。需要根据实际应用场景选择合适的主键，避免使用随机值作为主键，并尽量使用覆盖索引来避免回表。理解聚集索引是进行数据库性能优化的基础。