`InnoDB`的`聚集索引`（`Clustered Index`）：`主键`索引的`物理`存储与`二级`索引的`引用`关系。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

InnoDB 聚集索引：主键的物理存储与二级索引的引用

大家好，今天我们来深入探讨 InnoDB 存储引擎中的核心概念之一：聚集索引。聚集索引对于理解 InnoDB 的数据存储方式，优化查询性能至关重要。我们会详细讲解聚集索引的物理存储结构，以及二级索引如何通过引用聚集索引实现数据的查找。

什么是聚集索引？

在 InnoDB 中，聚集索引决定了数据在磁盘上的物理存储顺序。更准确地说，表的数据行实际上是按照聚集索引的顺序存储的。每个 InnoDB 表都有一个聚集索引，通常情况下，这个聚集索引就是表的主键。

如果表定义了主键，InnoDB 会使用主键作为聚集索引。如果没有定义主键，InnoDB 会选择一个非空唯一索引作为聚集索引。如果既没有主键，也没有非空唯一索引，InnoDB 会隐式地创建一个隐藏的聚集索引。

聚集索引的物理存储

InnoDB 使用 B+ 树来实现索引。聚集索引的 B+ 树的叶子节点存储的是完整的数据行，而不是指向磁盘位置的指针。这就是聚集索引的核心特性：数据行和索引存储在一起。

让我们看一个简单的例子。假设我们有一个 users 表，定义如下：

CREATE TABLE users (
    id INT PRIMARY KEY,
    username VARCHAR(255) NOT NULL,
    email VARCHAR(255) UNIQUE,
    age INT
);

在这个例子中，id 是主键，因此 id 字段上的索引就是聚集索引。

假设我们插入以下数据：

INSERT INTO users (id, username, email, age) VALUES
(1, 'Alice', '[email protected]', 30),
(2, 'Bob', '[email protected]', 25),
(3, 'Charlie', '[email protected]', 35),
(4, 'David', '[email protected]', 28);

那么，数据在磁盘上的存储顺序大致会像下面这样（简化表示）：

[ 1, 'Alice', '[email protected]', 30 ] ->
[ 2, 'Bob', '[email protected]', 25 ] ->
[ 3, 'Charlie', '[email protected]', 35 ] ->
[ 4, 'David', '[email protected]', 28 ]

这些数据行会按照 id 的顺序存储在聚集索引的叶子节点上。

聚集索引的 B+ 树结构

B+ 树是一种平衡树，能够保证查找效率。聚集索引的 B+ 树结构如下：

根节点：包含指向下一层节点的指针。
中间节点：包含指向下一层节点的指针，以及索引键值范围。
叶子节点：包含完整的数据行（聚集索引的关键）。

例如，对于上面的 users 表，聚集索引的 B+ 树可能如下所示（简化表示）：

  (Root Node)
  /        
[1, 3]     [4, ...]
 /         /
(Level 1) (Level 1)
/    |    
[1] [2] [3] [4] ...
|    |    |    |
(Leaf Node) (Leaf Node)
[1, 'Alice', ...] [2, 'Bob', ...] [3, 'Charlie', ...] [4, 'David', ...]

当我们执行如下查询时：

SELECT * FROM users WHERE id = 3;

InnoDB 会首先从根节点开始，沿着 B+ 树向下查找，直到找到 id = 3 的叶子节点。由于叶子节点存储了完整的数据行，因此可以直接返回结果，无需再次访问磁盘。

二级索引与聚集索引的引用关系

除了聚集索引之外，我们还可以创建二级索引（也称为非聚集索引）。二级索引并不存储完整的数据行，而是存储索引键值以及指向聚集索引键的指针。

例如，我们可以在 username 字段上创建一个二级索引：

CREATE INDEX idx_username ON users (username);

这个二级索引的 B+ 树的叶子节点会存储 username 的值，以及对应的 id 值（因为 id 是聚集索引的键）。

二级索引的结构如下：

根节点：包含指向下一层节点的指针。
中间节点：包含指向下一层节点的指针，以及索引键值范围。
叶子节点：包含索引键值和聚集索引键值。

对于上面的 users 表，idx_username 的 B+ 树可能如下所示（简化表示）：

  (Root Node)
  /        
['Alice', 'Charlie'] ['David', ...]
 /          /
(Level 1) (Level 1)
/    |    
['Alice'] ['Bob'] ['Charlie'] ['David'] ...
|    |    |    |
(Leaf Node) (Leaf Node)
['Alice', 1] ['Bob', 2] ['Charlie', 3] ['David', 4]

当我们执行如下查询时：

SELECT * FROM users WHERE username = 'Bob';

InnoDB 会首先使用 idx_username 索引找到 username = 'Bob' 的叶子节点，该节点存储了 id = 2。然后，InnoDB 会使用这个 id 值去聚集索引中查找对应的完整数据行。这个过程被称为回表。

回表的概念与优化

回表是二级索引的一个重要概念。由于二级索引不包含完整的数据行，因此需要通过聚集索引键再次查找数据行。这个额外的查找操作会增加查询的开销。

回表的次数与查询的结果集大小相关。如果查询需要返回大量数据行，那么回表的开销就会比较大。

优化回表的方法：

覆盖索引：如果查询只需要访问索引中的字段，而不需要访问完整的数据行，那么就可以使用覆盖索引。覆盖索引是指索引包含了查询所需的所有字段。

例如，如果我们需要查询 username = 'Bob' 的用户的 id 和 username，那么可以使用覆盖索引：
```
CREATE INDEX idx_username_id ON users (username, id);

SELECT id, username FROM users WHERE username = 'Bob';
```
在这个例子中，idx_username_id 索引包含了 username 和 id 字段，因此可以直接从索引中获取结果，无需回表。
尽量使用聚集索引：如果查询条件可以使用聚集索引，那么就可以避免回表。
减少不必要的回表：在设计表结构和索引时，尽量避免创建不必要的二级索引，避免不必要的回表操作。

聚集索引的优势与劣势

优势：

查询速度快：对于使用聚集索引的查询，InnoDB 可以直接从叶子节点获取数据行，无需额外查找。
数据局部性好：由于数据行按照聚集索引的顺序存储，因此可以提高缓存命中率，减少磁盘 I/O。
范围查询效率高：对于范围查询，InnoDB 可以直接从聚集索引的叶子节点顺序扫描，效率很高。

劣势：

插入速度慢：由于数据行需要按照聚集索引的顺序存储，因此插入数据时可能需要移动其他数据行，导致插入速度较慢。特别是当插入的数据行的聚集索引键值较小时，可能需要移动大量数据行。
更新速度慢：如果更新操作修改了聚集索引键的值，那么需要移动数据行，导致更新速度较慢。
二级索引需要额外的存储空间：二级索引需要存储聚集索引键的值，因此会占用额外的存储空间。

聚集索引的设计原则

选择合适的聚集索引键：聚集索引键应该具有以下特点：
- 唯一性：聚集索引键必须是唯一的。
- 单调递增：聚集索引键应该尽量单调递增，以避免插入数据时移动其他数据行。
- 短小：聚集索引键应该尽量短小，以减少索引的存储空间。
避免频繁更新聚集索引键：频繁更新聚集索引键会导致数据行移动，影响性能。
合理使用二级索引：根据查询需求，合理创建二级索引，提高查询效率。

常见的聚集索引键选择

自增主键：自增主键是最常见的聚集索引键选择。自增主键具有唯一性和单调递增性，可以保证插入速度和查询效率。
UUID：UUID 是一种全局唯一标识符，可以用于分布式系统中的数据标识。但是，UUID 的缺点是长度较长，且不具有单调递增性，因此不适合作为聚集索引键。
业务字段：在某些情况下，可以使用业务字段作为聚集索引键。但是，需要仔细评估业务字段的唯一性和单调递增性，避免影响性能。

代码示例

我们创建一个测试表，并演示聚集索引和二级索引的使用。

-- 创建测试表
CREATE TABLE orders (
    order_id INT PRIMARY KEY,
    customer_id INT NOT NULL,
    order_date DATE NOT NULL,
    total_amount DECIMAL(10, 2) NOT NULL,
    INDEX idx_customer_id (customer_id) -- 二级索引
);

-- 插入测试数据
INSERT INTO orders (order_id, customer_id, order_date, total_amount) VALUES
(1, 101, '2023-01-01', 100.00),
(2, 102, '2023-01-02', 200.00),
(3, 101, '2023-01-03', 150.00),
(4, 103, '2023-01-04', 300.00),
(5, 102, '2023-01-05', 250.00);

-- 查询 customer_id 为 101 的订单
SELECT * FROM orders WHERE customer_id = 101;

-- 查询 order_id 为 3 的订单
SELECT * FROM orders WHERE order_id = 3;

在这个例子中，order_id 是主键，因此是聚集索引。idx_customer_id 是二级索引。

当我们执行 SELECT * FROM orders WHERE customer_id = 101; 时，InnoDB 会使用 idx_customer_id 索引找到 customer_id = 101 的叶子节点，然后通过聚集索引键 order_id 回表查找完整的数据行。

当我们执行 SELECT * FROM orders WHERE order_id = 3; 时，InnoDB 会直接使用聚集索引查找 order_id = 3 的叶子节点，无需回表。

查看索引使用情况

可以使用 EXPLAIN 命令查看 SQL 语句的索引使用情况。

EXPLAIN SELECT * FROM orders WHERE customer_id = 101;

EXPLAIN SELECT * FROM orders WHERE order_id = 3;

EXPLAIN 命令会显示 SQL 语句的执行计划，包括使用的索引、扫描的行数等信息。通过分析执行计划，可以判断 SQL 语句是否使用了索引，以及索引的使用效率。

InnoDB 中的一些重要参数

innodb_page_size: InnoDB 的页面大小。默认为 16KB。
innodb_fill_factor: 控制 B+ 树的填充因子。
innodb_buffer_pool_size: InnoDB 的缓冲池大小。缓冲池用于缓存数据和索引，提高查询效率。

聚集索引的未来发展

随着硬件技术的不断发展，存储介质的速度越来越快，聚集索引的设计也在不断演进。例如，一些新型的存储引擎采用了 LSM 树（Log-Structured Merge-Tree）作为底层存储结构，LSM 树具有更高的写入性能，但也带来了一些新的挑战，例如读取放大。

总结：理解InnoDB聚集索引的关键点

总而言之，InnoDB 的聚集索引是理解 InnoDB 数据存储和查询优化的关键。聚集索引决定了数据的物理存储顺序，二级索引通过引用聚集索引键来实现数据的查找。理解聚集索引的优势和劣势，以及如何选择合适的聚集索引键，对于优化数据库性能至关重要。掌握这些概念和技巧，可以帮助我们更好地设计数据库表结构，提高查询效率，并构建更高效的应用程序。

InnoDB 聚集索引：主键的物理存储与二级索引的引用

发表回复 取消回复

发表回复取消回复