MySQL的InnoDB存储引擎：从Page到Extent的物理存储结构与空间管理 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

MySQL InnoDB存储引擎：从Page到Extent的物理存储结构与空间管理

大家好，今天我们深入探讨MySQL InnoDB存储引擎的物理存储结构，重点关注Page（页）和Extent（区）的概念，以及InnoDB如何管理这些存储单元，从而实现高效的数据存储和检索。

一、InnoDB存储架构概览

InnoDB是MySQL默认的存储引擎，它以页（Page）作为磁盘管理的最小单元。多个连续的Page组成区（Extent），而多个Extent则构成了段（Segment），最后，多个Segment组成了表空间（Tablespace）。这种分层结构的设计，旨在提高磁盘I/O效率，并方便进行空间管理。

Tablespace  (表空间)
    └── Segment (段)
        └── Extent  (区)
            └── Page   (页)

二、Page（页）：数据存储的基石

Page是InnoDB存储的最基本单元，默认大小为16KB。所有的数据都以Page为单位进行读写。Page的结构并非仅仅是数据的简单堆砌，它包含多个组成部分，以组织和管理存储在其中的数据。

1. Page的结构组成

InnoDB Page 的基本结构如下表所示：

组成部分	大小 (字节)	描述
File Header	38	页头，包含页的类型、校验和、LSN等信息。
File Trailer	8	页尾，包含校验和和LSN信息，用于检测数据一致性。
User Records	变长	实际存储的用户数据记录。
Free Space	变长	空闲空间，用于存储新的记录。
System Records	变长	系统记录，如Infimum和Supremum记录，用于定位记录边界。
Page Directory	变长	页目录，用于快速定位记录，类似于索引，提高查找效率。
Infimum + Supremum	26	最小记录和最大记录，用于界定记录范围。

2. File Header详解

File Header 包含了关键的元数据信息，对于理解InnoDB如何管理Page至关重要。

字段名	大小 (字节)	描述
FIL_PAGE_SPACE_OR_CHKSUM	4	页所在的表空间ID，或者页的校验和。根据InnoDB版本和配置，用途有所不同。
FIL_PAGE_OFFSET	4	页在表空间中的偏移量，用于唯一标识一个Page。
FIL_PAGE_PREV	4	上一个Page的偏移量。用于形成双向链表，方便顺序扫描。
FIL_PAGE_NEXT	4	下一个Page的偏移量。用于形成双向链表，方便顺序扫描。
FIL_PAGE_LSN	8	最后修改页的LSN (Log Sequence Number)。用于崩溃恢复，确保数据一致性。
FIL_PAGE_TYPE	2	页的类型，例如：`FIL_PAGE_INDEX` (索引页), `FIL_PAGE_UNDO_LOG` (Undo页), `FIL_PAGE_INODE` (Inode页), `FIL_PAGE_DATA` (数据页)等。
FIL_PAGE_FILE_FLUSH_LSN	8	文件刷新LSN，表示该页刷新到磁盘时的LSN。
FIL_PAGE_ARCH_LOG_NO_OR_SPACE_ID	4	归档日志编号或空间ID，具体取决于配置。

3. Page类型

FIL_PAGE_TYPE字段标识了Page的类型。不同类型的Page用于存储不同类型的数据。常见的Page类型包括：

FIL_PAGE_INDEX: 索引页，用于存储B+树的节点，加速数据查找。
FIL_PAGE_UNDO_LOG: Undo页，用于存储Undo日志，支持事务回滚。
FIL_PAGE_INODE: Inode页，用于存储段(Segment)的Inode信息。
FIL_PAGE_DATA: 数据页，用于存储实际的用户数据。
FIL_PAGE_SYSTEM: 系统页，用于存储系统相关的信息。

4. Page Directory（页目录）

为了加速在Page内查找记录的速度，InnoDB引入了Page Directory。Page Directory 类似于一个Page内的索引，它将Page内的记录分组，并记录每组最后一条记录的偏移量。通过二分查找Page Directory，可以快速定位到目标记录所在的组，然后再在组内进行顺序查找，从而提高查找效率。

5. User Records的存储格式

User Records以行（Row）的形式存储在Page中。每一行记录都包含一些隐藏列，用于InnoDB内部管理：

DB_ROW_ID: 如果表没有定义主键，InnoDB会自动创建一个6字节的row ID作为主键。
DB_TRX_ID: 创建或修改该行的事务ID。
DB_ROLLBACK_PTR: 指向Undo日志的指针，用于回滚操作。
删除标志: 并非物理删除，而是设置删除标志，后续由purge线程清理。

6. 代码示例：模拟Page结构 (简化)

以下代码示例用Python模拟了一个简化的InnoDB Page结构，仅包含部分关键字段，以帮助理解其组织方式。

class FileHeader:
    def __init__(self, page_type, prev_page, next_page, lsn):
        self.page_type = page_type
        self.prev_page = prev_page
        self.next_page = next_page
        self.lsn = lsn

class UserRecord:
    def __init__(self, data, trx_id):
        self.data = data
        self.trx_id = trx_id

class Page:
    def __init__(self, page_number, page_type):
        self.page_number = page_number
        self.file_header = FileHeader(page_type, None, None, 0)  # 简化LSN
        self.user_records = []
        self.free_space = 16384  # 16KB
        self.page_directory = []

    def add_record(self, data, trx_id):
        record = UserRecord(data, trx_id)
        self.user_records.append(record)
        self.free_space -= len(data)  # 简化计算

    def __repr__(self):
        return f"Page(Number={self.page_number}, Type={self.file_header.page_type}, Records={len(self.user_records)}, Free Space={self.free_space})"

# 示例
page1 = Page(1, "FIL_PAGE_DATA")
page1.add_record("Sample data 1", 123)
page1.add_record("Sample data 2", 456)
print(page1)

page2 = Page(2, "FIL_PAGE_INDEX")
print(page2)

这段代码仅仅是一个简化的模拟，实际的InnoDB Page结构要复杂得多，但它有助于理解Page的基本组织方式。

三、Extent（区）：Page的集合

Extent是InnoDB中比Page更大的存储单元，默认大小为1MB，由128个连续的Page组成（1MB / 16KB = 128）。引入Extent的目的是为了提高磁盘I/O的效率。

1. Extent的类型

Extent主要分为两种类型：

Mixed Extent（混合区）: 一个Extent可以包含来自不同表的数据。InnoDB在分配新的Extent时，通常会先分配Mixed Extent，以便更有效地利用空间。当一个Mixed Extent中的所有Page都属于同一个表时，它会被转换为Full Extent。
Full Extent（完整区）: 一个Extent中的所有Page都属于同一个表。

2. 为什么要使用Extent？

减少碎片: 通过分配连续的Page，减少磁盘碎片，提高顺序I/O性能。
提高空间利用率: Mixed Extent允许不同表共享Extent，在表刚创建时，可以更有效地利用空间。
批量分配: 一次分配一个Extent，减少了频繁的Page分配操作，降低了开销。

3. Extent的分配

InnoDB使用Free Space List来管理空闲的Extent。当需要分配新的Extent时，InnoDB会从Free Space List中查找可用的Extent。

4. 代码示例：模拟Extent分配 (简化)

class Extent:
    def __init__(self, extent_id):
        self.extent_id = extent_id
        self.pages = [None] * 128  # 128 pages in an extent
        self.table_id = None  # None indicates a free extent

    def allocate_to_table(self, table_id):
        if self.table_id is None:
            self.table_id = table_id
            return True
        else:
            return False

    def __repr__(self):
        return f"Extent(ID={self.extent_id}, Table={self.table_id})"

class FreeSpaceList:
    def __init__(self, num_extents):
        self.extents = [Extent(i) for i in range(num_extents)]

    def allocate_extent(self, table_id):
        for extent in self.extents:
            if extent.table_id is None:
                if extent.allocate_to_table(table_id):
                    return extent
        return None  # No free extent available

# 示例
free_space = FreeSpaceList(10)
extent1 = free_space.allocate_extent(1) # Allocate to table 1
extent2 = free_space.allocate_extent(2) # Allocate to table 2
extent3 = free_space.allocate_extent(1) # Allocate to table 1

print(extent1)
print(extent2)
print(extent3)

这个示例演示了如何模拟Extent的分配过程。FreeSpaceList 管理一组Extent，allocate_extent 方法用于分配空闲的Extent给指定的表。

四、Segment（段）：Extent的逻辑集合

Segment是比Extent更大的逻辑存储单元。每个Segment代表一种特定的数据类型，例如：数据段（Leaf Node Segment）、索引段（Non-leaf Node Segment）、Undo段等。一个Segment由多个Extent组成，这些Extent可以是不连续的。

1. Segment的类型

数据段（Leaf Node Segment）： 存储B+树的叶子节点，包含实际的用户数据。
索引段（Non-leaf Node Segment）： 存储B+树的非叶子节点，用于加速数据查找。
Undo段： 存储Undo日志，支持事务回滚。
Rollback段: 用于存储回滚数据。

2. Segment的组织方式

InnoDB使用Inode Entry来管理Segment。Inode Entry存储了Segment的元数据信息，例如：Segment的类型、Extent列表等。 Inode Entry本身也存储在Inode Page中。

3. 为什么要使用Segment？

逻辑分离: 将不同类型的数据存储在不同的Segment中，方便管理和维护。
空间管理: 可以针对不同的Segment，采用不同的空间分配策略。
提高性能: 针对不同的Segment，可以进行特定的优化，例如：对索引段进行缓存，提高查询性能。

4. 代码示例：模拟Segment结构 (简化)

class InodeEntry:
    def __init__(self, segment_type):
        self.segment_type = segment_type
        self.extents = []

    def add_extent(self, extent):
        self.extents.append(extent)

    def __repr__(self):
        return f"InodeEntry(Type={self.segment_type}, Extents={len(self.extents)})"

class Segment:
    def __init__(self, segment_type):
        self.inode = InodeEntry(segment_type)

    def add_extent(self, extent):
        self.inode.add_extent(extent)

    def __repr__(self):
        return f"Segment(Inode={self.inode})"

# 示例
segment1 = Segment("DATA")
segment2 = Segment("INDEX")

# 假设 extent1 和 extent2 已经通过 FreeSpaceList 分配
segment1.add_extent(extent1)
segment2.add_extent(extent2)

print(segment1)
print(segment2)

这个示例展示了Segment的基本结构，以及如何将Extent添加到Segment中。

五、Tablespace（表空间）：存储的最高层抽象

Tablespace是InnoDB存储的最高层抽象，它是一个逻辑容器，用于存储所有的数据和索引。InnoDB支持多种类型的Tablespace：

System Tablespace（系统表空间）： 默认的表空间，存储InnoDB系统表和Undo日志。
File-Per-Table Tablespace（独立表空间）： 每个表都有一个独立的表空间，包含表的数据和索引。
General Tablespace（通用表空间）： 可以存储多个表的数据和索引。

1. Tablespace的组织方式

Tablespace由多个数据文件组成。每个数据文件被划分为多个Page，Extent和Segment。

2. Tablespace的管理

InnoDB使用Tablespace Metadata来管理Tablespace。Tablespace Metadata 存储了Tablespace的元数据信息，例如：Tablespace的类型、数据文件列表等。

3. File-Per-Table Tablespace的优势

空间回收: 删除表时，可以回收表占用的空间，减少磁盘碎片。
备份和恢复: 可以单独备份和恢复每个表，提高灵活性。
性能优化: 可以针对每个表进行特定的性能优化。

六、InnoDB的空间管理

InnoDB采用多种策略来管理空间：

Free Space List: 管理空闲的Extent。
Insert Buffer（插入缓冲）： 用于缓存非唯一索引的插入操作，提高插入性能。
Doublewrite Buffer（双写缓冲）： 用于保证数据的一致性，防止partial write。

1. Insert Buffer

当插入一条记录时，如果相关的非唯一索引页不在缓冲池中，InnoDB会将插入操作缓存到Insert Buffer中。当索引页被读取到缓冲池时，再将Insert Buffer中的记录合并到索引页中。这样可以避免频繁的磁盘I/O，提高插入性能。

2. Doublewrite Buffer

Doublewrite Buffer位于系统表空间中，是一个独立的存储区域。当InnoDB将Page写入磁盘时，会先将Page写入Doublewrite Buffer，然后再写入实际的数据文件。如果在写入过程中发生崩溃，InnoDB可以通过Doublewrite Buffer来恢复数据，保证数据的一致性。

七、InnoDB的Page Flush机制

InnoDB采用多种策略来将内存中的Page刷新到磁盘：

LRU (Least Recently Used) 算法: 淘汰最近最少使用的Page。
Checkpoint: 定期将脏页刷新到磁盘。
Adaptive Flushing: 根据系统负载动态调整刷新策略。

1. Checkpoint

Checkpoint是一个时间点，表示所有在该时间点之前发生的修改都已经刷新到磁盘。 InnoDB会定期执行Checkpoint，将脏页刷新到磁盘，保证数据的一致性和持久性。

2. Adaptive Flushing

Adaptive Flushing 是一种动态的刷新策略。InnoDB会根据系统负载、脏页比例等因素，动态调整刷新速度，以平衡性能和数据一致性。

八、实践中的优化考量

理解InnoDB的物理存储结构，有助于我们进行数据库优化：

合理设置Page大小： 默认16KB 通常适用，但特殊场景可调整。
监控Free Space： 关注表空间的可用空间，避免空间不足导致性能下降。
使用File-Per-Table Tablespace： 提高空间利用率和灵活性。
优化SQL语句： 减少不必要的磁盘I/O。
合理配置缓冲池： 增大缓冲池，减少磁盘访问。

九、总结与展望

InnoDB的Page、Extent、Segment和Tablespace构成了其物理存储的基础。了解这些概念，以及InnoDB如何管理空间，对于理解InnoDB的工作原理，进行数据库优化至关重要。随着存储技术的不断发展，InnoDB也在不断演进，例如对SSD的支持，对NUMA架构的优化等。未来，InnoDB将继续朝着更高性能、更高可靠性的方向发展。

深入理解InnoDB存储结构的重要性

理解InnoDB的存储结构有助于更有效地管理和优化数据库。它能帮助我们诊断性能瓶颈，选择合适的配置参数，并设计更优化的数据库模式，最终提升应用程序的整体性能和可靠性。