揭秘 `InnoDB` `事务隔离级别`的物理实现：`Read View` 在不同隔离级别下的生成与更新策略。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，没问题。

InnoDB 事务隔离级别：Read View 的物理实现

大家好，今天我们来深入探讨 InnoDB 存储引擎中事务隔离级别的物理实现，重点分析 Read View 在不同隔离级别下的生成与更新策略。理解这些机制对于我们更好地设计数据库应用、排查并发问题至关重要。

1. 事务隔离级别回顾

在深入 Read View 之前，我们先回顾一下 SQL 标准定义的四种事务隔离级别，以及它们在 InnoDB 中的表现：

隔离级别	描述	InnoDB 支持情况
`READ UNCOMMITTED`	允许读取尚未提交的数据。存在脏读问题。	InnoDB 不支持。实际效果等同于 `READ COMMITTED`。
`READ COMMITTED`	只能读取已经提交的数据。解决了脏读问题，但存在不可重复读问题。每次读取都可能看到不同的数据，因为其他事务可能在两次读取之间提交了修改。	InnoDB 默认支持。
`REPEATABLE READ`	在同一个事务中，多次读取相同的数据，结果应该是一致的。解决了不可重复读问题，但存在幻读问题。如果另一个事务插入了一条符合查询条件的新记录，当前事务再次执行相同的查询时，可能会看到这条新记录，这就是幻读。	InnoDB 默认隔离级别。通过 MVCC (Multi-Version Concurrency Control) 机制，配合 `Read View` 来实现。在可重复读的隔离级别下，事务开始后，第一次执行select语句的时候生成ReadView，之后的select语句都使用这个ReadView.
`SERIALIZABLE`	提供最高的隔离级别。强制事务串行执行，避免所有并发问题，包括脏读、不可重复读和幻读。	InnoDB 支持。通过锁机制实现，强制事务串行执行，性能最低。

2. MVCC 和 Read View 的概念

为了理解 Read View，我们需要先了解 MVCC。MVCC 是一种并发控制机制，InnoDB 通过 MVCC 实现事务的隔离性。它的核心思想是：对于每一行数据，保留多个版本，允许并发事务读取不同版本的数据，从而减少锁的竞争。

Read View 是 MVCC 的关键组成部分。它决定了一个事务能够看到哪些版本的数据。简单来说，Read View 维护了当前系统中“活跃的”事务 ID 列表。当事务访问某一行数据时，InnoDB 会根据 Read View 中的事务 ID 来判断该行数据的版本是否可见。

Read View 的主要属性：

trx_ids: 一个活跃事务 ID 的集合，包含创建 Read View 时所有未提交的事务 ID。
min_trx_id: trx_ids 集合中最小的事务 ID。
max_trx_id: 下一个将要分配的事务 ID。这个值并不是trx_ids 集合中最大的事务 ID，而是系统下一个将要分配的事务 ID。
creator_trx_id: 创建这个 Read View 的事务 ID。

可见性判断逻辑：

对于某个数据行版本，其事务 ID 为 row_trx_id，InnoDB 会按照以下逻辑判断其对当前 Read View 是否可见：

如果 row_trx_id < min_trx_id: 表示该版本是在创建 Read View 之前就已经提交的事务创建的，对当前 Read View 可见。
如果 row_trx_id >= max_trx_id: 表示该版本是在创建 Read View 之后才启动的事务创建的，对当前 Read View 不可见。
如果 min_trx_id <= row_trx_id < max_trx_id: 需要进一步判断 row_trx_id 是否在 trx_ids 集合中：
- 如果 row_trx_id 在 trx_ids 集合中: 表示该版本是由当前 Read View 创建时还未提交的事务创建的。如果 row_trx_id 等于 creator_trx_id，则可见；否则，不可见。
- 如果 row_trx_id 不在 trx_ids 集合中: 表示该版本是在创建 Read View 之前就已经启动，但在创建 Read View 时已经提交的事务创建的，对当前 Read View 可见。

3. 不同隔离级别下的 Read View 生成与更新策略

现在，我们来详细分析在 READ COMMITTED 和 REPEATABLE READ 两种隔离级别下，Read View 的生成与更新策略。

3.1 `READ COMMITTED` 隔离级别

在 READ COMMITTED 隔离级别下，事务每次执行 SELECT 语句时，都会重新生成一个新的 Read View。这意味着，每次读取数据时，都基于当前系统中活跃的事务 ID 列表进行判断。

Read View 生成时机：

事务执行的每一个 SELECT 语句之前。

例子：

假设有三个事务：trx1，trx2，trx3，它们的事务 ID 分别是 10, 20, 30。一开始，表 t 中有一行记录，id = 1, value = 'A', trx_id = 5。

trx1 (事务 ID 10) 启动，执行 SELECT * FROM t WHERE id = 1;
- 生成 Read View：trx_ids = [], min_trx_id = 11, max_trx_id = 31, creator_trx_id = 10。因为此时没有其他活跃的事务，trx_ids 为空。
- row_trx_id = 5 < min_trx_id = 11，所以 trx1 可以看到 value = 'A' 的记录。
trx2 (事务 ID 20) 启动，执行 UPDATE t SET value = 'B' WHERE id = 1; 但 未提交。
- row_trx_id 更新为 20。
trx1 再次执行 SELECT * FROM t WHERE id = 1;
- 生成新的 Read View：trx_ids = [20], min_trx_id = 11, max_trx_id = 31, creator_trx_id = 10。因为 trx2 尚未提交，所以 20 出现在 trx_ids 中。
- row_trx_id = 20 >= min_trx_id = 11 且 row_trx_id = 20 < max_trx_id = 31。
- row_trx_id = 20 在 trx_ids 集合中。由于 row_trx_id = 20 != creator_trx_id = 10，所以 trx1 看不到 value = 'B' 的记录。它会继续查找上一个版本。
- trx1 最终会读取到 value = 'A' 的记录。
trx2 提交。
trx1 再次执行 SELECT * FROM t WHERE id = 1;
- 生成新的 Read View：trx_ids = [], min_trx_id = 11, max_trx_id = 31, creator_trx_id = 10。因为 trx2 已经提交，所以 trx_ids 为空。
- row_trx_id = 20 < min_trx_id = 11 不成立， row_trx_id = 20 >= max_trx_id = 31 也不成立。
- row_trx_id = 20 不在 trx_ids 集合中，所以 trx1 可以看到 value = 'B' 的记录。

在这个例子中，trx1 在同一个事务中，多次读取同一行记录，但由于 Read View 的每次重新生成，导致读取到的数据可能不同，这就是 不可重复读 问题。

3.2 `REPEATABLE READ` 隔离级别

在 REPEATABLE READ 隔离级别下，事务在第一次执行 SELECT 语句时生成一个 Read View，并且在整个事务执行期间都使用这个 Read View。这意味着，事务只能看到在创建 Read View 时已经提交的数据，以及由自己修改的数据。

Read View 生成时机：

事务第一次执行 SELECT 语句时。

例子：

仍然假设有三个事务：trx1，trx2，trx3，它们的事务 ID 分别是 10, 20, 30。一开始，表 t 中有一行记录，id = 1, value = 'A', trx_id = 5。

trx1 (事务 ID 10) 启动，执行 SELECT * FROM t WHERE id = 1;
- 生成 Read View：trx_ids = [], min_trx_id = 11, max_trx_id = 31, creator_trx_id = 10。
- row_trx_id = 5 < min_trx_id = 11，所以 trx1 可以看到 value = 'A' 的记录。
trx2 (事务 ID 20) 启动，执行 UPDATE t SET value = 'B' WHERE id = 1; 但 未提交。
- row_trx_id 更新为 20。
trx1 再次执行 SELECT * FROM t WHERE id = 1;
- 使用 第一次生成的 Read View：trx_ids = [], min_trx_id = 11, max_trx_id = 31, creator_trx_id = 10。
- row_trx_id = 20 < min_trx_id = 11 不成立， row_trx_id = 20 >= max_trx_id = 31 也不成立。
- row_trx_id = 20 不在 trx_ids 集合中，所以 trx1 可以看到 value = 'B' 的记录。因为trx_ids为空，所以任何小于max_trx_id且大于min_trx_id的数据都可见，这是错误的。
- 应该使用第一次生成的 Read View，即trx_ids = [], min_trx_id = 11, max_trx_id = 31, creator_trx_id = 10。
- row_trx_id = 20 >= min_trx_id = 11 且 row_trx_id = 20 < max_trx_id = 31。
- row_trx_id = 20 不在 trx_ids 集合中，所以 trx1 应该 看不到 value = 'B' 的记录，因为它还没有提交。
- 这是错误的，应该使用第一次的ReadView，继续查找上一个版本，最终读取到 value = 'A' 的记录。
trx2 提交。
trx1 再次执行 SELECT * FROM t WHERE id = 1;
- 使用 第一次生成的 Read View：trx_ids = [], min_trx_id = 11, max_trx_id = 31, creator_trx_id = 10。
- row_trx_id = 20 < min_trx_id = 11 不成立， row_trx_id = 20 >= max_trx_id = 31 也不成立。
- row_trx_id = 20 不在 trx_ids 集合中，所以 trx1 仍然 看不到 value = 'B' 的记录，因为它使用的是第一次的ReadView，继续查找上一个版本，最终读取到 value = 'A' 的记录。

在这个例子中，trx1 在同一个事务中，多次读取同一行记录，读取到的数据始终是一致的，解决了 不可重复读 问题。

关于幻读的补充说明：

虽然 REPEATABLE READ 解决了不可重复读问题，但仍然存在幻读问题。幻读是指，当事务读取某个范围的数据时，另一个事务插入了一条符合查询条件的新记录，导致当前事务再次执行相同的查询时，可能会看到这条新记录。

InnoDB 通过 Next-Key Lock 机制来解决幻读问题。 Next-Key Lock 是记录锁和间隙锁的组合，它可以锁定记录之间的间隙，防止其他事务插入新的记录。

4. 代码示例 (伪代码)

虽然我们无法直接访问 InnoDB 的内部代码，但我们可以通过伪代码来模拟 Read View 的生成和可见性判断过程。

class ReadView:
    def __init__(self, trx_ids, min_trx_id, max_trx_id, creator_trx_id):
        self.trx_ids = trx_ids
        self.min_trx_id = min_trx_id
        self.max_trx_id = max_trx_id
        self.creator_trx_id = creator_trx_id

def is_visible(read_view, row_trx_id, row_creator_trx_id):
    """判断数据行版本对 Read View 是否可见"""
    if row_trx_id < read_view.min_trx_id:
        return True  # 版本已提交

    if row_trx_id >= read_view.max_trx_id:
        return False  # 版本未提交

    if row_trx_id in read_view.trx_ids:
        # 版本由 Read View 创建时未提交的事务创建
        return row_trx_id == read_view.creator_trx_id # 只有自己修改的可见
    else:
        return True  # 版本已提交

# 模拟 READ COMMITTED 隔离级别
def read_committed_read(transaction_id, data, row_trx_id):
    """模拟 READ COMMITTED 隔离级别的读取"""
    # 生成新的 Read View
    active_transactions = get_active_transactions() # 获取当前活跃的事务 ID 列表
    min_trx_id = get_min_trx_id(active_transactions)
    max_trx_id = get_next_trx_id()
    read_view = ReadView(active_transactions, min_trx_id, max_trx_id, transaction_id)

    # 判断数据可见性
    if is_visible(read_view, row_trx_id, transaction_id):
        return data
    else:
        # 查找历史版本
        return get_previous_version(data, read_view)

# 模拟 REPEATABLE READ 隔离级别
class TransactionContext:
    def __init__(self, transaction_id):
        self.transaction_id = transaction_id
        self.read_view = None

transaction_contexts = {} # 存储事务上下文

def repeatable_read(transaction_id, data, row_trx_id):
    """模拟 REPEATABLE READ 隔离级别的读取"""
    global transaction_contexts

    if transaction_id not in transaction_contexts:
        # 第一次读取，生成 Read View
        active_transactions = get_active_transactions() # 获取当前活跃的事务 ID 列表
        min_trx_id = get_min_trx_id(active_transactions)
        max_trx_id = get_next_trx_id()
        read_view = ReadView(active_transactions, min_trx_id, max_trx_id, transaction_id)
        transaction_contexts[transaction_id] = TransactionContext(transaction_id)
        transaction_contexts[transaction_id].read_view = read_view
    else:
        # 使用已有的 Read View
        read_view = transaction_contexts[transaction_id].read_view

    # 判断数据可见性
    if is_visible(read_view, row_trx_id, transaction_id):
        return data
    else:
        # 查找历史版本
        return get_previous_version(data, read_view)

# 辅助函数 (需要根据实际情况实现)
def get_active_transactions():
    """获取当前活跃的事务 ID 列表"""
    # ...
    return []

def get_min_trx_id(active_transactions):
    """获取活跃事务 ID 列表中最小的事务 ID"""
    # ...
    if not active_transactions:
        return get_next_trx_id()
    return min(active_transactions)

def get_next_trx_id():
    """获取下一个将要分配的事务 ID"""
    # ...
    return 31 # 示例

def get_previous_version(data, read_view):
    """查找历史版本的数据"""
    # ...
    return "A" # 示例

这段伪代码展示了 Read View 的生成和可见性判断的基本逻辑。需要注意的是，实际的 InnoDB 实现要复杂得多，涉及到锁机制、 undo 日志、版本链等多个方面。

5. 总结

通过本次讲座，我们详细分析了 InnoDB 中 Read View 在不同事务隔离级别下的生成与更新策略。 READ COMMITTED 隔离级别每次读取都生成新的 Read View，导致 不可重复读 问题。 REPEATABLE READ 隔离级别在事务开始时生成 Read View，并在整个事务期间使用，解决了 不可重复读 问题，但仍存在幻读问题，通过 Next-Key Lock 机制解决。理解 Read View 的工作原理，有助于我们更好地理解 InnoDB 的 MVCC 机制，从而设计出更高效、更可靠的数据库应用。

InnoDB 事务隔离级别：Read View 的物理实现

1. 事务隔离级别回顾

2. MVCC 和 Read View 的概念

3. 不同隔离级别下的 Read View 生成与更新策略

3.1 READ COMMITTED 隔离级别

3.2 REPEATABLE READ 隔离级别

4. 代码示例 (伪代码)

5. 总结

发表回复 取消回复

3.1 `READ COMMITTED` 隔离级别

3.2 `REPEATABLE READ` 隔离级别

发表回复取消回复