InnoDB 事务 ID（Transaction ID）与 Read View 的生成与管理 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好嘞！各位观众老爷们，欢迎来到“InnoDB八卦时间”！今天咱们不聊明星绯闻，专聊数据库的那些事儿，保证比狗血剧还精彩！今天要扒的就是InnoDB事务ID和Read View的那些爱恨情仇，绝对让你笑出鱼尾纹，顺便还能掌握点硬核知识。

开场白：数据库世界的“罗生门”

各位，想想看，在一个高并发的数据库世界里，无数个事务同时进行着增删改查，就像一群熊孩子在你的书房里乱涂乱画，你必须保证每个人看到的世界都是合理的，不能让张三看到李四还没提交的修改，也不能让王五看到自己操作一半的数据。

这可不是一件容易的事！这就好比在同一个地点，不同的人在不同的时间，对同一件事的描述可能完全不同，这就是著名的“罗生门”效应。而在数据库里，解决“罗生门”的关键，就是事务ID和Read View。

第一幕：事务ID，身份的象征

首先，让我们隆重请出今天的第一位主角：事务ID (Transaction ID)。

在InnoDB的世界里，每个事务都会被分配一个独一无二的ID，就像人的身份证一样，用来标识这个事务的身份。这个ID可不是随便生成的，它是一个递增的数字，由InnoDB内部的事务管理模块负责分配。

你可以把它想象成一个排队号码，先来的事务号码小，后来的事务号码大。这个号码不仅仅是用来区分事务的，更重要的是它决定了事务的先后顺序，以及可见性。

事务ID的类型：
- trx_id: 事务的唯一标识符，在整个数据库实例中是唯一的。
- creator_trx_id: 创建这条记录的事务ID。
- delete_trx_id: 删除这条记录的事务ID。
事务ID的作用：
- 标识事务： 区分不同的事务。
- 控制并发： 决定事务的可见性，实现隔离级别。
- 回滚： 在事务回滚时，可以根据事务ID找到需要撤销的操作。

第二幕：Read View，世界的滤镜

有了事务ID，就像有了身份证，但是要看到正确的世界，还需要一个“滤镜”，这就是我们今天的主角之二：Read View (读视图)。

Read View就像一副眼镜，戴上它，你才能看到数据库中数据的正确版本。它定义了当前事务能够看到哪些事务的修改，哪些事务的修改是不可见的。

你可以把Read View想象成一个列表，里面记录了当前活跃的事务ID。当前事务只能看到小于这个列表中最小事务ID的已提交事务的修改，以及它自己事务的修改。

Read View的组成：
- trx_id: 创建Read View的事务ID。
- m_ids: 当前活跃的事务ID列表（不包括创建Read View 的事务）。
- min_trx_id: m_ids 列表中最小的事务ID。
- max_trx_id: 下一个要分配的事务ID，也就是说，小于这个ID的事务都已经分配了ID。
- creator_trx_id: 创建Read View的事务ID。
Read View的生成时机：
- RC (Read Committed): 每次读取数据时都会生成一个新的Read View。这就像你每次看东西都要重新调整眼镜的度数。
- RR (Repeatable Read): 在事务第一次读取数据时生成一个Read View，之后这个事务都使用同一个Read View。这就像你戴上眼镜后，一直使用同一副眼镜看东西，直到事务结束。

第三幕：事务ID与Read View的“爱恨情仇”

现在，让我们把事务ID和Read View放在一起，看看它们是如何协同工作的。

当一个事务需要读取数据时，InnoDB会根据当前的隔离级别生成一个Read View。然后，InnoDB会拿数据的版本号（也就是创建或修改这条数据的事务ID）与Read View进行比较，判断当前事务是否能够看到这个版本的数据。

判断规则：
1. 如果数据的版本号小于min_trx_id，说明这个版本的事务在创建Read View之前就已经提交了，所以当前事务可以看到这个版本的数据。
2. 如果数据的版本号大于等于max_trx_id，说明这个版本的事务在创建Read View之后才启动，所以当前事务不能看到这个版本的数据。
3. 如果数据的版本号在min_trx_id和max_trx_id之间，需要判断这个版本号是否在m_ids列表中。
  - 如果在m_ids列表中，说明这个版本的事务在创建Read View时仍然活跃，所以当前事务不能看到这个版本的数据。
  - 如果不在m_ids列表中，说明这个版本的事务在创建Read View之前就已经提交了，所以当前事务可以看到这个版本的数据。

举个栗子🌰：

假设现在有三个事务A、B、C，它们的事务ID分别是10、20、30。

事务A（ID=10）先启动，然后事务B（ID=20）启动，最后事务C（ID=30）启动。
事务A读取了一条数据，此时InnoDB会为事务A生成一个Read View，假设此时活跃的事务ID列表是m_ids = [20, 30]，那么min_trx_id = 20，max_trx_id = 31。
如果这条数据的版本号是5，那么由于5 < 20，所以事务A可以看到这个版本的数据。
如果这条数据的版本号是25，那么由于20 <= 25 < 31，并且25在m_ids列表中（假设事务B已经修改了这条数据但还未提交），所以事务A不能看到这个版本的数据，需要回滚到之前的版本。
如果这条数据的版本号是35，那么由于35 >= 31，所以事务A不能看到这个版本的数据。

第四幕：MVCC，幕后英雄

上面的这些机制，共同构成了InnoDB的MVCC (Multi-Version Concurrency Control，多版本并发控制)。

MVCC就像一个时间机器，它为每一行数据维护了多个版本，每个版本都对应着一个事务ID。当一个事务需要读取数据时，MVCC会根据Read View找到合适的版本，保证事务能够看到正确的、一致的数据。

MVCC的优点：
- 提高并发性能： 读写操作不再互相阻塞，可以并发执行。
- 实现隔离级别： 通过Read View控制事务的可见性，实现不同的隔离级别。
- 避免锁冲突： 减少了锁的使用，降低了死锁的风险。

隔离级别与Read View的关系：

隔离级别	Read View生成时机	可见性
读未提交 (RU)	无Read View	直接读取最新的数据，不需要判断版本号。
读已提交 (RC)	每次读取都生成	每次读取数据都生成一个新的Read View，只能看到已经提交的事务的修改。
可重复读 (RR)	事务第一次读取时生成	在事务第一次读取数据时生成一个Read View，之后这个事务都使用同一个Read View。这意味着，在同一个事务中，多次读取同一行数据，结果始终是一致的。
串行化 (Serializable)	加锁	通过加锁的方式保证事务的隔离性，避免并发问题。

第五幕：undo log，时光机器的燃料

细心的朋友可能会问，既然MVCC维护了多个版本的数据，那么这些版本的数据都存在哪里呢？答案就是：undo log (回滚日志)。

undo log记录了事务在修改数据之前的状态，可以用来回滚事务，也可以用来构建历史版本的数据。

你可以把undo log想象成时光机器的燃料，当需要回到过去时，就需要消耗这些燃料。

undo log的类型：
- Insert Undo Log： 在插入数据时生成，用于回滚插入操作。
- Update Undo Log： 在更新数据时生成，用于回滚更新操作，并记录旧版本的数据。
undo log的作用：
- 回滚事务： 在事务回滚时，可以根据undo log撤销之前的操作。
- 构建历史版本： 可以根据undo log构建历史版本的数据，实现MVCC。

第六幕：总结与彩蛋

好了，各位观众老爷们，今天的“InnoDB八卦时间”就到这里了。

我们了解了事务ID、Read View以及MVCC的原理，知道了它们是如何协同工作，保证数据库的并发性和一致性的。

希望通过今天的讲解，大家对InnoDB的事务管理有了更深入的理解。

总结：
- 事务ID： 事务的身份标识。
- Read View： 数据的“滤镜”，决定事务的可见性。
- MVCC： 多版本并发控制，提高并发性能，实现隔离级别。
- undo log： 回滚日志，记录数据的历史版本。
彩蛋：
- InnoDB的源码非常复杂，本文只是对其原理进行了简化，实际实现要复杂得多。
- 不同的数据库系统，MVCC的实现方式可能有所不同。

结尾：下次再见！

感谢大家的收看，下次我们再来聊聊InnoDB的其他八卦！记得关注我，精彩不容错过！ 😉

发表回复 取消回复

发表回复取消回复