MySQL架构与底层原理之：`MySQL`的事务隔离级别：从`Read Uncommitted`到`Serializable`的底层实现。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，我们开始今天的讲座，主题是 MySQL 的事务隔离级别及其底层实现。

引言：为什么需要事务隔离级别？

在并发访问数据库的场景下，多个事务同时操作同一份数据，如果没有适当的隔离机制，就会出现各种并发问题，例如：

脏读 (Dirty Read): 事务读取到其他事务尚未提交的数据。
不可重复读 (Non-Repeatable Read): 在同一事务中，多次读取同一数据，结果不一致。
幻读 (Phantom Read): 在同一事务中，执行范围查询，由于其他事务的插入或删除操作，导致多次查询的结果集不一致。

为了解决这些问题，SQL 标准定义了四种事务隔离级别，MySQL 也支持这些隔离级别，并提供了相应的底层实现。

MySQL 的四种事务隔离级别

MySQL 支持以下四种事务隔离级别，从弱到强依次为：

Read Uncommitted (RU)： 读未提交
Read Committed (RC)： 读已提交
Repeatable Read (RR)： 可重复读
Serializable (SERIALIZABLE)： 串行化

我们可以用以下表格概括这四种隔离级别以及它们可能出现的并发问题：

隔离级别	脏读	不可重复读	幻读
Read Uncommitted	是	是	是
Read Committed	否	是	是
Repeatable Read	否	否	是
Serializable	否	否	否

接下来，我们将逐一分析这些隔离级别及其底层实现原理。

1. Read Uncommitted (RU)

定义： 事务可以读取到其他事务尚未提交的数据。
并发问题： 允许脏读、不可重复读和幻读。
适用场景： 几乎没有实际应用场景，因为它无法保证数据的完整性和一致性。
底层实现：

这是最低的隔离级别，实现也最简单。在 Read Uncommitted 隔离级别下，MySQL 不会为读取操作添加任何锁或版本控制机制。一个事务可以直接读取到其他事务正在修改但尚未提交的数据。因此，脏读是不可避免的。

示例 (模拟)：

假设有两个事务 A 和 B，操作同一张表 users，包含 id 和 name 两个字段。
- 事务 A:
```
-- 事务 A 开始
START TRANSACTION;
UPDATE users SET name = 'Alice (修改)' WHERE id = 1;
-- 事务 A 尚未提交
```
- 事务 B (RU 隔离级别):
```
-- 事务 B 开始
SET TRANSACTION ISOLATION LEVEL READ UNCOMMITTED;
START TRANSACTION;
SELECT name FROM users WHERE id = 1; -- 事务 B 读取到了事务 A 尚未提交的数据 (脏读)
-- 事务 B 结束
COMMIT;
```
在这个例子中，事务 B 在事务 A 尚未提交的情况下，读取到了事务 A 修改后的 name 值，这就是脏读。如果事务 A 回滚，那么事务 B 读取到的数据就是无效的。

2. Read Committed (RC)

定义： 事务只能读取到其他事务已经提交的数据。
并发问题： 避免了脏读，但仍然存在不可重复读和幻读。
适用场景： 需要读取最新数据，但对一致性要求不高的场景，例如报表系统。
底层实现：

Read Committed 隔离级别通过一些锁机制和版本控制来避免脏读。MySQL 通常使用以下方法实现 Read Committed：
- 读取时加锁： 在读取数据时，会加一个短期的共享锁 (S 锁)，读取完成后立即释放。这样可以保证在读取期间，其他事务不能修改该数据。
- MVCC (Multi-Version Concurrency Control, 多版本并发控制)： 这是更常用的方法。MySQL 会为每一行数据维护多个版本，每个版本对应一个事务的修改。在读取数据时，会读取到当前事务开始时，该行数据已经提交的最新版本。这样就可以避免读取到其他事务尚未提交的数据。
示例 (MVCC 模拟)：

假设 users 表的 id=1 的行的初始 name 值为 ‘Alice’。
1. 事务 A (RC 隔离级别)：
```
SET TRANSACTION ISOLATION LEVEL READ COMMITTED;
START TRANSACTION;
SELECT name FROM users WHERE id = 1; -- 读取到 'Alice'
UPDATE users SET name = 'Alice (修改)' WHERE id = 1;
-- 事务 A 尚未提交
```
  在 MVCC 的实现中，当事务 A 执行 UPDATE 语句时，MySQL 不会直接修改原始数据，而是创建一个新的版本，并将 name 修改为 ‘Alice (修改)’。这个新版本会关联到事务 A。原始版本仍然存在。
2. 事务 B (RC 隔离级别)：
```
SET TRANSACTION ISOLATION LEVEL READ COMMITTED;
START TRANSACTION;
SELECT name FROM users WHERE id = 1; -- 读取到 'Alice'
-- 事务 B 结束
COMMIT;
```
  事务 B 在事务 A 尚未提交时读取 name，由于事务 B 只能读取已提交的数据，因此它会读取到原始版本 ‘Alice’，而不是事务 A 修改后的 ‘Alice (修改)’。
3. 事务 A 提交：
```
COMMIT;
```
  事务 A 提交后，’Alice (修改)’ 版本变为可见。
4. 事务 C (RC 隔离级别)：
```
SET TRANSACTION ISOLATION LEVEL READ COMMITTED;
START TRANSACTION;
SELECT name FROM users WHERE id = 1; -- 读取到 'Alice (修改)'
-- 事务 C 结束
COMMIT;
```
  事务 C 在事务 A 提交后读取 name，会读取到 ‘Alice (修改)’。
不可重复读的示例：
1. 事务 A (RC 隔离级别)：
```
SET TRANSACTION ISOLATION LEVEL READ COMMITTED;
START TRANSACTION;
SELECT name FROM users WHERE id = 1; -- 读取到 'Alice'
-- 事务 A 暂停
```
2. 事务 B (RC 隔离级别)：
```
SET TRANSACTION ISOLATION LEVEL READ COMMITTED;
START TRANSACTION;
UPDATE users SET name = 'Bob' WHERE id = 1;
COMMIT;
```
3. 事务 A (RC 隔离级别)：
```
SELECT name FROM users WHERE id = 1; -- 读取到 'Bob' (不可重复读)
COMMIT;
```
  在这个例子中，事务 A 在两次读取 name 之间，事务 B 修改了 name 并提交，导致事务 A 两次读取的结果不一致，这就是不可重复读。

3. Repeatable Read (RR)

定义： 在同一事务中，多次读取同一数据，结果始终保持一致。
并发问题： 避免了脏读和不可重复读，但仍然存在幻读。
适用场景： 对数据一致性要求较高的场景，例如金融系统。
底层实现：

Repeatable Read 隔离级别是 MySQL 的默认隔离级别 (InnoDB 存储引擎)。它通过更严格的锁机制和 MVCC 来保证可重复读。
- 更严格的锁机制： 除了读取时加共享锁外，在事务执行期间，会一直持有这些锁，直到事务结束。
- MVCC 的改进： 在 Repeatable Read 隔离级别下，事务第一次读取数据时，会创建一个快照 (Snapshot)，后续的读取操作都会基于这个快照，而不是读取最新的已提交版本。这样可以保证在整个事务期间，读取到的数据都是一致的。
示例 (MVCC 模拟)：

假设 users 表的 id=1 的行的初始 name 值为 ‘Alice’。
1. 事务 A (RR 隔离级别)：
```
SET TRANSACTION ISOLATION LEVEL REPEATABLE READ;
START TRANSACTION;
SELECT name FROM users WHERE id = 1; -- 读取到 'Alice'，并创建快照
-- 事务 A 暂停
```
  事务 A 第一次读取 name 时，MySQL 会创建一个快照，记录当前数据的版本信息。
2. 事务 B (RR 隔离级别)：
```
SET TRANSACTION ISOLATION LEVEL REPEATABLE READ;
START TRANSACTION;
UPDATE users SET name = 'Bob' WHERE id = 1;
COMMIT;
```
3. 事务 A (RR 隔离级别)：
```
SELECT name FROM users WHERE id = 1; -- 仍然读取到 'Alice' (可重复读)
COMMIT;
```
  事务 A 再次读取 name 时，会基于之前创建的快照，而不是读取最新的已提交版本 ‘Bob’。因此，事务 A 两次读取的结果是一致的，这就是可重复读。
幻读的示例：

假设 users 表初始状态如下：

id name

1 Alice

2 Bob
1. 事务 A (RR 隔离级别)：
```
SET TRANSACTION ISOLATION LEVEL REPEATABLE READ;
START TRANSACTION;
SELECT * FROM users WHERE id > 0; -- 读取到两行数据 (Alice, Bob)
-- 事务 A 暂停
```
2. 事务 B (RR 隔离级别)：
```
SET TRANSACTION ISOLATION LEVEL REPEATABLE READ;
START TRANSACTION;
INSERT INTO users (id, name) VALUES (3, 'Charlie');
COMMIT;
```
3. 事务 A (RR 隔离级别)：
```
SELECT * FROM users WHERE id > 0; -- 仍然读取到两行数据 (Alice, Bob)
SELECT COUNT(*) FROM users WHERE id > 0; -- 仍然是 2
SELECT * FROM users WHERE id = 3; -- 查询不到数据
```
  虽然事务 A 可以重复读取到之前的两行数据，但如果它执行范围查询，可能会看到其他事务新插入的数据，这就是幻读。需要注意的是，MySQL 通过一些手段优化了RR隔离级别，在某些情况下可以防止幻读，但本质上RR隔离级别是不能完全避免幻读的。

id	name
1	Alice
2	Bob

4. Serializable (SERIALIZABLE)

定义： 强制事务串行执行，避免所有并发问题。
并发问题： 避免了脏读、不可重复读和幻读。
适用场景： 对数据一致性要求最高的场景，例如银行转账。
底层实现：

Serializable 隔离级别通过强制事务串行执行来实现最高级别的隔离。
- 锁机制： 在 Serializable 隔离级别下，MySQL 会对所有读取的数据加共享锁，对所有写入的数据加排他锁，并且这些锁会一直持有到事务结束。
- 避免并发： 由于所有事务都必须获取锁才能访问数据，因此可以保证事务串行执行，避免了所有并发问题。
示例：

假设 users 表的 id=1 的行的初始 name 值为 ‘Alice’。
1. 事务 A (SERIALIZABLE 隔离级别)：
```
SET TRANSACTION ISOLATION LEVEL SERIALIZABLE;
START TRANSACTION;
SELECT name FROM users WHERE id = 1; -- 加共享锁
-- 事务 A 暂停
```
2. 事务 B (SERIALIZABLE 隔离级别)：
```
SET TRANSACTION ISOLATION LEVEL SERIALIZABLE;
START TRANSACTION;
UPDATE users SET name = 'Bob' WHERE id = 1; -- 阻塞，等待事务 A 释放共享锁
COMMIT;
```
  由于事务 A 持有 id=1 的行的共享锁，事务 B 尝试修改该行时，会被阻塞，直到事务 A 释放锁。这样就保证了事务串行执行。
注意事项：
- Serializable 隔离级别会极大地降低数据库的并发性能，因为它强制事务串行执行。
- 在实际应用中，应该尽量避免使用 Serializable 隔离级别，除非对数据一致性有非常严格的要求。

如何设置事务隔离级别？

可以使用以下 SQL 语句设置事务隔离级别：

全局级别：

SET GLOBAL TRANSACTION ISOLATION LEVEL {READ UNCOMMITTED | READ COMMITTED | REPEATABLE READ | SERIALIZABLE};

会话级别：

SET SESSION TRANSACTION ISOLATION LEVEL {READ UNCOMMITTED | READ COMMITTED | REPEATABLE READ | SERIALIZABLE};

事务级别：

SET TRANSACTION ISOLATION LEVEL {READ UNCOMMITTED | READ COMMITTED | REPEATABLE READ | SERIALIZABLE};
START TRANSACTION;
-- ... 事务操作 ...
COMMIT;

隔离级别选择的权衡：性能与一致性

选择合适的事务隔离级别需要在性能和数据一致性之间进行权衡。

一致性要求高： 选择 Serializable 或 Repeatable Read。
性能要求高： 选择 Read Committed 或 Read Uncommitted。

通常情况下，Repeatable Read 是一个比较好的折衷方案，它既能保证数据的一致性，又能提供较好的并发性能。

代码示例总结

为了方便理解，我们用 Python 和 pymysql 库来演示不同隔离级别下的并发问题。

import pymysql
import threading
import time

# 数据库连接配置
db_config = {
    'host': 'localhost',
    'user': 'root',
    'password': 'your_password',
    'database': 'testdb',
    'charset': 'utf8mb4',
    'cursorclass': pymysql.cursors.DictCursor
}

def execute_sql(isolation_level, sql):
    """执行 SQL 语句，并设置事务隔离级别"""
    conn = pymysql.connect(**db_config)
    try:
        with conn.cursor() as cursor:
            cursor.execute(f"SET SESSION TRANSACTION ISOLATION LEVEL {isolation_level}")
            conn.commit() # 需要提交才能生效
            cursor.execute(sql)
            result = cursor.fetchall()
            conn.commit()
            return result
    except Exception as e:
        print(f"Error: {e}")
        conn.rollback()
        return None
    finally:
        conn.close()

def transaction_A(isolation_level, id):
    """事务 A：读取并更新数据"""
    print(f"事务 A ({isolation_level}) 开始")
    result = execute_sql(isolation_level, f"SELECT name FROM users WHERE id = {id}")
    if result:
        print(f"事务 A ({isolation_level}) 第一次读取: {result[0]['name']}")
    else:
        print(f"事务 A ({isolation_level}) 第一次读取: None")
        return

    time.sleep(1)  # 模拟事务 A 暂停

    execute_sql(isolation_level, f"UPDATE users SET name = 'Alice (A)' WHERE id = {id}")
    print(f"事务 A ({isolation_level}) 更新 name 为 'Alice (A)'")

    time.sleep(1)  # 模拟事务 A 暂停

    result = execute_sql(isolation_level, f"SELECT name FROM users WHERE id = {id}")
    if result:
        print(f"事务 A ({isolation_level}) 第二次读取: {result[0]['name']}")
    else:
        print(f"事务 A ({isolation_level}) 第二次读取: None")
    print(f"事务 A ({isolation_level}) 结束")

def transaction_B(isolation_level, id):
    """事务 B：更新数据"""
    print(f"事务 B ({isolation_level}) 开始")
    time.sleep(0.5)  # 稍微延迟启动，以便事务 A 先执行
    execute_sql(isolation_level, f"UPDATE users SET name = 'Bob (B)' WHERE id = {id}")
    print(f"事务 B ({isolation_level}) 更新 name 为 'Bob (B)'")
    print(f"事务 B ({isolation_level}) 结束")

if __name__ == "__main__":
    # 创建 users 表 (如果不存在)
    execute_sql('READ COMMITTED', "CREATE TABLE IF NOT EXISTS users (id INT PRIMARY KEY, name VARCHAR(255))")
    # 插入数据 (如果表为空)
    if not execute_sql('READ COMMITTED', "SELECT * FROM users"):
        execute_sql('READ COMMITTED', "INSERT INTO users (id, name) VALUES (1, 'Alice')")

    isolation_level = 'READ COMMITTED' # 可以修改为 'READ UNCOMMITTED', 'REPEATABLE READ', 'SERIALIZABLE'
    id_to_operate = 1

    # 创建并启动两个线程
    thread_A = threading.Thread(target=transaction_A, args=(isolation_level, id_to_operate))
    thread_B = threading.Thread(target=transaction_B, args=(isolation_level, id_to_operate))

    thread_A.start()
    thread_B.start()

    thread_A.join()
    thread_B.join()

    print("所有事务执行完毕")

    # 清理测试数据（可选）
    # execute_sql('READ COMMITTED', "DROP TABLE users")

运行以上代码，并尝试修改 isolation_level 的值，观察不同隔离级别下的输出结果，可以更直观地理解不同隔离级别的并发行为。请务必替换 your_password 为你自己的数据库密码。

总结：理解隔离级别，选择最适合的方案

事务隔离级别是数据库并发控制的重要手段。理解不同隔离级别的特性，并根据实际业务需求选择最合适的隔离级别，是保证数据一致性和提高系统性能的关键。需要注意的是，更高的隔离级别通常意味着更低的并发性能，因此需要在两者之间进行权衡。通过实际的代码示例，我们可以更好地理解隔离级别在不同场景下的表现。

发表回复 取消回复

发表回复取消回复