MySQL高阶讲座之：`TDSQL`的分布式事务：其`2PC`（两阶段提交）和`3PC`的实现细节。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

各位观众老爷们，晚上好！我是你们的老朋友，今天咱们来聊点硬核的，关于TDSQL分布式事务的那些事儿。大家都知道，单机数据库玩得再溜，数据量大了，并发高了，也得歇菜。所以，分布式数据库就应运而生了。但是，分布式数据库的事务，那可比单机数据库复杂多了。今天，咱们就重点扒一扒TDSQL里，2PC和3PC这俩老家伙的实现细节。

开场白：分布式事务，搞事情的祖宗

话说，分布式事务，听起来高大上，其实就是想在多个数据库节点上，保证要么全部成功，要么全部失败。这就像咱们跟朋友合伙做生意，必须说好，要么一起发财，要么一起喝西北风，不能你赚了，我亏了，这不公平！

但是，要做到这一点，可不容易。因为网络不稳定，节点可能宕机，各种幺蛾子都会冒出来。所以，就需要一些机制来保证事务的一致性，这就是2PC和3PC登场的原因。

`2PC`：两步走，稳扎稳打

2PC，全称是Two-Phase Commit，翻译过来就是两阶段提交。它的思想很简单，就是把一个事务分成两个阶段来执行：

准备阶段（Prepare Phase）：协调者询问所有参与者，你丫准备好了没？能不能提交？
提交阶段（Commit Phase）：如果所有参与者都说准备好了，协调者就通知大家提交；否则，就通知大家回滚。

咱们用一个简单的转账例子来说明：

假设用户A要给用户B转账100元，涉及到两个数据库节点：

节点1： 存储用户A的账户信息
节点2： 存储用户B的账户信息

准备阶段：

协调者（假设是TDSQL的某个组件）向节点1和节点2发送Prepare消息，询问是否可以执行转账操作。
节点1收到Prepare消息后，检查用户A的余额是否足够，如果足够，就锁定用户A的账户，并记录undo log和redo log，然后回复协调者“准备好了”。
节点2收到Prepare消息后，也做类似的操作，锁定用户B的账户，记录undo log和redo log，然后回复协调者“准备好了”。

提交阶段：

如果协调者收到所有参与者的“准备好了”的回复，就向所有参与者发送Commit消息。
节点1收到Commit消息后，执行真正的转账操作，扣除用户A的余额，然后释放锁。
节点2收到Commit消息后，也执行真正的转账操作，增加用户B的余额，然后释放锁。
如果协调者收到任何一个参与者的“不行”或者超时未收到回复，就向所有参与者发送Rollback消息。
节点1收到Rollback消息后，利用undo log回滚之前的操作，恢复用户A的余额，然后释放锁。
节点2收到Rollback消息后，也做类似的回滚操作。

下面是简单的代码示例（伪代码，仅用于说明流程）：

# 协调者
def coordinate_transaction(transaction):
    participants = transaction.get_participants()
    prepared = True
    for participant in participants:
        result = participant.prepare(transaction) # 发送prepare消息
        if not result:
            prepared = False
            break

    if prepared:
        for participant in participants:
            participant.commit(transaction) # 发送commit消息
    else:
        for participant in participants:
            participant.rollback(transaction) # 发送rollback消息

# 参与者
class Participant:
    def prepare(self, transaction):
        try:
            # 锁定资源，记录undo/redo log
            self.lock_resource(transaction)
            self.record_logs(transaction)
            return True
        except Exception as e:
            print(f"Prepare failed: {e}")
            return False

    def commit(self, transaction):
        try:
            # 执行操作
            self.execute_operation(transaction)
            self.release_lock(transaction)
            return True
        except Exception as e:
            print(f"Commit failed: {e}")
            return False

    def rollback(self, transaction):
        try:
            # 回滚操作
            self.undo_operation(transaction)
            self.release_lock(transaction)
            return True
        except Exception as e:
            print(f"Rollback failed: {e}")
            return False

2PC的优点：

原理简单，容易理解。
保证了强一致性。

2PC的缺点：

同步阻塞： 在准备阶段，参与者需要锁定资源，等待协调者的指令，这会导致长时间的阻塞。
单点故障： 如果协调者宕机，参与者就不知道该怎么办了，会一直阻塞下去。
数据不一致： 如果协调者在发送Commit消息后宕机，部分参与者可能已经提交了事务，而另一部分参与者没有收到Commit消息，导致数据不一致。

2PC在TDSQL中的应用：

TDSQL在某些特定的场景下会使用2PC，例如涉及到多个存储节点的数据修改时。为了缓解2PC的缺点，TDSQL通常会对2PC进行优化，例如：

优化锁机制： 使用更细粒度的锁，减少锁的持有时间。
协调者高可用： 使用多个协调者，避免单点故障。
引入超时机制： 如果参与者在一定时间内没有收到协调者的指令，就自动回滚事务。

`3PC`：三步走，试图解决阻塞问题

3PC，全称是Three-Phase Commit，翻译过来就是三阶段提交。它是2PC的改进版，试图解决2PC的同步阻塞问题。3PC在2PC的基础上增加了一个预提交阶段（PreCommit Phase）。

预提交阶段：

协调者询问所有参与者，你丫行不行啊？能不能执行？
参与者收到请求后，如果认为可以执行，就回复“可以”，否则回复“不行”。

准备阶段：

如果协调者收到所有参与者的“可以”的回复，就向所有参与者发送Prepare消息，询问是否可以提交？
参与者收到Prepare消息后，如果认为可以提交，就锁定资源，记录undo log和redo log，然后回复协调者“准备好了”。

提交阶段：

如果协调者收到所有参与者的“准备好了”的回复，就向所有参与者发送Commit消息。
参与者收到Commit消息后，执行真正的转账操作，扣除用户A的余额，然后释放锁。
如果协调者收到任何一个参与者的“不行”或者超时未收到回复，就向所有参与者发送Rollback消息。
参与者收到Rollback消息后，利用undo log回滚之前的操作，恢复用户A的余额，然后释放锁。

下面是简单的代码示例（伪代码，仅用于说明流程）：

# 协调者
def coordinate_transaction_3pc(transaction):
    participants = transaction.get_participants()

    # 预提交阶段
    pre_commit_ok = True
    for participant in participants:
        result = participant.can_commit(transaction) # 发送can_commit消息
        if not result:
            pre_commit_ok = False
            break

    if not pre_commit_ok:
        for participant in participants:
            participant.abort(transaction) # 发送abort消息 (类似rollback)
        return

    # 准备阶段
    prepared = True
    for participant in participants:
        result = participant.prepare(transaction) # 发送prepare消息
        if not result:
            prepared = False
            break

    if prepared:
        for participant in participants:
            participant.commit(transaction) # 发送commit消息
    else:
        for participant in participants:
            participant.rollback(transaction) # 发送rollback消息

# 参与者
class Participant3PC:
    def can_commit(self, transaction):
        try:
            # 检查是否可以执行，不锁定资源
            if self.can_execute(transaction):
                return True
            else:
                return False
        except Exception as e:
            print(f"CanCommit failed: {e}")
            return False

    def prepare(self, transaction):
        try:
            # 锁定资源，记录undo/redo log
            self.lock_resource(transaction)
            self.record_logs(transaction)
            return True
        except Exception as e:
            print(f"Prepare failed: {e}")
            # 即使prepare失败，也可能进入pre-commit状态，需要abort
            self.abort(transaction)
            return False

    def commit(self, transaction):
        try:
            # 执行操作
            self.execute_operation(transaction)
            self.release_lock(transaction)
            return True
        except Exception as e:
            print(f"Commit failed: {e}")
            return False

    def rollback(self, transaction):
        try:
            # 回滚操作
            self.undo_operation(transaction)
            self.release_lock(transaction)
            return True
        except Exception as e:
            print(f"Rollback failed: {e}")
            return False

    def abort(self, transaction):
        try:
            # 预提交阶段失败，需要中止
            self.rollback(transaction) # 可以直接rollback, 因为还没真正prepare
        except Exception as e:
            print(f"Abort failed: {e}")
            return False

    def can_execute(self, transaction):
        # 检查是否可以执行的逻辑 (例如，余额是否充足)
        return True

3PC的优点：

减少了阻塞时间：预提交阶段可以提前判断是否可以执行事务，避免了不必要的资源锁定。

3PC的缺点：

复杂性增加：3PC比2PC更复杂，实现难度更高。
仍然存在数据不一致的风险：如果协调者在发送Commit消息后宕机，部分参与者可能已经提交了事务，而另一部分参与者没有收到Commit消息，导致数据不一致。
容错性并没有本质上的提高：虽然增加了一个预提交阶段，但是仍然无法完全避免协调者宕机带来的问题。

3PC在TDSQL中的应用：

虽然3PC理论上可以缓解2PC的阻塞问题，但是由于其复杂性较高，且并不能完全解决数据一致性问题，所以在实际应用中，TDSQL很少直接使用标准的3PC。更多的是借鉴3PC的思想，进行一些优化，例如：

异步提交： 将提交阶段改为异步执行，减少阻塞时间。
引入Paxos/Raft等共识算法： 使用共识算法来保证协调者的高可用，避免单点故障。

`TDSQL`分布式事务的优化策略

TDSQL作为一款分布式数据库，在实现分布式事务时，会采取多种优化策略，以提高性能和可用性。

XA事务： XA事务是一种标准的分布式事务协议，TDSQL支持XA事务，可以与其他支持XA事务的数据库进行交互。但是，XA事务的性能较差，所以TDSQL通常会尽量避免使用XA事务。
柔性事务： 柔性事务是指允许一定程度的数据不一致，以换取更高的性能和可用性。TDSQL支持多种柔性事务模型，例如：
- TCC（Try-Confirm-Cancel）： TCC是一种补偿型的事务模型，它将一个事务分成三个阶段：Try、Confirm和Cancel。Try阶段尝试执行业务操作，并预留资源；Confirm阶段确认执行业务操作，并真正使用资源；Cancel阶段取消执行业务操作，并释放资源。
- SAGA： SAGA是一种长事务解决方案，它将一个长事务分成多个子事务，每个子事务都可以在本地数据库中执行。如果某个子事务失败，就执行相应的补偿操作，回滚之前的子事务。
- 最终一致性： 最终一致性是指允许数据在一段时间内不一致，但是最终会达到一致。TDSQL可以通过异步复制、消息队列等机制来实现最终一致性。
多副本机制： TDSQL通常会采用多副本机制，将数据复制到多个节点上，以提高数据的可用性和可靠性。当某个节点宕机时，可以自动切换到其他节点，保证服务的正常运行。
分布式锁： TDSQL使用分布式锁来保证并发访问的正确性。分布式锁可以防止多个节点同时修改同一份数据，避免数据冲突。
两阶段锁协议（2PL）： TDSQL在内部也会使用2PL协议来保证事务的隔离性，防止并发事务之间互相干扰。

各种事务模型的对比：

事务模型	优点	缺点	适用场景
XA	标准协议，兼容性好，保证强一致性	性能较差，实现复杂	跨数据库事务，对一致性要求非常高的场景
TCC	灵活性高，可以自定义补偿逻辑	实现复杂，需要编写大量的补偿代码	业务逻辑复杂，需要手动控制事务的场景
SAGA	适用于长事务，可以分解成多个本地事务	事务回滚复杂，需要考虑补偿操作的幂等性	业务流程长，需要保证最终一致性的场景
最终一致性	性能高，可用性高	数据可能存在短暂的不一致	对一致性要求不高，追求性能和可用性的场景

表格总结：`2PC` vs `3PC`

特性	`2PC`	`3PC`
阶段数	2	3
阻塞	严重阻塞	一定程度缓解阻塞，但仍然存在
复杂性	较低	较高
一致性	强一致性	强一致性 (理论上，实际仍然可能存在不一致)
容错性	较差	略有提高，但提升有限
适用场景	对一致性要求高，性能要求不高的场景	理论上适用于高并发场景，但实际应用较少
`TDSQL`应用	部分场景，经过优化后使用	较少直接使用，更多的是借鉴其思想

总结：分布式事务，路漫漫其修远兮

好了，今天的讲座就到这里。关于TDSQL分布式事务的2PC和3PC，咱们就先聊到这儿。其实，分布式事务是一个非常复杂的问题，没有银弹。TDSQL在实际应用中，会根据不同的场景选择合适的事务模型，并进行各种优化，以达到性能、可用性和一致性之间的平衡。

记住，没有最好的方案，只有最合适的方案。希望今天的分享对大家有所帮助！下次再见！

开场白：分布式事务，搞事情的祖宗

2PC：两步走，稳扎稳打

3PC：三步走，试图解决阻塞问题

TDSQL分布式事务的优化策略

表格总结：2PC vs 3PC

总结：分布式事务，路漫漫其修远兮

发表回复 取消回复

`2PC`：两步走，稳扎稳打

`3PC`：三步走，试图解决阻塞问题

`TDSQL`分布式事务的优化策略

表格总结：`2PC` vs `3PC`

发表回复取消回复