MySQL高可用与集群之：`MySQL`的`Semi-sync`复制：其在数据一致性上的权衡。 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

MySQL Semi-Sync复制：数据一致性与性能的权衡之道

大家好，今天我们来深入探讨MySQL高可用架构中的一个重要组成部分：Semi-sync复制。在追求高可用和数据一致性的道路上，Semi-sync复制提供了一种介于异步复制和全同步复制之间的选择，它在两者之间做出了权衡，既保证了一定的数据一致性，又不会对主库性能造成过大的影响。

一、复制模式回顾：异步复制的挑战

在深入Semi-sync之前，我们先回顾一下MySQL的经典异步复制模式。

在异步复制中，主库执行完事务后，会立即返回给客户端，并异步地将binlog发送给从库。这意味着，主库无需等待从库确认收到binlog，就可以继续处理后续的事务。

这种模式的优点是性能高，主库几乎不受复制的影响。但缺点也很明显：数据一致性难以保证。在主库发生故障时，可能会丢失一部分尚未同步到从库的数据，导致主从数据不一致。

例如，考虑以下场景：

客户端向主库成功写入数据。
主库将binlog写入本地文件。
主库返回客户端成功信息。
主库尚未将binlog发送给从库。
主库突然宕机。

此时，从库上没有包含最新的数据，导致数据丢失。

二、Semi-sync复制的原理：一种折衷方案

Semi-sync复制，也称为半同步复制，是对异步复制的一种改进。它要求主库在提交事务之前，至少要等待一个从库收到并写入relay log。也就是说，主库需要等待从库的确认（ACK），才能认为事务成功。

具体流程如下：

客户端向主库发送写操作。
主库执行写操作，并将binlog写入本地文件。
主库将binlog发送给从库。
至少一个从库接收到binlog，并将其写入relay log。
该从库向主库发送ACK确认。
主库收到ACK确认后，提交事务，并返回客户端成功信息。

与异步复制相比，Semi-sync复制增加了一个等待从库确认的步骤，从而提高了数据一致性。即使主库发生故障，至少有一个从库拥有最新的数据，降低了数据丢失的风险。

三、配置Semi-sync复制：实战演练

接下来，我们来演示如何配置Semi-sync复制。

1. 安装Semi-sync插件

首先，需要在主库和从库上安装Semi-sync插件。MySQL 5.5及更高版本通常自带该插件，但默认情况下是禁用的。

在主库上执行以下SQL语句：

INSTALL PLUGIN rpl_semi_sync_master SONAME 'rpl_semi_sync_master.so';

在从库上执行以下SQL语句：

INSTALL PLUGIN rpl_semi_sync_slave SONAME 'rpl_semi_sync_slave.so';

2. 配置主库

修改主库的my.cnf配置文件，添加以下配置：

plugin_load = "rpl_semi_sync_master=rpl_semi_sync_master.so"
rpl_semi_sync_master_enabled = 1
rpl_semi_sync_master_timeout = 10  # 单位秒，主库等待从库ACK的超时时间
log_bin = mysql-bin  # 开启binlog
server_id = 1        # 设置server_id，确保唯一
binlog_format = ROW  # 推荐使用ROW格式，保证数据一致性
sync_binlog = 1      # 确保binlog写入磁盘

重启主库使配置生效。

3. 配置从库

修改从库的my.cnf配置文件，添加以下配置：

plugin_load = "rpl_semi_sync_slave=rpl_semi_sync_slave.so"
rpl_semi_sync_slave_enabled = 1
server_id = 2        # 设置server_id，确保唯一
relay_log = relay-log  # 开启relay log
relay_log_index = relay-log.index
log_slave_updates = 1 # 允许从库将接收到的binlog写入自己的binlog

重启从库使配置生效。

4. 启动复制

在从库上执行以下SQL语句启动复制：

CHANGE MASTER TO
    MASTER_HOST='主库IP地址',
    MASTER_USER='复制用户',
    MASTER_PASSWORD='复制密码',
    MASTER_LOG_FILE='mysql-bin.000001', # 主库的binlog文件名
    MASTER_LOG_POS=4,                   # 主库的binlog位置
    MASTER_CONNECT_RETRY=10,             # 连接重试间隔
    MASTER_USE_GTID = SLAVE_POS;        # 使用GTID复制 (可选，推荐)

START SLAVE;

5. 验证Semi-sync是否生效

在主库上执行以下SQL语句，查看Semi-sync状态：

SHOW GLOBAL STATUS LIKE 'Rpl_semi_sync%';

关注以下几个关键指标：

Rpl_semi_sync_master_status: 应该显示 ON，表示Semi-sync已启用。
Rpl_semi_sync_master_clients: 应该大于0，表示至少有一个从库连接到主库并启用了Semi-sync。
Rpl_semi_sync_master_no_tx: 表示没有等待从库ACK的事务数量。
Rpl_semi_sync_master_yes_tx: 表示成功等待从库ACK的事务数量。

在从库上执行以下SQL语句，查看Semi-sync状态：

SHOW GLOBAL STATUS LIKE 'Rpl_semi_sync%';

关注以下关键指标：

Rpl_semi_sync_slave_status: 应该显示 ON，表示Semi-sync已启用。

如果以上状态显示正常，则表示Semi-sync复制已成功配置。

四、Semi-sync的参数调优：根据业务需求调整

Semi-sync复制的性能和数据一致性受到多个参数的影响，我们需要根据具体的业务需求进行调整。

参数名	作用	默认值	建议
`rpl_semi_sync_master_timeout`	主库等待从库ACK的超时时间，单位秒。	10	如果网络延迟较高，可以适当增加该值，避免因超时导致Semi-sync降级为异步复制。如果网络稳定，可以适当降低该值，提高响应速度。
`rpl_semi_sync_master_wait_point`	控制主库在什么时机等待从库的ACK。`AFTER_SYNC`表示在binlog写入磁盘后等待，`AFTER_COMMIT`表示在事务提交后等待。	`AFTER_SYNC`	`AFTER_SYNC`可以保证binlog写入磁盘，但不能保证事务提交。`AFTER_COMMIT`可以保证事务提交，但可能会增加延迟。根据业务需求选择。
`rpl_semi_sync_master_wait_no_slave`	当没有可用的Semi-sync从库时，是否停止主库的事务提交。	`OFF`	如果希望在任何情况下都保证数据一致性，可以设置为`ON`。但这样会导致主库在没有从库的情况下无法提供服务。如果设置为`OFF`，则当没有从库时，Semi-sync会自动降级为异步复制。
`rpl_semi_sync_master_trace_level`	控制Semi-sync的跟踪级别，用于调试。	0	通常情况下不需要修改。
`rpl_semi_sync_master_wait_for_slave_count`	指定主库需要等待的从库数量。	1	在高可用架构中，通常需要多个从库，可以设置该值大于1，以提高数据冗余。

代码示例：修改rpl_semi_sync_master_timeout参数

SET GLOBAL rpl_semi_sync_master_timeout = 30;

五、数据一致性级别：多层保障

Semi-sync复制虽然提高了数据一致性，但并不能保证绝对的数据一致性。它只能保证在主库提交事务之前，至少有一个从库收到了binlog。

为了进一步提高数据一致性，我们可以结合使用以下技术：

GTID复制: GTID（Global Transaction Identifier）是全局事务ID，可以唯一标识一个事务。使用GTID复制可以避免因binlog文件名和位置不一致导致的数据丢失或重复。
Binlog校验和: 启用binlog校验和可以检测binlog在传输过程中是否发生损坏。
MTS（Multi-Threaded Slave）： MTS允许从库并行执行来自不同数据库的事务，提高复制速度。
数据校验工具: 定期使用数据校验工具（如pt-table-sync）检查主从数据是否一致。

六、Semi-sync的缺陷与替代方案：寻找更优解

虽然Semi-sync复制在数据一致性和性能之间取得了较好的平衡，但它仍然存在一些缺陷：

单点故障： 如果唯一的从库发生故障，主库会阻塞，直到有新的从库加入。
网络延迟： 网络延迟会影响ACK的响应时间，从而影响主库的性能。
无法保证绝对一致性： 在某些极端情况下，仍然可能发生数据丢失。

为了解决这些问题，我们可以考虑以下替代方案：

增强型Semi-sync (Lossless Semi-sync)： 增强型Semi-sync在Semi-sync的基础上增加了更多的保障机制，例如，保证所有的事务都必须被至少一个从库接收并持久化，即使主库发生故障，也不会丢失任何数据。
Galera Cluster: Galera Cluster是一种基于组复制的MySQL集群方案，可以提供更高的可用性和数据一致性。
MySQL Group Replication: MySQL Group Replication是MySQL官方提供的组复制方案，可以提供更高的容错性和数据一致性。

复制模式	数据一致性	性能	复杂度	适用场景
异步复制	最低	最高	低	对数据一致性要求不高，但对性能要求极高的场景，例如，日志系统。
Semi-sync复制	中等	中等	中	对数据一致性有一定要求，但不能接受过高的性能损失的场景，例如，电商网站。
增强型Semi-sync / 组复制	最高	较低	高	对数据一致性要求极高，且可以接受一定的性能损失的场景，例如，金融系统。

七、Semi-sync复制的适用场景：权衡利弊

Semi-sync复制适用于以下场景：

需要一定的数据一致性，但不能接受过高的性能损失。 例如，电商网站、社交网络等。
主库和从库之间的网络延迟较低。 如果网络延迟较高，Semi-sync可能会降级为异步复制。
可以接受短暂的主库阻塞。 如果从库发生故障，主库会阻塞，直到有新的从库加入。

在选择复制模式时，我们需要综合考虑数据一致性、性能、可用性和复杂度等因素，选择最适合业务需求的方案。

八、数据一致性与性能的平衡点：没有银弹

Semi-sync复制并不是万能的，它只是在数据一致性和性能之间做出了一个折衷。在实际应用中，我们需要根据具体的业务需求，选择最合适的复制模式。没有银弹，只有更适合的方案。

总结：Semi-sync复制是MySQL高可用架构中重要的组成部分，它通过等待至少一个从库的确认，提高了数据一致性，但同时也带来了一定的性能损失。我们需要根据业务需求选择合适的参数配置和复制模式，以达到数据一致性和性能的最佳平衡。