如何通过 `pt-table-checksum` 和 `pt-sync-replica` 解决`主从`数据`不一致`问题？ - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

使用 `pt-table-checksum` 和 `pt-sync-replica` 解决 MySQL 主从数据不一致问题

大家好，今天我们来深入探讨如何利用Percona Toolkit中的 pt-table-checksum 和 pt-sync-replica 工具来解决 MySQL 主从复制中常见的数据不一致问题。主从复制是MySQL高可用架构的基础，但由于网络延迟、硬件故障、软件Bug等原因，主从数据不一致的情况时有发生。熟练掌握这两个工具的使用，能帮助我们快速定位并修复这些问题，保证数据一致性。

一、理解主从数据不一致的原因

在深入工具的使用之前，我们先来了解一下导致主从数据不一致的常见原因：

网络问题： 主库的更新日志在传输到从库的过程中，可能因为网络不稳定而丢失或延迟，导致数据不一致。
并发冲突： 从库在应用主库日志时，可能与自身的并发操作发生冲突，导致数据写入错误或丢失。
Bug： MySQL 软件本身可能存在Bug，导致复制过程出现异常。
人为错误： 在主库上执行了未同步到从库的操作，例如直接修改了从库数据。
硬件故障： 主库或从库的硬件故障可能导致数据损坏或丢失。

二、pt-table-checksum：校验数据一致性

pt-table-checksum 用于校验主库和从库上表的数据是否一致。它通过计算每个表的checksum值，然后比较主从库的checksum值来判断数据是否一致。

1. 工作原理

pt-table-checksum 的工作流程大致如下：

连接主库： 连接到主库，获取需要校验的数据库和表的信息。
计算checksum： 在主库上，对每个表计算 checksum 值。计算方法是读取表中的数据，并使用特定算法（默认为 CRC32）计算出一个唯一的 checksum 值。为了避免锁定主库，pt-table-checksum 会分块读取数据，并在每个块之间短暂暂停。
创建checksum表： 在主库上创建一个临时表（默认名为 percona.checksums），用于存储checksum结果。
传输checksum数据： 将 checksum 数据从主库复制到从库。
连接从库： 连接到从库。
比较checksum： 在从库上，比较从主库复制过来的checksum值和从库自身计算的checksum值。
报告差异： 报告主从库之间checksum值不一致的表。

2. 使用方法

pt-table-checksum 的基本使用方法如下：

pt-table-checksum --host=<master_host> --user=<user> --password=<password> --databases=<database_list>

其中：

--host：主库的hostname或IP地址。
--user：用于连接主库的用户名。
--password：用于连接主库的密码。
--databases：需要校验的数据库列表，多个数据库之间用逗号分隔。

3. 常用选项

选项	描述
`--nocheck-replication`	默认情况下，`pt-table-checksum` 会检查从库的复制状态，如果复制停止或延迟过高，则会报错。使用此选项可以禁用此检查。
`--tables`	指定需要校验的表列表，多个表之间用逗号分隔。
`--chunk-size`	指定每次读取数据块的大小，默认为 1000 行。适当调整 chunk size 可以平衡主库的负载和 checksum 的速度。
`--max-lag`	指定允许的最大复制延迟，默认为 1 秒。如果从库的复制延迟超过此值，`pt-table-checksum` 会暂停 checksum 过程。
`--create-replicate-table`	默认情况下, `pt-table-checksum`会在主库创建 `percona.checksums` 表，并通过复制将其同步到从库。如果你的环境中已经存在该表，或者你希望手动创建该表，可以使用 `--no-create-replicate-table` 选项禁用自动创建。
`--replicate-table`	指定用于存储checksum结果的表名，默认为 `percona.checksums`。
`--recursion-method`	指定查找slave的方式，默认是`hosts`，会查询`information_schema.processlist`表，也可以指定为`dsn=D=test,t=checksum`，从指定的表中读取slave的信息。
`--no-check-binlog-format`	跳过对 binlog_format的检查。

4. 示例

假设我们有一个主库 master 和一个从库 slave，我们需要校验 mydatabase 数据库中的所有表：

pt-table-checksum --host=master --user=root --password=password --databases=mydatabase

执行结果会显示每个表的 checksum 值，以及主从库之间是否存在差异。如果存在差异，则会提示具体的表名。

5. checksum 表的结构

pt-table-checksum 使用的 percona.checksums 表结构如下：

CREATE TABLE `checksums` (
  `db` varchar(64) NOT NULL,
  `tbl` varchar(64) NOT NULL,
  `chunk` int(11) NOT NULL,
  `chunk_time` float DEFAULT NULL,
  `chunk_index` varchar(255) DEFAULT NULL,
  `lower_boundary` text,
  `upper_boundary` text,
  `this_cnt` int(11) DEFAULT NULL,
  `this_crc` bigint(20) DEFAULT NULL,
  `master_cnt` int(11) DEFAULT NULL,
  `master_crc` bigint(20) DEFAULT NULL,
  `ts` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
  PRIMARY KEY (`db`,`tbl`,`chunk`),
  KEY `ts_db_tbl` (`ts`,`db`,`tbl`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8

列名	描述
`db`	数据库名。
`tbl`	表名。
`chunk`	数据块的编号。
`chunk_time`	计算数据块checksum所花费的时间。
`chunk_index`	用于分块的索引列。
`lower_boundary`	数据块的下边界值。
`upper_boundary`	数据块的上边界值。
`this_cnt`	当前服务器上数据块中的行数。
`this_crc`	当前服务器上数据块的checksum值。
`master_cnt`	主服务器上数据块中的行数。
`master_crc`	主服务器上数据块的checksum值。
`ts`	记录的时间戳。

三、pt-sync-replica：修复数据不一致

pt-sync-replica 用于修复主从库之间的数据不一致。它通过比较主从库的数据，然后生成修复语句，并在从库上执行这些语句来同步数据。

1. 工作原理

pt-sync-replica 的工作流程大致如下：

连接主库和从库： 连接到主库和从库，获取需要同步的表的信息。
比较数据： 分块比较主从库的数据。 pt-sync-replica 会根据表的索引和主键，将表数据分成多个块，然后逐个比较每个块中的数据。
生成修复语句： 对于每个不一致的数据块，pt-sync-replica 会生成相应的 INSERT、UPDATE 或 DELETE 语句，以使从库的数据与主库保持一致。
执行修复语句： 在从库上执行生成的修复语句。
验证修复结果： 验证修复后的数据是否与主库一致。

2. 使用方法

pt-sync-replica 的基本使用方法如下：

pt-sync-replica --host=<master_host> --user=<user> --password=<password> --databases=<database_list> --replicate-host=<slave_host> --replicate-user=<slave_user> --replicate-password=<slave_password>

其中：

--host：主库的hostname或IP地址。
--user：用于连接主库的用户名。
--password：用于连接主库的密码。
--databases：需要同步的数据库列表，多个数据库之间用逗号分隔。
--replicate-host：从库的hostname或IP地址。
--replicate-user：用于连接从库的用户名。
--replicate-password：用于连接从库的密码。

3. 常用选项

选项	描述
`--print`	将生成的修复语句打印到标准输出，而不实际执行。这可以用于审查修复语句，或者在手动执行之前进行测试。
`--execute`	实际在从库上执行生成的修复语句。默认情况下，`pt-sync-replica` 不会执行任何修改操作，需要使用此选项才能真正修复数据。
`--chunk-size`	指定每次比较数据块的大小，默认为 1000 行。适当调整 chunk size 可以平衡主从库的负载和同步的速度。
`--max-lag`	指定允许的最大复制延迟，默认为 1 秒。如果从库的复制延迟超过此值，`pt-sync-replica` 会暂停同步过程。
`--no-check-replication`	默认情况下，`pt-sync-replica` 会检查从库的复制状态，如果复制停止或延迟过高，则会报错。使用此选项可以禁用此检查。
`--tables`	指定需要同步的表列表，多个表之间用逗号分隔。
`--replicate-throttle`	指定在从库上执行修复语句时的延迟时间（秒）。这可以防止修复过程对从库造成过大的负载。
`--dry-run`	模拟执行，不实际修改数据。

4. 示例

假设我们有一个主库 master 和一个从库 slave，我们需要同步 mydatabase 数据库中的所有表：

pt-sync-replica --host=master --user=root --password=password --databases=mydatabase --replicate-host=slave --replicate-user=root --replicate-password=password --execute

执行结果会显示修复的语句和同步的状态。

5. 注意事项

备份： 在执行 pt-sync-replica 之前，务必备份从库的数据。以防修复过程中出现意外，可以快速恢复数据。
权限： 确保用于连接主库和从库的用户具有足够的权限。例如，需要 SELECT、INSERT、UPDATE、DELETE 等权限。
负载： pt-sync-replica 会对主从库造成一定的负载。建议在业务低峰期执行。
binlog_format： 确保主库的 binlog_format 设置为 ROW。 pt-sync-replica 依赖于行级别的binlog格式来生成正确的修复语句。
大表： 对于大表，同步过程可能需要很长时间。可以考虑分批同步，或者使用其他更高效的同步工具。

四、一个完整的案例

假设我们发现 mydatabase.mytable 表在主从库之间存在数据不一致。我们可以按照以下步骤来解决这个问题：

使用 pt-table-checksum 校验数据一致性：

pt-table-checksum --host=master --user=root --password=password --databases=mydatabase --tables=mytable

如果结果显示 mydatabase.mytable 的 checksum 值不一致，则说明该表存在数据不一致。

使用 pt-sync-replica 修复数据不一致：

pt-sync-replica --host=master --user=root --password=password --databases=mydatabase --tables=mytable --replicate-host=slave --replicate-user=root --replicate-password=password --execute

执行该命令后，pt-sync-replica 会比较主从库的 mydatabase.mytable 表的数据，并生成修复语句，然后在从库上执行这些语句，使从库的数据与主库保持一致。

再次使用 pt-table-checksum 校验数据一致性：

pt-table-checksum --host=master --user=root --password=password --databases=mydatabase --tables=mytable

如果结果显示 mydatabase.mytable 的 checksum 值一致，则说明数据不一致问题已经解决。

五、更高级的用法

结合监控系统： 可以将 pt-table-checksum 集成到监控系统中，定期检查主从数据一致性，并在发现不一致时自动报警。
自定义修复策略： 可以编写自定义脚本，根据 pt-table-checksum 的结果，制定更灵活的修复策略。例如，可以根据差异的大小和类型，选择不同的修复方法。
与其他工具结合使用： 可以将 pt-table-checksum 和 pt-sync-replica 与其他 Percona Toolkit 工具结合使用，例如 pt-online-schema-change，实现更复杂的维护任务。

六、实际生产环境中的注意事项

在实际生产环境中，使用 pt-table-checksum 和 pt-sync-replica 时需要考虑以下因素：

主从延迟： 在主从延迟较高的情况下，checksum和同步的结果可能不准确。建议在主从延迟较低时执行这些操作。
并发： 在执行 checksum 和同步操作时，可能会对主从库造成一定的负载。建议在业务低峰期执行这些操作，或者调整 chunk size 和 throttle 参数，以降低负载。
数据量： 对于数据量非常大的表，checksum和同步过程可能需要很长时间。可以考虑分批执行这些操作，或者使用其他更高效的工具。
自动化： 建议将 checksum 和同步操作自动化，例如通过定时任务定期检查数据一致性，并在发现不一致时自动修复。
监控： 监控 checksum 和同步操作的执行情况，例如执行时间、错误信息等。这可以帮助我们及时发现和解决问题。
权限控制： 严格控制执行 checksum 和同步操作的用户权限。避免未经授权的用户修改数据。

七、案例：解决由于主库误操作导致的主从不一致

假设由于人为误操作，在主库上执行了一个错误的 UPDATE 语句，导致 mydatabase.mytable 表的部分数据与从库不一致。

确定不一致的范围： 尽可能缩小不一致的范围。如果知道错误 UPDATE 语句影响的记录范围，可以在 pt-sync-replica 中使用 --where 选项指定该范围，以提高同步效率。
使用 --print 选项生成修复语句：

pt-sync-replica --host=master --user=root --password=password --databases=mydatabase --tables=mytable --replicate-host=slave --replicate-user=root --replicate-password=password --print --where="<根据误操作语句添加WHERE条件>" > sync.sql

将生成的修复语句保存到 sync.sql 文件中。

审查修复语句： 仔细审查 sync.sql 文件中的修复语句，确保它们是正确的，并且不会对从库造成其他影响。
在从库上执行修复语句：

mysql -h slave -u root -p < sync.sql

在从库上执行 sync.sql 文件中的修复语句。

验证修复结果： 再次使用 pt-table-checksum 校验数据一致性，确认数据不一致问题已经解决。

八、一些排错思路

查看 percona.checksums 表： 如果 pt-table-checksum 报错，或者结果不准确，可以查看 percona.checksums 表中的数据，了解 checksum 计算的详细信息。
查看主从库的错误日志： 查看主从库的错误日志，可以发现一些潜在的问题，例如网络连接问题、权限问题等。
使用 tcpdump 抓包： 使用 tcpdump 抓包可以分析主从库之间的网络通信，了解是否存在网络延迟或丢包等问题。
逐步排查： 如果问题比较复杂，可以逐步排查，例如先校验单个表的数据一致性，然后逐步扩大范围。

如何保证数据一致性

我们学习了如何利用工具来解决数据不一致的问题，但更重要的是如何预防这些问题的发生：

严格的代码审查： 避免人为错误导致的数据不一致。
完善的监控系统： 及时发现和解决数据不一致问题。
定期的 checksum 检查： 定期检查主从数据一致性，防患于未然。
合理的硬件配置： 避免硬件故障导致的数据丢失。
持续的性能优化： 提高主从复制的效率，减少延迟。

希望今天的分享能够帮助大家更好地理解和解决 MySQL 主从数据不一致问题。通过熟练掌握 pt-table-checksum 和 pt-sync-replica 工具，并结合良好的运维实践，我们可以构建一个高可用、高可靠的 MySQL 数据库系统。

使用 pt-table-checksum 和 pt-sync-replica 解决 MySQL 主从数据不一致问题

发表回复 取消回复

使用 `pt-table-checksum` 和 `pt-sync-replica` 解决 MySQL 主从数据不一致问题

发表回复取消回复