MySQL的GTID与故障转移：如何实现自动化的GTID-based failover？ - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

MySQL GTID与自动化故障转移：深入解析与实践

大家好，今天我们来深入探讨MySQL的GTID（Global Transaction Identifier）及其在自动化故障转移中的应用。GTID从MySQL 5.6开始引入，极大地简化了复制拓扑的管理，并为实现更可靠的自动化故障转移提供了基础。

1. GTID简介及其优势

在传统的MySQL复制中，我们依赖于二进制日志文件（binlog）的位置（文件名和偏移量）来标识复制的进度。这种方式容易出错，尤其是在复杂拓扑结构中，例如多级复制或者切换主库时。

GTID的出现改变了这一切。GTID是一个全局唯一的事务标识符，它由server_uuid和事务序列号组成，格式为：server_uuid:transaction_id。

GTID的优势：

简化复制配置： 无需手动管理binlog文件名和偏移量，slave可以自动找到正确的复制起点。
故障转移更加容易： 切换主库后，新的slave可以根据GTID自动加入复制，无需人工干预。
数据一致性更好： GTID保证了每个事务只被执行一次，避免了重复执行导致的数据不一致。
易于监控和管理： 可以方便地查看和跟踪事务在复制拓扑中的传播情况。

2. GTID的启用与配置

要启用GTID，需要在MySQL配置文件（通常是my.cnf或my.ini）中进行如下配置：

[mysqld]
gtid_mode = ON
enforce_gtid_consistency = ON
log_slave_updates = ON
server-id = 1  # 每个实例的server-id必须唯一
relay_log = relay-log
relay_log_index = relay-log.index

配置项解释：

gtid_mode = ON: 启用GTID模式。
enforce_gtid_consistency = ON: 强制GTID的一致性。这意味着只有在事务可以安全地使用GTID进行复制时，MySQL才会允许执行该事务。这个选项强烈建议开启，以保证数据一致性。
log_slave_updates = ON: slave也要记录binlog，以便它可以作为其他slave的master。这对于级联复制是必需的。
server-id: 每个MySQL实例的唯一ID。
relay_log和relay_log_index: 配置relay log，slave会将master的binlog先写入relay log，然后再执行。

重要提示：

在修改配置后，需要重启MySQL服务。
启用GTID通常需要清空现有的复制状态，因此建议在新部署的MySQL实例上启用GTID。如果要在已有的实例上启用，需要谨慎操作，并进行充分的测试。

3. GTID的复制原理

当master执行一个事务时，会生成一个GTID并将其写入binlog。slave在连接到master后，会请求master发送binlog事件。master会将包含GTID的binlog事件发送给slave。slave接收到binlog事件后，会将其写入relay log，并记录已经接收到的GTID。然后，slave会根据GTID来判断是否已经执行过该事务。如果已经执行过，则跳过该事务；否则，执行该事务。

4. 自动化故障转移架构设计

为了实现自动化故障转移，我们需要一个监控系统来检测master的健康状态。当master发生故障时，监控系统会自动将一个slave提升为新的master，并通知其他slave连接到新的master。

一种常见的架构是使用Keepalived和Virtual IP（VIP）来实现。Keepalived负责监控master的健康状态，并在master故障时自动切换VIP到新的master。

架构图：

+-----------------+     +-----------------+     +-----------------+
|     MySQL       |     |     MySQL       |     |     MySQL       |
|     Master      |     |     Slave 1     |     |     Slave 2     |
|  (192.168.1.10)  |     |  (192.168.1.11)  |     |  (192.168.1.12)  |
+--------+--------+     +--------+--------+     +--------+--------+
        |                 |                 |                 |
        |  Binlog         |  Binlog         |  Binlog         |
        |                 |                 |                 |
        +--------+--------+     +--------+--------+     +--------+--------+
                 |                 |                 |
                 |  VIP (192.168.1.100) |  VIP (192.168.1.100) | VIP (192.168.1.100)
                 |                 |                 |
                 +-----------------+     +-----------------+
                          |                 |
                          |  Keepalived     |  Keepalived
                          |                 |
                          +-----------------+
                                  |
                                  |  Monitor Master
                                  |
                                  +-----------------+
                                          |
                                          |  Failure Detection
                                          |
                                          +-----------------+

5. Keepalived配置

在Master和Slave上分别配置Keepalived。

Master (192.168.1.10):

! Configuration File for keepalived

global_defs {
   router_id LVS_DEVEL
}

vrrp_script chk_mysql {
    script "/etc/keepalived/mysql_check.sh"
    interval 2
    weight -2
    fall 10
    rise 2
}

vrrp_instance VI_1 {
    state MASTER
    interface eth0
    virtual_router_id 51
    priority 150
    advert_int 1
    authentication {
        auth_type PASS
        auth_pass 1111
    }
    virtual_ipaddress {
        192.168.1.100
    }
    track_script {
        chk_mysql
    }
}

Slave (192.168.1.11 和 192.168.1.12):

! Configuration File for keepalived

global_defs {
   router_id LVS_DEVEL
}

vrrp_script chk_mysql {
    script "/etc/keepalived/mysql_check.sh"
    interval 2
    weight -2
    fall 10
    rise 2
}

vrrp_instance VI_1 {
    state BACKUP
    interface eth0
    virtual_router_id 51
    priority 100
    advert_int 1
    authentication {
        auth_type PASS
        auth_pass 1111
    }
    virtual_ipaddress {
        192.168.1.100
    }
    track_script {
        chk_mysql
    }
    notify_master "/etc/keepalived/master.sh"
    notify_backup "/etc/keepalived/backup.sh"
    notify_fault "/etc/keepalived/fault.sh"
}

配置项解释：

state: MASTER或BACKUP，表示当前节点的角色。
interface: Keepalived监听的网络接口。
virtual_router_id: VRRP组的ID，所有节点必须相同。
priority: 优先级，数值越大，优先级越高。
virtual_ipaddress: 虚拟IP地址（VIP）。
track_script: 指定用于监控MySQL健康状态的脚本。
notify_master, notify_backup, notify_fault: 指定当节点状态发生变化时执行的脚本。

6. MySQL健康检查脚本 (mysql_check.sh)

#!/bin/bash

USER="root"
PASSWORD="your_password"  # 替换为你的MySQL root用户密码

mysqladmin -u $USER -p"$PASSWORD" ping > /dev/null 2>&1

if [ $? -ne 0 ]; then
  exit 1
else
  exit 0
fi

说明：

这个脚本使用mysqladmin ping命令来检查MySQL是否运行。如果MySQL没有运行，脚本返回1，否则返回0。Keepalived会根据这个脚本的返回值来判断MySQL的健康状态。

7. 故障转移脚本 (master.sh, backup.sh, fault.sh)

这些脚本用于在节点状态发生变化时执行特定的操作。例如，master.sh脚本可以将slave提升为新的master，backup.sh脚本可以使slave连接到新的master。

master.sh (在slave上执行，升为主库):

#!/bin/bash

USER="root"
PASSWORD="your_password" # 替换为你的MySQL root用户密码

mysql -u $USER -p"$PASSWORD" -e "STOP SLAVE; RESET SLAVE ALL; SET GLOBAL read_only = OFF; SET GLOBAL super_read_only = OFF; CHANGE MASTER TO MASTER_HOST='';"

echo "MySQL promoted to master" >> /var/log/mysql_failover.log

backup.sh (在slave上执行，连接新主库):

#!/bin/bash

USER="root"
PASSWORD="your_password" # 替换为你的MySQL root用户密码
VIP="192.168.1.100"

mysql -u $USER -p"$PASSWORD" -e "STOP SLAVE; RESET SLAVE ALL; CHANGE MASTER TO MASTER_HOST='$VIP', MASTER_USER='repl', MASTER_PASSWORD='your_repl_password', MASTER_AUTO_POSITION=1; START SLAVE;"

echo "MySQL connected to new master $VIP" >> /var/log/mysql_failover.log

fault.sh (在slave上执行，可以执行一些清理操作):

#!/bin/bash

echo "Node is in FAULT state" >> /var/log/mysql_failover.log

重要提示：

请将your_password和your_repl_password替换为你的实际密码。
确保这些脚本具有执行权限 ( chmod +x /etc/keepalived/*.sh )。
这些脚本只是示例，你可以根据实际需求进行修改。例如，你可能需要在master.sh脚本中执行一些数据同步操作。
MASTER_AUTO_POSITION=1 非常重要，它告诉slave使用GTID自动定位复制起点。

8. 自动化故障转移流程

Keepalived在master和slave上运行，并定期执行健康检查脚本。
如果master发生故障，健康检查脚本会返回错误，Keepalived会将VIP切换到优先级最高的slave上。
优先级最高的slave上的Keepalived检测到VIP切换到自身，就会执行master.sh脚本，将自身提升为新的master。
其他slave上的Keepalived检测到master故障，就会执行backup.sh脚本，连接到新的master。
由于启用了GTID，slave可以自动找到正确的复制起点，无需人工干预。

9. 测试故障转移

模拟master故障：可以使用kill -9 <mysql_pid>命令杀死master上的MySQL进程。
观察VIP是否自动切换到slave上。
观察slave是否自动连接到新的master并开始复制。
检查数据是否一致。

10. 监控与告警

除了自动化故障转移，还需要建立完善的监控和告警机制，以便及时发现和处理问题。可以使用Prometheus和Grafana等工具来监控MySQL的性能指标和复制状态，并设置告警规则。

11. GTID的限制

虽然GTID有很多优势，但也存在一些限制：

不支持所有存储引擎： 某些存储引擎可能不支持GTID。
需要修改现有应用程序： 如果你的应用程序直接操作binlog，则需要修改应用程序以支持GTID。
初始化时间较长： 在大型数据库上启用GTID可能需要较长时间。

12. GTID相关命令

命令	描述
`SHOW MASTER STATUS;`	显示master的GTID执行位置。
`SHOW SLAVE STATUSG`	显示slave的GTID执行位置，以及连接的master的GTID执行位置。
`SHOW BINARY LOGS;`	显示master上的binlog文件列表。
`SHOW RELAYLOG EVENTS [LIMIT [offset,] row_count]`	显示slave上的relay log事件。
`SET gtid_next= 'xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx:N'`	设置下一个要执行的GTID。谨慎使用，通常用于特殊情况下的手动恢复。
`SHOW GLOBAL VARIABLES LIKE 'gtid_%';`	显示GTID相关的全局变量。
`SELECT @@global.gtid_executed;`	显示服务器已经执行的GTID集合。
`SELECT @@global.gtid_purged;`	显示服务器已经purge的GTID集合。这些GTID对应的binlog已经被删除，无法再用于复制。
`RESET MASTER;`	清空master的binlog，并重置GTID状态。谨慎使用，会丢失复制数据。
`RESET SLAVE;`	清空slave的复制状态，并重置GTID状态。
`RESET SLAVE ALL;`	清空slave的所有状态，包括复制状态和relay log。

13. 常见问题与排错

GTID不一致： 检查enforce_gtid_consistency是否开启。检查master和slave的binlog格式是否相同（ROW格式最佳）。
slave无法连接到master： 检查网络连接是否正常。检查slave的复制用户是否具有足够的权限。检查master的binlog是否启用。
复制延迟： 检查网络带宽是否足够。检查slave的硬件资源是否足够。检查是否有大事务导致复制延迟。

对以上内容的总结：

GTID是MySQL自动化故障转移的关键技术。通过启用GTID，配置Keepalived和相关脚本，我们可以实现当master发生故障时，自动将slave提升为新的master，并让其他slave自动连接到新的master。同时，需要建立完善的监控和告警机制，以便及时发现和处理问题。务必替换脚本中的密码，并根据实际需求进行修改，做好测试。

MySQL GTID与自动化故障转移：深入解析与实践

发表回复 取消回复

发表回复取消回复