Redis `DEBUG SEGFAULT`：模拟崩溃以测试高可用性 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，没问题。

朋友们，今天咱们来聊点刺激的——在 Redis 里搞破坏！没错，我们要故意让 Redis 崩溃，然后看看它的高可用性（HA）机制能不能顶住。这就像给汽车做碰撞测试，看看安全气囊靠不靠谱。

为什么要搞破坏？

Redis 虽然很快很稳定，但它也是个程序，是程序就难免有 Bug，就可能崩溃。更何况，服务器硬件也可能出问题，网络也可能抖动。所以，我们必须提前做好准备，确保 Redis 在遇到故障时能够自动切换，保证业务不受影响。

DEBUG SEGFAULT：崩溃模拟器

Redis 提供了一个非常方便的命令：DEBUG SEGFAULT。这个命令的作用非常简单粗暴，就是让 Redis 立刻崩溃，产生一个段错误（Segmentation Fault）。

你可以把它想象成一个“自毁按钮”，按下之后 Redis 就会立刻停止工作，留下一个 crash dump 文件供你分析（当然，咱们今天主要关注 HA，不深入分析 crash dump）。

准备工作：一个简单的高可用 Redis 集群

在开始之前，我们需要一个 Redis 集群。为了演示方便，我们搭建一个最简单的 Redis Sentinel 集群：一个 Master，一个 Slave，以及至少三个 Sentinel 节点。

Master (redis-master): 运行在 192.168.1.10:6379
Slave (redis-slave): 运行在 192.168.1.11:6379
Sentinel 1 (redis-sentinel-1): 运行在 192.168.1.12:26379
Sentinel 2 (redis-sentinel-2): 运行在 192.168.1.13:26379
Sentinel 3 (redis-sentinel-3): 运行在 192.168.1.14:26379

Redis 配置 (redis.conf)

Master 和 Slave 的 redis.conf 文件都需要做一些修改，主要包括：

设置 protected-mode no (方便测试，生产环境不建议)
绑定 IP 地址 (bind 192.168.1.10 和 bind 192.168.1.11)
设置端口号 (port 6379)
设置 slaveof <master_ip> <master_port> (仅 Slave 需要)
设置密码 (requirepass <password>) (可选，但推荐)

# redis-master.conf

protected-mode no
bind 192.168.1.10
port 6379
requirepass your_redis_password

# redis-slave.conf

protected-mode no
bind 192.168.1.11
port 6379
slaveof 192.168.1.10 6379
requirepass your_redis_password
masterauth your_redis_password

Sentinel 配置 (sentinel.conf)

每个 Sentinel 节点都需要一个 sentinel.conf 文件。关键配置是 sentinel monitor 指令，它告诉 Sentinel 监控哪个 Master 节点。

# sentinel.conf

port 26379
sentinel monitor mymaster 192.168.1.10 6379 2
sentinel down-after-milliseconds mymaster 5000
sentinel parallel-syncs mymaster 1
sentinel failover-timeout mymaster 10000
sentinel auth-pass mymaster your_redis_password

解释一下这些配置：

port 26379: Sentinel 监听的端口。
sentinel monitor mymaster 192.168.1.10 6379 2: 监控名为 mymaster 的 Redis Master 节点，IP 地址是 192.168.1.10，端口是 6379。最后的 2 表示至少需要 2 个 Sentinel 节点同意才能触发故障转移。这个值很重要，关系到集群的可靠性。
sentinel down-after-milliseconds mymaster 5000: 如果 Master 节点在 5000 毫秒内没有响应 Sentinel 的 ping，就认为它可能下线了。
sentinel parallel-syncs mymaster 1: 在故障转移期间，一次只能有一个 Slave 同步 Master 的数据。
sentinel failover-timeout mymaster 10000: 故障转移的超时时间。
sentinel auth-pass mymaster your_redis_password: Master 节点的密码，Sentinel 需要使用密码才能连接 Master。

启动 Redis 和 Sentinel

在每台机器上启动 Redis 和 Sentinel。

# 启动 Master
redis-server /path/to/redis-master.conf

# 启动 Slave
redis-server /path/to/redis-slave.conf

# 启动 Sentinel (在每台 Sentinel 节点上)
redis-server /path/to/sentinel.conf --sentinel

验证集群状态

使用 redis-cli 连接到 Sentinel 节点，查看集群状态。

redis-cli -h 192.168.1.12 -p 26379

然后执行 SENTINEL masters 命令，查看 Master 节点的信息。

127.0.0.1:26379> SENTINEL masters
1)  1) "name"
    2) "mymaster"
    3) "ip"
    4) "192.168.1.10"
    5) "port"
    6) "6379"
    7) "runid"
    8) "8e665c311f73a01487d171862406d57329113e11"
    9) "flags"
   10) "master"
   11) "link-pending-commands"
   12) "0"
   13) "link-refcount"
   14) "1"
   15) "last-ping-sent"
   16) "0"
   17) "last-ok-ping-reply"
   18) "665"
   19) "last-ping-reply"
   20) "665"
   21) "down-after-milliseconds"
   22) "5000"
   23) "info-refresh"
   24) "119"
   25) "role-reported"
   26) "master"
   27) "role-reported-time"
   28) "394537"
   29) "config-epoch"
   30) "0"
   31) "num-slaves"
   32) "1"
   33) "num-other-sentinels"
   34) "2"
   35) "quorum"
   36) "2"
   37) "failover-timeout"
   38) "10000"
   39) "parallel-syncs"
   40) "1"
   41) "auth-pass"
   42) "your_redis_password"
   43) "client-reconfig-script"
   44) "[]"

可以看到 Master 节点的 IP 地址和端口号。

模拟崩溃：DEBUG SEGFAULT

现在，激动人心的时刻到了！我们要让 Master 节点崩溃。

使用 redis-cli 连接到 Master 节点：

redis-cli -h 192.168.1.10 -p 6379 -a your_redis_password

然后执行 DEBUG SEGFAULT 命令：

192.168.1.10:6379> DEBUG SEGFAULT

你会看到 Segmentation fault (core dumped) 的错误信息，表示 Redis 已经崩溃了。

观察 Sentinel 的反应

接下来，我们要密切关注 Sentinel 的反应。Sentinel 会检测到 Master 节点下线，并开始进行故障转移。

你可以通过查看 Sentinel 的日志来观察故障转移的过程。Sentinel 的日志文件通常位于 /var/log/redis/sentinel.log 或者你指定的路径。

你会看到类似这样的日志信息：

# Sentinel detected down master mymaster 192.168.1.10:6379
# +odown master mymaster 192.168.1.10:6379 state changed to odown
# +leader-election mymaster new epoch 1
# +try-failover mymaster, master running lost quorum
# +vote-for-leader mymaster 884293e76c5976a830a03c7d398103202814462b 1
# +elected-leader mymaster 884293e76c5976a830a03c7d398103202814462b
# +failover-state-select-slave mymaster
# +selected-slave mymaster 192.168.1.11:6379
# +failover-state-send-slave-of mymaster 192.168.1.11:6379
# +slave-became-master mymaster 192.168.1.11:6379
# +switch-master mymaster 192.168.1.10 6379 192.168.1.11 6379
# +slave slave 192.168.1.10:6379 -> 192.168.1.10:6379
# +slave slave 192.168.1.10:6379 -> 192.168.1.10:6379

这些日志信息表明：

Sentinel 检测到 Master 节点下线。
Sentinel 选举出一个新的 Master 节点（192.168.1.11）。
Sentinel 将原来的 Slave 节点晋升为 Master 节点。
Sentinel 更新了集群的配置，将客户端的连接重定向到新的 Master 节点。

验证故障转移结果

故障转移完成后，我们需要验证新的 Master 节点是否正常工作。

使用 redis-cli 连接到 Sentinel 节点，查看 Master 节点的信息。

redis-cli -h 192.168.1.12 -p 26379

然后执行 SENTINEL masters 命令。

127.0.0.1:26379> SENTINEL masters
1)  1) "name"
    2) "mymaster"
    3) "ip"
    4) "192.168.1.11"  # 注意这里，IP 地址已经变成了 192.168.1.11
    5) "port"
    6) "6379"
    7) "runid"
    8) "4f5a1b33a9b8517c07974585906492596a318c72"
    9) "flags"
   10) "master"
   11) "link-pending-commands"
   12) "0"
   13) "link-refcount"
   14) "1"
   15) "last-ping-sent"
   16) "0"
   17) "last-ok-ping-reply"
   18) "289"
   19) "last-ping-reply"
   20) "289"
   21) "down-after-milliseconds"
   22) "5000"
   23) "info-refresh"
   24) "119"
   25) "role-reported"
   26) "master"
   27) "role-reported-time"
   28) "408778"
   29) "config-epoch"
   30) "1"
   31) "num-slaves"
   32) "0"
   33) "num-other-sentinels"
   34) "2"
   35) "quorum"
   36) "2"
   37) "failover-timeout"
   38) "10000"
   39) "parallel-syncs"
   40) "1"
   41) "auth-pass"
   42) "your_redis_password"
   43) "client-reconfig-script"
   44) "[]"

可以看到，Master 节点的 IP 地址已经变成了 192.168.1.11，也就是原来的 Slave 节点。

你还可以尝试连接到新的 Master 节点，进行读写操作，验证它是否正常工作。

代码示例：客户端自动重连

在实际应用中，客户端需要能够自动检测到 Master 节点的切换，并重新连接到新的 Master 节点。

这里提供一个 Python 示例，使用 redis-py-cluster 库来实现自动重连。

from rediscluster import RedisCluster

# Sentinel 节点列表
startup_nodes = [
    {"host": "192.168.1.12", "port": "26379"},
    {"host": "192.168.1.13", "port": "26379"},
    {"host": "192.168.1.14", "port": "26379"},
]

# 创建 Redis 集群客户端
rc = RedisCluster(startup_nodes=startup_nodes, decode_responses=True, password="your_redis_password")

# 写入数据
rc.set("foo", "bar")

# 读取数据
value = rc.get("foo")
print(value)

# 模拟 Master 节点崩溃
# 在这里可以执行 redis-cli -h 192.168.1.10 -p 6379 -a your_redis_password DEBUG SEGFAULT

# 再次读取数据，客户端会自动重连到新的 Master 节点
value = rc.get("foo")
print(value)

这个示例中，RedisCluster 客户端会自动发现集群中的 Master 节点，并在 Master 节点下线时自动重连到新的 Master 节点。

更多玩法：模拟网络抖动

除了使用 DEBUG SEGFAULT 命令模拟崩溃，我们还可以模拟网络抖动，看看 Sentinel 的反应。

可以使用 iptables 命令来模拟网络延迟或者丢包。

例如，下面的命令可以模拟 100 毫秒的延迟：

sudo iptables -A INPUT -s 192.168.1.10 -j DELAY --delay 100
sudo iptables -A OUTPUT -d 192.168.1.10 -j DELAY --delay 100

这些命令会给进出 192.168.1.10 (Master 节点) 的数据包增加 100 毫秒的延迟。

你可以根据实际情况调整延迟的时间，或者使用 DROP 规则来模拟丢包。

总结：高可用性的重要性

今天我们通过模拟崩溃和网络抖动，验证了 Redis Sentinel 的高可用性机制。

高可用性是保证业务连续性的关键。在生产环境中，我们需要认真配置 Redis 集群，并定期进行故障演练，确保在遇到问题时能够快速恢复。

测试场景	模拟方法	预期结果
Master 节点崩溃	`redis-cli -h <master_ip> -p 6379 DEBUG SEGFAULT`	Sentinel 检测到 Master 节点下线，自动选举新的 Master 节点，客户端自动重连到新的 Master 节点。
网络延迟	`iptables -A INPUT -s <master_ip> -j DELAY --delay <ms>` `iptables -A OUTPUT -d <master_ip> -j DELAY --delay <ms>`	如果延迟时间小于 `sentinel down-after-milliseconds` 配置的值，Sentinel 不会认为 Master 节点下线。如果延迟时间超过 `sentinel down-after-milliseconds` 配置的值，Sentinel 会认为 Master 节点下线，并进行故障转移。
网络丢包	`iptables -A INPUT -s <master_ip> -j DROP` `iptables -A OUTPUT -d <master_ip> -j DROP`	如果丢包导致 Sentinel 无法 ping 通 Master 节点，Sentinel 会认为 Master 节点下线，并进行故障转移。

记住，高可用性不是一蹴而就的，需要不断地测试和优化。希望今天的分享能帮助你更好地理解 Redis 的高可用性机制，并在实际应用中更好地保护你的数据。

最后，送给大家一句名言：

"No battle plan survives contact with the enemy." – Helmuth von Moltke the Elder

翻译过来就是：计划赶不上变化。所以，多做测试，才能心里有数！

感谢大家的收听！

发表回复 取消回复

发表回复取消回复