Sentinel 故障检测原理：`down-after-milliseconds` 与 `failover-timeout` - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

Sentinel 故障检测：一场毫秒级的生死时速与超时谈判 ⏰

各位观众，各位尊敬的程序员朋友们，大家好！我是你们的老朋友，江湖人称“代码诗人”的程序猿张三丰。今天，咱们不谈人生理想，不聊诗和远方，咱们就来聊聊Sentinel这个家伙，以及它那双锐利的眼睛是如何在毫秒之间，判定一个Redis节点是生是死，又如何在故障切换时，玩一场争分夺秒的“超时谈判”。

开场白：Redis的“体检医生” Sentinel

想象一下，你的Redis集群是一个繁忙的医院，每天都有无数的请求涌入，像病人一样等着治疗。而Sentinel，就是这个医院的“体检医生”，它时刻监视着每一个Redis节点的心跳，一旦发现哪个节点“呼吸不畅”甚至“停止心跳”，它就会迅速做出判断，并启动相应的“抢救”措施。

但是，这个“体检医生”也不是神仙，它需要一些标准和规则来判断Redis节点是否真的“病入膏肓”。这就是咱们今天的主角：down-after-milliseconds 和 failover-timeout 。

第一幕：`down-after-milliseconds` – 毫秒级的“生死判决书” ?

首先，我们来认识一下这位雷厉风行的“法官”：down-after-milliseconds。它的任务很简单，就是在Redis节点停止响应的时间超过设定的毫秒数后，判定它为“主观下线”（Subjectively Down, SDOWN）。

什么是“主观下线”？ 简单来说，就是Sentinel自己觉得这个节点不行了，但还没通知其他人。就像你看到一个人脸色苍白，走路摇摇晃晃，你心里嘀咕：“这哥们儿怕是要晕倒”，但你还没大声喊出来一样。

down-after-milliseconds 的原理

Sentinel会定期向它监控的每个Redis节点发送PING命令，就像医生给病人量体温一样。如果Redis节点在指定的时间内没有回复PING命令，Sentinel就会认为它“失联”了。

我们可以用一个表格来形象地说明这个过程：

时间点 (t)	Sentinel 动作	Redis 节点状态	Sentinel 判定
t0	Sentinel 发送 PING	正常	正常
t1	Redis 节点正常回复 PONG	正常	正常
t2	Sentinel 发送 PING	出现故障，未回复	异常
t3	Sentinel 继续发送 PING	依旧未回复	异常
…	…	…	…
tN	从 t2 开始，经过 `down-after-milliseconds` 毫秒	依旧未回复	主观下线 (SDOWN)

举个栗子 ?:

假设我们设置 down-after-milliseconds 为 5000 (5秒)。如果Sentinel在5秒内没有收到Redis节点的PING回复，它就会标记该节点为SDOWN。

代码示例 (Redis 配置文件):

sentinel monitor mymaster 127.0.0.1 6379 2
sentinel down-after-milliseconds mymaster 5000

在这个例子中，mymaster 是你的Redis主节点的名称，127.0.0.1 6379 是它的地址和端口。 sentinel down-after-milliseconds mymaster 5000 告诉Sentinel，如果 mymaster 在5秒内没有响应，就判定它为SDOWN。

如何选择合适的 down-after-milliseconds 值？

这是一个需要权衡的问题。值设置得太小，容易误判，导致不必要的故障切换；值设置得太大，又可能延迟故障检测，影响服务的可用性。

网络环境： 如果网络不稳定，丢包率高，建议适当增加这个值，避免误判。
业务需求： 如果对延迟非常敏感，可以适当减小这个值，但要承担误判的风险。
硬件性能： 如果Redis节点的硬件资源紧张，响应速度慢，也需要适当增加这个值。

一般来说，5秒到10秒是一个比较合理的范围。但最终还是要根据你的实际情况进行调整。

第二幕：`failover-timeout` – 超时谈判，决定生死存亡的“黄金时间” ⏰

当Sentinel判定一个Redis节点为SDOWN后，它并不会立刻启动故障切换。它需要先和其他Sentinel节点进行“协商”，确认大家都认为这个节点不行了，才能启动故障切换。

而 failover-timeout 就是用来限制这个“协商”和故障切换过程的最长时间。就像一场激烈的谈判，总要设定一个deadline，否则永远也达不成协议。

failover-timeout 的原理

failover-timeout 定义了以下几个关键阶段的最长时间：

选举领导者 (Leader Election): 当Sentinel发现主节点SDOWN后，它们会开始选举一个新的领导者来负责故障切换。
故障切换 (Failover): 选出的领导者会选择一个合适的从节点，将其提升为主节点，并更新其他从节点的配置，让它们指向新的主节点。
配置传播 (Configuration Propagation): 新的主节点的信息需要传播到所有的Sentinel和客户端。

如果整个过程超过了 failover-timeout 设定的时间，Sentinel就会放弃本次故障切换，并等待下一次机会。

举个栗子 ?:

假设我们设置 failover-timeout 为 180000 (180秒)。如果从Sentinel发现主节点SDOWN到完成故障切换的所有步骤，总共花费了超过180秒，那么Sentinel就会放弃本次故障切换。

代码示例 (Redis 配置文件):

sentinel monitor mymaster 127.0.0.1 6379 2
sentinel down-after-milliseconds mymaster 5000
sentinel failover-timeout mymaster 180000

在这个例子中，sentinel failover-timeout mymaster 180000 告诉Sentinel，mymaster 的故障切换过程最多持续180秒。

failover-timeout 的重要性

failover-timeout 是一个非常重要的参数，它直接关系到Redis集群的可用性和数据一致性。

可用性： 如果 failover-timeout 设置得太短，可能因为网络波动或者其他原因导致故障切换失败，从而延长了服务不可用的时间。
数据一致性： 如果 failover-timeout 设置得太长，可能会导致数据丢失。因为在故障切换过程中，可能会有新的数据写入到旧的主节点，而这些数据可能无法同步到新的主节点。

如何选择合适的 failover-timeout 值？

选择合适的 failover-timeout 值需要考虑以下几个因素：

集群规模： 集群规模越大，故障切换所需的时间就越长，需要适当增加 failover-timeout 的值。
网络延迟： 网络延迟越高，故障切换所需的时间就越长，需要适当增加 failover-timeout 的值。
数据同步策略： 如果使用异步复制，可能会有数据丢失的风险，需要适当减小 failover-timeout 的值。

一般来说，180秒到300秒是一个比较合理的范围。但是，最佳实践是进行压力测试，模拟故障场景，观察故障切换所需的时间，并根据测试结果进行调整。

failover-timeout 期间都发生了什么？

我们可以用一个流程图来更直观地了解 failover-timeout 期间发生的事情：

graph TD
    A[主节点 SDOWN] --> B{Sentinel 选举领导者}
    B -- 选举成功 --> C[领导者选择从节点]
    C --> D[提升从节点为主节点]
    D --> E[更新其他从节点配置]
    E --> F[通知客户端和Sentinel]
    F --> G[故障切换完成]
    B -- 选举失败/超时 --> H[放弃本次故障切换]
    C -- 选择失败/超时 --> H
    D -- 提升失败/超时 --> H
    E -- 更新失败/超时 --> H
    F -- 通知失败/超时 --> H
    H --> I[等待下一次机会]

如果任何一个步骤超过了 failover-timeout 设定的时间，整个故障切换过程就会被放弃。

第三幕：`quorum` – 达成共识，少数服从多数的“民主决议” ?️

除了 down-after-milliseconds 和 failover-timeout 之外，还有一个重要的参数： quorum。

什么是 quorum？

quorum 指定了需要多少个Sentinel节点同意一个Redis节点已经下线，才能真正触发故障转移。就像一个委员会，需要达到一定的投票人数才能通过一项决议。

quorum 的作用

quorum 可以防止脑裂 (Split-Brain) 的发生。脑裂是指在集群中，由于网络分区等原因，导致多个节点都认为自己是主节点，从而导致数据不一致。

举个栗子 ?:

假设我们设置 quorum 为 2，并且有3个Sentinel节点。只有当至少2个Sentinel节点认为主节点已经下线，才会触发故障转移。

代码示例 (Redis 配置文件):

sentinel monitor mymaster 127.0.0.1 6379 2
sentinel down-after-milliseconds mymaster 5000
sentinel failover-timeout mymaster 180000
sentinel parallel-syncs mymaster 1

在这个例子中，sentinel monitor mymaster 127.0.0.1 6379 2 中的 2 就是 quorum 的值。

如何选择合适的 quorum 值？

quorum 的值应该小于等于Sentinel节点的总数。

高可用性： 如果追求高可用性，可以将 quorum 设置为Sentinel节点的总数减一。这样即使有一个Sentinel节点故障，集群仍然可以正常工作。
数据一致性： 如果追求数据一致性，可以将 quorum 设置为Sentinel节点的总数。这样可以最大限度地避免脑裂的发生，但也会降低可用性。

一般来说，建议将 quorum 设置为 Sentinel节点的总数除以2 再加1，即 (Sentinel节点总数 / 2) + 1。

第四幕：`parallel-syncs` – 并行同步，效率与安全的“平衡艺术” ⚖️

还有一个参数值得我们关注： parallel-syncs。

什么是 parallel-syncs？

parallel-syncs 指定了在故障转移后，可以同时从新的主节点同步数据的从节点数量。就像一个水库，可以同时打开多少个水龙头放水。

parallel-syncs 的作用

parallel-syncs 可以控制故障转移后数据同步的速度和对新主节点的压力。

举个栗子 ?:

假设我们设置 parallel-syncs 为 1。那么在故障转移后，每次只有一个从节点可以从新的主节点同步数据。

代码示例 (Redis 配置文件):

sentinel monitor mymaster 127.0.0.1 6379 2
sentinel down-after-milliseconds mymaster 5000
sentinel failover-timeout mymaster 180000
sentinel parallel-syncs mymaster 1

在这个例子中，sentinel parallel-syncs mymaster 1 告诉Sentinel，每次只有一个从节点可以从新的主节点同步数据。

如何选择合适的 parallel-syncs 值？

parallel-syncs 的值需要根据你的硬件性能和网络带宽进行调整。

硬件性能： 如果新的主节点的硬件资源充足，可以适当增加 parallel-syncs 的值，加快数据同步的速度。
网络带宽： 如果网络带宽充足，可以适当增加 parallel-syncs 的值，加快数据同步的速度。

一般来说，建议将 parallel-syncs 设置为 1 或 2。如果你的硬件性能和网络带宽都很强劲，可以尝试更大的值。

总结：一场精密的“手术”

好了，各位朋友们，今天我们深入探讨了Sentinel的故障检测原理，重点介绍了 down-after-milliseconds、failover-timeout、quorum 和 parallel-syncs 这几个重要的参数。它们共同构成了一个精密的“手术”，确保Redis集群在高可用和数据一致性之间找到最佳平衡。

记住，没有万能的配置，只有最适合你的配置。在实际应用中，一定要根据你的业务需求和硬件环境进行调整，才能真正发挥Sentinel的作用。

希望今天的分享对大家有所帮助。我是你们的老朋友程序猿张三丰，我们下期再见！拜拜！ ?

Sentinel 故障检测：一场毫秒级的生死时速与超时谈判 ⏰

开场白：Redis的“体检医生” Sentinel

第一幕：down-after-milliseconds – 毫秒级的“生死判决书” ?

第二幕：failover-timeout – 超时谈判，决定生死存亡的“黄金时间” ⏰

第三幕：quorum – 达成共识，少数服从多数的“民主决议” ?️

第四幕：parallel-syncs – 并行同步，效率与安全的“平衡艺术” ⚖️

总结：一场精密的“手术”

发表回复 取消回复

第一幕：`down-after-milliseconds` – 毫秒级的“生死判决书” ?

第二幕：`failover-timeout` – 超时谈判，决定生死存亡的“黄金时间” ⏰

第三幕：`quorum` – 达成共识，少数服从多数的“民主决议” ?️

第四幕：`parallel-syncs` – 并行同步，效率与安全的“平衡艺术” ⚖️

发表回复取消回复