Kubernetes 资源的健康检查与自动修复 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位观众，各位技术达人，欢迎来到今天的 Kubernetes 健康体检中心！我是今天的首席体检官，也是你们的老朋友——码农小李。今天，咱们不聊虚的，就来扒一扒 Kubernetes 资源健康检查与自动修复的那些事儿。

开场白：Kubernetes 资源，你的小心肝儿还好吗？

想象一下，你辛辛苦苦搭建了一个 Kubernetes 集群，上面跑着各种应用，就像一个精密的机器，每一个齿轮、每一个螺丝都至关重要。但机器总有出问题的时候，齿轮可能磨损，螺丝可能松动。同样的，Kubernetes 中的 Pod、Service、Deployment 等资源也可能会出现各种各样的问题，比如：

Pod 抽风了：OOM Killed (内存溢出被杀了)，程序崩溃，或者干脆就进入了僵尸状态。
Service 罢工了：后端 Pod 都挂了，Service 成了摆设，用户访问直接 502。
Deployment 闹脾气了：滚动更新的时候卡住了，新版本死活起不来，老版本也回不去。

这些问题就像潜伏在系统中的定时炸弹，随时可能引爆，导致服务中断，用户体验直线下降。所以，我们需要一套完善的健康检查和自动修复机制，就像给 Kubernetes 资源做定期的体检，及时发现问题，并自动进行修复，确保服务的稳定运行。

第一章：健康检查——你的资源健康报告

健康检查，顾名思义，就是对 Kubernetes 资源进行定期的检查，判断其是否处于健康状态。Kubernetes 提供了两种主要的健康检查方式：

Liveness Probe（存活探针）： 检查 Pod 是否活着。如果 Liveness Probe 检测失败，Kubernetes 会重启 Pod。相当于给 Pod 做一个“心跳检测”，如果心跳停止了，那就认为 Pod 已经挂了，需要重启。
Readiness Probe（就绪探针）： 检查 Pod 是否已经准备好接收请求。如果 Readiness Probe 检测失败，Kubernetes 会将 Pod 从 Service 的 Endpoint 中移除，不再将流量路由到该 Pod。相当于检查 Pod 是否已经“准备好上班”，如果还没准备好，那就先别让它接客，等它准备好了再说。

1.1 Liveness Probe：生死时速的检测

Liveness Probe 的作用是判断 Pod 是否还在运行。如果 Liveness Probe 检测失败，Kubernetes 会认为 Pod 已经挂了，并将其重启。

检测方式：
- HTTP Get Probe: 向 Pod 的某个端口发送 HTTP GET 请求，如果返回的状态码在 200-399 之间，则认为 Pod 是健康的。
- TCP Socket Probe: 尝试与 Pod 的某个端口建立 TCP 连接，如果连接成功，则认为 Pod 是健康的。
- Exec Probe: 在 Pod 中执行一个命令，如果命令的退出状态码为 0，则认为 Pod 是健康的。
配置示例：

apiVersion: v1
kind: Pod
metadata:
  name: liveness-pod
spec:
  containers:
  - name: liveness-container
    image: busybox
    args:
    - /bin/sh
    - -c
    - touch /tmp/healthy; sleep 30; rm -rf /tmp/healthy; sleep 600
    livenessProbe:
      exec:
        command:
        - test
        - -e
        - /tmp/healthy
      initialDelaySeconds: 5 # 延迟 5 秒后开始检测
      periodSeconds: 5       # 每隔 5 秒检测一次

这个例子中，我们使用 Exec Probe 来检测 Pod 的健康状态。Pod 启动后，会创建一个 /tmp/healthy 文件，并在 30 秒后删除。Liveness Probe 会每隔 5 秒检测一次 /tmp/healthy 文件是否存在，如果文件不存在，则认为 Pod 不健康，Kubernetes 会重启 Pod。

1.2 Readiness Probe：准备好了再上岗

Readiness Probe 的作用是判断 Pod 是否已经准备好接收请求。如果 Readiness Probe 检测失败，Kubernetes 会将 Pod 从 Service 的 Endpoint 中移除，不再将流量路由到该 Pod。

检测方式： 与 Liveness Probe 相同，也支持 HTTP Get Probe、TCP Socket Probe 和 Exec Probe 三种方式。
配置示例：

apiVersion: v1
kind: Pod
metadata:
  name: readiness-pod
spec:
  containers:
  - name: readiness-container
    image: nginx
    ports:
    - containerPort: 80
    readinessProbe:
      httpGet:
        path: /
        port: 80
      initialDelaySeconds: 5
      periodSeconds: 5

这个例子中，我们使用 HTTP Get Probe 来检测 Pod 的健康状态。Readiness Probe 会每隔 5 秒向 Pod 的 80 端口发送 HTTP GET 请求，如果返回的状态码在 200-399 之间，则认为 Pod 已经准备好接收请求。

1.3 Liveness Probe vs Readiness Probe：傻傻分不清楚？

很多初学者容易混淆 Liveness Probe 和 Readiness Probe 的作用。简单来说：

Liveness Probe 关注的是 Pod 的生死存亡， 如果 Liveness Probe 检测失败，Kubernetes 会直接重启 Pod，相当于“治病救人”。
Readiness Probe 关注的是 Pod 是否已经准备好提供服务， 如果 Readiness Probe 检测失败，Kubernetes 会将 Pod 从 Service 的 Endpoint 中移除，不再将流量路由到该 Pod，相当于“暂停服务”。

你可以把 Liveness Probe 想象成一个医生的“急救”，把 Readiness Probe 想象成一个服务员的“准备”。医生发现病人不行了，直接抢救；服务员发现客人还没准备好点菜，就先别打扰。

1.4 健康检查的参数详解：知己知彼，百战不殆

在配置 Liveness Probe 和 Readiness Probe 时，有一些重要的参数需要了解：

参数名	含义	默认值
`initialDelaySeconds`	容器启动后，延迟多久开始进行健康检查。	0
`periodSeconds`	健康检查的频率，即每隔多久进行一次健康检查。	10
`timeoutSeconds`	健康检查的超时时间，即等待健康检查结果的最长时间。	1
`successThreshold`	健康检查从失败状态转换为成功状态的最小连续成功次数。	1
`failureThreshold`	健康检查从成功状态转换为失败状态的最大连续失败次数。	3

这些参数就像调整健康检查的“灵敏度”，可以根据应用的实际情况进行调整。比如，如果你的应用启动比较慢，可以适当增加 initialDelaySeconds 的值，避免在应用还没启动完成时就被误判为不健康。

第二章：自动修复——你的资源救护车

有了健康检查，就像给 Kubernetes 资源做了体检，发现了问题。接下来，就需要自动修复机制，就像救护车一样，及时赶到现场，进行抢救。

Kubernetes 提供了多种自动修复机制，最常用的包括：

Pod 重启： 当 Liveness Probe 检测失败时，Kubernetes 会自动重启 Pod。
Pod 替换： 当 Pod 出现故障（比如节点故障）时，Kubernetes 会自动创建一个新的 Pod 来替换原来的 Pod。
滚动更新： 当 Deployment 的新版本发布时，Kubernetes 会逐步替换旧版本的 Pod，确保服务不中断。
自动扩缩容： Kubernetes 可以根据应用的负载情况自动调整 Pod 的数量，确保应用的性能。

2.1 Pod 重启：小病小痛，重启就好

Pod 重启是最简单的自动修复方式。当 Liveness Probe 检测失败时，Kubernetes 会自动重启 Pod。这就像电脑死机了，重启一下就好了。

Pod 重启策略由 restartPolicy 字段控制，可以设置为以下三种值：

Always: 只要 Pod 退出，就总是重启。
OnFailure: 只有当 Pod 因为错误而退出时才重启。
Never: 从不重启。

通常情况下，我们会将 restartPolicy 设置为 Always，确保 Pod 在任何情况下都能自动重启。

2.2 Pod 替换：旧的不去，新的不来

当 Pod 所在的节点出现故障，或者 Pod 自身出现严重问题无法修复时，Kubernetes 会自动创建一个新的 Pod 来替换原来的 Pod。这就像房子塌了，我们需要重新盖一栋。

Pod 替换是由 Deployment、ReplicaSet 等控制器负责的。当控制器发现 Pod 的状态不符合预期时，就会自动创建一个新的 Pod 来替换原来的 Pod。

2.3 滚动更新：平滑过渡，无感升级

滚动更新是 Kubernetes 中一种非常重要的自动修复机制。当 Deployment 的新版本发布时，Kubernetes 会逐步替换旧版本的 Pod，确保服务不中断。这就像给网站升级，用户感觉不到任何影响。

滚动更新通过 strategy 字段来配置，可以设置为以下两种值：

Recreate: 先删除旧版本的 Pod，再创建新版本的 Pod。这种方式会导致服务中断。
RollingUpdate: 逐步替换旧版本的 Pod，确保服务不中断。

通常情况下，我们会选择 RollingUpdate 策略，确保服务的平滑过渡。

2.4 自动扩缩容：弹性伸缩，应对自如

自动扩缩容是 Kubernetes 中一种非常强大的自动修复机制。Kubernetes 可以根据应用的负载情况自动调整 Pod 的数量，确保应用的性能。这就像给餐厅增加座位，应对客流高峰。

自动扩缩容由 Horizontal Pod Autoscaler (HPA) 控制器负责。HPA 可以根据 CPU 利用率、内存利用率等指标自动调整 Pod 的数量。

第三章：最佳实践——打造你的健康资源管理体系

说了这么多，如何才能真正打造一个完善的 Kubernetes 资源健康管理体系呢？这里给大家分享一些最佳实践：

为所有 Pod 配置 Liveness Probe 和 Readiness Probe。 这是最基本的要求，就像给每个人都做一次体检。
根据应用的实际情况调整健康检查的参数。 不要盲目使用默认值，要根据应用的启动时间、资源消耗等情况进行调整。
选择合适的健康检查方式。 HTTP Get Probe 适用于 Web 应用，TCP Socket Probe 适用于网络应用，Exec Probe 适用于需要执行命令的应用。
监控 Kubernetes 集群的健康状态。 使用 Prometheus、Grafana 等工具监控 Pod 的 Liveness Probe 和 Readiness Probe 的状态，及时发现问题。
设置告警规则。 当 Pod 出现问题时，及时发送告警通知，方便运维人员及时处理。
定期审查健康检查策略。 随着应用的升级和迭代，健康检查策略也需要不断调整，确保其有效性。

总结：健康第一，稳定至上

各位观众，今天的 Kubernetes 健康体检就到这里了。希望通过今天的讲解，大家能够对 Kubernetes 资源的健康检查和自动修复有更深入的了解。记住，健康第一，稳定至上！只有保障 Kubernetes 资源的健康，才能确保服务的稳定运行，才能让我们的应用在云原生时代乘风破浪，勇往直前！💪

最后，祝大家身体健康，代码无 Bug！我们下期再见！👋

发表回复 取消回复

发表回复取消回复