Kubernetes Troubleshooting 进阶：网络、存储与调度疑难杂症 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位 Kubernaut 们，欢迎来到今天的“Kubernetes Troubleshooting 进阶：网络、存储与调度疑难杂症”研讨会！我是你们的老朋友，江湖人称“Bug 克星”，今天咱们就来聊聊 Kubernetes 集群里那些让人头疼，却又不得不面对的“老大难”问题。

咳咳，先清清嗓子。想象一下，你精心部署的应用，原本运行得像丝般顺滑，突然有一天，它开始抽风了，像个闹脾气的小孩，一会儿连不上网，一会儿找不到存储，一会儿又死活不肯跑到指定的节点上。这时候，你是不是感觉头皮发麻，内心OS是：“苍天啊，大地啊，这到底是怎么回事啊！” 别慌，今天我们就来手把手教你如何化身“问题终结者”，让你的 Kubernetes 集群重回正轨。

一、网络篇：拨开迷雾，让 Pod 自由呼吸

网络问题，绝对是 Kubernetes 里最常见的“拦路虎”之一。Pod 连不上服务，服务之间无法通信，外部流量进不来…简直是状况百出。但别怕，咱们一步一步来，抽丝剥茧，找到问题的根源。

“连通性”大作战：Ping、Telnet 和 nslookup 的妙用

首先，最基本的就是检查连通性。这就像医生给病人做体检一样，先看看最基本的指标是否正常。
- Ping： 检查网络是否可达。你可以 ping 目标 Pod 的 IP 地址，看看是否能收到回应。如果 ping 不通，那说明网络层面存在问题，比如防火墙规则、路由配置等等。
- Telnet： 检查端口是否开放。有些服务可能运行正常，但端口没有对外开放，导致无法访问。用 telnet 命令可以测试目标 Pod 的特定端口是否可连接。
- nslookup： 检查 DNS 解析是否正常。Kubernetes 依赖 DNS 来解析服务名称，如果 DNS 配置错误，服务就无法被正确发现。
这三个小工具，就像你的“网络三板斧”，可以帮你快速定位网络连通性问题。

举个栗子：

假设你的应用需要访问一个名为 my-database 的服务，但总是连接失败。你可以先试试：
```
kubectl exec -it <你的 Pod 名称> -- nslookup my-database
```
如果 nslookup 返回 NXDOMAIN 错误，说明 DNS 解析失败，你需要检查 Kubernetes 的 DNS 配置。

Service 的 “障眼法”：ClusterIP、NodePort 和 LoadBalancer 的区别

Kubernetes Service 是暴露应用的关键，但不同类型的 Service 背后机制大相径庭，如果理解不透彻，很容易掉坑里。

Service 类型	作用	适用场景	注意事项
ClusterIP	在集群内部暴露服务，只能被集群内部的其他 Pod 访问。	集群内部服务之间的通信，比如前端应用访问后端 API。	默认类型，外部无法直接访问。
NodePort	在每个 Node 节点上开放一个端口，外部可以通过 `NodeIP:NodePort` 的方式访问服务。	外部访问集群内部服务，但需要手动管理 NodeIP 和 NodePort。	需要手动管理 NodePort，容易造成端口冲突。
LoadBalancer	使用云厂商提供的负载均衡器，自动将流量转发到后端的 Pod。	外部访问集群内部服务，且需要高可用性和负载均衡。	需要云厂商支持，费用较高。
ExternalName	将 Service 映射到外部 DNS 名称，用于访问集群外部的服务。	访问集群外部的服务，比如数据库、消息队列等。	依赖外部 DNS 解析，如果外部服务不可用，会导致应用访问失败。
Headless	不分配 ClusterIP，而是通过 DNS 直接解析到 Pod 的 IP 地址。	适用于需要直接访问 Pod 的场景，比如有状态应用。	需要配合 StatefulSet 使用。

温馨提示： 选择 Service 类型时，一定要根据实际需求进行选择。不要盲目使用 LoadBalancer，否则你的钱包可能会哭泣 😭。

网络策略的 “紧箍咒”：限制 Pod 之间的通信

网络策略（NetworkPolicy）是 Kubernetes 中用于控制 Pod 之间网络流量的利器。但如果配置不当，它也会变成限制 Pod 之间通信的“紧箍咒”。

举个栗子：
```
apiVersion: networking.k8s.io/v1
kind: NetworkPolicy
metadata:
 name: deny-all
spec:
 podSelector: {} # 选择所有 Pod
 ingress: [] # 拒绝所有入站流量
 egress: [] # 拒绝所有出站流量
```
这个 NetworkPolicy 会拒绝所有 Pod 的入站和出站流量，这意味着你的应用将完全无法访问网络。所以，在配置 NetworkPolicy 时，一定要小心谨慎，确保只限制必要的流量。

排查思路：
- 检查 NetworkPolicy 是否过于严格，导致 Pod 之间的通信被阻止。
- 使用 kubectl describe networkpolicy <策略名称> 命令查看策略的详细信息。
- 使用网络抓包工具（如 tcpdump）分析 Pod 之间的网络流量，看看是否被 NetworkPolicy 阻止。

二、存储篇：让数据不再“无家可归”

存储问题，也是 Kubernetes 里的一大痛点。Pod 找不到存储卷，数据丢失，持久化失败…各种状况层出不穷。

PersistentVolume (PV) 和 PersistentVolumeClaim (PVC) 的 “爱恨情仇”

PV 和 PVC 是 Kubernetes 中用于管理存储资源的核心概念。PV 相当于存储资源的“地盘”，PVC 相当于 Pod 对存储资源的“申请”。
- PV 的状态： PV 有多种状态，如 Available（可用）、Bound（已绑定）、Released（已释放）和 Failed（失败）。如果 PV 处于 Failed 状态，说明存储资源存在问题，需要检查存储后端。
- PVC 的绑定： PVC 会尝试绑定到符合条件的 PV。如果找不到符合条件的 PV，PVC 会一直处于 Pending 状态。
排查思路：
- 检查 PV 的状态是否正常。
- 检查 PVC 是否成功绑定到 PV。
- 检查 PV 的容量、访问模式等属性是否符合 PVC 的要求。
- 查看 Kubernetes 事件日志，看看是否有关于 PV 和 PVC 的错误信息。
小贴士： 尽量使用 StorageClass 来动态 Provisioning PV，这样可以避免手动创建和管理 PV 的麻烦。
存储卷的 “迷之权限”：权限问题导致无法读写

存储卷的权限问题，也是一个常见的坑。如果 Pod 没有足够的权限读写存储卷，就会导致应用无法正常工作。

举个栗子：
```
apiVersion: v1
kind: Pod
metadata:
 name: my-pod
spec:
 volumes:
   - name: my-volume
     persistentVolumeClaim:
       claimName: my-pvc
 containers:
   - name: my-container
     image: busybox
     command: ["/bin/sh", "-c", "while true; do echo 'Hello, world!' >> /data/output.txt; sleep 1; done"]
     volumeMounts:
       - name: my-volume
         mountPath: /data
```
如果存储卷的权限设置为只读，那么这个 Pod 就无法写入 /data/output.txt 文件，导致应用出错。

排查思路：
- 检查存储卷的权限设置是否正确。
- 使用 kubectl exec -it <你的 Pod 名称> -- ls -l /data 命令查看存储卷的权限。
- 如果需要修改存储卷的权限，可以使用 chmod 命令。
数据持久化的 “生死时速”：数据丢失的风险

数据持久化是 Kubernetes 里非常重要的一个环节。如果数据没有正确持久化，那么 Pod 重启或迁移时，数据就会丢失。

注意事项：
- 确保你的应用将数据写入到持久化存储卷中，而不是 Pod 的临时存储中。
- 定期备份你的数据，以防止意外情况发生。
- 使用可靠的存储解决方案，比如云厂商提供的块存储或文件存储。

三、调度篇：让 Pod “各得其所”

调度是 Kubernetes 的核心功能之一。它负责将 Pod 调度到合适的 Node 节点上运行。但如果调度策略配置不当，就会导致 Pod 无法正常运行。

NodeSelector 和 NodeAffinity 的 “指哪打哪”

NodeSelector 和 NodeAffinity 是用于控制 Pod 调度到哪些 Node 节点的两种方式。
- NodeSelector： 基于 Node 节点的标签进行调度。
- NodeAffinity： 比 NodeSelector 更加灵活，可以基于 Node 节点的标签进行更复杂的调度策略。
举个栗子：
```
apiVersion: v1
kind: Pod
metadata:
 name: my-pod
spec:
 nodeSelector:
   disktype: ssd # 只调度到具有 disktype=ssd 标签的 Node 节点上
 containers:
   - name: my-container
     image: busybox
     command: ["/bin/sh", "-c", "while true; do echo 'Hello, world!'; sleep 1; done"]
```
如果集群中没有具有 disktype=ssd 标签的 Node 节点，那么这个 Pod 将会一直处于 Pending 状态。

排查思路：
- 检查 NodeSelector 和 NodeAffinity 的配置是否正确。
- 使用 kubectl describe node <节点名称> 命令查看 Node 节点的标签。
- 确保集群中存在符合条件的 Node 节点。
资源限制的 “紧箍咒”：CPU 和内存不足的困境

Kubernetes 允许你为 Pod 设置资源限制，包括 CPU 和内存。如果 Pod 申请的资源超过了 Node 节点的可用资源，那么 Pod 将无法被调度。

排查思路：
- 使用 kubectl describe pod <Pod 名称> 命令查看 Pod 的资源请求和限制。
- 使用 kubectl describe node <节点名称> 命令查看 Node 节点的可用资源。
- 调整 Pod 的资源请求和限制，确保它们在 Node 节点的可用资源范围内。
污点 (Taints) 和容忍度 (Tolerations) 的 “特殊待遇”

Taints 和 Tolerations 是一种高级调度机制，可以用于控制 Pod 是否可以调度到具有特定污点的 Node 节点上。

举个栗子：
```
kubectl taint nodes <节点名称> key=value:NoSchedule # 为 Node 节点添加污点
```
只有具有相应 Tolerations 的 Pod 才能调度到这个 Node 节点上。

排查思路：
- 检查 Node 节点是否具有污点。
- 检查 Pod 是否具有相应的 Tolerations。
- 确保 Pod 的 Tolerations 能够容忍 Node 节点的污点。

四、总结：化身 Kubernetes “问题终结者”

好了，各位 Kubernaut 们，今天的“Kubernetes Troubleshooting 进阶：网络、存储与调度疑难杂症”研讨会就到这里告一段落了。希望通过今天的分享，大家能够对 Kubernetes 的网络、存储和调度问题有更深入的理解，并能够在实际工作中灵活运用这些技巧，化身 Kubernetes “问题终结者”，让你的 Kubernetes 集群运行得更加稳定可靠。

记住，遇到问题不要慌，冷静分析，一步一步排查，相信你一定能够找到问题的根源，并解决它！💪

最后，祝大家在 Kubernetes 的世界里玩得开心！🎉

发表回复 取消回复

发表回复取消回复