K8s HPA (Horizontal Pod Autoscaler) 深度优化策略 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位观众老爷，各位技术大咖，以及各位未来要吊打面试官的程序猿们，大家好！我是你们的老朋友，一个在K8s的海洋里摸爬滚打多年的老司机。今天咱们不聊高深的理论，不搞虚头巴脑的概念，就来唠唠嗑，聊聊这K8s里的“自动驾驶”——HPA，也就是Horizontal Pod Autoscaler，水平Pod自动伸缩。

咱们的目标是：让你的K8s集群像一位训练有素的管家，该出手时就出手，该偷懒时就偷懒，既能保证服务稳定如山，又能省钱省到姥姥家！

一、HPA：让Pod数量像弹簧一样伸缩自如

首先，咱们得明白HPA是干啥的。简单来说，HPA就像一个“监控器 + 遥控器”，它时刻盯着你的Pod，如果发现Pod的CPU利用率、内存使用率，或者你自定义的指标超出了你设定的阈值，它就会自动增加Pod的数量；反之，如果Pod们集体划水，它就会减少Pod的数量。

你可以把HPA想象成一个乐队指挥，他根据观众的热情（指标）来调整乐队的规模（Pod数量），观众越high，乐队规模越大，气氛越热烈；观众都睡着了，乐队规模就缩小，让大家休息休息。

二、HPA的基本配置：入门级玩家的标配

HPA的配置其实很简单，只需要几个关键的参数：

Target CPU Utilization Percentage (目标CPU利用率百分比): 这是HPA最常用的指标，告诉HPA你希望Pod的CPU利用率维持在多少。比如，你设置成50%，HPA就会努力让每个Pod的CPU利用率都维持在50%左右。
Target Memory Utilization Percentage (目标内存利用率百分比): 类似CPU，但监控的是内存使用率。
Min Replicas (最小副本数): 这是底线，就算你的服务再空闲，Pod的数量也不能少于这个值。
Max Replicas (最大副本数): 这是上限，就算你的服务再火爆，Pod的数量也不能超过这个值。
Metrics (指标): 除了CPU和内存，你还可以自定义指标，比如每秒请求数（QPS）、响应时间等等。

一个简单的HPA配置YAML文件大概长这样：

apiVersion: autoscaling/v2beta2
kind: HorizontalPodAutoscaler
metadata:
  name: my-hpa
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: my-deployment
  minReplicas: 1
  maxReplicas: 10
  metrics:
  - type: Resource
    resource:
      name: cpu
      target:
        type: Utilization
        averageUtilization: 50
  - type: Resource
    resource:
      name: memory
      target:
        type: Utilization
        averageUtilization: 70

这个配置的意思是：监控名为my-deployment的Deployment，最小副本数为1，最大副本数为10，目标CPU利用率为50%，目标内存利用率为70%。

三、HPA进阶优化：让你的集群飞起来

入门级的HPA配置只能满足基本的需求，想要让你的集群真正飞起来，还需要掌握一些进阶的优化策略。

自定义指标：告别千篇一律，打造专属监控

CPU和内存利用率是通用的指标，但很多时候，它们并不能准确反映服务的真实负载。比如，你的服务可能CPU利用率很低，但因为数据库连接数满了，导致响应速度很慢。

这时，就需要自定义指标了。你可以通过Prometheus等监控系统收集服务的各种指标，然后通过External Metrics或Object Metrics的方式告诉HPA。
- External Metrics: 从外部监控系统获取指标，比如Prometheus。
- Object Metrics: 从Kubernetes API对象获取指标，比如Ingress的请求数。
举个例子，假设你想根据每秒请求数（QPS）来伸缩Pod，你可以这样配置：
```
apiVersion: autoscaling/v2beta2
kind: HorizontalPodAutoscaler
metadata:
  name: my-hpa
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: my-deployment
  minReplicas: 1
  maxReplicas: 10
  metrics:
  - type: External
    external:
      metric:
        name: my_service_qps # Prometheus中的指标名称
      target:
        type: Value
        value: 100 # 目标QPS为100
```
这样，HPA就会根据my_service_qps这个指标来伸缩Pod，而不是CPU或内存。
Behavior配置：控制伸缩速度，避免惊吓

默认情况下，HPA的伸缩速度可能比较快，导致Pod数量频繁波动，影响服务的稳定性。可以通过behavior配置来控制伸缩的速度。

behavior配置可以分为scaleUp（扩容）和scaleDown（缩容）两个部分，分别控制扩容和缩容的行为。
- stabilizationWindowSeconds: 稳定窗口时间，在缩容时，HPA会忽略这段时间内发生的缩容事件，避免频繁缩容。
- policies: 伸缩策略，可以根据不同的指标设置不同的伸缩策略。
一个behavior配置的例子：
```
apiVersion: autoscaling/v2beta2
kind: HorizontalPodAutoscaler
metadata:
  name: my-hpa
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: my-deployment
  minReplicas: 1
  maxReplicas: 10
  metrics:
  - type: Resource
    resource:
      name: cpu
      target:
        type: Utilization
        averageUtilization: 50
  behavior:
    scaleUp:
      policies:
      - type: Percent
        value: 10
        periodSeconds: 60 # 每60秒最多增加10%的Pod
      stabilizationWindowSeconds: 0
    scaleDown:
      policies:
      - type: Percent
        value: 10
        periodSeconds: 60 # 每60秒最多减少10%的Pod
      stabilizationWindowSeconds: 300 # 稳定窗口时间为300秒
```
这个配置的意思是：扩容时，每60秒最多增加10%的Pod；缩容时，每60秒最多减少10%的Pod，并且稳定窗口时间为300秒。这样可以有效地控制伸缩速度，避免频繁波动。
Pod Readiness Probe：让新Pod充分热身

新创建的Pod可能需要一段时间才能完全启动并提供服务。如果HPA在Pod还没准备好的时候就将流量导向它，可能会导致请求失败。

这时，就需要Pod的Readiness Probe（就绪探针）了。Readiness Probe用于检查Pod是否已经准备好接收流量。只有当Readiness Probe返回成功时，K8s才会将流量导向该Pod。

Readiness Probe可以配置成HTTP请求、TCP连接或执行命令等方式。

一个Readiness Probe的例子：
```
apiVersion: apps/v1
kind: Deployment
metadata:
  name: my-deployment
spec:
  replicas: 1
  selector:
    matchLabels:
      app: my-app
  template:
    metadata:
      labels:
        app: my-app
    spec:
      containers:
      - name: my-container
        image: my-image
        ports:
        - containerPort: 8080
        readinessProbe:
          httpGet:
            path: /healthz # 健康检查接口
            port: 8080
          initialDelaySeconds: 5 # 启动后延迟5秒开始检查
          periodSeconds: 10 # 每10秒检查一次
```
这个配置的意思是：Pod启动后延迟5秒开始检查/healthz接口，每10秒检查一次。只有当/healthz接口返回200 OK时，Pod才会被认为是就绪的。
Resource Request和Limit：为Pod预留资源，避免资源争抢

在K8s中，可以通过Resource Request和Resource Limit来限制Pod的资源使用。
- Resource Request: Pod启动时，K8s会尝试为它分配至少这么多的资源。
- Resource Limit: Pod最多可以使用这么多的资源。
设置Resource Request可以保证Pod能够获得足够的资源，避免因为资源不足而导致性能下降。设置Resource Limit可以防止Pod占用过多的资源，影响其他Pod的运行。

一个Resource Request和Resource Limit的例子：
```
apiVersion: apps/v1
kind: Deployment
metadata:
  name: my-deployment
spec:
  replicas: 1
  selector:
    matchLabels:
      app: my-app
  template:
    metadata:
      labels:
        app: my-app
    spec:
      containers:
      - name: my-container
        image: my-image
        ports:
        - containerPort: 8080
        resources:
          requests:
            cpu: 100m # 需要至少100毫核CPU
            memory: 256Mi # 需要至少256MB内存
          limits:
            cpu: 500m # 最多使用500毫核CPU
            memory: 512Mi # 最多使用512MB内存
```
这个配置的意思是：Pod启动时需要至少100毫核CPU和256MB内存，最多可以使用500毫核CPU和512MB内存。
预估流量，搭配Scheduled Pod Autoscaler使用

HPA是基于当前负载进行伸缩的，对于一些流量有明显周期性规律的应用，比如电商平台的秒杀活动，或者晚上高峰期的视频网站，HPA的响应速度可能跟不上流量的变化。

这时，可以搭配Scheduled Pod Autoscaler（SCA）一起使用。SCA可以根据预定的时间表来自动调整Pod的数量，提前预热，应对流量高峰。

你可以把SCA想象成一个闹钟，它会在特定的时间叫醒你的Pod，让它们做好准备，迎接即将到来的挑战。

SCA通常需要结合Cron表达式来配置，比如：
```
apiVersion: scheduling.sigs.k8s.io/v1alpha1
kind: ScheduledPodAutoscaler
metadata:
name: my-scheduled-hpa
spec:
scaleTargetRef:
  apiVersion: apps/v1
  kind: Deployment
  name: my-deployment
schedule: "0 0 * * *" # 每天凌晨0点执行
minReplicas: 5
maxReplicas: 10
```
这个配置的意思是：每天凌晨0点将my-deployment的Pod数量调整到5-10个之间。

四、HPA实战案例：让你的电商网站在双十一稳如泰山

咱们以一个电商网站为例，来说说HPA的实战应用。

假设你的电商网站在双十一期间流量会暴增，你可以这样优化HPA：

自定义指标： 监控订单处理服务的QPS，作为HPA的指标。
Behavior配置： 设置合理的伸缩速度，避免Pod数量频繁波动。
Pod Readiness Probe： 确保新Pod在接收流量之前已经充分热身。
Resource Request和Limit： 为Pod预留足够的资源，避免资源争抢。
Scheduled Pod Autoscaler： 提前预热，应对双十一的流量高峰。

具体的配置可以参考以下示例：

# HPA配置
apiVersion: autoscaling/v2beta2
kind: HorizontalPodAutoscaler
metadata:
  name: order-hpa
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: order-deployment
  minReplicas: 5 # 最小副本数
  maxReplicas: 50 # 最大副本数
  metrics:
  - type: External
    external:
      metric:
        name: order_service_qps # 订单处理服务的QPS
      target:
        type: Value
        value: 200 # 目标QPS为200
  behavior:
    scaleUp:
      policies:
      - type: Percent
        value: 20
        periodSeconds: 60 # 每60秒最多增加20%的Pod
      stabilizationWindowSeconds: 0
    scaleDown:
      policies:
      - type: Percent
        value: 10
        periodSeconds: 60 # 每60秒最多减少10%的Pod
      stabilizationWindowSeconds: 300 # 稳定窗口时间为300秒

# Deployment配置
apiVersion: apps/v1
kind: Deployment
metadata:
  name: order-deployment
spec:
  replicas: 5
  selector:
    matchLabels:
      app: order-service
  template:
    metadata:
      labels:
        app: order-service
    spec:
      containers:
      - name: order-container
        image: order-image
        ports:
        - containerPort: 8080
        readinessProbe:
          httpGet:
            path: /healthz
            port: 8080
          initialDelaySeconds: 10 # 启动后延迟10秒开始检查
          periodSeconds: 10 # 每10秒检查一次
        resources:
          requests:
            cpu: 200m
            memory: 512Mi
          limits:
            cpu: 1000m
            memory: 1Gi

# Scheduled Pod Autoscaler配置 (双十一预热)
apiVersion: scheduling.sigs.k8s.io/v1alpha1
kind: ScheduledPodAutoscaler
metadata:
  name: order-scheduled-hpa
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: order-deployment
  schedule: "0 0 11 11 *" # 每年11月1日凌晨0点执行
  minReplicas: 20 # 预热到20个Pod
  maxReplicas: 30 # 预热到30个Pod

通过以上配置，你的电商网站就可以在双十一期间稳如泰山，应对流量高峰，保证用户体验。

五、踩坑指南：HPA的那些坑，我都帮你填平了

HPA虽然强大，但也不是万能的，在使用过程中可能会遇到一些坑。

指标选择不当： 选择错误的指标会导致HPA无法准确反映服务的真实负载，导致伸缩不准确。
伸缩速度过快： 过快的伸缩速度会导致Pod数量频繁波动，影响服务的稳定性。
Pod Readiness Probe配置不当： 配置不当的Readiness Probe会导致新Pod无法及时接收流量，或者旧Pod无法及时下线。
资源限制不足： 资源限制不足会导致Pod因为资源争抢而性能下降。

解决这些问题的方法也很简单：

仔细选择指标： 选择能够准确反映服务真实负载的指标。
合理配置伸缩速度： 通过behavior配置来控制伸缩速度。
正确配置Pod Readiness Probe： 确保Readiness Probe能够准确检查Pod的就绪状态。
合理设置资源限制： 为Pod预留足够的资源，避免资源争抢。

六、总结：HPA是K8s的灵魂，也是你的得力助手

HPA是K8s中非常重要的一个组件，它可以帮助你实现服务的自动伸缩，保证服务的稳定性和性能。通过合理的配置和优化，你可以让HPA成为你的得力助手，让你的K8s集群真正飞起来。

记住，HPA不是一劳永逸的，需要根据实际情况不断调整和优化。希望这篇文章能够帮助你更好地理解和使用HPA，让你的K8s之旅更加顺畅。

好了，今天的分享就到这里，感谢大家的观看！如果觉得有用，记得点赞、收藏、分享哦！咱们下期再见！ 👋

发表回复 取消回复

发表回复取消回复