容器性能分析工具：cAdvisor, Prometheus Node Exporter 使用 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位观众老爷们，技术大咖们，以及屏幕前偷偷摸摸学习的小白们，晚上好！我是你们的老朋友，人见人爱花见花开的码农老王。今天，老王要给大家唠唠嗑，聊聊容器性能分析的两大利器：cAdvisor和Prometheus Node Exporter。

咱们程序员嘛，最怕啥？当然是线上出问题！半夜三更被电话吵醒，迷迷糊糊地爬起来，面对着黑压压的屏幕，满脑子都是"what the f*** is going on?" 这时候，如果我们手头能有趁手的兵器，能快速定位问题，那简直就是救命稻草啊！

而cAdvisor和Prometheus Node Exporter，就是容器世界里的两把瑞士军刀，帮助我们洞察容器和宿主机的性能，让我们在问题发生之前就能够防患于未然，或者在问题发生之时能够快速止损。

第一部分：cAdvisor – 容器性能的“显微镜”

想象一下，你是一个医生，面对着一堆病人（容器），你得知道他们哪里不舒服，才能对症下药。cAdvisor就扮演着“显微镜”的角色，它能深入到容器内部，观察容器的各项指标，比如CPU使用率、内存占用、网络流量、磁盘I/O等等，并将这些数据收集起来，供我们分析。

1.1 cAdvisor是啥？

cAdvisor，全称是Container Advisor，是Google开源的一个容器资源监控工具。它就像一个默默无闻的侦探，潜伏在你的容器里，监视着它们的一举一动。

特点：

自动化发现: cAdvisor能够自动发现宿主机上的所有容器，无需手动配置。简直是懒人福音！
资源监控: 能够监控容器的CPU、内存、网络、磁盘等资源的使用情况。
提供Web UI: 提供一个简单的Web UI，方便我们查看容器的性能数据。当然，它的UI比较简陋，更适合做初步的了解。
支持多种存储后端: 可以将监控数据存储到InfluxDB、Prometheus等时序数据库中。
易于部署: 可以通过Docker镜像直接运行，部署非常方便。

1.2 为什么要用cAdvisor？

你可能会问，我已经有Docker stats命令了，为什么还要用cAdvisor？问得好！Docker stats虽然也能提供一些容器的性能数据，但是它提供的信息比较有限，而且不够深入。

举个例子，Docker stats只能告诉你容器的CPU使用率，但是无法告诉你容器内部哪个进程占用了最多的CPU。而cAdvisor可以提供更详细的信息，比如容器内部每个进程的CPU使用率，这对于我们定位性能瓶颈非常有帮助。

此外，cAdvisor还提供了历史数据，我们可以通过查看历史数据来分析容器的性能趋势，从而更好地优化容器的配置。

1.3 如何部署cAdvisor？

部署cAdvisor非常简单，只需要运行一个Docker命令即可：

docker run 
  --volume=/var/run:/var/run:ro 
  --volume=/sys:/sys:ro 
  --volume=/var/lib/docker/:/var/lib/docker:ro 
  --volume=/:/rootfs:ro 
  --publish=8080:8080 
  --detach=true 
  --name=cadvisor 
  gcr.io/cadvisor/cadvisor:latest

这个命令会将cAdvisor容器运行起来，并将宿主机的/var/run、/sys、/var/lib/docker目录挂载到容器中。这样，cAdvisor就能访问宿主机上的容器信息了。

运行成功后，我们就可以通过浏览器访问http://<宿主机IP>:8080来查看cAdvisor的Web UI了。

1.4 cAdvisor的Web UI长啥样？

cAdvisor的Web UI比较简单，主要分为两个部分：

Overview: 展示宿主机的整体资源使用情况，以及所有容器的列表。
Container: 展示单个容器的详细性能数据，包括CPU、内存、网络、磁盘等。

在Container页面，我们可以看到容器的各种性能指标，比如CPU使用率、内存占用、网络流量、磁盘I/O等等。这些数据可以帮助我们了解容器的运行状况，从而更好地优化容器的配置。

1.5 cAdvisor的局限性

虽然cAdvisor很强大，但是它也有一些局限性：

数据存储: cAdvisor默认将数据存储在内存中，重启容器后数据会丢失。因此，我们需要将cAdvisor的数据存储到持久化的存储后端，比如InfluxDB、Prometheus等。
告警: cAdvisor本身不提供告警功能，我们需要结合其他的告警系统，比如Prometheus Alertmanager，来实现告警功能。
UI简陋: cAdvisor的UI比较简陋，不适合做复杂的分析。我们可以将cAdvisor的数据导入到Grafana中，利用Grafana强大的可视化功能来分析数据。

第二部分：Prometheus Node Exporter – 宿主机性能的“扫描仪”

cAdvisor主要关注容器的性能，但是容器是运行在宿主机上的，宿主机的性能也会影响容器的性能。因此，我们需要一个工具来监控宿主机的性能，而Prometheus Node Exporter就是这样一个工具。

2.1 Node Exporter是啥？

Prometheus Node Exporter是Prometheus官方提供的用于监控Linux服务器硬件和操作系统指标的exporter。它就像一台精密的扫描仪，能够扫描宿主机的各个角落，收集各种性能指标，比如CPU使用率、内存占用、磁盘I/O、网络流量等等，并将这些数据暴露给Prometheus。

特点：

全面监控: 能够监控宿主机的CPU、内存、磁盘、网络等资源的使用情况，以及操作系统的各种指标。
易于配置: 可以通过命令行参数来配置需要监控的指标。
轻量级: 资源占用非常小，不会对宿主机的性能产生太大的影响。
与Prometheus无缝集成: 可以直接被Prometheus采集数据。

2.2 为什么要用Node Exporter？

你可能会问，我已经有top命令了，为什么还要用Node Exporter？问得好！top命令虽然也能提供一些宿主机的性能数据，但是它提供的信息不够全面，而且不方便自动化采集。

Node Exporter可以提供更全面的信息，比如CPU的各个核心的使用率、磁盘的I/O等待时间、网络的丢包率等等。这些信息对于我们定位宿主机的性能瓶颈非常有帮助。

此外，Node Exporter还提供了Prometheus的指标格式，方便Prometheus采集数据，并进行可视化和告警。

2.3 如何部署Node Exporter？

部署Node Exporter也非常简单，只需要下载Node Exporter的二进制文件，然后运行即可：

wget https://github.com/prometheus/node_exporter/releases/download/v1.6.1/node_exporter-1.6.1.linux-amd64.tar.gz
tar -xvf node_exporter-1.6.1.linux-amd64.tar.gz
cd node_exporter-1.6.1.linux-amd64
./node_exporter

运行成功后，Node Exporter会在9100端口监听，我们可以通过浏览器访问http://<宿主机IP>:9100/metrics来查看Node Exporter暴露的指标。

2.4 Node Exporter的常用指标

Node Exporter提供了大量的指标，常用的指标包括：

CPU: node_cpu_seconds_total (CPU使用时间), node_load1 (1分钟平均负载)
Memory: node_memory_MemTotal_bytes (总内存), node_memory_MemFree_bytes (空闲内存)
Disk: node_disk_io_time_seconds_total (磁盘I/O时间), node_disk_read_bytes_total (磁盘读取字节数), node_disk_write_bytes_total (磁盘写入字节数)
Network: node_network_receive_bytes_total (接收字节数), node_network_transmit_bytes_total (发送字节数)

这些指标可以帮助我们了解宿主机的资源使用情况，从而更好地优化宿主机的配置。

2.5 Node Exporter的局限性

Node Exporter虽然很强大，但是它也有一些局限性：

数据存储: Node Exporter本身不存储数据，需要结合Prometheus来存储数据。
告警: Node Exporter本身不提供告警功能，需要结合Prometheus Alertmanager来实现告警功能。
配置复杂: Node Exporter的配置比较复杂，需要了解Prometheus的指标格式。

第三部分：cAdvisor + Node Exporter + Prometheus + Grafana – 黄金搭档

cAdvisor和Node Exporter分别监控容器和宿主机的性能，但是它们本身不存储数据，也不提供告警功能。因此，我们需要将它们的数据导入到Prometheus中，利用Prometheus强大的数据存储和查询功能，以及Grafana强大的可视化功能，来实现完整的容器性能监控解决方案。

3.1 Prometheus配置

首先，我们需要配置Prometheus，让Prometheus能够采集cAdvisor和Node Exporter的数据。

在Prometheus的配置文件prometheus.yml中，添加以下内容：

scrape_configs:
  - job_name: 'cadvisor'
    static_configs:
      - targets: ['<宿主机IP>:8080']

  - job_name: 'node_exporter'
    static_configs:
      - targets: ['<宿主机IP>:9100']

将<宿主机IP>替换为你的宿主机的IP地址。

然后，重启Prometheus，让配置生效。

3.2 Grafana配置

接下来，我们需要配置Grafana，让Grafana能够连接到Prometheus，并可视化cAdvisor和Node Exporter的数据。

首先，在Grafana中添加Prometheus数据源。

然后，导入一些现成的Dashboard，比如：

cAdvisor Dashboard: 可以从Grafana的官方网站下载，或者在Grafana中搜索"cAdvisor"来查找。
Node Exporter Dashboard: 可以从Grafana的官方网站下载，或者在Grafana中搜索"Node Exporter"来查找。

导入Dashboard后，我们就可以在Grafana中看到cAdvisor和Node Exporter的数据了。我们可以根据自己的需求，自定义Dashboard，来展示我们关心的指标。

3.3 告警配置

最后，我们需要配置告警，当容器或宿主机的性能超过阈值时，能够及时通知我们。

我们可以使用Prometheus Alertmanager来实现告警功能。

首先，我们需要编写告警规则，定义告警的条件。

例如，我们可以定义一个告警规则，当容器的CPU使用率超过80%时，触发告警：

groups:
- name: Container CPU Usage
  rules:
  - alert: ContainerCPUUsageHigh
    expr: sum(rate(container_cpu_usage_seconds_total{name!=""}[5m])) by (name) > 0.8
    for: 1m
    labels:
      severity: warning
    annotations:
      summary: "Container CPU Usage High (instance {{ $labels.instance }})"
      description: "Container {{ $labels.name }} CPU usage is above 80% for 1 minute"

然后，我们需要配置Alertmanager，将告警信息发送到指定的渠道，比如邮件、Slack、钉钉等等。

总结

cAdvisor和Prometheus Node Exporter是容器性能分析的两大利器，它们可以帮助我们洞察容器和宿主机的性能，让我们在问题发生之前就能够防患于未然，或者在问题发生之时能够快速止损。

结合Prometheus和Grafana，我们可以构建一个完整的容器性能监控解决方案，实现数据存储、可视化和告警功能。

希望今天的分享对大家有所帮助！如果大家有什么问题，欢迎在评论区留言，老王会尽力解答。

最后，祝大家工作顺利，早日升职加薪！拜拜！ 🚀🎉

发表回复 取消回复

发表回复取消回复