可观测性（Observability）体系构建：Metrics, Logs, Traces 的融合 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位老铁，程序员们，晚上好！欢迎来到今晚的“可观测性脱口秀”现场！我是你们今晚的host，人称“Bug猎手”的码农张三。今天咱们不聊996，不聊秃头，咱们聊点高大上的，聊聊如何打造一个让你晚上能睡个好觉的——可观测性体系！

别一听到“可观测性”就觉得脑袋大，仿佛回到了大学课堂。其实它一点都不枯燥，它就像你的私人医生，时刻帮你监控你的系统，让你在问题爆发前就能发现并解决。想想看，谁不想拥有一个这样的私人医生呢？😎

今天咱们的主题是：可观测性（Observability）体系构建：Metrics, Logs, Traces 的融合

咱们的目标是：用最通俗易懂的语言，把这个看似复杂的概念讲清楚，让你听完之后，感觉自己也能轻松打造一个属于自己的可观测性体系！

一、什么是可观测性？别再把它和监控混为一谈了！

很多朋友一听到“可观测性”，第一反应就是“监控”嘛！不就是看看CPU利用率，看看内存占用嘛！但其实，可观测性远不止于此。

咱们打个比方：

监控就像体检： 你知道你的血压、血糖、心率，但你知道为什么血压高了吗？为什么血糖不稳定吗？体检告诉你的是结果。
可观测性就像私人医生： 他不仅知道你的血压、血糖、心率，还能通过你的生活习惯、饮食结构、家族病史等等，分析出你血压高的原因，血糖不稳定的原因，并给你提供个性化的解决方案。可观测性告诉你的是原因，并帮助你找到解决方案。

所以，可观测性不仅仅是告诉你系统“发生了什么”，更重要的是告诉你“为什么发生”以及“如何解决”。

简单来说，监控是“已知”的，可观测性是“未知”的。监控告诉你“我预设了这些指标，它们超标了！”，可观测性告诉你“系统出现了异常，我不知道具体原因，但通过分析，我发现可能是因为某个服务调用链出现了问题！”

二、可观测性的三大支柱：Metrics, Logs, Traces，一个都不能少！

就像盖房子需要钢筋、水泥、砖头一样，可观测性也需要三大支柱来支撑：

Metrics（指标）： 就像你汽车的仪表盘，告诉你速度、油量、水温等关键信息。Metrics 通常是数值型的，可以用来衡量系统的健康状况和性能。
Logs（日志）： 就像你汽车的行车记录仪，记录了你行驶过程中的所有事件，包括加速、刹车、转弯等等。Logs 记录了系统运行过程中的详细信息，可以帮助你排查问题。
Traces（链路追踪）： 就像你汽车的导航系统，告诉你从A点到B点的完整路径，以及每个路段的耗时。Traces 记录了请求在不同服务之间的调用链，可以帮助你定位性能瓶颈。

这三者就像一个铁三角，缺一不可。只有将它们融合在一起，才能构建一个完整的可观测性体系。

特性	Metrics（指标）	Logs（日志）	Traces（链路追踪）
数据类型	数值型	文本型	结构化数据，包含 Span 信息
作用	衡量系统健康状况和性能	记录系统运行过程中的详细信息，排查问题	记录请求在不同服务之间的调用链，定位性能瓶颈
优点	轻量级，易于聚合和分析，可以快速发现异常趋势	详细记录事件，可以提供丰富的上下文信息	可以清晰地展示请求的调用链，快速定位问题
缺点	只能提供宏观的视角，无法深入了解问题细节	数据量大，不易于分析，需要进行结构化处理	产生大量数据，需要进行采样
适用场景	监控CPU利用率、内存占用、请求响应时间等关键指标	记录用户登录、订单创建、支付成功等事件	分析微服务之间的调用关系，定位慢查询、高延迟等问题
存储需求	较低	较高	中等

三、如何融合 Metrics, Logs, Traces？让它们协同作战！

有了三大支柱，下一步就是将它们融合在一起，让它们协同作战，发挥更大的威力。这就像把汽车的仪表盘、行车记录仪和导航系统连接在一起，让你对车辆的状况一目了然。

融合的方法有很多，这里介绍几种常用的：

统一数据格式： 就像制定一套通用的语言，让Metrics, Logs, Traces 能够互相理解。例如，可以使用OpenTelemetry标准，统一数据的格式和规范。
关联ID： 就像给每个事件贴上一个标签，让你可以通过这个标签将相关的Metrics, Logs, Traces 关联在一起。例如，可以使用Trace ID将同一个请求的Metrics, Logs, Traces 关联在一起。
可视化： 就像把所有数据放在一个大屏幕上，让你能够一目了然地看到系统的整体状况。可以使用Grafana等可视化工具，将Metrics, Logs, Traces 整合在一个仪表盘上。

举个例子：

假设一个用户发起了一个支付请求，这个请求经过了三个服务：A服务（用户认证）、B服务（订单处理）、C服务（支付处理）。

Metrics： 我们可以监控每个服务的请求响应时间、错误率等指标。如果C服务的响应时间突然变长，我们可以快速发现这个问题。
Logs： 我们可以记录每个服务的日志，包括请求参数、返回结果、异常信息等。如果C服务出现了异常，我们可以通过日志找到具体的错误信息。
Traces： 我们可以记录整个支付请求的调用链，包括每个服务之间的调用关系和耗时。如果C服务的响应时间变长，我们可以通过Trace ID找到导致问题的具体服务和方法。

通过将Metrics, Logs, Traces 融合在一起，我们可以快速发现问题、定位问题、解决问题。就像一个经验丰富的医生，能够通过各种检查手段，准确地诊断病情，并给出最佳的治疗方案。

四、选择合适的工具，事半功倍！

工欲善其事，必先利其器。选择合适的工具，可以让你在构建可观测性体系的过程中事半功倍。

Metrics： Prometheus, Grafana, StatsD
Logs： Elasticsearch, Logstash, Kibana (ELK Stack), Loki
Traces： Jaeger, Zipkin, SkyWalking
统一数据收集： Fluentd, Fluent Bit, OpenTelemetry Collector

这些工具各有特点，可以根据自己的需求选择合适的工具。例如，如果你的系统规模较小，可以选择轻量级的工具，如Grafana Cloud。如果你的系统规模较大，可以选择功能更强大的工具，如Elasticsearch。

五、可观测性体系构建的最佳实践，避免踩坑！

从核心业务开始： 不要一开始就想监控所有东西，先从核心业务开始，逐步扩大监控范围。
定义清晰的指标： 确保你的指标能够反映系统的真实状况，避免过度监控或监控不足。
设置合理的告警： 不要设置过多的告警，否则会淹没在告警的海洋中。只设置必要的告警，并确保告警能够及时通知到相关人员。
自动化： 尽可能地自动化可观测性体系的构建和维护，减少人工干预。
持续改进： 可观测性体系不是一蹴而就的，需要不断地改进和完善。

六、可观测性，未来已来！

随着微服务、容器化、云原生等技术的普及，可观测性变得越来越重要。未来的可观测性将更加智能化、自动化，能够帮助我们更好地理解系统、优化性能、解决问题。

AI驱动的可观测性： 利用机器学习算法，自动发现异常、预测风险、优化资源。
无代码可观测性： 通过简单的配置，即可实现可观测性，无需编写大量的代码。
全链路可观测性： 覆盖整个系统的所有组件，包括前端、后端、数据库、中间件等等。

总结：

可观测性不是一个一次性的项目，而是一个持续的过程。它需要你的投入和努力，但它也会给你带来巨大的回报。拥有一个完善的可观测性体系，就像拥有了一双透视眼，让你能够清晰地看到系统的内部运作，快速发现问题，并及时解决。

记住，可观测性不是为了让你失眠，而是为了让你睡个好觉！希望今天的分享能帮助你打造一个属于自己的可观测性体系，让你成为一个更加优秀的工程师！

最后，留个小作业：

思考一下，你目前的系统有哪些需要改进的地方？
选择一些合适的工具，开始构建你的可观测性体系吧！

感谢各位的收听，祝大家早日告别Bug，走向幸福！我们下期再见！👋

发表回复 取消回复

发表回复取消回复