聊聊云原生转型之前实现可观察性的必要性

程序员的世界非常魔幻,有时不明白老板们在想什么,突发奇想说公司想做云原生转型,然而计划的第一件事是从 Jenkins 流水线转移到 Gitlab CI。碰到什么困难,老板们开始怀疑技术上存在问题,试图通过技术解决一切问题,而不考虑公司组织架构是否需要变革。

要做云原生转型仅仅靠技术就够了么?有时仅仅只是创造了一堆工作要做,可能不会带来任何收益,反而会增加工作量。

我不知道你公司是提供什么业务服务的,也不知道公司目前的组织和技术架构是什么样子,所以也无法为你提供云原生转型方法。如果单纯从云原生转型来说,云原生对于公司没有好坏之分,只能说是否适合当前组织后续发展。

所以各位老板们,无论做云原生转型,还是做组织架构调整,还是做技术迭代升级,只要你还准备继续迭代和升级,首先你需要了解你的系统到底发生了什么;要想了解公司的业务发展就要从监控和可观察性开始。

1、为什么要从可观察性开始?

首先,如果你不理解也不能清楚地看到你的系统发生了什么,那么做一些云原生转型也是徒劳无功的。

为什么这样说呢?(从某种意义上来说,云原生是一种提效手段,所以找到组织效率低下的原因,然后再进行转型和升级)

从宏观上来说,如果你的产品不能为公司或者组织带来收益,然后进行技术转型,可能依然如此。比如无法带来的收益的原因可能是销售或者用户侧出现问题。

从微观上来说,公司的基础架构和用户数量是否呈爆发式增长,如果在可控范围内或者目前在很好的运转。换一种说法,如果找不到现在效率低下的原因,贸然进行云原生转型可能会徒增工作量。

看谷歌的Site Reliability Engineering这本书,不需要看全书,看前三章就可以了。它从谈论接受风险、SLO、然后是监控开始。所有这些都与监控和可观察性有关。

SRE 书籍为您提供了使您的产品可靠的需求层次结构:

看看这个金字塔。一切靠什么?

监控。

可靠的生产系统需要有良好的监控。如果没有监控,您甚至无法判断该服务是否正常工作,更不用提用户体验是否良好,用户在使用过程是否出现问题。

监控靠什么?

可观察性。

可观察性是关于将您的黑盒应用程序转变为开放的、经过检测的微服务,这使您能够快速检查和了解正在发生的事情,它能够立即观察系统的运行情况。

老实说,在向云原生过渡的过程中,弄清楚实现可观察性是重中之重。

如何做到可观察性?

规范化编程语言监控类库

编写的 Java 将与 PHP 或 Go 有所不同。这在很大程度上也取决于生态系统。您需要拥有构建良好的框架、库和工具。其中一些更难检测和操作。通过标准化的框架思考到底我们的系统需要什么监控?

  • 一个典型的应用程序需要多长时间才能启动?
  • 在没有任何负载的情况下,应用程序需要多少内存/CPU?
  • 它可以处理的最大负载是多少?
  • 资源如何看待最大负载?
  • 当负载超过系统资源时它的行为如何?
  • 每个请求的延迟是多少?

这些是您需要快速了解的一些关键问题。为此,您应该有一个现成的仪表板,只需单击一下即可,就可以查看你认为必不可少的指标,在这个过程中并不是一蹴而就的,需要在使用过程中,不断优化和改进监控面板。

通常,不同编程语言处理内存和CPU存在一定的多差异。Go 提供轻量级线程和垃圾回收。Python 有一个全局解释器锁。Java 使用 JVM 虚拟化了一切。PHP 依靠网络服务器来完成大部分工作。这就可能需要根据编程语言的特性产生不同的监控面板:

  • 内存泄漏的关键指标是什么?
  • 它有垃圾收集吗?
  • 并发性如何在该语言中表现如何?
  • 应用程序线程或 goroutine 之一是否泄漏?

您应该能够通过监控面板相对容易的识别 GC 问题或内存泄漏。

对最重要的服务指标发出警报

必须跟踪面向客户的应用程序指标!您应该遵循几种模式。一个示例是RED 方法,跟踪请求速率(即每秒 HTTP 请求数)、错误率(每秒 500 次响应)和持续时间。对于持续时间,您通常希望第 50 个百分位小于 X 毫秒,第 99 个百分位小于 Y 毫秒。您需要确保您拥有数据库/队列和其他有状态服务的最关键指标,不至于数据库已经极度不稳定而没有人注意到。

另一个例子是谷歌在他们的 SRE 书中谈到了四个黄金信号。

  • 延迟-服务响应请求所需的时间。
  • 流量-您的服务当前正在处理的请求数。
  • 错误-请求失败的比率。
  • 饱和度——您的服务可以在不中断的情况下处理多少请求。

这里的关键是对有问题的指标发出告警。这些指标通常可以让您快速了解客户何时遇到问题。您还可以通过确定错误预算并进行 SRE 式警报。确保 oncall 人员收到警报,并第一时间进行问题的发现和解决。

通过告警你可以在你的客户感知到问题之前,提前发现和解决问题。

添加一些黑盒监控

获取可用的服务指标有时可能很棘手。例如,您正在托管一个 FTP 服务器。大多数开源服务器都是在 Prometheus 出现之前编写的,因此这些开源服务器不会公开任何指标。监控这种情况最直接的方法是使用黑盒监控方法。

你只需要在重要的业务流程中加入监控指标收集,比如捕获到异常或者出现错误信息。这非常重要,因为有时白盒指标根本不起作用。一个例子是服务过载或陷入死循环。外部监控指标无法感知到异常数据存在。

结论

通过监控指标可以清晰看到用户流量大小,请求延迟状况,是否需要性能优化,当前架构是否可以满足用户增长的需求,资源占用如何,什么时候需要扩容。

希望到现在为止,在开始云原生之旅的开始之前,首先保证系统运行指标可视化,保证系统的可观察性,一切从监控开始。