可观测性的四个关键最佳实践

可观测性的四个关键最佳实践

没有可观测性,宝贵的工程时间将被浪费在试图筛选数据以找出问题所在,而不是推出新功能上。

翻译自 4 Key Observability Best Practices

图片来自 Shutterstock 的 alphaspirit.it

随着更大规模的系统、更高的负载以及云原生环境中微服务之间的更多互联,一切都变得更加复杂。云原生环境会产生比传统的基于虚拟机的环境多 10 到 100 倍的可观测性数据。

因此,工程师们无法充分利用他们的工作时间,花费更多时间在调查和从孤立的遥测数据中拼凑出发生了什么的故事,留下更少的时间来进行创新。

如果没有正确的可观测性设置,宝贵的工程时间将被浪费在试图筛选数据以找出问题所在,而不是推出新功能,这可能会引入有缺陷的功能并影响客户体验。

那么,现代组织如何在大量的遥测数据中找到相关的见解,并使它们的遥测数据为他们所用,而不是相反?让我们探讨一下为什么可观测性对于理解您的云原生系统至关重要,并为您的团队提供四个可观测性最佳实践。

可观测性的好处是什么?

在我们深入探讨您的组织如何提高可观测性、降低成本并确保更顺畅的客户体验之前,让我们谈谈实际投资可观测性的好处是什么。

更好的客户体验

通过更好地理解和查看相关数据,您的组织支持团队可以获得特定于客户的见解,以了解问题对特定客户群体的影响。也许最近的升级对您所有的客户都有效,除了在最大负载下或在某个特定时间窗口内的客户。利用这些信息,值班工程师可以迅速解决事故并提供更详细的事故报告。

更好的工程体验和留存率

通过投资可观测性,站点可靠性工程师(SREs)能够了解团队或系统组件的健康状况,以更好地确定其可靠性工作和倡议的优先级。

至于开发人员,可观测性的好处包括跨团队边界更有效的协作、更快的适应新服务/继承服务以及对即将发生的更好的初步计算。

四个可观测性最佳实践

现在,我们对于团队为有效运行其云原生系统需要可观测性有了更好的理解,让我们深入探讨四个可观测性最佳实践,团队可以使用这些实践为自己设定成功的基础。

1. 与开发体验集成

可观测性是每个人的职责,最适合对其进行 instrument 的是编写代码的人。维护 instrument 和监控器不应该仅仅是 SRE 或您团队的负责人的工作。

对遥测生命周期的彻底了解(跨度、度量或日志的生命周期)至关重要,从设置配置到发出信号以及存储之前进行的任何修改或处理。如果有一个高级别的架构图,工程师可以更好地了解他们的仪器化是否被修改(例如,聚合或丢弃等)。通常,这种处理属于 SRE 领域,对开发人员来说是不可见的,他们将不了解为什么他们的新遥测部分或完全丢失。

您可以在 OpenTelemetry Python Cookbook 中查看简单的 instrumentation 示例。

如果有足够的资源和明确的需要使用一个中央内部工具,平台工程团队应考虑编写围绕仪器化库的薄包装,以确保标准元数据在开箱即用时可用。

查看 Instrumentation 的变更

启用开发人员的另一种方法是在本地进行仪器化时提供快速反馈循环,以便他们可以在合并拉取请求之前查看仪器化的更改。这个建议对于培训目的和那些对仪器化或不确定如何进行仪器化的团队成员非常有帮助。

更新值班流程

更新值班入职流程,将新工程师与有经验的工程师合作进行生产调查,可以帮助传播部落知识并使新人熟悉您的可观测性堆栈。受益的不仅仅是新工程师。以新的视角看待系统可以挑战经验丰富的工程师的思维模式和假设。一起探索生产可观测性数据是一种非常有价值的实践,您可能希望在入职期后继续保持。

您可以在 SRECon 的这个演讲中了解更多信息:“Cognitive Apprenticeship in Practice with Alert Triage Hour of Power”。

2. 以多种方式监控可观测性平台的使用

出于成本原因,熟悉跟踪当前遥测足迹并审查调整选项(如丢弃数据、聚合或过滤)可以帮助您的组织更主动地监控成本和平台采用情况。跟踪遥测数据的类型(度量、日志、跟踪或事件)以及团队可以帮助定义和委派成本效益举措。

一旦您了解了您发出多少遥测数据以及它的成本,考虑跟踪每日和每月活跃用户。这可以帮助您确定哪些工程师需要在该平台上接受培训。

这些关于培训和成本的可观测性最佳实践将有助于更好地理解每个供应商为您提供的价值,以及哪些没有充分利用。

3. 在可观测性数据中注重业务背景

在大量的可观测性数据中解读业务背景可以在不同方面帮助简化高风险情况:

  • 通过使从用户角度影响工作流程和功能的事故更容易翻译。
  • 通过为工程师创建更高效的入职流程。

将业务背景置于可观测性数据中的一种方式是重命名默认仪表板、图表和监视器。

4. 打破遥测数据的壁垒

团队需要更好的调查。确保更顺畅的纠正过程的一种方法是通过有组织的流程,例如按照面包屑的方式进行,而不是有 10 个不同的书签链接和对数据位置的心理地图。

实现这一点的一种方法是了解您的系统从度量、日志和跟踪中发出的遥测数据,找出潜在的重复或更好的数据源。为了实现这一点,团队可以创建一个源自跟踪的度量,代表端到端的客户工作流程,例如:

  • “从这个账户转账到那个账户。”
  • “申请这笔贷款。”

无论您是将数据发送到多个供应商还是混合使用内部自建堆栈和供应商,确保您能够在系统之间链接数据,例如将跟踪 ID 添加到日志行中,或者在仪表板注释中添加链接到预格式化查询的链接,将为您的团队提供额外的支持,以进行更好的调查和更快速地纠正问题。

探索 Chronosphere 的未来证明解决方案

工程时间非常宝贵。您投资越多,获得高保真度的见解和支持工程师了解可用遥测数据的机会就越多,仪器化将变得无畏,故障排除将更快,您的团队在权衡选择时将做出未来证明的、数据驱动的决策。

随着公司转向云原生,不可控制的成本和猛烈的数据增长可能会阻止您的团队成功执行和创新。这就是为什么云原生需要更高的可靠性和与未来证明的可观测性兼容。今天就重新掌握您的可观测性,并了解 Chronosphere 的解决方案如何管理规模并满足现代业务需求。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注