通往自主可观测性的道路

用于系统监控和管理的自主可观测性旨在使用 GenAI 和机器学习来自动检测、诊断和解决问题。

译自 The Path to Autonomous Observability,作者 David Lotan Bolotnikoff。

如今,在关于云可观测性的讨论中,话题往往从“什么是可能的”转向“什么是实用的”。这些讨论往往会突出当前可观测性流程、工具和财务模型的不足。

随着可观测性数据工作负载以空前速度增长,传统的仪表盘和基于警报的方法难以跟上。这阻碍了决策,延长了故障排除时间,并导致平均修复时间 (MTTR) 增加。技术团队承受着将关键业务应用程序保持在峰值性能的压力,但普遍存在的数据孤岛、过于手动化的流程和膨胀的成本无法提供必要的价值或投资回报 (ROI)。

人工智能的出现。

生成式人工智能集成正在为可观测性开辟新的途径。人工智能驱动的副驾驶在各个平台上变得越来越普遍,改变了我们与遥测数据交互的方式,并显著改善了日常运营。然而,人工智能驱动的可观测性的潜力远远超出了当前的实现。

自主可观测性是系统监控和管理未来的前瞻性愿景,旨在利用生成式人工智能和机器学习来自动检测、诊断并最终解决问题,无需人工干预。尽管这项技术仍在不断发展,大规模采用的时间表仍不确定,但它能够让工程团队专注于战略性任务,同时保持系统性能和可靠性的潜力是显而易见的。

随着这些技术的不断发展,追逐警报、处理仪表盘和编写复杂查询的日子可能成为过去。

自主可观测性的切实可行性框架

与任何重大的技术转变一样,这一进程将分阶段展开,其中一些阶段已经触及用户,而另一些阶段仍处于萌芽状态。

基于当前可用的 AI 模型,这些模型可能会快速且不可预测地发展,自主可观测性的路径将涉及多个关键维度的进步:

  1. 数据和信号:收集各种遥测数据类型,并整合配置和依赖关系等提供关键上下文的额外数据流。
  2. 检测:持续监控和关联遥测数据,以自动识别正在发生的问题并实时预测未来问题。
  3. 诊断和推理:增强系统智能收集和分析数据的能力,以发现问题的根本原因。
  4. 解决:使系统能够理解并执行必要的操作,以安全地解决已识别的问题。
  5. 用户体验/交互:促进无缝的、即时的用户体验,将自然语言交互与可视化相结合,最大限度地减少用户干预的需要。
  6. 适应和学习:赋予系统不断从新数据中学习并根据公司的具体情况和需求进行演变的能力。
  7. 互操作性:确保系统能够与现有工具和平台集成,并在必要时激活它们。

在这些维度的进步将引领我们走向一个可观测性完全自动化的未来,彻底改变技术团队监控和管理系统的方式。

自主可观测性的级别框架

随着我们在自主可观测性的各个组成部分上不断前进,我们将经历几个成熟度和实际应用阶段。了解这些级别对于衡量进展和设定未来目标至关重要。

以下框架概述了组织在向自主可观测性演变过程中的持续路径。这些阶段并非代表固定的里程碑,而是反映了人工智能技术的动态特性及其在可观测性中的不断扩展作用。

  • 级别 0:手动可观测性 - 所有监控和可观测性任务都是手动执行的。工具提供数据收集、可视化和基于预定义阈值的简单警报,但没有自动洞察或操作。用户必须手动调查和响应事件。
  • 级别 1:辅助可观测性 - 引入了基本的 AI 辅助。系统提供基于简单异常检测的警报,但人工操作员仍然必须解释数据并采取纠正措施。
  • 级别 2:部分可观测性自动化 - 系统可以分析数据并提供洞察或建议。它识别模式,建议问题的原因并推荐补救措施。人工操作员批准并执行操作。
  • 级别 3:条件可观测性自动化 - 系统可以在特定条件下执行复杂分析并自动响应已知问题。人工干预仅在出现新情况或复杂情况时才需要。
  • 级别 4:完全可观测性自动化 - 最终目标:一个能够端到端可观测性的系统,无需人工干预即可处理检测、诊断和解决问题。它适应新的环境并自动发展其功能。

平衡技术进步和信任

虽然部分自动化(级别 2)在中短期内可以实现,条件自动化(级别 3)在预定义条件下对已知问题是可以实现的,但完全自动化(级别 4)存在重大挑战。AI 目前在没有人工干预的情况下处理动态系统复杂性的能力仍然有限,尤其是在高风险情况或新情况中。然而,机器学习和自适应算法的进步正在稳步地将我们带到实现完全自动化的目标。

随着我们逐步进入这些级别,重要的是不仅要关注技术进步,还要确保 AI 驱动的可观测性系统是可信的、透明的、可适应的和安全的。为了促进采用,这些系统必须与业务需求、监管要求和行业标准保持一致。确保 AI 决策的透明度并保证关键任务应用程序的安全将对于使这些系统有效和可持续至关重要。

通过尽早解决技术和信任方面的挑战,组织将能够更好地克服障碍,并继续朝着完全自主的可观测性迈进。

行业现状

遵循自主可观测性的这一框架,我们目前正在从手动时代过渡到辅助可观测性,并迅速向部分可观测性自动化的早期阶段迈进。事实上,在 Logz.io,我们已经走在了前列,拥有 AI 驱动的聊天机器人助手,提供了自然语言查询和早期自动根本原因分析等重大进步。

了解这种 AI 驱动的进步如何展开将有助于重新定义我们在可观测性方面对人员、流程和技术的态度。虽然自主可观测性是未来,技术也在不断进步,但我们仍处于其早期阶段。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注