AI驱动的可观测性:从AIOps的失败中汲取教训

GenAI 承诺改变我们使用可观察性工具的方式,但要实现预期,就必须吸取 AIOps 错误的教训。

译自 AI-Powered Observability: Picking Up Where AIOps Failed,作者 Asaf Yigal。

生成式 AI 在 可观测性工具 中的出现是不可避免的,但市场上已经出现了极端的炒作。监控、DevOps 和 ITOps 从未免受趋势的影响,而随着生成式 AI (GenAI) 功能的出现,炒作机器正在失控。

希望搭上 GenAI 浪潮的组织无疑会想起 围绕 AIOps 工具的大量炒作 ,这在不久的过去。AIOps 的核心目的是解决运营遥测的复杂性、数量和速度,从而实现主动事件响应并减少人工干预。

许多人认为 AIOps 是未来 ,可以解决系统内部的问题,但采用率滞后,因为 AIOps 无法满足 关键 IT 使用案例的需求。组织试图从 AIOps 中获得什么?哪些是合适的工具?这些问题从未得到解答。

为了取得成功,AIOps 需要组织改变其流程 ,而许多组织不愿这样做。未能从这些解决方案中获得收益并非由于技术问题,而是因为组织没有做出必要的改变来获得这些收益。

基于 AI 的可观测性如何满足预期

组织正在寻求其 IT 环境中的生产力提升。许多人会问:“我们如何更快地完成任务?我们如何提高价值实现时间?我们能做些什么来更快地修复问题,以便从业务中的核心问题中获得最大收益?”

GenAI 和基于 AI 的可观测性工具可以帮助解决所有这些问题。提供有关系统行为的见解,并提供有关如何修复遥测数据(日志、指标和跟踪)中出现的问题的直接知识,这是可观测性应该提供的。

传统上,这些见解只对了解复杂查询语言或深入了解流经系统的遥测数据的技术专家和分析师可用。但如果基于 AI 的可观测性可以更进一步呢?如果您可以使用自然语言与您的系统交互呢?

这些工具有可能为更广泛的用户群打开更深入的见解。这可以显著提高对系统行为的认识,将可观测性民主化到非技术用户,并提供对环境中故障点或困难点的更深入了解。

在 IT 人员知识差距和招聘困难的时代,基于 AI 的可观测性可以满足其中的一些需求。如果您的团队拥有相当于初级开发人员在您的技术平台中直接工作的功能,这意味着什么呢?

当今可观测性最强大的应用涉及通过 GenAI 集成提供的战略能力。这些能力从自动收集相关上下文见解和异常检测到能够精确定位关键数据以优化数据和成本。

基于 AI 的功能可以通过重新设计核心监控和故障排除实践(从查询到根本原因分析)来改变工程和 DevOps 团队的日常交互。

这些类型的基于 AI 的系统(具有完整的仪表盘、数据可视化以及对紧迫问题的秒级答案)可以帮助实现 AIOps 旨在提供的承诺。

AIOps 的核心思想是尽可能多地引入遥测数据以识别异常。然而,这与可观测性解决方案提供的不同。可观测性提供对选择性遥测数据的服务,并显示实时指标,例如 CPU 使用率或其他感兴趣的领域。

虽然在这些指标中加入 AI 进行异常检测可能看起来像是一个 AIOps 功能,但它实际上是对可观测性解决方案的增强。相比之下,AIOps 从 AI 开始,可能不提供单个仪表盘。

革命正在等待,但我们必须先进化

必须将 AIOps 的经验教训应用于下一代可观测性工具,以帮助组织满足围绕短暂的云原生架构的各种复杂用例。

得益于 GenAI,我们与可观测性工具交互的方式以及我们组织运营团队的方式都存在着潜在的演变变化。

我们已经看到了将 GenAI 引入可观测性工具的好处:

  • 团队可以使用这些功能过滤掉无关数据,从而加快故障排除速度。
  • AI 可以识别出最常见的错误,并提出潜在的缓解策略。
  • 可以自动化手动流程,为工程师节省数小时的工作时间,让他们可以专注于更宏观的策略和项目。

谈论实施这些功能是一回事,而利用它们又是另一回事。问题仍然是组织从这些转变中可以实际获得什么好处。用例必须得到满足,生产力提升必须实现。组织可能难以理解和接受必要的改变;如果障碍太大,好处就无法实现。

下一代系统监控和管理方法即将到来,它利用 GenAI 和机器学习自动检测、诊断和解决问题,无需人工干预。这种演变将使技术团队能够专注于战略性任务,同时确保最佳的系统性能和可靠性。

团队最好记住过去快速技术转变的成功和失败。准备好改变整个组织的思维方式,以实现您的目标。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注