学习端到端事件驱动自动化的实现,以提高问题解决效率,减少人工操作
译自 Crawl, Walk, Run: The Key to Successful Automation,作者 Frank Emery 是PagerDuty人工智能运维(AIOps)团队的首席产品经理。他拥有数学、机器学习和大数据背景,致力于解决事件自动化领域的问题。
超过一半的世界500强公司每周至少经历1.6小时的不可预知停机时间。这给最终用户带来不满,给已经过度紧张的团队带来更大压力,也给IT领导带来巨大麻烦。为了跟上形势,IT领导采用了更复杂的现代数字化策略。这种基础设施支持着对客户至关重要的服务,但这些IT系统也带来风险。随着越来越多的软件投入生产和运维负载增加,事故变得不可避免。数字化领导者想知道如何降低事故成本,以便他们有资源专注于创新项目。对许多人来说,答案就是端到端事件驱动的自动化。
端到端事件驱动自动化是人工智能运维(AIOps)的关键组成部分。事件是指由可信来源发送的任何信息,用于通知系统功能的异常状态,例如来自监控工具的数据。
当在事件层面应用自动化时,它可以为响应者创造许多效率。首先,它可以帮助响应者更好地理解事件数据,方法是在响应者参与之前就为事件添加所有上下文和诊断信息。这意味着在通知和响应者获取执行下一步操作所需信息之间不会有任何时间差--甚至不需要响应者来执行下一步操作。
在事件层面应用自动化可以避免对客户的影响,并缩短平均恢复时间(MTTR)。对于已经充分理解的问题,自动修复可以在无需任何响应者干预的情况下就解决事故。即使需要一些响应者的操作,事件驱动自动化也可以将一个大事故的检测到解决的时间从4.5小时缩短到15分钟。这可以为你的企业节省大量成本。
端到端事件驱动自动化也可以为IT功能的各个方面创造价值,从支持团队到开发者。考虑网络操作中心(NOC)。事件驱动自动化可以帮助规范化输入的事件数据,并根据预定的标准自动将事件路由到正确的团队。如果没有端到端事件驱动自动化,NOC团队可能会被事件数据淹没,并浪费时间去确定哪些警报重要以及应该接收它们。
站点可靠性工程师(SRE)也可以从中获得价值,他们的工作包括帮助其他团队更有效地工作。他们可以在摄入时设置事件转换和路由来自动化一个事件的完整流程。这可以使事故响应更简便,并释放团队去实现自动修复。工程团队也可以从自动修复和智能路由中受益,这样只有相关的事故会被指派给他们。
重大事故管理团队也可以从事故的及早检测和自动路由中受益,这些事故带有诊断信息和规范化数据。在关键事故响应期间获得这种优势,可以保护品牌声誉,减少服务级别协议(SLA)和停机时间成本,并显著缩短MTTR。
在实施端到端事件驱动自动化时,关注初期的成功案例,以驱动更大的组织认可和动力。“慢慢来”的方法可能最为有效。
在第一阶段(爬),考虑可以通过抑制警报噪音获得的快速胜利。通过停止通知直到达到一定数量的事件并发出问题信号,组织可以避免警报过载,使响应者能够无干扰地工作。对瞬态警报暂停通知也会为事故响应者带来同样的好处。这最适用于状态频繁改变(也称为“摆动事故”)的事故。例如,一个组织可以对某些高CPU使用率的事故暂停5分钟,这样只有持续的高使用率才会触发事故。
下一阶段是“走”,通过为事件、警报和事故尽可能提供更多信息。事件增强可以通过为事件填充相关的上下文信息和规范化事件数据来加速分类,使得所有团队看到的事件外观相同。警报增强是指定义在创建时应具有的严重级别,以便将其升级到正确的团队和正确的优先级。事故增强允许用户在创建事故时添加注释,例如事故的潜在根本原因以及响应者应该如何继续。这些注释也可以在知识库文章和内部维基中发布。
最后,是时候“跑”了,方法是自动化诊断过程,甚至在无需响应者干预的情况下修复已经充分理解的事故。一种方法是通过webhook,它允许用户定义在创建事故时触发的自定义标头和payload正文字段。另一种方法是通过第三方自动化事故解决功能,为第一响应者提供预构建的作业模板和插件集成。这些响应者可以自动或点击鼠标调用作业,使他们能够完成以前只有主题专家才能完成的工作。
为了使端到端事件驱动自动化项目获得所需的支持和动力,IT领导必须能够向组织展示这些项目的价值。幸运的是,成功的小迹象应该会立即出现。定量价值是通过某些指标最容易衡量的。考虑正在进行端到端事件驱动自动化的服务的平均故障恢复时间(MTTR),并将其与未自动化的服务进行比较。测量服务等级协议(SLA)罚款也可以提供有用的见解。
定性价值的测量更具挑战性,尽管确实存在关键性能指标(KPI)。流失率、退职访谈和员工满意度调查都可以证明是衡量成功的有用的数据来源。定性价值可以是自动化初期成功的首要迹象之一,因为团队对于改善他们的工作生活平衡并腾出更多时间进行增值举措感到兴奋。