警惕告警风暴!银行、医疗等关键行业如何保障服务“永在线”?引入自动化是关键!通过统一平台管理告警,利用 AI 自动分类,精准定位需人工介入事件。更要信任“自主 AI 代理”,减少系统停机,解放IT团队,提升客户体验,订阅TheNewStack YouTube频道了解更多!
译自:Turn Down the Noise: Ensure Stable Operations for Consumers
作者:Andrew Stutz
消费者严重依赖于银行业、公用事业和医疗保健等始终在线的行业。随着这些行业继续扩展其数字和在线服务,确保持续运营比以往任何时候都更加紧迫,因为消费者越来越依赖于日常生活中的数字服务。想想客户无法查询银行余额、预约医生或支付电费的后果。
长时间的服务中断可能会造成重大的财务和声誉损失,最近的研究表明,每次事件的平均成本接近 80 万美元。考虑到影响消费者的事件在 2024 年增长了 43%,事件发生频率的增加可能导致每次中断的运营成本飙升,让客户和收入受到损失。
限制组织响应能力的最大因素之一是警报噪音。技术团队正受到以下因素的干扰:警报频繁触发、不相关或低优先级的警报,或者来自同一根本原因的不同系统的大量警报。“噪音”会分散人们对当前最重要任务(补救)的注意力。
那么,可以采取哪些步骤来简化事件管理,并帮助保持重要服务在线?
关键行业收到大量警报的原因有以下几个:由于它们管理着敏感数据,因此对不良行为者具有很强的吸引力,它们的操作系统通常运行在传统技术上,并且它们必须保持“始终在线”以供消费者使用。
如果没有自动异常检测,警报的数量很容易超出人类的管理能力。IT 团队很容易被非关键警报淹没,因为问题会不断被标记,尤其是在没有自动分类系统来确定事件严重程度的情况下。
在手动、传统的票务系统中,每个警报都必须检查,即使它不需要人工辅助修复。这个耗时的过程会给 IT 团队带来繁重的工作,并减少他们用于改进组织系统的时间。
在关键行业运营的组织应实施一个单一的管理平台,以便查看所有引发的警报。为了使该平台有效,它必须根据警报的严重性和规模自动对警报进行分类,帮助 IT 团队确定哪些警报需要手动修复,哪些可以通过自动工作流程解决。
组织必须采取的下一个步骤是保持其运营 24/7 全天候可用,以减少事件的影响范围。为了更早、更快速地识别事件和异常情况,组织应将自动化集成到其事件响应中,生成警报并将其定向到相应的团队成员。
自动事件监控工具可以通过确保在必要时,在事件发生时向正确的团队成员发出警报,从而显着加速事件管理。更有针对性的事件管理方法还可以使团队避免全体人员参与的“作战室”,并防止不同的团队成员在短时间内被拉入事件修复。这是避免事件响应者疲劳、压力和倦怠的关键一步,使他们能够专注于推动创新。
一旦检测到警报并对其进行分类,并且已经组建了人工团队来在必要时修复问题,组织必须开始信任自动工作流程来解决不太严重、更常见的事件。
实施这些流程需要组织采取两个行动。
首先是获取并集成正确的工具来自动应用修复,这可以包括自主 AI 代理或不太复杂的工作流程和脚本,特别是对于已知和重复出现的问题。
第二个更具挑战性:思维模式的转变。至关重要的是,要建立对自动化工具可以解决小事件的信任,并了解它们将通过减少花费在救火上的时间来节省 IT 团队的时间。 做出这些改变将带来重大胜利。引入用于修复的自动化工作流程将减少系统(和服务)停机时间,确保客户不会被锁定在银行账户或医疗服务之外。它还将解放 IT 团队,使他们能够创新并创造更完善、更顺畅的客户体验,同时确保他们所依赖的服务具有最高的质量。
传统的运营管理流程不再适用于提供基本服务的组织。消费者不能容忍在发生中断时被锁定在系统之外数小时,服务提供商也不能再花费数小时来解决没有透明度的事件。
在当今的数字优先世界中,消费者期望触手可及的基本服务的便利性。组织必须在其运营管理系统中采用自动化,以提供消费者要求的服务水平。这样做将减轻 IT 团队的警报和事件负担,使他们能够专注于解决严重事件。它还将使他们能够确保关键服务保持在线,并不断改进这些服务,使消费者的生活更加轻松。