降低噪音:确保消费者运营稳定

警惕告警风暴!银行、医疗等关键行业如何保障服务“永在线”?引入自动化是关键!通过统一平台管理告警,利用 AI 自动分类,精准定位需人工介入事件。更要信任“自主 AI 代理”,减少系统停机,解放IT团队,提升客户体验,订阅TheNewStack YouTube频道了解更多!

译自:Turn Down the Noise: Ensure Stable Operations for Consumers

作者:Andrew Stutz

消费者严重依赖于银行业、公用事业和医疗保健等始终在线的行业。随着这些行业继续扩展其数字和在线服务,确保持续运营比以往任何时候都更加紧迫,因为消费者越来越依赖于日常生活中的数字服务。想想客户无法查询银行余额、预约医生或支付电费的后果。

长时间的服务中断可能会造成重大的财务和声誉损失,最近的研究表明,每次事件的平均成本接近 80 万美元。考虑到影响消费者的事件在 2024 年增长了 43%,事件发生频率的增加可能导致每次中断的运营成本飙升,让客户和收入受到损失。

限制组织响应能力的最大因素之一是警报噪音。技术团队正受到以下因素的干扰:警报频繁触发、不相关或低优先级的警报,或者来自同一根本原因的不同系统的大量警报。“噪音”会分散人们对当前最重要任务(补救)的注意力。

那么,可以采取哪些步骤来简化事件管理,并帮助保持重要服务在线?

1. 获得所有警报的整体视图,以便轻松确定优先级

关键行业收到大量警报的原因有以下几个:由于它们管理着敏感数据,因此对不良行为者具有很强的吸引力,它们的操作系统通常运行在传统技术上,并且它们必须保持“始终在线”以供消费者使用。

如果没有自动异常检测,警报的数量很容易超出人类的管理能力。IT 团队很容易被非关键警报淹没,因为问题会不断被标记,尤其是在没有自动分类系统来确定事件严重程度的情况下。

在手动、传统的票务系统中,每个警报都必须检查,即使它不需要人工辅助修复。这个耗时的过程会给 IT 团队带来繁重的工作,并减少他们用于改进组织系统的时间。

在关键行业运营的组织应实施一个单一的管理平台,以便查看所有引发的警报。为了使该平台有效,它必须根据警报的严重性和规模自动对警报进行分类,帮助 IT 团队确定哪些警报需要手动修复,哪些可以通过自动工作流程解决。

2. 使用自动化来确定何时需要人工参与

组织必须采取的下一个步骤是保持其运营 24/7 全天候可用,以减少事件的影响范围。为了更早、更快速地识别事件和异常情况,组织应将自动化集成到其事件响应中,生成警报并将其定向到相应的团队成员。

自动事件监控工具可以通过确保在必要时,在事件发生时向正确的团队成员发出警报,从而显着加速事件管理。更有针对性的事件管理方法还可以使团队避免全体人员参与的“作战室”,并防止不同的团队成员在短时间内被拉入事件修复。这是避免事件响应者疲劳、压力和倦怠的关键一步,使他们能够专注于推动创新。

3. 使用自动修复工具来推动响应

一旦检测到警报并对其进行分类,并且已经组建了人工团队来在必要时修复问题,组织必须开始信任自动工作流程来解决不太严重、更常见的事件。

实施这些流程需要组织采取两个行动。

首先是获取并集成正确的工具来自动应用修复,这可以包括自主 AI 代理或不太复杂的工作流程和脚本,特别是对于已知和重复出现的问题。

第二个更具挑战性:思维模式的转变。至关重要的是,要建立对自动化工具可以解决小事件的信任,并了解它们将通过减少花费在救火上的时间来节省 IT 团队的时间。 做出这些改变将带来重大胜利。引入用于修复的自动化工作流程将减少系统(和服务)停机时间,确保客户不会被锁定在银行账户或医疗服务之外。它还将解放 IT 团队,使他们能够创新并创造更完善、更顺畅的客户体验,同时确保他们所依赖的服务具有最高的质量。

当噪音过大时,使用自动化来降低它

传统的运营管理流程不再适用于提供基本服务的组织。消费者不能容忍在发生中断时被锁定在系统之外数小时,服务提供商也不能再花费数小时来解决没有透明度的事件。

在当今的数字优先世界中,消费者期望触手可及的基本服务的便利性。组织必须在其运营管理系统中采用自动化,以提供消费者要求的服务水平。这样做将减轻 IT 团队的警报和事件负担,使他们能够专注于解决严重事件。它还将使他们能够确保关键服务保持在线,并不断改进这些服务,使消费者的生活更加轻松。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注