相信我:整合您的监控堆栈

简化的可观察性能够更快地进行故障排除和更好地分配资源。

译自 Trust Me: Consolidate Your Monitoring Stack,作者 Sainag Nethala。

数字转型浪潮带来了大量高速技术,每种技术都有其自身的监控工具。这导致IT和安全环境中工具激增,形成了一个复杂的系统网络,难以管理,并且功能经常重叠。这种“工具蔓延”越来越成为企业关注的问题,因为它可能导致效率低下、成本增加,甚至安全问题。

想象一下,团队在同时使用多个监控工具,每个工具都提供对其IT基础设施的碎片化视图。当团队筛选不同的仪表板,努力关联数据并查明问题的根本原因时,故障排除变成了噩梦。这浪费了宝贵的时间和资源,并阻碍了组织快速响应事件的能力。

那么,企业如何解决这个问题呢?他们越来越多地将工具整合作为解决方案。通过简化其监控堆栈并减少正在使用的工具数量,他们可以获得对其IT环境的统一视图,提高效率并降低成本。但是,这需要工作,因为工具整合的背景化需要仔细的规划和执行,包括对现有工具的全面评估、与利益相关者的清晰沟通以及分阶段的实施方法。

整合监控堆栈的好处

通过对系统的统一视图,您可以快速识别和解决问题,以免影响您的业务。通过采用多用途统一监控来减少蔓延还可以提高生产力,提高效率,并防止停机。

单一的统一监控平台为您的团队提供共享框架的功能,用于可视化、警报和协作处理问题,以及集成高级安全和可观察性工具的单一入口。这有助于降低成本并优化进攻性和防御性安全策略的资源。

通过整合的监控堆栈,您的团队可以更好地了解您的安全态势,并在攻击者大规模利用漏洞之前识别这些漏洞。有趣的是,服务所有者(开发人员、管理员、安全人员等)可以清楚地了解整个IT环境中发生的情况,使每个人都能在同一页面上主动解决潜在问题并优化安全运营中的低效率。

通过风险评估克服障碍

如果不仔细规划和执行,整合监控工具可能会扰乱您的IT服务。您需要制定一个全面的迁移计划,其中包括彻底的测试和与利益相关者的清晰沟通。

考虑一个正在影响您的客户的安全事件。在大多数情况下,团队没有集中位置来捕获事件上下文,这会导致他们在多个系统中追逐信息时进行上下文切换。这种无差别的繁重工作会增加流程的关键时间,并在更严重的事件中损害客户的信任。

一个好的起点是计算这些不同的解决方案添加到事件解决的时间。将其乘以过去六个月中的事件数量,并确定团队成本。您可以与决策者进行实际对话,通过突出这些成本并展示对业务和客户的影响来推动变革并简化事件响应流程。

主要风险之一是对特定工具或供应商的依赖。在整合之前,您应该彻底评估现有工具和IT基础设施之间的依赖关系。确保您选择的整合解决方案能够有效地适应这些依赖关系至关重要。

另一个风险因素是供应商锁定。虽然拥有单一平台可以简化您的监控堆栈,但它可能会对该供应商产生很强的依赖性。最好采用开源解决方案或选择具有灵活开放API的供应商,以便更容易与其他工具集成。

制定您的整合策略

你需要全面了解当前监控系统的现状。这意味着要彻底审核IT和安全环境中使用的所有工具。你需要关注所有工具,包括特定团队或应用程序依赖的利基工具。针对每个工具,记录其核心功能、优势和劣势。这将帮助你了解需要保留哪些功能,以及哪些方面可能存在改进或整合的空间。

一旦你了解了现有的工具集,就将这些功能与组织的特定监控需求进行匹配。这包括明确定义你对性能监控、安全监控和合规性的需求。通过将现有工具的功能与你定义的需求进行比较,你可以识别任何功能差距或工具重叠的领域。此映射练习将极大地帮助你确定整合时最重要的功能。

但技术只是等式的一部分。你的团队的技能和专业知识同样至关重要。花时间评估他们目前的技能水平,并找出与不同监控工具和技术相关的任何知识差距。根据此评估,你可以制定培训计划,使你的团队具备有效管理和操作整合后的监控平台的必要技能。记住要考虑你的组织结构。你应该调整角色和职责,以确保新平台到位后能够顺利协作和共享知识。

实施阶段最好采用循序渐进的方法。因为同时整合所有内容可能会让人不知所措并造成中断,所以要优先考虑你的整合目标。从那些功能重叠显著或对核心运营不太重要的工具开始。考虑运行一个试点程序,在一个受控环境中测试整合后的解决方案,然后再将其推广到整个组织。当你开始迁移工具和数据时,要分阶段进行,留出时间进行测试和调整。

你还需要仔细核算成本。制定一个切合实际的预算,涵盖与工具整合相关的所有成本。这包括新平台的许可费用、实施费用、培训费用以及持续的支持或维护费用。但不要只关注成本;评估潜在的成本节约。整合监控工具可以降低许可费用,提高运营效率,并提高生产力。计算投资回报率 (ROI),以证明整合的长期经济效益。

集思广益才能实施

最好从小型试点项目开始。这将使你能够在一个受控的环境中测试整合后的解决方案,并在将其推广到整个组织之前解决任何问题。你可以为试点选择一个具体的用例或IT基础设施的一个子集。但是,请务必定义明确的目标和成功指标,以衡量整合解决方案在此较小环境中的有效性。你从试点用户那里收集的反馈对于在扩大规模之前识别任何问题或改进领域将非常宝贵。

你需要一个可靠的计划来将现有的监控数据迁移到整合平台。这可能需要转换或清理数据以确保与新系统的兼容性。根据重要性和业务需求优先考虑数据迁移。在整个过程中,始终关注数据完整性和一致性。你不想在迁移过程中丢失宝贵的见解或引入错误。

再次强调,我们不要忘记你的团队。他们需要具备有效使用新的整合解决方案的能力。通过尽早让他们参与整合讨论,评估你的技术团队的准备情况和变革意愿。了解他们的痛点和首选工具可以揭示关于哪些解决方案将获得最大吸引力和支持的宝贵见解。这将帮助你评估他们的培训需求,并制定一个涵盖平台所有方面的综合计划,从主要导航到高级故障排除。实践培训和知识共享会议对于让每个人快速上手都非常有帮助。记住要创建用户文档和支持资源以提供持续的帮助。 为此,在整合规划期间,要与来自不同团队的资深工程师和高级IC进行沟通。他们对遗留系统和组织背景的深入了解,可以提供宝贵的见解,洞察潜在的挑战和机遇,即使并非所有建议最终都会被采纳。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注