如果没有来自多个可靠来源的数据收集,即使是最先进的可观测性平台也会变得不可靠。
译自 From Chaos to Clarity: Master the First Mile of Observability,作者 Ranjan Parthasarathy。
在当今的数字环境中,传统的可观测性方法已经让位于行业领导者所认可的可观测性2.0。这个可观测性的新时代要求组织对其监控策略的思考和实施方式进行根本性的转变。
然而,许多组织在其可观测性架构中发现了一个关键漏洞:遥测数据收集中的第一公里问题。这个基础性问题威胁到即使是最复杂的可观测性平台,需要技术领导者立即关注。
可观测性的第一公里代表了关键的初始阶段,在此阶段,遥测数据从组织基础设施中的各种来源收集。这些第一公里收集器收集的数据用于支持可观测性。如果没有以一致的方式进行管理和维护,从而始终拥有具有正确配置的高质量收集器,那么您可能已经拥有了出色的遥测流水线、可观测性平台等,但数据随后就会变得可疑。
第一公里问题对正在添加AI的组织具有关键的下游影响。低质量数据将显著降低团队对其AI投资的预期投资回报率。
这一观察结果切中了问题的核心:如果没有可靠的源数据收集,即使是最先进的可观测性平台也会变得不可靠。在当今异构环境中,这一挑战尤其严峻,组织必须跨不同的平台和环境管理数百或数千个数据收集器。
当前的可观测性环境的特点是前所未有的复杂性和多样性。组织通常部署多种类型的代理,包括OpenTelemetry Collector, Fluent-bit,OpenTelemetry Kubernetes Collector和Telegraf等。这种异构代理环境带来了重大的管理挑战,包括配置漂移、版本控制问题和数据收集实践不一致。
OpenTelemetry (OTel)已成为现代可观测性实施的实际标准。虽然OTel提供了可观测性2.0所需的统一遥测数据收集框架,但其部署和管理本身也存在挑战。组织现在必须应对将OTel收集器集成到其现有基础设施中的复杂性,同时保持性能和可靠性。
遥测流水线充当管理可观测性第一公里的关键控制层。这些流水线必须处理多个功能:
- 跨不同来源标准化数据收集。
- 管理代理配置和更新。
- 根据需求扩展数据收集。
- 确保数据质量和一致性。
- 优化资源使用和成本。
在可观测性2.0时代,遥测流水线必须是动态和适应性强的,能够实时响应环境的变化。在当今快节奏的数字环境中,静态的数据收集方法已不再可行。
为了应对这些挑战,组织正在转向专门的代理管理解决方案。这些平台提供对整个数据收集器集群的集中控制,无论它们是部署在本地还是在云中。有效的代理管理解决方案必须提供:
- 自动化配置管理,以防止漂移并确保收集器集群的一致性。
- 根据实时需求调整数据收集的动态扩展能力。
- 支持多种代理类型,以避免供应商锁定。
- 与现有工作流程和工具集成。
- 对收集器本身进行全面的监控和警报。
可观测性2.0的现实带来了第一公里数据收集的几个关键发展:
- 采用标准化的遥测框架,OpenTelemetry处于领先地位。
- 代理管理和配置自动化程度提高。
- 更加重视收集点的质量和一致性。
- 集成AI和机器学习以进行预测性扩展和优化。
- 通过智能数据采样和过滤来关注成本优化。
希望加强其首公里可观测性的组织应考虑以下几个关键实践:
- 标准化代理部署和配置流程。
- 对所有收集器实施集中式管理。
- 尽可能采用 OpenTelemetry,同时保持对遗留收集器的支持。
- 为数据质量和收集性能建立明确的指标。
- 定期审核和优化收集配置。
可观测性的首公里对正在转向更复杂的可观测性实践的组织来说既是关键挑战,也是机遇。通过解决数据收集和代理管理方面的基本问题,组织可以为其可观测性计划奠定坚实的基础。
那些未能解决数据收集和代理管理基本问题的人,其整个可观测性策略都将建立在一个不稳定的基础之上。在这个新的可观测性环境中,只有成功应对首公里挑战的组织才能充分实现其可观测性投资的效益。