K8s 中的可观测性:从被动到主动

云原生可观测性迎来AI驱动的预测时代!K8s环境面临数据量、成本和碎片化挑战。现代平台需具备统一遥测管理、动态集群管理和智能数据流控制能力,构建专用数据湖。OpenTelemetry标准化检测,AI驱动异常检测和RCA,实现MTTR缩短。拥抱AI和开放标准,KubeCon 2025引领可观测性未来!

译自:Observability in K8s: Moving From Reactive to Predictive

作者:Lori Bertelli

随着组织部署日益复杂的 Kubernetes 环境,云原生可观测性的格局持续快速发展。KubeCon + CloudNativeCon EU 2025 提供了一个绝佳的机会,来审视可观测性的演变历程、当前的挑战以及新兴的 AI 驱动解决方案,这些方案有望将这一领域从被动转变为预测。

可观测性在过去十年中经历了显著的演变,并在 AI 时代继续发展。我们正处于另一个关键时刻,这将从根本上改变团队观察和管理其系统的方式。

可观测性日益复杂

运营云原生应用程序的组织会遇到一系列关于监控和可观测性的常见挑战。Kubernetes 环境在分布式系统、容器化应用程序和 微服务中生成大量的遥测数据,从而带来了巨大的数据管理挑战。许多组织在存储和处理这些可观测性数据方面的成本正在迅速增加。

一个特别严峻的挑战是如何控制数据增长和基数。随着微服务和 Kubernetes 的发展,近年来基数不断增长,而 AI 驱动的应用程序将进一步加速这一趋势。丢弃数据来管理成本是不可行的,因为团队需要更精细的数据来理解复杂的系统。

复杂性并不仅限于数据量和成本。团队经常面临因多个监控工具之间的可见性碎片化而带来的挑战,这使得跨技术堆栈的不同部分关联问题变得困难。

这种碎片化产生了一个重大问题:工程团队会遇到噪音和警报疲劳,从而更难以识别和解决关键问题。此外,随着全球隐私法规日益严格,确保日志和指标中敏感数据的监管合规性变得越来越重要。

这些挑战在 Kubernetes 环境中尤其明显,其中工作负载的动态和短暂性为传统的监控方法增加了进一步的复杂性。仅存在几分钟或几秒钟的容器、自动缩放的工作负载以及不断变化的基础设施,所有这些都导致了传统工具难以有效管理的监控环境。

统一遥测管理:一种现代方法

现代可观测性平台已经超越了基本监控,可以提供统一的遥测数据管理。这种全面的方法提供了多种优势,可以帮助组织应对云原生环境的复杂性。

集中式管道管理

组织正在转向集中式控制平面来管理所有遥测数据,而不是管理多个断开连接的工具。此策略可确保跨 Kubernetes 集群、云服务和本地基础设施的一致数据收集,从而有效地消除盲点并减少操作员的认知负担。

当一致地收集和管理数据时,就可以实现对应用程序、基础设施和安全态势的全面可见性。这种集中化还可以与现有的 Kubernetes 监控工具和平台无缝集成,从而在增加新功能的同时,利用已进行的投资。

动态集群管理

传统的静态遥测方法正在被可以适应不断变化的环境的动态、灵活的系统所取代。现代可观测性解决方案可以根据实时环境因素自动缩放数据收集,从而确保有效地利用资源。

用于代理部署的集中式配置管理减少了跨大量服务器和容器管理可观测性组件的操作负担。

用于代理部署的集中式配置管理减少了跨大量服务器和容器管理可观测性组件的操作负担。这种方法简化了可观测性组件的生命周期管理,使跨分布式环境的升级和配置更易于管理。

智能数据流控制

控制遥测数据流对于成本管理和性能优化至关重要。先进的可观测性平台现在提供过滤和减少嘈杂、冗余数据的能力,而不会丢失关键的洞察力。它们可以屏蔽和转换敏感信息,以确保符合 GDPR 和加州消费者隐私法案 (CCPA) 等法规,在保护用户隐私的同时保持可观测性

许多系统现在支持使用额外的上下文来丰富遥测数据,以获得更深入的洞察力,将来自多个来源的数据组合在一起,以提供更完整的系统行为图。数据路由中的智能允许将高价值数据发送到专门的分析工具,同时经济高效地存储全保真副本,以便在需要时进行后续分析。

专用数据存储

随着专用可观测性数据湖的兴起,正在发生重大的架构转变。这使组织能够毫不费力地管理大量数据,与对象存储集成,并索引和访问所有数据。索引传入数据并按需和实时访问的能力消除了对分层存储的需求。可以把它想象成一个存储任务终结者。

专为可观测性数据设计的专用数据存储库正在帮助组织解决存储和查询时序数据、日志和跟踪的独特挑战。这些专门的存储库使团队能够以优化的成本大规模存储运营数据,与通用数据库相比,通常可以实现显着的节省。

专为可观测性数据设计的专用数据存储库正在帮助组织解决存储和查询时序数据、日志和跟踪的独特挑战。

通过将对象存储视为主要存储层并提高其性能以匹配实时存储能力,这些解决方案消除了对分层存储的需求,同时提供所有传入数据的完整索引。这种方法支持维持延长的保留期而不超出预算,从而使团队能够调查数周、数月或数年前发生的问题。

这种架构方法解决了几个关键挑战:在通常单独存储的不同类型的遥测数据(指标、日志、跟踪和事件)之间进行交叉关联,从而可以跨这些数据源进行快速查询,并通过集中式日志管理为合规性提供途径。

该领域的先进解决方案允许“时间旅行”功能,可以立即查询、检索和重放来自任何时间范围的历史数据。高性能查询功能使团队能够快速分析历史数据,通常使用 Apache Parquet 等格式,以确保大规模的数据可用性、简化的检索和更快的洞察时间。

现代可观测性数据湖的弹性设计确保了即使在最庞大的数据环境中也能实现高可用性,其横向扩展可以处理端点处意外的数据峰值,避免积压并防止大规模的数据丢失。

改变企业可观测性的关键能力

随着行业成熟以及组织获得云原生环境的经验,一些能力正在成为下一代可观测性平台必不可少的要素。

OpenTelemetry 已成为供应商中立的可观测性的基础,组织采用它来标准化其应用程序中的检测。这种开放标准有助于减少供应商锁定,并简化与多种可观测性解决方案的集成,从而使组织在工具选择方面具有更大的灵活性。通过采用 OpenTelemetry,组织还可以面向未来地制定其可观测性战略,确保他们能够随着环境的发展而进行调整。

由机器学习驱动的异常检测可以识别安全威胁或性能问题,否则这些问题会在大量数据中被忽视。

人工智能和机器学习正在改变团队解释可观测性数据的方式,将范式从被动转变为预测。虽然人工智能通过增加复杂性和非确定性行为为可观测性带来了新的挑战,但它提供了强大的解决方案。

人工智能驱动的根本原因分析 (RCA) 正在成为游戏规则的改变者,它可以自动执行工程团队在解决问题时面临的大部分手动工作。这些技术通过自动快速识别问题的根源来帮助缩短平均恢复时间 (MTTR)。人工智能系统无需工程师手动查询日志、关联跟踪和筛选仪表板,而是可以主动识别新兴问题,然后它们会影响用户,从而从根本上将运营从被动转变为主动。

AI 可观测性系统将专注于对海量遥测数据进行深度模式分析。由机器学习驱动的异常检测可以识别安全威胁或性能问题,这些问题在大量数据中可能不会被注意到。随着这些系统日趋成熟,它们将越来越多地为系统优化生成可操作的建议,帮助团队提高可靠性和性能。

适用于不同团队视角的通用数据模型有助于弥合开发人员、运维人员和安全专业人员之间的语言差距。

随着可观测性数据量的增长,成本优化已成为各种规模组织的首要关注点。各个团队正在制定策略来识别和过滤噪音及冗余数据,同时又不丢失关键见解。许多组织实施智能抽样技术,在保留重要数据的同时减少总体数据量。针对不同数据类型的分层存储策略有助于优化成本,方法是将频繁访问的数据存储在快速存储上,同时将历史数据移动到更便宜的选项。先进的压缩和数据缩减技术有助于在数据量增长时管理成本。

现代可观测性方法正在帮助组织打破开发、运维和安全团队之间的孤岛。共享仪表板和统一的可视性确保每个人都使用相同的数据,从而减少互相指责并改善协作。

当所有团队访问相同的可观测性数据时,问题识别中的跨职能协作变得更加自然。适用于不同团队视角的通用数据模型有助于弥合开发人员、运维人员和安全专业人员之间的语言差距。最好的解决方案支持专家的专业视图和跨职能团队成员的通用视图,确保每个人都能获得所需的见解。

前进的道路

随着各个团队聚集在 KubeCon + CloudNativeCon EU 2025 上,一些趋势可能会影响围绕可观测性的讨论。该行业正在朝着普及企业级可观测性的方向发展,使各种规模的团队都可以使用强大的工具,而不仅仅是拥有大量资源的大型企业。

各组织正在围绕可观测性数据实施更强大的治理,以管理成本并确保合规性,将可观测性数据视为需要仔细管理的宝贵资产。

随着组织寻求了解技术问题对现实世界的影响,将业务和应用程序上下文添加到技术指标变得越来越重要。这种上下文智能有助于弥合 IT 指标和业务成果之间的差距,使可观测性对组织更有价值。

人们也越来越认识到,应该在开发的早期阶段考虑可观测性,而不是事后添加。各个团队正在创建标准化、可重复的方法,以在不同的服务和环境中实施可观测性,从而确保在整个组织中保持一致的数据收集和监控实践。

可观测性的下一个十年

Kubernetes 和云原生环境的可观测性前景继续快速发展。各组织可以通过采用统一的遥测管理方法、拥抱 OpenTelemetry 等开放标准和 AI 驱动的分析,同时更深入地了解其系统,从而应对日益增长的复杂性和成本挑战。

展望未来,可观测性的未来将继续侧重于使工程师能够增强理解和优化其系统的能力,并采用预测性和预防性方法。

KubeCon + CloudNativeCon EU 2025 上产生的对话无疑将塑造云原生可观测性的未来,并帮助组织构建更具弹性、可观测性的系统。云原生社区的集体创新不断产生解决方案,使复杂的分布式系统更易于管理、更可靠且更具成本效益。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注