扩展的伯克利分组过滤器(eBPF)有潜力减轻像去年夏天Crowdstrike中断这样的灾难。到2025年,eBPF的采用将迅速扩展。
译自 eBPF in 2025: Bigger Than the CrowdStrike Outage,作者 B Cameron Gain。
七月份CrowdStrike宕机事件导致美国各行各业中断,影响了交通运输、IT运营和其他部门。此事件也使eBPF——扩展伯克利分组过滤器——受到了严格审查。eBPF有时被错误地视为罪魁祸首。但eBPF也被认为具有潜力,如果应用正确,可以减轻此类灾难。
事实证明,该等式中的eBPF元素,特别是CrowdStrike的eBPF的Falcon Sensor代理(与Falco eBPF无关),是问题的一部分,但不是原因。
该事件突出了从内核操作或扩展eBPF的风险,一些批评者认为这种方法很危险——而我认为失败的不是eBPF本身。真正的问题是IT团队未能进行适当的测试,甚至在如此大规模地部署更新之前进行金丝雀更新,从而导致大规模中断。
我还认为,错误配置、兼容性问题以及Windows的普遍缺陷在此次重大中断中发挥了重要作用。此事件强调了Windows在Linux环境中的普遍性,而Linux在服务器甚至工作站方面始终表现出更高的可靠性。
与此同时,eBPF这种可以说是毫无根据的关注,与其在采用和使用方面的爆炸式增长相比,相形见绌。不仅CrowdStrike依赖它,现在寻找不依赖eBPF(至少在某种程度上)的可观测性、安全或网络操作、工具提供商或平台提供商已经成为一个问题。
也就是说,不再是“我们有eBPF”,而是“这是我们提供的服务”,随着其采用的成熟和尘埃落定,这将带来另一套挑战——不一定是成长的烦恼,而是eBPF将面临的新方式。
“每个可观测性供应商都已经转向eBPF以获取它可以提供的粒度数据,”Cisco Isovalent的Cilium和eBPF社区贡献者说。“到2025年,我们将看到eBPF成为新安全工具、项目和产品的主要技术选择,因为它提供了无与伦比的可视性。”
以下是2025年的预期。
eBPF在内核中运行。但即使可以访问,攻击者或用户也不能更改内核中的Linux代码。它旨在允许eBPF运行时在封闭环境中运行。换句话说,它消除了潜在的攻击媒介。因为恶意行为者无法像在容器、Pod或其他具有共享权限的地方运行那样写入或访问它。但这并不意味着拥有访问权限的攻击者无法从内核内部对任何连接的运行时造成大量损害。
为了解决这个eBPF安全问题,eBPF验证器会检查代码,只有在验证程序已获得GNU公共许可证(GPL)许可后才授予eBPF写入权限,以帮助确保其安全性和兼容性。当然,没有什么是一成不变的,但到目前为止,尚未报告通过内核级别的eBPF策划的重大攻击。
eBPF的使用越多,获得eBPF连接这种有吸引力的渠道的可能性就越大。ARMO的首席技术官兼联合创始人说,复杂的eBPF工具和平台可能会压垮内核,从而加剧了风险。
“到2025年,我们可能会看到用于可观测性、安全和网络的复杂eBPF应用程序激增。然而,确保eBPF程序安全性和效率的内核验证器可能难以处理这些复杂的脚本,”说。“这可能会导致性能瓶颈和延迟增加。为了减轻这些挑战,社区需要增强eBPF验证器并制定编写高效eBPF程序的最佳实践。”
的确,任何拥有自动化网络和内核级更改权限的系统都将成为对手的巨大目标,据Sectigo公司(一家提供全面证书生命周期管理服务的公司)的高级研究员说。
“我预测,到2025年,Linux eBPF将得到广泛采用;然而,针对它的新型攻击形式将继续被开发,”Soroko说。“我们将目睹一场经典的攻防竞赛。”
eBPF能够监控和抓取内核连接到网络的任何位置的数据,无论数据和应用程序位于何处。但随着其采用的增长以及组织对其依赖性的增强,这意味着,至少在理论上,他们可以抓取产生的每一个数据点或遥测数据。这可能会变成信息洪流,使藻类比喻看起来更像是打开了一个潘多拉的魔盒,无论大小,任何组织都无法有效管理。
这个问题在数据管理领域变得越来越突出。诸如OpenTelemetry之类的资源可用于帮助在可观测性解决方案完全实施之前对数据进行上下文化。OpenTelemetry在组织和减少eBPF生成的大量数据涌入方面发挥着关键作用。
然而,合适的工具和平台必须采取越来越细致入微的方法。它们的方法将根据使用它们的组织的具体需求而有所不同,以确保数据收集和可管理性之间的平衡。
“eBPF可以生成的数据量是天文数字,”Mulligan说。“到2025年,我们将开始看到盲目应用eBPF的局限性,并开始认识到使用更智能的传感器和过滤数据的好处,以确保eBPF能够继续专注于大海捞针。”
到2025年,eBPF工具和平台还需要更加关注具体的用例,才能有效地帮助解决问题。如今,许多组织和个人都使用Linux和Linux内核采用“一刀切”的方法,因为总的来说,这个过程已经足够好了——但是,“生活中任何事情都一样,足够好并不是最好,”Tigera公司的软件工程师说。
Hruby说,使用eBPF,用户可以引入修改以适应他们的特定需求:“企业技术公司和大科技公司都使用eBPF,到2025年,随着组织更好地理解其好处以及其独特的安全性和性能并存的能力,我们将看到更广泛的采用。”
许多组织才刚刚开始意识到与AI/机器学习和大型语言模型(LLM)监控相关的安全、网络和可观测性问题和挑战,通过eBPF。事实证明,eBPF特别适合AI/ML应用程序和LLMs,也适合运行它们的GPU。
随着越来越多的组织利用eBPF的功能来分析GPU以优化AI处理,eBPF将“彻底改变”GPU分析,特别是对于AI处理,”ARMO的高级安全研究员说。
Schendel说,利用eBPF,开发人员可以捕获来自GPU操作的详细遥测数据,例如CUDA调用、内核启动和内存分配,而开销极小。“通过提供对GPU性能的细致见解,eBPF将有助于识别瓶颈并提高AI模型的效率,最终实现更快、更经济高效的AI处理。”
如上所述,eBPF的使用涉及可观测性、安全性和网络。这意味着,到2025年,随着不同的工具提供商适应eBPF可以提供的用户需求,安全、可观测性和网络提供商,或网络监控提供商,或网络管理提供商之间将趋于融合。
一个可观测性平台将需要eBPF,甚至可能自称为安全公司,因为它获得了安全和运营方面的可操作见解。同样,网络也将依赖于eBPF平台的可观测性和安全性。
当然,安全公司本身也将利用其提供的eBPF功能扩展其可观测性和网络功能。CrowdStrike表面上是一家安全提供商,但它在其专有系统中使用eBPF及其Falcon代理。这是一个例子,说明它采用的工具如何比以往任何时候都更多地从eBPF的可观测性和网络中汲取经验。 Mulligan表示:“eBPF最初在网络领域掀起了一场革命,随后扩展到可观测性、安全性和性能分析等其他领域。”“由于eBPF允许我们更好地重写许多内容,因此在2025年,我们将看到用例的寒武纪大爆发,从更快的数据库、新的调度器、改进的HID集成等等。eBPF即将影响基础设施技术的许多不同部分。”