Bitdrift打破传统可观测性"多多益善"模式,专注移动端,提出"少即是多"理念。通过实时控制面板按需启用遥测数据,无需部署更新即可排除故障,降低成本。该方案源于Lyft内部实践,或将启发工业等领域可观测性的新时代,挑战现有APM和Cloud Native可观测性方案。
译自:How bitdrift Is Breaking the Status Quo of Observability
作者:Meredith Shubel
在过去的 30 年里,可观测性行业吸引了数十亿美元的投资,并在日志、追踪和指标收集与分析方面取得了显著进展。但可观测性的基本方法仍然没有改变。
最佳实践不断宣扬:发送尽可能多的遥测数据——你永远不知道你需要什么。
但实际上,更多的数据并不总是更好。首先,虽然遥测对于调试和解决问题至关重要,但它的代价也很高,确实如此。除了支付存储和供应商费用外,组织还在网络带宽、处理能力和工程管理费用上赔钱。
也许更令人震惊的是,大多数可观测性实践和工具完全忽略了移动端。尽管数百万美元被投入到该行业,但几乎所有这些资金都用于服务器端的可观测性。
我与 bitdrift 的联合创始人兼首席执行官 Peter Morelli 和联合创始人兼首席技术官 Matt Klein 坐下来讨论了可观测性的发展,以及为什么该行业历来忽略了移动端。他们觉得整件事很讽刺:
“世界已经转移到基于应用程序的系统。大多数人通过应用程序与开发的服务进行交互。但作为一个行业,我们没有投入足够的资金来理解——并帮助修复——用户体验,而这实际上很重要:在移动端,”Klein 说。
服务提供商经常吹嘘 99.99% 的成功率作为可靠性的证明,那又如何呢?Klein 说,这个数字不一定能反映现实:“在我的职业生涯中,可能有一百次服务器的成功率为 100%,但所有客户端的请求都在崩溃。这使得有效成功率为零。”
当被问及为什么移动可观测性尽管其重要性显而易见,但仍然落后于该行业的其他领域时,Morelli 和 Klein 都将其归因于一系列技术挑战。
首先,移动设备的庞大规模提出了一个问题。与成千上万台服务器相比,团队面临着数千万台移动设备,包括 iOS 和 Android 的大量不同型号。复杂的用户权限结构增加了另一层复杂性,网络稳定性也是如此。
“在大多数情况下,服务器应用程序具有一致的网络,不会出现故障。当然,也会出现故障,但总的来说,这是一个非常异构、温顺的环境,”Klein 说。“另一方面,移动网络断断续续。”
总而言之,这些问题使移动领域变得复杂、具有挑战性且成本高昂,这种组合导致了漫长的故障排除周期。
例如,在服务器上,您可以一天内推送 20 个部署,具体取决于问题。但是,对于已建立的应用程序,总周转时间最多看起来像两周,需要一周的时间来获得应用商店的批准,另一周的时间供用户安装更新。除了成本考虑之外,这个周期既耗时又费力——但 Morelli 和 Klein 说它不必保持这种状态。
“我们希望采用一种不同的可观测性方法,使工程师能够在实际需要数据时获取数据,而不是在不需要数据时获取数据,”Klein 说。这就是他们对 bitdrift 的承诺,这家初创公司于 2023 年从 Lyft 分拆出来。虽然 bitdrift 这个名字在市场上相对较新,但该团队多年来一直在幕后撼动可观测性。
Morelli 和 Klein 在 Twitter 从事全球性能工作时相识,然后在 2015 年搬到 Lyft 时与 bitdrift 的第三位联合创始人 Martin Conte Mac Donell 建立了联系。在那里,三人率先为这家叫车服务公司提供了一个解决方案,正如他们所描述的那样,“颠覆了长达数十年的移动可观测性模式,[使工程师能够]记录一切,智能地选择存储什么,并立即将更改部署到整个车队。”
与其默认发送和存储所有遥测数据,该解决方案会在本地使用循环缓冲区记录所有内容以进行存储。借助实时控制面板,工程师可以按需启用、检索或调整遥测数据,而无需部署应用程序更新。这样,他们可以立即排除故障并快速解决问题,而无需摄取、索引或存储不必要的数据,从而降低成本。
“快进六年,”Morelli 说,“我们意识到仍然没有其他人做我们解决方案所做的事情。”那时他们决定让他们的解决方案独立。在为 Lyft 支持了 5000 多万台设备(据报道每年为该公司节省数千万美元)之后,这个由九人组成的小团队于 2023 年将之前内部的解决方案作为 bitdrift 推出,Lyft 是其第一个客户和最大的投资者。
bitdrift 的方法与传统可观测性实践完全相反——他们承认这对工程团队来说有点震惊。“更多的数据更好,这种观念已经深深地印在我们的脑海中——但事实并非如此,”Klein 说。
成本是这种“多多益善”方法的一个明显缺点。可观测性如此昂贵的主要原因是大多数解决方案的定价都基于数量和会话,您记录的越多,您支付的就越多。在内部,这种模式经常导致财务团队和工程团队之间的紧张关系;财务团队游说发送更少的数据以降低成本,而工程团队游说发送更多的数据以支持故障排除。
然而,财务并不是可观测性的唯一成本;大多数解决方案还会消耗劳动力、时间和资源。毕竟,您生成的数据越多,就越需要花费时间和精力来整理所有数据、识别根本原因和解决问题。
“供应商总是鼓励您记录更多信息,但您不一定能从所有这些信息中获得价值,”Morelli 指出。“[但是]如果您有能力更有意地仅在需要时收集数据,并在不再需要时将其关闭,那么就更容易理解您所看到的内容,”Klein 补充道。
这就是 bitdrift 解决方案所承诺的——但人们很难接受该品牌“少即是多”的方法,至少一开始是这样。
Morelli 和 Klein 承认,在介绍 bitdrift 时,他们面临阻力是很常见的。他们说这是因为他们试图从根本上改变这个行业,并以不同于所有其他可观测性供应商的方式做事。
“我们确实收到了很多问题,比如‘如果我两年后需要这些数据怎么办?’”Klein 分享道。但他也表示,客户很快就开始唱不同的调子:“一旦他们意识到他们可以在需要时获得大量数据,立即解决他们的问题——坦率地说,这令人大开眼界。”
为什么没有其他人尝试改变古老的可观测性范式?
Morelli 和 Klein 的第一个直截了当的回答是,这项技术非常具有挑战性——但似乎还有更多原因。“其他可观测性供应商根本没有动力改变成本模式,”Klein 说。“对于大多数供应商来说,他们发送的数据越多,他们可以收取的费用就越多。”这也是一个惯性问题。由于该行业多年来一直专注于“多多益善”的方法,因此质疑传统并寻求替代方案是不自然的。
但也许 bitdrift 正在推动该行业走向转折点。
Morelli 和 Klein 表示,他们已经收到了客户关于其他用例的询问,并指出他们的解决方案解决的问题不仅限于移动领域,还扩展到各个行业。特别是,他们看到了工业用例的巨大机会,在这些用例中,实时控制可能非常有利,例如石油和天然气、海事、航天和工业机械。
目前,bitdrift 的重点纯粹是移动领域——但他们的方法可能会启发一个全新的可观测性时代。