有效的可观测性可以减少业务中断、故障排除时间和工程疲劳,同时提高客户满意度。
译自 4 Unexpected Costs of Unreliable Observability。作者Amanda Mitchell,Chronosphere的内容营销高级经理。Amanda有20多年为品牌和媒体创造数字内容的编辑经验。
有时候很难知道一个不利问题可以给您的业务带来多少成本 - 直到它发生。虽然您的组织可能已经掌握了服务停机时间的测量 - 计算收入损失、客户满意度评分、客户流失和负面新闻 - 您是否花时间来全面理解当您的可观测性平台变慢或不可用时产生的全部业务成本?
当您的可观测性平台无法正常工作时,您的团队最终会盲目飞行,对您的服务没有可见性。反过来,您的业务可以快速经历业务和收入中断、更长的故障排除时间、增加的工程疲劳和客户满意度下降。
以下是您的业务需要知道的四大不可靠可观测性工具的成本。
技术环境正在不断发展。向云原生移动允许您的业务在数字世界中保持高效和敏捷,在这个世界里,客户希望快速交易和永不中断的体验。您监控环境的能力需要超过您的平台的承诺。然而,传统的基础设施和监控系统 - 用于监控部署在虚拟机(VM)上的单体应用程序 - 在满足您和您的团队所需的可靠性和规模方面无法匹敌,无法在今天的数字业务世界中脱颖而出。
即使您的应用程序还在运行,当您的可观测性平台关闭时,您也无法完全经营您的业务。例如,当可观测性停止时,审计跟踪可能中断。这意味着在可观测性平台恢复之前,您无法允许任何交易。当可观测性平台不可用时,您还可能需要告诉您的工程师停止部署。在这两种情况下,不可靠的可观测性工具都会耗费您的时间和金钱。
当监控和可观测性平台部分或完全停机时,保持您的环境运行需要相关的意外成本。故障排除时间更长,因为您的工程师正在追踪来自替代来源的可观测数据。您最好的工程师被从其他重要任务中抽离出来帮助管理停机。此外,永久的数据丢失也不是不可能的,这可能意味着任何趋势分析都存在丢失的数据。不可靠的可观测性降低了对可观测性工具的信心。开发人员在推出新代码时会犹豫 - 这会减慢部署和业务。
可观测性停机时间的人为成本是真实的,导致疲劳,从而对您的收入和利润产生负面影响。修复停机问题可能会导致加班加点、延长的值班时间和日益增长的挫败感。由于疲劳,您的公司可能会失去最有价值的工程师,并且招聘新工程师一直是一个艰巨的挑战。此外,根据Chronosphere的2023年云原生可观测性报告,工程师花25%的时间(近一个工作日的时间)用于故障排除,疲劳问题普遍存在。
客户不满可能是不可靠可观测性最明显的成本。今天的客户很聪明、不耐烦并有很高的期望 - 性能稍有下降就可能导致他们放弃搜索、请求或交易 - 导致收入损失。在2023年在线可靠性报告中,75%的受访者表示频繁的减速或故障会导致他们停止使用某个应用程序或网站。当您的可观测性解决方案速度变慢或不可用时,您可能会错过影响客户的问题。客户体验的关键是满足服务级别协议(SLA),但根据2023年云原生可观测性报告,99%的工程师表示他们未能达到平均修复时间目标。
最近的一份Forrester Research报告显示,可靠的可观测性解决方案每年可以减少75%的严重事件。Chronosphere是一个单租户、基于SaaS的云原生可观测性平台,它提供99.9%的服务级别协议(SLA),但在过去一年中,它为所有客户提供了99.99%的服务。
与传统的基础设施和监控工具相比,Chronosphere将正确的数据置于上下文中,允许您的工程师快速解决问题。这意味着组织可以消除业务和收入中断、减少故障排除时间、减少工程师疲劳,同时提高客户满意度。
计算使用Chronosphere云原生可观测性的投资回报率。