追逐五个9的隐形成本

在大多数情况下,为了获得更好的平衡,目标是较低的可用性目标可能是值得的,这可以提供可持续的运营和更健康的工作文化。

译自 The Hidden Costs of Chasing Five 9s,作者 Ajinkya Mahadeo Ghadge。

在分布式系统中,实现五个九(99.999%)的可用性是卓越的基准。这种正常运行时间保证每年只有 5 分钟的停机时间,确保了近乎持续的可用性和可靠性。尽管它提供了更高的弹性和正常运行时间,但围绕这个问题的问题是:代价是什么?

追求一致的正常运行时间伴随着重大的财务、运营和人力成本。通过分析,通常会忽略追逐五个九的某些方面,这些分析旨在通过考虑收益递减规律来质疑收益是否大于投资。

财务成本:基础设施及其他

尽管现在大多数中型公司都利用云,但对于高可用性的本地基础设施,必须考虑冗余的资本支出。公司需要在不同的地理位置部署多个数据中心,以确保持续的可用性。

这些多个数据中心可以防止局部故障,但维护这些数据中心需要成本,主要围绕以下方面:

  1. 房地产和设施:租赁和购买土地和建筑物。根据 Uptime Institute 的一份报告,建立一个 Tier III 数据中心的潜在成本可能在每平方英尺 7,000 美元到 12,000 美元之间。对于一个 10,000 平方英尺的设施来说,这笔费用可能高达 1.2 亿美元。
  2. 硬件:对于高可用性基础设施,必须在多个站点之间复制服务器、存储系统和网络设备。一台服务器的成本至少在 2,000 美元左右,而一家公司可能需要 100 台服务器,resulting in an investment of around $2 million to $5 million.
  3. 网络:数据中心之间的高速冗余网络连接,以促进故障转移处理和负载平衡。高速网络连接的成本每年在 100,000 美元到 100 万美元之间,具体取决于带宽和协助。

运营成本

管理复杂的多层冗余、复杂的故障转移机制以及大量互连服务,其成本可能会由于以下原因而导致运营挑战:

  1. 监控需求增加:随着基础设施的增长,实时监控异常的需求也在增加。大型企业每年在 Datadog、New Relic 或 Splunk 等解决方案上的支出约为 50,000 美元至 200,000 美元。在某些情况下,还需要定制监控解决方案,这会增加成本。
  2. 事件管理需求增加:当监控增加时,必须通过稳健的事件管理流程(如运行手册、升级协议和沟通策略)来处理事件。根据 Ponemon Institute 的“数据泄露成本报告”,2023 年数据泄露的平均成本约为 445 万美元。尽管并非所有事件都会导致泄露,但与停机、调查和修复相关的成本可能非常高。即使是轻微的事件也可能中断服务并需要大量资源,尤其是在为高可用性而设计的系统中。
  3. 质量保证和测试需求增加:多层基础设施需要进行严格的测试,包括:
    1. 灾难恢复演练:定期模拟灾难恢复场景,以确保恢复流程处于活动状态并正常运行。成本围绕人员时间、资源分配以及对正常运营的潜在干扰展开。
    2. 渗透测试:进行频繁的扫描和测试,以确保所有服务都可用且不易受到攻击。
    3. 性能测试:持续监控系统在峰值流量负载下的能力以及在不影响可用性的情况下动态扩展的能力。

一个假设的条形图,比较了中型企业在不同可用性级别下进行灾难恢复、渗透测试和性能测试的成本。

人力成本

当您考虑高可用性时,财务和运营方面的考虑总是首当其冲;然而,维护这些系统的人力成本也很关键。对 IT 运营和团队的影响非常大,足以影响他们的整体福祉和工作满意度。其中一些因素不仅限于:

  1. 压力和倦怠: 追求五个九的可用性意味着需要雇佣大量人员昼夜不停地工作,以便立即解决任何问题。这种需要立即响应事件的期望会造成高压环境。如果服务可用性受到影响,人们就会担心受到严重的影响,比如声誉受损或失业,这进一步加剧了这种压力。这也对心理健康造成了严重影响。
  2. 人为因素导致的错误率: 在高压环境中,人为导致的错误的可能性会增加。
  3. 员工流动率: 高压力环境也会导致更高的员工流动率,因为开发人员会避免高压环境,追求更好的工作与生活平衡。

收益递减法则

根据这一经济学原理,随着对某一特定领域的投资增加,产出或绩效的收益最终会减少。将此应用于分布式系统的高可用性追求表明,超过某个点后,额外的投资对正常运行时间的改善将越来越小。

从 99% 提高到 99.9% 通常会在客户满意度和可靠性方面带来显著的性能提升。这些也是最具成本效益的方法,因为它们可以通过在基础设施冗余、事件管理和监控方面实施标准实践来实现。然而,当您从 99.9% 提高到 99.99% 或 99.999% 时,成本会急剧上升,这是因为我们前面提到的所有因素,例如增强的冗余、监控和全面测试。

随着投资的增加,以减少停机时间衡量的回报也会减少。例如:

  1. 将可用性从 99.9% 提高到 99.99% 会导致停机时间从每年 8.76 小时减少到每年 52.6 分钟。虽然这种改进听起来可能很显著,但只有在金融和医疗保健等特定行业中,成本才是合理的。
  2. 将可用性从 99.99% 提高到 99.9999% 会进一步将停机时间减少到每年 5 分钟。这也需要付出巨大的代价;大多数组织都很难证明这笔费用是合理的。

正如您所看到的,平衡关键系统和非关键系统的成本至关重要。企业必须区分关键任务系统和非关键任务系统,并且只有在停机时间可能对其声誉或成本产生重大影响时,才需要努力提高可用性。

结论

实现五个九的可用性需要付出巨大的组织、运营、财务和人力成本。

虽然对于特定行业的特定组织来说,追求五个九的可用性是有意义的,但大多数组织必须权衡成本和收益。

在大多数情况下,将可用性目标定得低一些可能是值得的,这样可以实现更好的平衡,提供可持续的运营和更健康的工作文化。随着系统的发展,培养对可用性的需求变得同样重要,要优先考虑弹性、灵活性和这些系统背后人员的福祉。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注