存储抉择:云端还是本地?抑或是另有门路?

探讨云端和本地存储的优缺点,以及第三种最佳方案:云邻近存储。

译自 To Store in the Cloud or on Premises? How about Door No. 3?,作者 James Walker 是一名软件工程师,有丰富的经验,使用围绕现代 DevOps 方法构建的工程工作流交付定制软件。

数据平台是公司存储、管理和分析其数据的方式,也是其最宝贵的资产。平台越强大和高效,数据就能被更有效地利用。

数据平台能够将来自各种来源的数据流转化为实现业务结果的行动计划,这些来源包括业务应用程序、物联网平台和人工智能工具等。

确保数据平台架构正确非常重要。其中一个重要方面是拥有最佳的基础设施——一种高效的存储、网络和计算资源的组合,这样才不会导致成本和复杂性失控。

现代数据平台中庞大的数据量和复杂的分析过程需要专门的基础设施来支持规模化的性能和可靠性。虽然基础设施的各个方面都必须被考虑,但就数据平台而言,与存储相关的计算、网络和可靠性问题通常次于存储。

让我们来看看使用云存储和本地存储基础设施以及第三种折衷方案——云邻近存储。

总的来说,云存储让您拥有可伸缩性的优势和访问云工具的便利,而本地存储基础设施让您完全掌控您的数据。云邻近存储则在保留本地控制权的同时,不失使用云工具的能力。

云存储的优势

完全基于云的存储解决方案将您的数据存储在通过服务提供商提供的远程基础设施中。这种方法的主要优点包括:

  • 消除购买和维护物理存储硬件的需求:由于您无需自行采购任何存储设备,云的初始成本几乎为零。您按需付费,逐步减少资本支出。基础设施完全由提供商管理,因此您也不需要进行系统维护的运营成本。
  • 支持集成的摄取和分析功能:许多云存储提供商直接与数据平台集成,或提供其自己的一体化服务。您可以在一个地方摄取、分析、转换和输出数据,最大程度地减少昂贵且耗时的数据传输。
  • 提供无缝的可扩展性、可靠性和高可用性:无需努力地可扩展性可以说是云存储的最大优势。您按需付费,根据需要增加存储容量和计算性能。您还可以方便地构建弹性和高可用性。
  • 具有自动化的安全性和合规性保护:云存储通常带有集成的安全选项,以帮助保护您的数据并防止未经授权的访问。提供商还可以通过专门的服务支持合规要求。

云存储的缺点

将数据平台使用云存储并非没有缺点,其中包括:

  • 资源控制能力较低:因为您的数据存储在云中,您无法完全控制其运行的基础设施,以及存储服务的内部管理方式。对于具有特定性能要求的大型和复杂数据集,这可能会带来限制。
  • 实现精确的计算、网络和存储组合的选择较少:您可以使用的基础设施配置选项受限于云服务提供商提供的内容。这可能会导致对基础设施的某些元素进行过度配置(例如,比实际需要更多的虚拟 CPU 内核),以创建您所需的平台。
  • 安全性和隐私风险较高:公共云平台是共享基础设施,因此存在横向攻击的风险。您还无法完全控制您的网络暴露于公共互联网的程度。服务可能需要复杂的配置策略来应用基本的安全保护措施,这增加了安全疏忽的风险。
  • 随时间成本较高:云具有较低的初始成本,但这并不一定意味着在数据平台的整个生命周期内具有较低的所有权成本。云存储费用可能会累积,尤其是在使用专用数据仓库解决方案时。例如,Amazon Redshift 的按需计划价格范围大约为每小时 1.08 到 13.04 美元,而Snowflake的信用模型会导致典型费用范围从每小时 2 美元到最大计划上每小时超过 1,024 美元。

本地存储的优势

本地基础设施是指您在自己的组织内拥有并运营的资源。对于数据平台而言,这意味着购买和配置服务器和存储驱动器,然后将它们部署到您的数据中心环境中。本地基础设施设置和维护更加复杂,但它可以让您完全掌控您的平台。

其他优势包括:

  • 您的基础设施是一项资产:购买自己的服务器和存储驱动器具有较高的前期成本,但它是您组织的资产。如果您确信您可以预测您的存储需求,拥有自己的基础设施可以显着降低长期成本,与云存储选项相比。
  • 完全控制您的硬件和数据:您可以完全控制您的基础设施,包括存储服务器、文件系统和操作系统。您可以配置任何计算、网络和存储的组合,并打造满足您精确要求的平台。
  • 零资源争用:在自己的硬件上运行一切意味着没有资源争用,不像云服务可能受到“吵闹的邻居”问题的影响。假设您对自己系统的可靠性有信心,您也将免受云服务中断的影响。
  • 运行隔离数据存储的选择:极度敏感的数据可能不适合存储在云上。本地基础设施可以让您保持这些资源的私密性,并在必要时对其进行隔离。与互联网零接触大大减少了您的潜在安全风险。

本地存储的缺点

搭建和运行支持大型数据平台的存储基础设施绝非易事:

  • 高昂的前期成本:组装本地数据平台的成本很高。您需要购买或租赁数据中心空间,然后填充计算、网络和存储设备。此外,为了确保可扩展性和可靠性,需要定期添加和更换存储介质。
  • 需要专业知识:构建、操作和维护本地数据平台需要专业知识,并且熟练工程师的数量相对较少。您需要在团队中拥有这种人才或支付外包费用。
  • 扩展平台具有挑战性:扩展本地数据平台是棘手且耗时的。您需要购买额外的驱动器,将它们添加到存储阵列中,并检查其正确运行。同样,增加计算和网络容量需要进行复杂的硬件安装,可能需要平台停机。实际上,这项工作通常被外包给基础设施管理专家,但依赖承包商可能会进一步抵消本地系统提供的成本和控制优势。
  • 与分析服务集成更加困难:您可以用于在本地分析数据的工具和服务的数量远远小于云端的数量。许多人工智能和机器学习数据引擎都是为云使用而设计的,这可能会限制您利用数据的方式。

云邻近存储:最佳折衷方案

云邻近存储模型结合了云端和本地模型的优势,摒弃了主要的缺点。

这里的“云邻近”是指保持私有存储基础设施,但通过位于同一数据中心校园内的云入口点与公共云平台进行私有连接。

您可以通过将自己的存储基础设施与提供云入口点访问的数据中心运营商进行合作来实现这一点。您还可以使用专用的云解决方案,如 Equinix 提供的方案,该方案提供完全托管的计算和存储,是单租户的,但是可以远程按需提供。

这种方法的好处包括:

  • 配置控制:您对基础设施资源拥有完全控制权,包括支撑您数据平台的服务器硬件和软件以及网络。
  • 云对云直接联网:云入口点允许您使用私有连接在云之间进行网络连接,为您在何处处理数据提供更多选择。这扩展到直接的第二层和第三层网络,使您可以减少延迟,加速诸如摄取和备份等密集操作,并最小化流量被拦截或篡改的风险。
  • 降低成本:云邻近存储的成本可能比完全云端或本地设置成本更低。通过设计网络以避免大量数据从云区域或服务中传输,您不仅可以节省存储成本,还可以节省数据出口成本。
  • 访问详细的云分析:云邻近存储允许您使用全面的基于云的数据分析、处理和转换工具。您可以通过快速可靠的私有连接在私有存储数据上使用基于云的工具。

强大的数据平台需要满足当前和未来数据需求的可扩展存储基础设施。

云端和本地解决方案各自适用于不同的用例,但您不必只选择两者之一。许多组织发现,使用专用云和云邻近存储的混合方法是最灵活和成本效益最高的选择。它促进了安全、私密的网络和跨云的数据分析,同时提供可靠的性能和配置控制。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注