AI工作负载使传统的存储系统达到极限,需要新的性能能力。
译自 Revolutionizing Storage: The Role of GPUs in Modern Infrastructure,作者 Daniel Clydesdale-Cotter。
人工智能工作负载的兴起正在从根本上改变企业基础设施的需求,尤其是在存储架构方面。随着企业争先恐后地实施人工智能计划,许多企业发现传统的存储方法无法满足现代人工智能工作负载的需求。这种转变迫使基础设施团队从根本上重新思考他们的存储策略。
GPU 作为人工智能基础设施堆栈中最关键和最昂贵的组件的出现是这种转变的核心。这与传统的企业计算有很大不同,在传统的企业计算中,CPU 和内存通常占据成本考虑的主导地位。GPU 的核心作用正在重塑我们对数据中心架构的思考方式,尤其是在功耗、冷却、数据访问和存储性能方面。
现代人工智能工作负载,无论是训练大型语言模型还是运行机器学习应用程序,都需要以空前速度交付海量数据。这些需求会在整个基础设施堆栈中产生连锁反应,存储系统承担着保持昂贵的 GPU 以峰值效率运行的大部分负担。
这种以 GPU 为中心的范例的影响不仅仅体现在原始性能要求上。组织现在必须从新的角度考虑总拥有成本 (TCO),其中存储基础设施决策直接影响其 GPU 投资的利用率和有效性。由于存储瓶颈导致的 GPU 空闲代表着技术效率低下和严重的财务浪费。
存储架构师面临的最大挑战之一是支持高度并行的数据访问模式。在典型的人工智能基础设施设置中,多个 GPU 可能会同时请求访问相同的数据集,从而对大规模的高带宽和低延迟产生需求。传统存储架构主要设计用于顺序访问模式或有限的并行工作负载,通常难以满足这些需求。
考虑一下 20 个 GPU 同时处理大型数据集的情况。每个 GPU 都需要对数据进行高带宽、低延迟的访问,并且它们都可能同时访问相同的数据。这种级别的并行访问会产生许多传统存储系统根本无法处理的性能要求。
在考虑人工智能工作负载的各个阶段时,挑战变得更加复杂。在训练阶段,存储系统必须处理对大型数据集的持续、高吞吐量读取。在推理场景中,他们可能需要管理更多随机访问模式,并具有更严格的延迟要求。真正有效的存储解决方案必须适应这些需求,而无需不断重新配置。
挑战不仅在于性能要求。企业数据本身的价值在过去十年中发生了显著变化,经历了三个不同的阶段:
- 结构化数据时代: 以传统的数据库和结构化数据存储为特征,通常通过光纤通道连接的块存储提供服务。
- 半结构化数据时代: 以数据湖和分析平台的兴起为标志,需要更灵活的存储和存储访问解决方案。
- 非结构化数据时代: 通常是人工创建的,难以处理,它已成为人工智能数据选择的首选目标,主要处理原始文档、图像和文本文件。
这种演变尤其影响了网络附加存储 (NAS) 系统,这些系统现在必须在为人工智能工作负载提供非结构化数据时处理前所未有的并行吞吐量需求。传统上设计用于通用文件共享的 NAS 架构通常难以满足这些新的要求。 向非结构化数据的转变也带来了数据管理和组织方面的新挑战。存储系统现在必须足够智能,才能高效地处理各种文件类型,同时保持人工智能工作负载所需的性能水平。这包括快照、复制、精简(快速)克隆副本、数据分层、缓存和预处理等功能,这些功能超越了传统的存储管理功能。
现代人工智能基础设施需要对系统设计采取整体方法。三个关键组件必须协同工作:
- 高性能存储。必须提供极高的带宽来满足对数据需求量大的GPU。
- 高级网络。需要支持高吞吐量的数据移动和低延迟的GPU到GPU通信。
- 内存架构。包括RDMA over Ethernet等创新技术,用于GPU之间的共享内存空间。
这些组件紧密相连。例如,网络必须支持具有无损以太网或Infiniband的超低延迟连接,以实现GPU之间有效的内存共享。同样,存储系统必须能够以与网络能力和GPU处理速度相匹配的速度提供数据。
这些系统的互联性也为监控和管理带来了新的挑战。基础设施团队需要复杂的工具来了解性能瓶颈,并同时优化所有组件的系统行为。
对于计划人工智能计划的基础设施团队来说,出现了一些重要的考虑因素:
- 规模性能: 存储解决方案必须提供原始性能和跨多个同时访问点的稳定性能。
- 数据架构: 团队需要评估其数据如何在AI工作负载中使用,并相应地设计存储架构。
- 系统集成: 存储、网络和计算必须被视为一个整体,而不是单独的组件。
- 成本优化: 鉴于GPU代表着如此巨大的投资,必须优化存储架构以保持这些昂贵资源的充分利用。
- 未来可扩展性: 当今的架构决策必须适应未来的AI工作负载,这些工作负载可能会更加苛刻。
- 数据治理: 存储解决方案必须支持适当的数据治理,包括版本控制、访问控制和审计功能。
- 环境影响: 由于AI工作负载消耗大量能源,存储架构决策会影响数据中心的整体效率。
- 自动化: 为AI研究人员和开发人员提供对存储功能的访问权限。例如,通过他们首选的界面(IDE、Jupyter Notebook和AI工作台)进行配置、克隆和访问控制。
人工智能革命正在迫使企业重新思考企业存储架构。虽然对于特定工作负载仍然很有价值,但传统方法越来越无法满足现代人工智能的要求。人工智能计划的成功需要了解这些新的需求,并设计能够有效满足这些需求的存储解决方案。
随着组织扩展其人工智能能力,高效存储、访问和处理海量数据集的能力将成为一个越来越重要的差异化因素。基础设施团队必须准备好发展其存储策略以应对这些新兴挑战,重点关注能够提供人工智能工作负载所需性能、可扩展性和效率的解决方案。
企业存储的未来在于能够与AI工作流程无缝集成,同时保持企业所需可靠性和可管理性的智能自适应系统。认识到并适应这些新要求的组织将更有可能在其人工智能计划中取得成功。