这就是 GPU 数据编排如何开启新的可能性,同时降低管理成本和时间负担。
译自 The Critical Role of GPU Data Orchestration in AI Success,作者 Trond Myklebust。
最近 英伟达进行的研究 关注了 2024 年 AI 的现状,其中一项发现是,几乎 50% 的跨行业公司计划在云端和本地运行 AI 项目。换句话说,AI 基础设施的未来将是 混合云和多云。这一发现并不令人惊讶,因为在大多数情况下,用于 GenAI 项目甚至 LLM 训练的 GPU 资源永远不会与为其提供数据的全部数据共置。
虽然关于本地化基础设施以及为 GPU 提供高性能数据的专用存储系统的需求已经有很多讨论,但 GPU 数据编排的需求——即快速高效地将数据从当前位置移动到为高性能计算资源提供数据的能力——可以说是一个更重要的主题。
编排的概念是众所周知的:结构化数据编排 在 Databricks 的平台中至关重要,Run.ai 用于 GPU 资源编排,Kubernetes 用于容器编排。但是,如何编排构成 GenAI 使用的大部分数据的非结构化数据呢?
在站点和云之间移动大型数据集很复杂,尤其是在全球几乎所有企业的多供应商存储环境中。很少有组织将数据存储在单个供应商的存储系统上。识别和访问正确的迁移数据既繁琐又充满了潜在的错误和安全风险。许多组织通过手动、蛮力技术来完成此操作,例如将整个数据集从一个存储系统或云复制到另一个存储系统或云。这种方法需要时间,增加了资本支出和运营支出,并减缓了创新速度。
对于现代高性能工作负载来说,这个问题变得更加严重,普遍存在的 GPU 短缺 经常要求组织将工作流爆发到基于云的 GPU 集群或远程 GPU 即服务提供商。即使随着更多 GPU 的可用和部署,组织的所有 GPU 资源都不可能位于同一个数据中心,因为可用性或电力需求。
随着我们进入下一个数据周期,组织需要直接访问全球所有数据,以提取未实现的价值。
AI 工作流中有多个阶段,当然,许多 AI 使用案例可能差异很大。但无论 AI 使用案例多么多样,共同点是需要从许多不同的来源收集数据,这些来源通常位于不同的位置,甚至位于单个组织之外。
根本问题是,人类和 AI 模型对数据的访问始终在某个时刻通过文件系统进行。问题是,文件系统传统上嵌入在存储基础设施中。这种以基础设施为中心的做法的结果是,当需要在当前存储平台之外使用数据时,或者如果不同的性能要求或成本结构决定使用其他存储类型时,最终会生成数据的多个副本(导致脏数据集),用户和应用程序在多个访问路径之间导航的复杂性增加,并且随着数据从管理文件系统中移出,安全风险也会增加。
对于 AI 工作负载来说,这个问题尤其严重,其中一个关键的第一步是整合来自多个来源的数据,以便能够跨所有来源进行全局查看。AI 工作负载必须能够访问完整的数据集,以便对文件进行分类和标记,作为确定哪些文件应该被细化到下一步的第一步。
AI 旅程中的每个阶段都会进一步细化数据。此过程可能包括清理和大型语言模型 (LLM) 训练,或者在某些情况下,调整现有的 LLM 以进行迭代推理运行,以更接近所需的输出。每个步骤还需要不同的计算和存储性能要求,从速度较慢、成本较低的批量存储系统和档案到高性能、成本更高的 NVMe 存储和内存加载服务器。
与将文件系统绑定到基础设施的传统存储平台不同,现代数据编排解决方案可以与任何存储平台协同工作,无论是在边缘、本地还是云端,也不管供应商是谁。这些解决方案创建了一个高性能、跨平台的并行全局文件系统,它统一了跨多个位置(包括云)的原本不兼容的存储孤岛。
对于 AI 工作流至关重要,数据分类可以通过丰富的元数据得到显著增强和自动化,这些元数据用于根据业务目标自动放置数据。强大的元数据管理功能使文件和目录能够手动或自动标记用户定义的自定义元数据,从而创建一组丰富的文件分类信息,可用于简化 AI 工作流的分类阶段并简化后续迭代。
GPU 数据编排允许 IT 管理员在全球范围内自动执行跨所有存储孤岛和计算资源的数据服务,而不会中断用户或应用程序。像 Hammerspace 这样的工具通过将文件系统与底层基础设施分离来处理后台数据编排,确保 GPU 集群、AI 模型和数据工程师的高性能。这种统一的全局元数据控制平面为每个位置的所有用户和应用程序提供了对重复文件的无缝读写访问权限,而不仅仅是副本。
这听起来可能都很好,但您可能会认为它不适用于大型数据集,因为数据重力的限制。用于大型数据集的数据编排系统必须是文件粒度的,并由全局元数据控制平面驱动,通过允许跨不同存储位置无缝访问和管理数据来克服数据重力的许多挑战,而无需物理移动大量数据集。当需要移动数据时,由于全局元数据控制平面是任何数据更改的主控,因此可以在数据传输过程中访问数据。
从本质上讲,这种方法允许组织克服数据重力带来的限制,从而在分布式环境中实现更快、更高效的数据处理和分析。
通过高性能并行全局文件系统弥合位置或云之间的异步距离差距,使组织能够根据需要快速扩展或缩减应用程序、计算和存储资源,轻松适应 AI/DL 工作流中出现的新用例。这种方法使例行操作(例如用新平台替换旧存储)成为非破坏性的后台活动。数据所有者可以执行这些操作,而无需与重新调整现有本地基础设施或中断用户/应用程序对数据的访问相关的处罚。组织可以通过在后台自动释放高性能系统上的空间来延长其现有计算和存储资源的使用寿命,而不会造成中断。
存储容量、性能、成本中心、位置等等现在都可以成为触发基于目标的策略的变量。甚至来自同一云供应商的不同存储类型或不同区域的成本概况也可以用于创建业务规则,以管理整个生命周期中的各种数据类别。
数据编排能够跨孤岛提供全局访问和控制,消除了冗余副本、手动复制、碎片化数据保护策略以及数据和存储蔓延的其他症状。所有数据服务都内置在软件中,使 IT 管理员能够以简单的方式自动执行此类任务,利用他们已经拥有的技能。这种方法减少了数据副本的数量以及管理多孤岛数据环境所需的软件应用程序和点解决方案的数量。
随着正在改变非结构化数据传统生命周期的 AI/DL 需求的出现,GPU 数据编排使组织能够灵活地创建准确的供应商中立数据网格,利用他们已经拥有的基础设施来现代化和简化其现有数据环境。
总之,GPU 数据编排开辟了新的可能性,同时降低了管理成本和时间负担。架构受益于
- 将数据与基础设施解耦: 通过将文件系统与底层存储基础设施解耦,全局元数据控制平面确保数据可以在粒度级别进行编排,这意味着特定文件或数据集可以独立于其物理位置进行管理。
- 全球访问和效率: 全局元数据层提供所有数据的统一视图,无论数据存储在哪里,都允许用户和应用程序实时访问相同的数据。这消除了创建多个副本或移动大型数据集的需要,而这通常是由于数据重力而带来的重大挑战,即大型数据集由于其大小和复杂性而难以移动。
- 提高性能和敏捷性: 通过在文件级别编排数据,管理员可以根据性能要求优化数据放置,从而减少延迟并靠近 GPU 集群、AI 模型和其他计算资源。这种方法确保数据在需要的时候出现在需要的地方,而不会受到数据重力的限制。