数据不一致或被篡改可能破坏整个训练周期,导致模型不可靠或输出结果存在偏差。
译自 Why AI Loves Object Storage,作者 Brian Verkley。
AI不仅仅运行于数据之上——它本身就是建立在数据之上的。AI模型做出的每一个决策,它发现的每一个洞见,都源于为其训练和运行提供动力的海量数据储备。然而,随着AI模型变得越来越庞大和复杂,它们与数据交互的方式也带来了传统存储系统无法应对的挑战。问题不仅仅在于数据的绝对数量——尽管像GPT-4这样的模型处理数万亿个token——还在于访问和管理数据的复杂性。分散在分布式系统中的小文件以及对随机访问的需求,突显了AI的需求与最初为结构化、顺序工作流构建的基础设施能力之间的不匹配。
这篇博文探讨了对象存储如何为AI对数据的永不满足的渴望提供动力。读完之后,您将了解其可扩展性、丰富的元数据和不变性如何改变AI模型的构建、训练和部署方式。
一个关键因素是对象存储处理规模的方式。传统上,存储层通常是手动管理的,需要仔细编排才能在快速的临时存储和较慢的归档层之间移动数据。跨越数十PB非结构化数据的AI工作负载受益于对象存储固有的可扩展性。由于没有分层目录或分层开销,像S3兼容平台这样的对象系统能够实现动态的、按需的数据访问,从而显著降低管理复杂性,同时保持性能。
与将某些操作集中化的存储系统不同,对象存储将数据和元数据分布在节点集群中,消除了单点瓶颈。这种架构允许AI工作负载随着数据增长线性扩展。无论是在单个数据集上进行训练还是同时进行多个数据流的训练,对象存储都能确保数据始终可访问,无论存储库的大小或分散程度如何。这种可扩展性与AI本身的发展轨迹相匹配,其中对更多数据的渴望与模型的复杂性同步增长。
AI不仅仅消费数据;它消费的是带有上下文的数据。每个文件——图像、文本块或音频片段——都必须被分类、标记和索引,才能在训练管道中发挥有意义的作用。对象存储在这里大放异彩,因为它允许将元数据直接与每个对象关联,支持超越文件大小或修改日期等文件系统基本要素的丰富、可定制的标记。
对于AI架构师来说,此功能意味着更智能、更快速的数据管道。考虑一下包含数十亿个标记图像的数据集:通过将元数据嵌入到每个对象中,AI系统可以快速过滤和检索特定的子集,例如具有特定属性或注释的图像。这种效率最大限度地减少了预处理时间并加快了训练周期,从而能够进行迭代实验和改进。
丰富的元数据增强了超越检索的可追溯性。当模型包含具有复杂来源要求的数据集时,元数据为每个数据对象提供清晰的监管链,降低了在训练期间错误标记或意外误用的风险。
训练数据的完整性对于AI系统来说是不可谈判的。不一致或篡改的数据可能会破坏整个训练周期,导致模型不可靠或输出有偏差。对象存储通过设计提供不变性,确保数据写入后无法修改。此功能不仅保留了数据集的完整性,还在需要审计跟踪的高度监管环境中简化了合规性。
例如,为医疗保健或金融领域训练AI模型的组织通常面临严格的要求,以证明数据保持不变。对象存储通过一次写入多次读取 (WORM) 策略、加密校验和和版本控制来满足此需求。AI团队可以自信地审核其数据集,知道每个对象都保持其首次摄取时的状态。
不变性还支持可重复性——科学AI的重要支柱。当研究人员重新审视训练实验时,他们可以确信数据与原始数据匹配,从而获得一致且可比的结果。 这些属性——可扩展性、元数据丰富性和不变性——不仅仅是特性,更是现代人工智能创新的推动者。对象存储赋能人工智能架构师专注于其模型的变革潜力,因为他们知道底层基础设施能够满足规模、复杂性和精度的需求。对象存储已成为人工智能下一次巨大飞跃的基础,这不足为奇。