寻求人工智能基准测试的新范式

Chakra执行追踪是人工智能/机器学习工作负载的基于图形的表示，旨在统一各种执行追踪模式。

译自 Seeking a New Paradigm in AI Benchmarking，作者 Shashi Gandham 是Meta的软件工程总监，他支持Meta的网络AI团队。他拥有计算机科学博士学位，在行业内有大约20年的经验，涵盖大规模网络、分析等领域...

AI开发潜在地为解决全球一些最紧迫的问题提供了解决方案，并可能有助于为所有人创造更美好的未来。为了构建AI模型并解决这些问题，我们需要尖端的基础设施，而网络是这种基础设施的重要组成部分。这项重要的工作包括优化这些支持AI/ML计算的广泛网络，推动技术为每个人取得进展。随着规模的增长，性能、部署和运营复杂性都带来了管理网络解决方案的挑战。

例如，基准测试不仅改进当前的AI系统，而且有助于规划未来的网络。我们在 Meta 开发的新基准测试系统可以在其中发挥重要作用，我们认为这是另一个机会，可以请全球的AI技术专业人员共同推动提高AI效率分析和基准测试工具的发展。

作为基准测试的一部分，执行跟踪还提供了其他重要的功能，包括可视化和性能优化。在 Meta，我们的新 Chakra 执行跟踪是AI/ML工作负载的基于图形的表示，旨在统一各种执行跟踪模式。除了捕捉通信、内存和计算等核心操作外，它还可以捕捉元数据、依赖关系和时间。

我们相信，鼓励并寻求全行业采用可以增强AI效率分析工具，并实现整体性性能基准测试。作为与开放工程联盟MLCommons合作的一部分，Meta已经开源了一个工具包，其中包括各种模拟器、仿真器和重放工具，以便收集、分析、生成和采用Chakra执行跟踪。

超越传统基准测试的限制

在很大程度上，基准测试AI系统意味着运行完整的机器学习工作负载。MLCommons的MLPerf和其他已建立的基准测试方法可以提供有用的见解，例如对AI工作负载和系统性能行为的了解。MLPerf已成为在各种加速器上（包括GPU（图形处理单元）、ASIC（专用集成电路）和其他芯片）进行AI应用基准测试的领先标准之一。

然而，在这种完整工作负载基准测试中存在一些固有的挑战。其中包括高计算成本、预测未来系统性能的障碍以及无法适应不断演变的工作负载。

Chakra执行跟踪是建立在我们对传统基准测试限制的深刻认识之上的。通过与MLCommons合作，我们希望推动如此重要的AI工作基准测试的一个关键领域。

Chakra工作组，例如，正在策划一个“Chakra跟踪基准套件” —— 收集来自其他贡献者的执行跟踪。此外，该工作组正在帮助解决一种约束，即来自一个系统的跟踪可能无法准确模拟在具有不同网络拓扑、GPU和带宽的系统上。其目标是在多个阶段收集跟踪，包括优化前和优化后，以在任何目标系统上使用。

Meta、MLCommons和通往未来创新的道路

Chakra工作组只是我们与MLCommons合作的一个例子。我们还是一个新的跨学科团队的一部分，致力于AI安全基准的研究。

为了使AI生态系统繁荣发展，产业共识至关重要。在MLCommons下的Chakra工作组将专注于一系列项目，这些项目有助于打造一个敏捷、可重复的AI基准测试和协同设计系统。无论是开发从各种框架捕获和转换执行跟踪，还是基于MLCommons/MLPerf指南定义具有Chakra执行跟踪的全面基准，我们邀请有兴趣的个人和公司加入我们。

超越传统基准测试的限制

Meta、MLCommons和通往未来创新的道路

发表回复 取消回复

发表回复取消回复