但是,定义开源人工智能的工作远未完成。
译自 The Open Source AI Definition Is Out,作者 Steven J Vaughan-Nichols。
北卡罗来纳州罗利——开源倡议组织 (OSI) 于 10 月 28 日在 2024 年的 All Things Open 大会上正式发布了其开源人工智能定义 (OSAID) 的 1.0 版本。在努力建立开放源码人工智能 (AI) 的明确标准的过程中,这是一个漫长而缓慢的旅程。
此次发布与第一个 OSAID 定义候选版本相同,是在历时两年的过程中,与学术界、业界和更广泛的开源社区广泛合作之后完成的。OSAID 旨在提供一个标准,以此评估人工智能系统是否真正符合开源的标准。
剧透警告:许多系统都不符合标准。来自 OpenAI 和 Meta 等人工智能公司的虚假开源发布达不到 OSAID 的标准。
根据新的定义,要将人工智能模型视为开源,它必须:
- 提供足够的设计信息,以便能够进行实质性的再现
- 公开有关训练数据的相关细节,包括来源和处理方法
- 允许任何目的的使用,无需许可
- 允许研究系统的内部运作
- 允许出于任何目的进行修改
- 允许共享原始版本或修改后的版本。
该定义还解决了训练数据的争议性问题。虽然它不要求完全发布数据集,但它要求提供“关于用于训练系统的数据的足够详细的信息”,以便熟练人员能够进行再现。
这对某些人来说还不够好。他们希望所有数据也都是开放的,才能将人工智能项目视为开源。
正如 RedMonk 分析师最近在一篇文章中指出的那样,“源代码……是一个精确且范围狭窄的主题领域。人工智能项目并非如此。它们的范围融合了软件、数据、技术、偏差等等。人工智能无疑是一种与软件本身根本不同的资产。”
O’Grady 写道,这导致“例如,寻求维护和保护开源基石原则的理想主义者认为,任何不需要训练数据的模型都在损害原始开源定义所满足的四大自由。
OSI 则认为,在与各种人工智能研究人员的讨论中,他们的共识是权重比原始训练数据更重要。这种立场可能是对的,也可能不对。可以肯定的是,即使这种说法是正确的,它也是一种细微的立场,违反直觉,需要冗长的解释。”
无论你在这个问题上持何种立场,这一新标准都可能对那些一直在将他们的人工智能模型推销为“开源”的公司产生重大影响。
在 All Things Open 的主题演讲中,OSI 执行董事解释说,OSI开始了漫长而艰巨的旅程来创建 OSAID,因为“公司和项目将自己称为开放的或开源的,旁边带有 AI 这个词,而这些与开源原则毫无关系。我们被迫做出决定并采取行动,因为在这个领域中,没有人知道什么是开源人工智能,监管机构甚至在法律中引入了开源人工智能这一术语,而没有提供任何定义或任何暗示其含义的内容。我们成功地向监管机构解释了开源需要特殊待遇。但随之而来的成功也带来了行动的责任。”
欧盟 (EU) 的人工智能法案是关于开源人工智能与数据的最重要法案。在一次采访中,OSI 主席兼律师解释说:“人工智能法案对开源有定义,但它依赖于旧的开源软件定义;OSAID 应该弥合这一差距,提高要求,并确定某些事物真正成为开源所必需的条件。”
话虽如此,虽然此版本标志着定义的稳定版本,但OSI承认可能需要进一步改进。该组织已成立一个委员会来监督OSAID并为未来版本提出修正案。
这并不意味着OSAID 1.0是测试版。它不是。
Piana解释说,开放变化是一种“承认我们对人工智能的作用、修改语言模型所需内容的集体理解现在是有限的。我们使用得越多,就越了解。现在我们的理解有限,我们还不知道这项技术一年、两年或三年后会是什么样子。”因此,OSAID为未来的灵活性留出了空间。
其他组织也已经认可了OSAID,包括Mozilla基金会、OpenInfra基金会、彭博工程和SUSE。
展望未来,此版本代表着朝着阐明构成开源人工智能的要素迈出的重要一步。虽然并非每个人都同意OSAID,而且人工智能领域正在迅速发展,但此定义为开发人员、研究人员和政策制定者评估和创建真正开放的人工智能系统提供了一个框架。此标准对人工智能行业和开源社区的影响将在未来几个月和几年内显现。