OSI对开源人工智能的定义引发了开发者和企业对法律的重大担忧

为了确保开源 AI 模型在商业用途上的合法性,组织必须评估模型权重和训练数据的许可情况。

译自 OSI’s Definition of Open Source AI Raises Critical Legal Concerns for Developers and Businesses,作者 Luca Antiga。

作为 Lightning AI 的 CTO 以及 PyTorch 的早期核心贡献者,我非常重视开源。在开源领域工作了二十年,在 AI 领域工作了这么久,我对开源倡议组织 (OSI) 最近对 开源 AI定义 特别感兴趣。虽然该定义在很多方面都很全面,但我认为它留下了一个关键问题没有回答,特别是对于希望自信地采用开源 AI 模型的开发者和企业来说。

该草案中没有提及的“大象在房间里”——直到文档的最后一个脚注——是它“没有对模型参数是否需要许可证或任何其他法律文书,以及它们在公开和共享后是否可以被任何此类文书合法控制,做出任何立场”。

这在实践中意味着什么?OSI 批准的 AI 系统开源许可证可能不能合理地暗示它“可供商业使用”,就像它对具有通常免责声明的常规软件一样。

一个模型可能是在未经许可的数据(如书籍或电影)上训练的。但是,如果所有关于数据源、数据准备脚本 和相关材料的信息都被共享,它仍然可以被认为是开源的。这保证了透明度,使人们能够对源数据及其许可状态进行尽职调查,但这与人们普遍认为开源应该保证的内容不同。

了解这些细微差别对于企业在 AI 系统中采用开源模型做出明智的决定至关重要。为了具有实际价值,特别是在商业环境中,开源 AI 的定义需要让人们有合理的信心,即所获得的许可可以被许可(或使用)。

为了理解原因,我们需要考虑与使用许可软件(开源或非开源)相关的两个基本问题:

  1. 许可方对用户施加什么条件?软件可以用于任何目的,还是有例外?修改后的版本可以不受限制地重新分发吗?可以构建 SaaS 而不受限制,还是涉及版税?
  2. 许可方是否可以根据规定的条款发布软件?许可证附带的版权声明通常表明这一点。

从本质上讲,许可方必须拥有版权或持有用于制作其软件的材料的许可证,并明确定义其软件的允许使用和重新分发条件。让我们通过几个例子来探讨这一点:

示例 1:软件系统

我从头开始编写软件。由于是我创建的,我拥有版权,可以选择在 Apache 2.0 许可证(例如)下发布它,该许可证允许任何人使用、修改和重新分发它。

示例 2:软件系统

我通过复制和稍微修改在限制性许可证下发布的软件片段来编写一段软件。我决定在 Apache 2.0 许可证下发布它。但是,我是否可以合法地这样做是有疑问的。采用此软件的用户有被原始作者起诉的风险。

示例 3:AI 系统

我训练了一个 在数据上训练的模型,但我没有持有版权(例如,书籍或 YouTube 视频)。我决定在 Apache 2.0 许可证下发布生成的模型,共享代码和权重。问题出现了:我可以声称对这些权重拥有版权吗?观点各不相同,这使得这个问题变得复杂。

OSI 的定义指出,此事不在其范围之内。假设一个模型是在未经许可的数据上训练的,但脚本和权重在开源许可证下可用。在这种情况下,只要方法和源数据公开记录,它仍然被其标准认为是开源的。虽然这种立场是可以理解的,但它为评估采用此类模型的法律可行性的公司提供的实际价值有限。

通过忽略处理权重许可,OSI 正在留下一个巨大的漏洞,这将使许可证在确定 OSI 许可的 AI 系统是否可以在现实世界中采用方面效率降低。

只有在有了这种理解的情况下,开源 AI 才能朝着 广泛的企业采用 迈进。如果在 OSI 之外,更精确的定义可能会在其他地方出现以填补空白。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注