2023年开源大语言模型一览

人工智能领域出现了各种开源方案，竞争日渐激烈。本文整理了一些影响力最大的开源大语言模型。

译自 Large Language Models: Open Source LLMs in 2023，作者 Kimberley Mok。

随着 OpenAI 去年底发布 ChatGPT 聊天机器人，大型语言模型(LLM)已引起公众广泛关注。

尽管这种基于生成式 AI 的工具具有充足的利润潜力，但更广泛的 AI 社区中的许多小企业和独立研究人员仍对采用封闭源 LLM 持谨慎态度，这不仅是因为其操作成本和巨大的计算要求，还有其他问题，如数据所有权、隐私以及它们有时“幻觉”错误信息的令人不安的倾向。

因此，开源替代品在过去一年中也获得了牵引力并不令人惊讶。正如一些调查所指出的，尽管开源 LLM 通常还不如其封闭源表亲强大，但开源选项可以针对特定任务进行微调，以超过专有模型。

随着 AI 领域因各种开源替代方案的出现而变得更加多样化，以下是 2023 年产生最大影响的几个有力竞争者。

1. LLaMA 和 LLaMA 2

今年 2 月，Meta 发布了 LLaMA，这是其拥有 130 亿参数的大型语言模型，经测试在大多数基准测试中优于 175 亿参数的 GPT-3 模型。这个第一版以开源包的形式发布，开发者可以在非商业许可下请求访问它;然而，该模型及其权重很快在网上泄露，使其实际上对任何人开放使用。

7 月，Meta 推出了 LLaMA 2 的后续版本，该公司称它比原始版本训练了 40% 更多的数据，还有其他像 LLaMA 2-Chat 等微调版本，该版本已针对类人的对话进行了优化，以及 LLaMA Code，该版本专门用于生成代码。

尽管 LLaMA 2 是否真正开源存在一些争议，但 Meta 已在一定程度上放宽了这些模型的使用限制，以包括商业使用，这导致了基于开源 LLaMA 的衍生产品的发展，如 Alpaca、Alpaca-LoRA、Koala、QLoRA、llama.cpp、Vicuna、Giraffe 和 StableBeluga。

2. Pythia

非营利实验室 EleutherAI 于今年 4 月发布了 Pythia，这是一套使用公开数据训练的不同大小的 LLM 套件。Pythia 旨在作为一个可解释性工具，供研究人员更好地理解 LLM 背后的训练过程及其产生的结果。

3. MPT

MosaicML 从 5 月开始推出 MPT 系列大型语言模型，首先是一个初始的 70 亿参数模型，随后在 6 月是一个 300 亿参数的版本，该公司声称它在某些需要较长文本提示的用例中优于 LLaMA 和 Falcon。

MPT 结合了 LLM 这个不断发展领域的一些最新技术，以提高效率、上下文长度外推和改进稳定性，以减少损失尖峰。

4. Falcon

这个最先进的语言模型系列于 6 月初由阿布扎比技术创新研究所在 Apache 2.0 许可下发布。由于这个具有 400 亿参数的第一个模型随权重一起发布，它立即受到该领域的开发者和研究人员的欢迎。

9 月，一个拥有 1800 亿参数的更大 Falcon 模型宣布面世，这使其成为可用的最大开源 LLM 之一。Falcon 背后的团队认为，虽然 180 亿参数版本略落后于 OpenAI 的 GPT-4 等封闭源模型，但它仍然超过了 Meta 的 LLaMA 2，并与谷歌的 PaLM 2 Large 齐平。

5. BLOOM

另一个产生巨大影响的模型是 BLOOM(即 BigScience Large Open-science Open-access Multilingual Language Model 的缩写)。尽管它实际上是在 2022 年 7 月发布的，但它入选我们的列表，因为它是一个由 60 个国家、250 个机构的 1000 多名 AI 研究人员在 Hugging Face 和法国 GENCI(大型国家强烈计算设备)与 IDRIS(强烈科学计算资源开发研究所)的协调下开发的模型。

BLOOM 旨在促进对大型语言模型的公共研究，其最大的模型拥有 1780 亿参数，并在 46 种人类语言和 13 种编程语言派生的多语言数据上进行训练，这使其成为到目前为止最大的开源大规模多语言模型。

6. Mistral

Mistral由此前与Meta和谷歌相关的研究人员创立，于9月首次发布了一个70亿参数的LLM。根据这家巴黎初创公司的说法，Mistral 7B在许多指标上优于其他开源LLM，如LLaMA 2。就在本月，该团队通过Torrent链接发布了一个新模型Mixtral 8x7B，在更大的科技公司发布前炒作过度的产品时，它产生的讨论声量更大。

随着开源LLM领域的不断扩大，许多开发者正通过转向更具成本效益、透明度和可调节性的开源替代方案，来减少对OpenAI API的依赖。

专有模型目前可能仍略占优势，但开源模型正在迅速赶上，一些开源LLM的表现已经超过了其更大参数的对应模型，这表明训练数据的质量可能比规模更重要。过去一年中，开源LLM获得了非常令人振奋的进展，明确表明它们将继续在大型语言模型的景观演变中发挥重要作用。