Upstage为何构建小型语言模型

这家韩国公司专注于提供适合使用的语言模型，这些模型比大型语言模型更便宜，也更准确。

译自 Why Upstage Builds Small Language Models，作者 Alex Williams。

拉斯维加斯——Upstage是一家韩国企业AI公司，构建小型语言模型 (SLM) 以帮助公司解决文档处理问题。它最初是一家使用光学字符识别 (OCR) 为韩国大型公司扫描文档的公司。

当ChatGPT出现时，客户开始询问Upstage关于大型语言模型 (LLM) 的问题。Upstage 使用其 OCR 功能实现了 95% 的准确率，但客户希望达到 100% 的准确率。因此，Upstage团队开始寻找能够满足获得更高准确率要求的模型。LLM 具有通用性，但较小的模型更适用于文档处理所需的狭窄焦点。

小型语言模型 (SLM) 没有得到太多关注，但它们的功能包括提供公司专用甚至国家专用的LLM。

“客户想要一个适合他们自己使用的语言模型，”联合创始人兼首席产品官在AWS re:Invent的一次采访中说道。“所以这就是我们开始构建小型语言模型的原因之一。所以现在我们正在研究文档处理引擎和大型语言模型。”

模型融合以创建SLM

Upstage，一家AWS生成式AI加速器参与者，使用开源模型，允许在单个GPU上运行。其旗舰模型Solar，与其他在单个GPU上运行的小型模型相当，包括Llama 3.81 B、Mistral Small Instruct 2409和Hugging Face的ExaOne 3.0 7.8B Instruct。

表示Upstage将两个小型LLM的副本合并成一个大型LLM。例如，它会将一个70亿参数的模型集成到一个100亿参数的模型中。“如果我们有一个140亿参数的模型，我们会将其扩展到一个220亿参数的模型，”她说道。“这就是我们最近一直在做的。”

模型融合，一种组合LLM的技术，已在AI社区获得认可。实现包括诸如权重平均之类的实践，这是一种用不同能力的多个独立模型的参数进行合并的方法。根据南洋理工大学、东北大学和中山大学的研究人员8月份发表的一篇论文，模型融合允许数据科学家“在无需访问原始训练数据或昂贵的计算的情况下构建通用模型”。

表示Upstage已经发现使用组合模型方法可以提高其基准测试结果。根据Upstage网站，Solar Pro是一个小型语言模型，与Solar Pro预览版相比，其东亚语言掌握能力提高了64%。

SLM在语言方面的改进反映了它们日益普及的趋势。SLM训练较小的数据集，使其能够灵活地用于Upstage这样的领域中心方法。

表示大型语言模型专注于通用智能。小型语言模型也提供了更窄的焦点。

例如，Upside为泰语构建了一个特定模型。对于泰语，它类似于GPT 4，OpenAI的模型。

SLM的开发成本也低得多。假设，表示，想象一下一个构建成本为10美元的SLM。一个大10倍的LLM可能要花费100美元。

她表示，客户将采用三种选择来部署模型。如果他们是在本地部署模型，他们可以使用Upstage控制台，该控制台通过AWS市场提供API。例如，Solar Pro模型现在已在Amazon Bedrock Marketplace上提供。

模型融合以创建SLM

相关文章：

发表回复 取消回复

发表回复取消回复