GenAI遇上SLM:边缘计算的新纪元

小型语言模型(SLM)在效率、隐私和适应性之间实现了卓越的平衡,使其成为各种应用的理想选择。

译自 GenAI Meets SLMs: A New Era for Edge Computing,作者 Pankaj Mendki。

让我们想象一个场景:一家医院的患者拥有自己的医疗记录。医院希望在其个人监控设备上安装支持 AI 的医疗保健助手,以便医疗保健专业人员可以监控和分析数据,并提供实时反馈,以确保常规和紧急药物治疗,但该系统必须符合区域医疗法规。在这种情况下,边缘计算方法对于准确性和数据安全性是可靠的——并且可以在本地工作;不需要云。

现在,想象一下当边缘计算由 GenAI 提供支持时的可能性。这种融合不仅使解决方案更智能,而且使解决方案更具自主性,并为开发个性化的智能医疗保健开辟了新的可能性。但边缘计算的影响不仅限于医疗保健领域。它还可以改变投资等行业,在这些行业中,实时数据处理对于交易决策至关重要,并加强网络安全,以防止数据落入坏人之手。

如今,开发人员主要使用大型语言模型 (LLM) 来开发 GenAI 应用程序,因为它们具有明显的优势。但 LLM 的规模和复杂性使其对资源受限的边缘设备提出了挑战。SLM 接受针对特定案例的文献训练,与 LLM 相比,它们可以更快、更高效地做出实时决策。

作为新兴技术主管,我和我的团队已经多次测试了 SLM。本文探讨了在边缘计算系统中使用 SLM 的一些挑战和潜在策略。

用 SLM 替换 LLM 用于边缘应用

切换到 SLM 在医疗保健领域具有显着优势,在该领域,个人设备的使用很普遍。由于性能限制,个人设备通常缺乏有效运行 LLM 所需的资源。由于 SLM 针对特定案例,因此它们提供了一个解决这些限制的理想解决方案。

使用模型蒸馏、参数剪枝和量化等技术可以轻松地将 LLM 转换为 SLM。模型蒸馏涉及训练一个更小的模型来模拟更大的模型,从而保留原始模型的大部分性能。参数剪枝消除了模型中不必要的权重和连接,以简化其架构,而不会牺牲准确性。量化通过降低权重数值表示的精度来压缩模型,从而产生更小的占用空间和更快的推理时间。

现在,让我们重新审视医院的例子。不同组的患者可能需要持续监测,并针对神经内科、肾脏内科、心血管内科、自身免疫性疾病、传染病甚至事故相关的疾病和病症采取立即行动。可以针对这些医疗状况分别训练 SLM。他们可以实时分析这些患者的数据,并启动所需的治疗或提醒医疗保健专业人员及时采取行动。

根据开发人员的需求,他们可以从头开始构建 SLM,也可以使用预训练模型作为其项目的基础工具,并加快开发过程。开放市场(例如 GitHub Models 和 Hugging Face)拥有预训练的 SLM。这些工具还有助于在边缘更广泛地采用生成式 AI。SLM 的上下文功能可以改变多个行业。在智慧城市中,SLM 可以构建更好的支持边缘的物联网设备,以提供针对拥堵或道路封闭等情况量身定制的上下文相关方向。这种组合可以提高效率,最大限度地减少延误,并改善整体城市交通体验。

解决平台多样性和资源需求

边缘设备之间的平台异构性可能会使部署 SLM 具有挑战性。个人监控设备可以在多个平台上运行,例如 iOS 和 Android。但是,诸如 Open Neural Network Exchange (ONNX)、MediaPipe、WASI-NN、Rust 和 WebAssembly 之类的堆栈和框架可以帮助构建一个边缘应用程序生态系统,以使用 SLM。它们支持各种硬件和操作系统,并确保跨平台支持和资源优化的应用程序。

诸如开放神经网络交换 (ONNX) 运行时之类的框架提供了一个抽象层,简化了跨多个平台对 SLM 的支持,从而缓解了这个问题。开发人员可以使用 ONNX 工具包针对特定硬件目标优化模型,以确保无论底层设备架构如何,都能实现高效的性能。MediaPipe 框架简化了将 SLM 迁移到轻量级边缘设备(包括移动平台)的过程。其模块化框架和高效的硬件加速器支持预优化的跨平台解决方案,并简化了在资源受限环境中部署复杂的 AI 模型。

此外,WebAssembly 可以利用包括 GPU 在内的底层硬件功能来优化性能并加速推理任务。由于它将轻量级执行与强大的计算资源相结合,因此非常适合 SLM 应用程序。它还有助于可持续发展计划,通过支持在功耗和发热量较低的边缘设备上开发强大的 AI 解决方案。WASI-NN 为 WebAssembly 提供机器学习推理 API。它支持利用 SLM 功能的 WebAssembly 多语言开发应用程序。

Rust 编程语言堆栈进一步增强了这个生态系统。与 ML 环境中使用的 Python 堆栈不同,Rust 支持小至 30 MB 的应用程序运行时,从而实现适用于资源受限边缘环境的轻量级、高性能应用程序。

通过增强的安全性在边缘进行协作学习

医疗保健和许多其他领域都在隐私敏感的环境中运作。然而,与边缘应用程序进行受控的数据共享可以帮助建立知识库,以使用 SLM 和其他医疗保健服务改进治疗程序。在这种情况下,联邦学习等技术可以确保在多个设备上对 SLM 进行训练和微调。使用联邦学习,维护数据隐私和安全性更加简单。这种方法有助于模型从本地化数据中学习,而无需共享敏感信息。

让我们回到医院的例子。医院已决定加入与其他医院的合作计划,旨在建立一个更复杂的模型,以根据来自各种医疗记录的见解来改善预测和护理结果。但有一个问题:医院不能公开这些文件,因为法规指定患者为其数据的所有者。

这就是联邦学习与 SLM 结合可以改变游戏规则的地方。每家医院都可以使用其患者记录来训练自己的 SLM。然后,它只能将学习到的参数上传到共享数据库,从而使所有贡献者受益,同时保持隐私。然后,服务器根据收到的更新构建全局模型,而无需访问单个文件。

同样的原则适用于所有涉及敏感数据的情况。例如,在客户数据需要严格安全性的投资领域,来自投资模式共享参数的见解可以帮助银行业开发更有效的计划。联邦学习促进了贡献者(无论是个人、设备还是组织)之间的协作。它通过提供数据而不损害数据隐私来改进模型。该技术还确保符合隐私法规。

开发人员可以使用开源项目进行联邦学习,例如 Flower、Substra、NVFlare 等。这些框架实施数据安全,并通过差异隐私、同态加密和机密计算等技术确保隐私。

结论

小型语言模型 (SLM) 在效率、隐私和适应性之间实现了出色的平衡,使其成为各种应用的理想选择。在医疗保健领域,快速的设备上症状诊断也可能成为远程医疗(一个新兴的医疗保健子领域)的差异化因素。

工业物联网、国防和金融科技等行业可以利用 SLM 进行实时分析、增强安全性和定制解决方案。这些行业可以进一步受益于其对多语言和多模式输入的适应性。例如,金融科技行业可以使用 SLM 进行多语言客户支持和用于各种数据集的本地化模型。由于 SLM 在本地部署,因此它们更安全且更易于解释,这在监管合规性是优先事项的领域提供了透明度。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注