用于实时分析的边缘AI与模型量化

在模型量化和压缩方面的创新使得在边缘部署强大的人工智能模型成为可能。

译自 Edge AI and Model Quantization for Real-Time Analytics,作者 Rahul Pradhan 拥有超过16年经验,是Couchbase的产品和战略副总裁。

边缘人工智能(Edge AI)或在边缘部署人工智能(AI)正准备在各行各业推动重大创新。借助边缘人工智能,组织可以在无需依赖云和数据中心的情况下做出更快的决策。然而,边缘设备上的计算约束以及实施高度准确的人工智能模型所面临的挑战仍然是利用这些技术的障碍。

模型量化是一种通过提高可移植性和减小模型大小来增强计算速度的方法,对于解决这些挑战至关重要。它有助于实现模型的部署,从而为更快、更高效的边缘人工智能解决方案提供支持。诸如广义后训练量化(GPTQ)、低秩适应(LoRA)和量化低秩适应(QLoRA)等技术的进步可以实现边缘实时分析,并在边缘做出更明智的决策。虽然边缘人工智能仍然是一种新兴方法,但与适当的工具和技术相结合时,它有望改变企业如何使用和从智能设备中受益。

边缘人工智能的轨迹

边缘和人工智能的集成正在改变组织处理数据的方式。IDC预测,到2026年,边缘计算支出将达到3170亿美元。此外,边缘的势头随着人工智能的采用而加速,IDC预测到2027年,人工智能市场将达到近2510亿美元

边缘人工智能将数据处理和模型靠近数据创建的地点。这促使实现实时人工智能处理。它还引入了许多其他优势。

  • 降低延迟,提高速度:AI推理在本地完成,消除了需要将数据来回传输到云端的必要性。这对于需要实时数据和要求立即响应的应用程序至关重要。
  • 更好的数据安全性和隐私:将数据保留在设备上大大降低了与数据传输和泄漏相关的安全风险。
  • 提高可扩展性:边缘人工智能是一种分散的方法,通过消除对中央数据中心的处理能力的依赖,简化了应用程序的可扩展性。

进入模型量化

为了确保边缘人工智能的有效性,关键是要在保持准确性的同时优化高性能的AI模型。然而,AI模型日益复杂和庞大,在部署到边缘设备上时(通常资源有限)会面临挑战。

模型量化和压缩的创新使得在边缘部署强大的AI模型成为可能。模型量化涉及降低模型参数的数值精度,从而产生适用于边缘设备(包括手机和嵌入式系统)部署的轻量级模型。

三种微调技术,GPTQ、LoRA和QLoRA,在模型量化领域已经浮出水面,成为转变性的元素。这些技术的主要目标是使大型语言模型(LLMs)的部署和微调更加高效和可访问,但它们在实现这一目标时有不同的方法。

GPTQ专注于在训练后压缩模型以实现更好的部署,而LoRA和QLoRA则旨在使大型模型的微调更加高效。在内存受限的环境中,GPTQ最适合部署已经训练好的模型。LoRA和QLoRA更适用于在计算资源有限的情况下,在新任务或数据集上对大型预训练模型进行微调。选择适用的方法取决于项目的具体要求,如模型开发阶段(微调 vs. 部署)和可用的计算资源。

利用这些量化技术使开发人员能够将人工智能推广到边缘,并在各种应用中实现性能和效率的平衡。

边缘人工智能的能力和要求

边缘人工智能的用途广泛且不断增长。

例如,零售商可以利用边缘人工智能驱动的设备,如传感器和摄像头,收集有关客户行为的数据。通过观察人流或识别热门产品区域,零售商可以利用这些信息优化商店布局、营销策略等。另一个例子是,通过在边缘设备上运行人工智能并本地分析数据,制造商可以检测缺陷、预测维护并控制产品质量。这使制造商更好地利用实时数据,帮助他们减少停机时间并提高生产效率。

随着企业寻求将推理引入边缘,对于专门用于边缘推理的强大堆栈和数据库的需求日益增长。这些平台需要支持现场数据处理,同时提供边缘人工智能的优势,包括降低延迟和增强数据隐私。

边缘人工智能的成功依赖于一个持久的数据层,对于本地和基于云的数据管理至关重要。多模态人工智能模型的崛起强调了对一个能够处理多样数据类型的统一平台的需求,以满足边缘计算的操作需求。这允许在在线和离线场景下与本地数据存储库无缝连接。

展望未来

人工智能、边缘计算和边缘数据库管理的融合对于实现实时和安全的解决方案至关重要。随着企业边缘人工智能用例的扩展,组织应专注于采用有效的边缘战略,优化数据的利用,并为业务获取竞争优势。

要提供最快、最可靠的应用程序,您需要为边缘计算而设计的数据库。了解有关Couchbase边缘计算功能的更多信息,或免费尝试。为了提高开发人员的生产力并加速现代应用程序的上市时间,Couchbase在Couchbase Capella中引入了生成式人工智能功能。了解有关Capella iQ的更多信息,并注册进行私有预览

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注