数据选择的具体性可以提高 AI 输出质量和合规性。
译自 How Enterprises and Startups Can Master AI With Smarter Data Practices,作者 Jeremiah Stone。
正如精心浇灌花园才能获得丰收一样,AI 系统也必须用高质量、多样化的数据来“滋养”,才能获得最佳结果。虽然 AI 的效果取决于提供的数据这一点不足为奇,但在特定情况下,为系统提供所需的数据可能是一个巨大的挑战,这可能会让人震惊。
消费级 AI 公司擅长 AI 数据工程,它们精心策划和管理从公共网络获取的数据,利用合成数据来平衡训练集,并使用人类强化学习来更好地训练 AI 智能体。这使得它们能够创建一个良性数据生命周期,具有紧密的反馈循环,以减少错误并不断改进其 AI 系统,使其更贴合消费者的需求。
然而,对于企业来说,为 AI 系统提供其蓬勃发展所需的数据要复杂得多。这主要有两个原因:
首先,企业不像消费级 AI 公司那样拥有相同的信息聚合能力。消费级 AI 公司可以使用网络上的任何公共数据来训练其 AI 模型;可以将其想象成一个拥有无限访问权限的完整信息大陆。另一方面,企业数据存在于小型、分散且往往相互隔离的信息群岛中。
此外,企业处理多种类型的数据,包括来自运营系统的关系数据、数十年的组织混乱的文档文件夹以及来自工资和财务系统的音频和数字数据。此外,企业还必须应对处理个人和私人数据方面的额外监管复杂性。为了构建有影响力的 AI 工具,企业的算法必须使用跨多个来源的数据集进行训练或馈送,包括公司的、人力资源、财务、客户关系管理、供应链管理和其他系统。
选择正确的数据来馈送 AI 系统至关重要。更具挑战性的是,这些应用程序所需的数据通常具有严格的保护措施,这可能会造成可访问性问题。因此,企业必须非常清楚他们试图解决的问题(稍后将详细介绍),以便他们只需要访问与这些问题相关的最相关数据。
这种高度针对性的方法可以加快数据请求速度,并使数据工程变得更加容易。它还有助于管理数据处理和治理要求,因为工作负载具有高度的特殊性(即,您不是请求给定数据库中的所有数据,也不是请求关于业务中给定实体的所有信息)。相反,当企业采取过于宽泛的方法来解决这些问题时,数据治理会变得繁重,输出质量也会大大下降。按设计最小化数据对于生产速度和质量都至关重要。
特异性是保持 AI 系统“水润”并克服数据可访问性挑战的关键。然而,为了实现这一点,企业必须首先缩小其试图解决的问题范围。
企业明确需要解决的问题(并获得解决问题所需的特定的数据)最有效的方法是将业务领导者和/或利益相关者的知识与技术人员的知识相结合。
业务领导者深刻理解业务本身,包括其需要使用 AI 来解决的最紧迫的问题。因此,他们可以阐明大型语言模型 (LLM) 的提示。技术人员知道如何动手构建系统。将两者结合起来可以被认为是生成式 AI (GenAI) 的结对编程。 这种配对方式可以高度迭代地识别目标业务流程和结果,确定其用例所需的特定数据元素,以及衡量其流程绩效的指标。他们还可以合作决定其计划中使用的数据类型和数据管道,无论是检索增强生成 (RAG) 架构,还是将数据用于进一步开发现有模型。
通过应用上述原则,企业可以构建准确、为其公司独特需求量身定制的安全 AI 模型。但这在实际应用中是什么样的呢?
想象一家使用预测分析来识别欺诈行为的金融服务公司。预测分析模型提供的见解对于维护安全至关重要。尽管如此,输出结果技术性很高,大多数人都难以理解——但最终需要人工审查系统标记的任何事件。
为了规避这一挑战并提高欺诈审查的质量和速度,该公司可以应用前面提到的 GenAI 成对编程策略:技术人员可以将大型语言模型 (LLM) 应用于公司的预测分析。LLM 使用技术人员与面向业务的利益相关者一起确定的特定数据集进行训练,利益相关者可以确定输出结果需要包含的措辞以及必须涵盖的确切要素,以便为欺诈审查提供必要的信息。
通过完全访问适当的数据,LLM 可以持续高效地描述分析输出,供审查这些案例的人员使用。在整个过程中,利益相关者可以验证 LLM 的输出,并与技术人员密切合作以进一步改进模型。
可以想象,现成的消费者 LLM 在这种情况下不起作用,因为它不了解业务的细微之处,也不会访问公司的资料,这会违反合规规则。通过使用此策略,企业可以在以公司为中心的背景下获得类似消费者的 LLM 功能的好处,同时保持系统安全。
有效利用 AI 的能力是区分领先企业和迅速落后企业的关键因素,这种差距只会继续扩大。通过实施上述策略,公司可以最大限度地提高其 AI 系统的价值,并创造独特的客户体验,使其在竞争中脱颖而出。