使用生成式AI创建更可信数据的呼吁

虽然生成式 AI 正在推动对更强大数据治理的需求，但它也可以帮助满足这种需求。

译自 A Call To Use Generative AI To Create More Trustworthy Data，作者 Andrew Sellers。

这听起来很矛盾——使用一项存在信任问题的技术来创建更可信的数据。但聪明的工程师可以利用生成式 AI来提高数据的质量，从而构建更准确、更可信的 AI 驱动的应用程序。

生成式 AI 模型以其用类似人类的句子回答问题的能力而著称，但它们容易产生幻觉，而且无法从其训练中未包含的内部公司数据中获取洞察力。然而，这些内部数据对于许多企业用例至关重要。

想象一下，一个 AI 聊天机器人告诉员工他们还有多少天休假，或者一个告诉航空公司客户他们是否有资格升级座位的聊天机器人。这些用例需要精确的响应，机器学习工程师需要访问准确、及时的数据，才能最大限度地发挥生成式 AI 在业务中的价值。

数据治理可以在此发挥关键作用，帮助管理因不当 AI 决策而产生的运营和声誉风险。具体来说，通过应用描述数据结构和来源以及如何使用数据的元数据，数据团队可以确保数据质量并提高生成式 AI 驱动的应用程序的准确性。这不仅限于业务领域，还扩展到新兴的合规框架，这些框架要求制定政策以确保数据完整性、安全性和问责制。

然而，为数据生产者创建这些元数据是一项耗时的工作，这意味着忙碌的数据团队经常走捷径或根本不创建元数据。举个例子，你可能还记得蒂姆·伯纳斯-李曾经呼吁创建“语义网”，在这个网络中，网络内容将更有用，因为它以机器可读的形式进行描述。这要求网站手动标记其内容，而这几乎从未发生过。这与数据团队今天面临的治理问题非常相似。

但虽然生成式 AI 正在推动对更强大数据治理的需求，但它也可以帮助满足这种需求。通过向生成式 AI 模型展示如何标记数据的示例，生成式 AI 可以自动创建所需的元数据。人类仍然需要审查结果，但这个过程将比从头开始创建元数据要轻松得多。

以数据产品思维开始

对高质量数据的需求不仅适用于生成式 AI。随着数据对所有类型分析变得越来越重要，人们对构建统一数据目录的兴趣也随之激增，这些目录使其他团队更容易发现和使用数据。通过使用生成式 AI 创建元数据，以及使用数据流平台创建可重用的数据产品，数据变得更加可用，从而提高了创新和生产力。

这些元数据包括机器可读的信息，例如数据模式和字段描述，以及人类可读的信息，例如谁创建了数据以及如何使用它。关键是要提供足够的信息，以便组织中其他想要使用数据资产的人员知道它的来源、如何使用它、任何相关的服务级别协议 (SLA) 以及它的可信度。

数据治理的基础要素是模式——描述数据结构的特定元数据。如果我们向生成式 AI 模型展示足够多的正在收集的数据或生成数据的代码示例，该模型可以推断出模式。

当在数据生成时创建元数据时，此过程效果最佳。我们可以对旧数据集运行生成式 AI 程序以推断元数据，但由于原始模式随着时间的推移而演变，因此结果的保真度可能较低。通过在数据生成时创建元数据，元数据往往更准确地描述了底层数据集。

让人类参与其中

由于当前人工智能的局限性，需要人工审查。人工智能擅长识别模式，但它可能无法根据有限的示例集来概括整个模式。我们还没有完全复制专家的直觉和理解，这可以补充人工智能可以快速处理的大量信息。我们知道一年有 12 个月，美国有 50 个州，或者街道地址通常需要门牌号——这使我们能够轻松地发现错误标记的数据。人工智能过程可能会出错，因为它缺乏这种基本知识，或者因为它没有看到足够的示例。但是，人工可以快速修复这些错误，并在非合格数据被下游工程师使用之前节省大量时间和精力。

为了使这项工作顺利进行，数据生产者需要遵守组织制定的数据策略。此外，当模式发生变化时，您可能需要调整模型以反映新的模式。LLM 的选择很重要，但它不如支持数据整理和系统提示语境化的工作流程重要。为了获得最佳结果，模型不仅需要数据集中或生产代码的示例，还需要您希望模型创建的元数据的指导。

数据流平台是最佳模式

回想语义网，我们从未看到其将网络以其创建者设想的方式变得机器可读的愿景实现。然而，网络以 2000 年代初很少有人预见的方式变得机器可读，因为机器学习在理解为人类创建的媒体方面变得越来越好。以类似的方式，更好的机器学习为完成数据治理所需的例行任务提供了一种更好的替代方案。

以这种方式应用生成式 AI 需要一个平台来使用，而一个可以实时处理生成数据的流数据平台非常适合。数据流平台从一开始就被设计为以一种可消费的方式呈现数据，因此它是一个在生产时应用元数据和创建可在其他应用程序中重复使用的数据产品的有效环境。

数据流平台还有助于确保治理控制和元数据被纳入一个通用的数据目录，以便发现和重复使用。

生成式 AI 的快速出现对高质量数据和数据治理产生了迫切的需求，但也提供了解决方案。随着时间的推移，生成式 AI 可能能够承担额外的治理任务，例如应用数据策略，但目前它还没有准备好普遍应用。

尽管如此，生成式 AI 可以帮助消除定义和应用模式和其他重要数据特征的大部分例行工作，从而形成一个良性循环，提高生成式 AI 驱动的应用程序的质量，并使数据更广泛地可供重复使用。

行业和学术界正在开始定义AI 治理应该是什么样子，但这仍然是一个新兴的概念。从业者缺乏对 AI 治理涵盖内容的共识定义，更不用说类似于框架的东西了。但我们可以肯定地说，AI 治理依赖于数据治理，通过帮助工程师信任他们可以用来构建生成式 AI 应用程序的数据。

在未来，我希望看到行业进一步定义 AI 治理应该是什么样子，以及数据基础设施供应商将更多关注将生成式 AI 集成到工具和抽象中，以促进更好的数据质量。

以数据产品思维开始

让人类参与其中

数据流平台是最佳模式

发表回复 取消回复

发表回复取消回复