虽然早期的生成式AI应用需要大量的编码,但更简单的工具正在涌现。
译自 The Data Engineer’s Guide to GenAI and AI Integration,作者 Saket Saurabh。
我们在 2016 年创立 Nexla 时,我们的目标是让任何数据消费者都能轻松获取数据,这也包括简化应用程序集成。我们相信机器学习和人工智能将彻底改变数据工程。
然而,我们没有预料到生成式人工智能 (GenAI) 会如此迅速地改变一切。企业对它的采用速度超过了云计算或大数据,而这些过去的技术都被贴上了“生死攸关”的标签。GenAI 看起来更加紧迫,就像即将到来的海啸,你必须现在就选择顺势而为或被淘汰。
GenAI 难以使用。高科技巨头和初创公司已经在展示它的强大功能。然而,与大多数创新一样,他们创造和使用的工具需要大多数公司缺乏的技能。在世界其他地区能够采用 GenAI 之前,需要简化工具。
别慌。
首先,你仍然会有工作。GenAI 还没有(至少现在还没有)取代人类,而且在很长一段时间内也不会取代数据工程师。如果你是一位愿意尝试一些新工具并知道在哪里首先使用 GenAI 的数据工程师,你将会没事的。
虽然早期的 GenAI 应用程序需要大量的编码,但更简单的工具正在出现。在 Nexla,我们使用 GenAI 来帮助自动化那些占用大量集成时间的重复性任务。技术水平较低的工程师可以通过构建可重用的数据产品和工作流来集成数据,而无需编码。连接器、模式以及数据产品和工作流的实现方式都会被生成。这包括构建 GenAI 检索增强生成 (RAG) 管道(更多关于 RAG 的内容见下文)。
找到 GenAI 的首批用途也变得更加简单。只需弄清楚哪些员工或客户可以使用助手(也称为副驾驶)来让他们独立完成任务。一个比较常见的例子是聊天机器人助手,它利用知识库(例如支持数据库)提供建议。
你可以将 GenAI 的这种双重用途视为 AI 集成——AI 对 AI 的集成。
现在已经有许多公司使用 GenAI 来创造更个性化的体验或改进运营的例子。我们与几家公司在这方面合作。你可能已经在受益于 GenAI,而没有意识到这一点。
旅游平台 TripAdvisor 使用 GenAI 来改善超过 4 亿月活跃用户和 10 亿条评论的体验。他们创建了一个 AI 驱动的行程规划应用程序,该应用程序可以根据用户个人资料和偏好创建详细的每日行程和个性化推荐,以帮助用户规划行程,例如波士顿后湾地区餐厅的概览。TripAdvisor 还开始在内部使用 GenAI 来支持客户服务、销售、营销、财务、会计、人力资源和分析部门。这些信息现在更容易被用户、搜索引擎和外部(合作伙伴)应用程序访问。
TripAdvisor 将 GenAI 与其推荐引擎集成,使用 GenAI 来帮助工程团队编写代码。这是 AI 集成的众多示例之一。
另一个很好的例子是 Bloomreach,这是一个基于云的电子商务体验平台,它为美国和英国 25% 的电子商务体验提供个性化服务。他们使用 AI 来改进搜索和产品匹配。他们还提供 Bloomreach Clarity,这是一种会话式购物产品,它使用自然语言(例如英语)和图像来帮助找到合适的商品。
AI 驱动的集成帮助 Bloomreach 将集成时间缩短了一半。这在引入电子商务客户时非常重要。但更重要的是,它还提高了数据准确性。没有好的数据就没有好的 AI。更好的 AI 成果会提升最终用户对每次电子商务体验的满意度。
在看到这些和其他 GenAI 项目之后,这是我的建议。
1. 投资核心数据工程技能
AI无法取代数据工程师。这些项目仍然需要了解数据工程基础知识的数据工程师——包括数据建模、DataOps最佳实践,以及SQL优化。确保您继续培养这些核心技能。即使GenAI提出建议,您仍然需要成为做出最终决策的专家。
2. 立即学习GenAI RAG
Gen AI RAG是实现GenAI最常见的模式。无需重新训练或微调大型语言模型(LLM),这可能非常昂贵且复杂,您可以将相关数据(您的知识库)加载到向量数据库中。每当提出问题(提示)时,您首先会在向量数据库中搜索最相关的上下文。然后,您将问题和上下文发送到通用的LLM,例如ChatGPT或Llama。
GenAI RAG是最佳选择。您需要了解如何使用它;本教程可以提供帮助。
3. 尝试使用GenAI驱动的工具
本教程使用Nexla构建您的GenAI RAG管道,并且管道的几个部分实际上是使用GenAI为您“开发”的。不要害怕尝试新的AI驱动的集成工具。如果您不尝试,那就应该害怕,因为其他人会尝试。
在大多数我们看到的项目中,AI驱动的集成将集成效率提高了2倍或更多。它自动化了减慢集成速度的小细节,例如提取数据模式、识别最佳标准模型、映射转换或自动化数据管道中的模式演变。
此外,GenAI并非完美无缺。作为专家,您必须能够发现问题(见要点1)。
4. 为自主式AI做好准备
自主式AI仅仅意味着一个代理正在驱动与LLM的“聊天机器人”交互以独立做出决策。随着时间的推移,越来越多的公司将开始使用检索增强微调(RAFT)等技术来微调模型,或者训练和重新训练他们的模型。
这听起来可能很难;再说一次,不要惊慌。有些人说2025年将是自主式AI之年。这意味着您有一些时间学习。
虽然有些人说AI正在改变世界,但它并没有改变对数据工程师的需求。这些核心技能仍然是必需的。但是,与每一个新的趋势一样,您必须与时俱进。这意味着您需要学习并使用RAG,并开始学习更多关于微调和模型训练的知识。