AI代理齐聚：大会揭示下一代框架

AI Agent大会聚焦GenAI创新，强调高质量数据和算力投入。AutoGen演进为AG2，构建多Agent工作流。Arklex AI Agent Framework持续学习优化。BAML用于LLM结构化输出，Boundary监控流量。Plurai评估Agent解决幻觉问题。Timescale推出文本到SQL功能。LanceDB支持多模态数据，应对AI Agent复杂数据类型挑战，云原生技术赋能AI应用。

译自：AI Agents Unite: Conference Reveals Next-Gen Frameworks

作者：Eric Newcomer

纽约 — 在上周于此举行的首届 AI Agent Conference 上，大型企业与初创公司齐聚一堂，讨论他们在蓬勃发展的 AI agent 软件和服务市场中的创新。

项目主席 Ben Lorica，Gradient Flow 的负责人，告诉 The New Stack，这次新会议背后的想法是让人们聚集在同一个房间里，交流笔记，并与其他地方的人见面。

他说：“对于任何新的技术趋势，早期采用者互相交流、比较笔记，并与人们交谈以验证你的解决方案，这一点非常重要。”

会议赞助商“秘密特工” Omer Trajman 告诉 The New Stack，“我们的目标是让每个人都聚集在一起——每天每周都在发生很多变化——大型企业可以快速行动，但很难击败小型大学研究团队的敏捷性。我们希望全面了解哪些是可行的。”

主要 GenAI 趋势

Robert Nishihara，Anyscale 的联合创始人，在他的开幕主题演讲中表示，他看到了在生成式 AI (GenAI) 领域“关于创新需要走向何方的思维模式的真正巨大变化”。

他说：“模型架构现在更加标准化，学习算法也更加标准化。一切都将围绕着获得更高质量的数据，并将更多的计算投入到数据中。”

相比之下，OpenAI 的技术人员 Christina Huang 在她的演讲中强调了模型中的“指数级改进”，这推动了人们对 AI Agent 的兴趣加速。她说，随着模型变得越来越强大，Agent 也是如此。

Anthropic 的上市专家 Jeff Boes 强调需要谨慎采用并与客户合作，以确保 Agent 能够按承诺可靠地交付。

在“围绕我们技术的创业领域……机会在于与客户合作，建立深厚的信任，并使用我们的工具解决难题。我们希望适合用途，但我们也希望成为企业最值得信赖和最强大的合作伙伴。”

AG2、AutoGen 和 Microsoft

Qingyun Wu，AG2 的创建者和创始人，在她的演讲中描述了 AG2 如何从流行的 Autogen open source 框架演变而来，该框架用于构建多 Agent 工作流程。 Wu 告诉 The New Stack，AutoGen 和 AG2 背后的想法来自她和她的同事在宾夕法尼亚州立大学进行的研究，她仍然是那里的助理教授。

她说：“AI Agent 已经存在很长时间了。AI Agent 是一个可以对环境采取行动并做出反应、采取行动和响应的实体。

“现在的区别在于 LLMs [大型语言模型] 的推理能力，”她补充道。“由于 LLM 能力的提高，特别是推理能力，AI Agent 的能力得到了提高。”

在 Microsoft 开始在 release 0.4 中以 different direction 对 AutoGen 项目采取 different direction 之后，Wu 创立了 AG2，以继续沿着 AutoGen 的原始路径前进。

GenAI Agent 框架

与 AutoGen 类似，AG2 使用简单的对话（例如 Agent 到 Agent、群聊、顺序聊天和嵌套对话）来组合和扩展多 Agent 系统。

吴说，AI Agent 可能是计算密集型、数据密集型或 LLM 推理密集型的。越来越多的新 AI 系统正在从复合系统构建。Agent 是构建此类系统的自然方式，她补充道。

首先，构建具有可定制功能的对话 Agent。接下来，让 Agent 使用不同类型的聊天和工具相互交谈。然后定义多 Agent 编排模式，并将这些模式组合成复杂的聊天，吴说。另一个来自大学的 AI agent framework 是 Arklex AI Agent Framework，它来自 Arklex.AI，由哥伦比亚大学教授 Zhou Yu 创立。

Yu 告诉 The New Stack，Arklex agent 会随着时间的推移而学习，不断通过与人类和其他 agent 的互动来微调他们的模型。

例如，部署在购物应用程序上的 Arklex agent 可能会了解到，有些人对折扣的反应比其他人更积极，有些客户更喜欢使用 WhatsApp 或 SMS 接收优惠，或者更喜欢某些口味或香水，她说。

“AI agent 通过回答有关产品的问题来学习，例如‘为什么这个更贵？电池能用多久？’等等，”她补充道。

与此同时，Trajman 也是一位技术顾问和投资者，他告诉 The New Stack，对他来说重要的是找到组织中 agent 可以很好地发挥作用的差距。

他说，他希望“让 AI 构建我的 agent”，并“构建一个 agent，帮助识别 relevant data，因为它执行其任务”。

BAML

Vaibhav Gupta 是 Boundary 的 CEO，他在他的会议中讨论了如何可靠地开发基于 LLM 的应用程序。 Boundary 赞助 BAML，这是一种开源的、特定于领域的语言，用于从 LLM 生成结构化输出。Boundary 监控 BAML 流量，以帮助开发人员提高 LLM 输出的性能和可靠性。

Gupta 告诉 The New Stack，“使用 BAML，您可以构建可靠的 agent、具有 RAG [retrieval-augmented generation] 的聊天机器人、从 PDF 中提取数据等等。”

他补充说：“开发人员为 LLM 创建函数，例如获取用户查询并生成要对 UI 进行的更改列表。”

“我们的目标是构建允许传统开发人员快速迭代并使用他们用于其他应用程序的工具的工具，从而创建新旧世界之间的交集或边界。”

Gupta 补充说，Boundary 托管了一个 SaaS 平台，用于为开发人员收集应用程序数据。“您想要观察应用程序的不同部分，并找到聊天机器人失败的地方，”他说。

评估 AI Agent

在会议上经常重复的信息中，AI agent 需要经过训练和评估，迭代训练和评估过程以确保其按预期执行。

Ilan Kadar 是 Plurai 的联合创始人兼 CEO，他说，Agent 评估还可以帮助解决 GenAI 的幻觉、不正确的结果和低质量回复问题。

Kadar 告诉 The New Stack，为了说明这一点，基于 OpenAI 创建一个 agent，“就像引进一个博士生一样”。

他补充说：“仅仅雇用学生是不够的，你必须让他们了解组织和业务。”

Plurai 的 IntellAgent 平台通过首先训练 AI agent，然后生成评估场景来测试训练的有效性来评估 AI agent。

Kadar 说：“我们的想法是让博士生最终成为高级职员的一员。”

IntellAgent 生成合成数据来训练模型，然后生成评估场景来确定训练的有效性。“其他工具不生成场景，”Kadar 说。

IntellAgent 迭代评估过程以确认训练结果、查找错误并优化 agent 以获得高性能和可靠性。

Agent 的文本到 SQL

AI agent 需要访问数据以进行训练，而访问数据是 AI agent 的主要功能之一。

数据库添加向量数据类型以存储训练结果，并提供文本到 SQL 生成功能以支持第二个功能。

Mike Freedman 是 Timescale 的联合创始人兼 CTO，他在会议上谈到了 Timescale 新的文本到 SQL 功能。

Freedman 告诉 The New Stack，AI agent 的根本问题不是如何从文本生成准确的 SQL 查询，而是通常“如何支持人类语言进行数据分析”。他说，在这种情况下，SQL 代表一种中间形式。

Freedman 谈到了 Timescale 新的文本到 SQL 功能，该功能有助于在非确定性数据（即 LLM 数据）上创建更具确定性的查询。

Freedman 告诉 The New Stack，“有趣的是端到端管道”。“总的来说，这是一个广泛的问题——我们希望用人类语言提问数据”，同时确保准确性。

Freedman 认为成功的文本到 SQL 生成有两个部分：

一个语义目录，为问题添加上下文，并支持语义搜索。该目录帮助 LLM 理解可用的数据。
评估，它使用查询优化器的查询规划器部分来评估生成的 SQL。 Timescale 是一个与 PostgreSQL 兼容的原生数据库，因此生成的 SQL 应该与任何与 PostgreSQL 兼容的数据库一起使用，Freedman 说。

代理需要比向量搜索更多

对于 AI 代理采取适当的行动并返回有意义的结果而言，访问数据以及多种类型和各种数据至关重要。

LanceDB 是一个支持 Lance Format 的开源数据库，Lance Format 是一种专为 LLM 训练而设计的多模态格式。项目主席 Lorica 称其为 AI 领域的“Parquet”。 LanceDB 的 CEO Chang She 表示，他们正在解决的问题是多模态问题，即 AI 数据来自多个来源，例如音频、视频、文本、图像等。

She 告诉 The New Stack，“AI 代理必须大规模处理复杂的数据类型——从代理状态和向量嵌入到文档、图像、音频和视频。传统数据库并非为这种大规模的多模态工作负载而设计。

“为了解决这个问题，LanceDB 提供了一个统一的平台来存储、搜索、分析、训练和处理您的所有 AI 数据，”She 说。

例如，如果您正在构建一个由 LLM 驱动的数据管道来为一个学校的代理提供支持，那么您需要从学校获取许多不同类型的信息，他补充说，例如课程表、学生和教师数据、作业、图像和课堂视频。

She 说，当您构建代理并且不想花时间管理如何访问和组合所有这些不同类型数据的底层细节时，这个问题尤其适用。

LanceDB 表为所有类型的数据提供了一种格式，因此您可以跨数据类型进行搜索并使用它来训练模型。

“我们用一个代替了四个，并且它可以扩展到零，”She 补充说。

“访问数据很简单，直到你出现幻觉并需要一个评估循环。因此，我们开始管理更多的指标和历史记录，”She 说。