智能体评估工具:开发者对抗AI幻觉的新武器

一个名为“AI自主评估”的生成式AI新领域帮助开发者保护其AI应用免受幻觉的影响。

译自 AI Agentic Evaluation Tools Help Devs Fight Hallucinations,作者 Loraine Lawson。

自主性指的是系统自主行动并独立实现目标的能力。因此,AI自主性评估工具是评估生成式AI和AI智能体是否存在幻觉和其他问题的解决方案。

该领域非常新兴,解决方案提供商和研究人员仍在确定使用哪些指标。为了了解更多信息,我们采访了Atin Sanyal,他是新兴AI自主性评估领域的专家。Sanyal是Galileo的首席技术官和联合创始人,Galileo是一家AI评估平台初创公司,大约五年前从斯坦福实验室发展而来。此前,他曾在Uber、Apple、LinkedIn、UCLA和Oracle等机构担任工程师和研究员。

评估幻觉

Sanyal确定了两种类型的幻觉。开放域幻觉是指AI模型在没有特定上下文或输入的情况下生成虚假信息。封闭域幻觉是指AI模型仅基于有限的上下文数据编造不正确的信息。

在构建AI智能体时,封闭域幻觉尤其令人担忧。封闭域幻觉的两个关键指标是上下文一致性——衡量输出中上下文出现的程度——和指令一致性,它衡量AI遵循用户提示的程度。

超越LLM作为评判者

当组织最初开始解决幻觉问题时,他们部署了一个大型语言模型(LLM)作为评判者的模型,该模型基本上使用一个LLM来检查生成式AI模型。然而,这种方法有其局限性,例如位置偏差冗余偏差自我增强偏差有限的推理能力,根据一篇2023年的研究论文

Sanyal补充说,另一个大问题是大型企业已经达到了这种方法的极限。

“它们根本无法扩展,因为存在速率限制以及第三方API会施加的各种限制,这实际上会降低源应用程序的质量,”他说。

在评估AI智能体时,还有一个更复杂的因素:即使是AI系统的一个部分的输出中出现的一个问题,也会加剧并导致“输出失衡”,Sanyal说。他说,挑战在于将输出中的错误追溯到导致该错误的AI系统部分。

评估AI智能体:开源

这就是AI自主性评估发挥作用的地方。

“这实际上是关于我们如何帮助AI工程师使这些不可预测的系统更可预测,并为它们提供正确的防护措施,并帮助我们所说的评估,”Sanyal说。

有一些开源库和框架可以评估AI智能体,包括RAGASTruLens,后者去年被云数据仓库平台Snowflake收购。Sanyal说,这些工具在过去12-15个月中获得了关注。

他认为,开源解决方案往往“不足和短视”,开源工具通常侧重于生成数字的定量测量,而不是更详细的定性信息。

“许多开源解决方案仍然专注于对RAG幻觉或开放域幻觉以及LLM系统犯下的各种其他常见形式错误进行统计量化的方法,但我们发现这真的不够,不足,”他说。“他们错过了定制部分,即根据用例定义自己的指标和评分器。”

AI智能体副驾驶

他说,Galileo充当AI智能体副驾驶,并通过两行代码集成到开发人员的工作流程中。它提供具有通用定性和定量度量的默认防护措施。 开发者还有一个“核心需求”,即创建他们自己的指标并修改其他指标。因此,基于代码的指标至关重要,但由于并非所有大型语言模型创建者都是程序员,因此还需要基于定性自然语言定义的指标。

“我们构建了这个自动ML(机器学习)管道,它不仅允许你为你的应用程序创建你想要的自定义指标,还允许你通过人工反馈以及不同形式的反馈随着时间推移改进它们,”他说。“它们几乎就像我们内部构建的小型自主评估系统,能够使你的指标适应你的数据。”

实际上,要使用哪些指标取决于开发者正在构建的自主系统类型。目前,有数十种自主构建系统的设计模式,这也影响了应该使用哪些指标,他指出。

Galileo的双重方法

Galileo的评估智能平台采用双重方法来评估AI代理。

首先,它开发了ChainPoll,这是一种类似于基于裁判的自主框架的自主AI,但它比基本的LLM作为裁判的技术提供了阶跃函数式的改进,并且旨在检测各种类型的LLM幻觉。它在幕后使用LLM,并且设计为可定制的,以便用户可以提供他们自己对幻觉的定义,并且系统以此为基础工作。

Luna是一套低延迟评估模型,具有开放权重,运行在Galileo内部开发的可扩展LLM推理基础设施上。它专注于用户请求量大且需要数据隐私的情况。

“我们为开发者提供了工具,让他们可以选择将其反馈给用户,或者重新表述生成结果,或者如果出现幻觉则重试端到端请求。”

– Galileo首席技术官兼联合创始人 Atin Sanyal

Sanyal说,Luna创建于2024年,代表着一年来重返绘图板,尝试使用更小的生成模型。它是一个DeBERTA-large(440M)编码器——这是一种花哨的说法,即拥有4.4亿个参数的Luna比其他LLM更小。相比之下,GPT-3.5拥有1750亿个参数。这使得Luna运行效率更高,计算成本更低。该模型还针对RAG中的幻觉检测进行了微调

Sanyal说,像Luna这样更小的评估模型有望在未来更好地进行幻觉评估。例如,根据Galileo的关于Luna的研究论文,Luna的表现优于RAGAS和Trulens,以及Galileo自己的ChainPoll。

“这是一套较小的模型,通常在20亿到100亿个参数之间,它们经过专门微调和训练以检测幻觉,我们最终将它们托管在我们这边的商品化GPU上,”他说。

Sanyal将Galileo描述为一个“评估副驾驶”,它在Web开发者构建应用程序的同时运行。它只需要在应用程序中插入两行Galileo代码。Galileo提供TypescriptPython SDK,他补充道。该平台可以在本地或Galileo的SOC 2合规云中运行。

“我们为开发者提供了工具,让他们可以选择将其反馈给用户,或者重新表述生成结果,或者如果出现幻觉则重试端到端请求,”他说。“接下来该做什么取决于开发者,而不是直接呈现在用户面前。”

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注