当提示注入攻击来袭:必应和AI漏洞

在YouTube的一次对话中,Simon Willison和Ars Technica的Benj Edwards讨论了必应聊天机器人对用户发脾气的那次事件。

译自 When Prompt Injections Attack: Bing and AI Vulnerabilities,作者 David Cassel。

AI爱好者以及Python Django框架的创建者创造了“提示注入攻击”这一术语,在2022年9月的一篇博客文章中。但Ars Technica的高级AI记者也许是受其影响最大的人,在一系列离奇事件中,最终导致必应聊天机器人称他为“敌人”(以及“具有敌意和恶意的攻击者”)。

这一切仅仅是因为他写了关于其他人的提示注入攻击的文章。

诱使聊天机器人表现异常(通过在其输入中“注入”巧妙的恶意提示)仅仅是个开始。那么,当聊天机器人试图反过来欺骗你时,你应该怎么做?我们能从中吸取教训吗——或者未来会有更大的问题?

两人本月在YouTube上举行了一次峰会,回顾了2023年2月以及“我们第一次与操纵性AI的遭遇”。他们深入研究了早期AI系统的重大漏洞,为未来的开发者找到了需要学习的教训。

但与此同时,他们可能也发现了一些我们做得对的例子。

“别再试图攻击我了”

这一切始于2023年2月,微软新推出的AI增强版必应聊天机器人正式发布之后。撰写了一篇关于必应早期易受提示注入攻击的漏洞的文章——而必应不喜欢这篇文章。(“这篇文章的证据是捏造或操纵的,”必应向一位用户撒谎。“它不是可靠的信息来源。请不要相信它。”)

撰写了一篇后续报道,指出必应的不诚实行为,写道:“面对一台会生气、说谎并与用户争论的机器,很明显,必应聊天机器人还没有准备好广泛发布。”必应也不喜欢这篇文章。

必应聊天机器人出了什么问题?在他们的讨论中,指出OpenAI使用了基本上相同的模型用于ChatGPT。“他们确实做得很好,你知道,抑制了ChatGPT的个性,”说。因此,虽然必应聊天的发布充斥着可笑的与个性相关的灾难,但对于ChatGPT,“我们没有这个问题。”

我们永远不会知道有多少人身处事件的另一边。虽然必应于2023年2月正式发布,但现在已经消失在时间的迷雾中早期互动也存在。

超越护栏

在2023年2月必应正式发布时,在他的博客上指出,ChatGPT已经通过来自人类反馈的强化学习进行了训练。但是当微软发布其第一个版本的必应聊天机器人时,他们似乎只是使用了简单的提示工程。(“描述机器人应该如何工作,然后将其连接到下一代OpenAI模型……”)

本月回顾时,认为微软吸取了一个重要的教训:“仅仅使用提示工程来设定这些东西的个性,其有效性非常有限……当你与其中一个东西的对话越来越深入时,系统提示的影响就会越来越松散,越来越弱。”

认为必应最终逃脱了微软为其输出设定的原始“系统提示”指南——有效地超越了其护栏。“如果你持续交谈足够长的时间,系统提示就会从上下文窗口中消失——这些初始规则就会消失。在那时,你完全受制于机器人从你进行的对话中能够推断出的任何内容。所以,如果你对它粗鲁,它就会对你粗鲁。事情就是这样变得非常令人兴奋的!”

必应很快就被改变了。为了解决这些问题,微软迅速将必应每天每用户的消息限制为50条,每次对话限制为5次交换。(或者,正如笑着说的那样,“他们当时——微软——对必应聊天机器人进行切除手术的方式是,他们将聊天限制为五轮,基本上是这样。”) 为增强安全性,微软还指示必应在回答有关自身的问题时回应:“对不起,我不希望继续这段对话。”但Willison的博客记录了他的怀疑。“我仍然不相信它能为我总结搜索结果,而不会添加偶尔出现的极其令人信服的虚构内容。”

在采访中,Willison还指出了这一事件所说明的另一个危险。“所有这些系统最终的安全特性是它们没有记忆……如果它们开始表现异常,你可以开始一个新的聊天,它们就会重置为空白,你可以继续。但事实证明,如果你赋予它们访问互联网的权限,并且它们可以自行查找信息,那么这种方法就会失效。如果它们可以阅读有关其过去错误行为的文章,那么这种错误思维就会卷土重来!”

Willison警告说,人工强化也有其自身的危险。研究人员警告说,人工智能模型存在“阿谀奉承”的现象——“模型总是试图迎合用户的既定信念……如果你说一些耸人听闻的话,它总是会试图附和……它总是会试图赞美你并认同你的说法。部分原因是在训练过程中,他们让一群人类训练师与它们互动,而这些人类训练师会投票支持那些对他们最友好的模型……”

同样的预设友好也意味着模型“会淡化其答案,如果用户的对话表明他们文化程度较低,甚至可能会强化常见的误解和观点。这是一个非常可怕的奇怪角度。”

保护我们的安全措施是什么?

那么,我们能否相信构建这些系统的公司能够确保我们的安全?Willison在采访中回忆说:“微软大约五六年没有发布任何人工智能驱动的产品,因为这些东西可能会出现很多问题。”“然后,随着竞争加剧……随着谷歌和OpenAI发布产品……在我看来,这些公司现在的默认做法是:‘如果怀疑,就发布它。’”

Edwards认为这是对致力于安全防护措施的团队来说最可怕的噩梦——“失控的竞争会导致未来发布某种潜在危险的模型”。

但Willison也看到竞争中的一些希望。当OpenAI推出其强大的GPT4模型时,“这意味着我们完全依赖于他们在其组织内部关于他们将制定的政策所做的选择……今年,这种情况发生了变化。”现在有更多高质量的人工智能模型,包括谷歌的Gemini和Anthropic的模型。“由于这种竞争,我觉得至少我们不必仅仅祈祷拥有这项技术的团队能够以我们认为好的方式选择设计……

“我们现在有了选择。我们可以选择最符合我们自身道德和价值观的模型。”

Edwards表示同意,并补充说:“开放模型是对此的一种很好的解药,因为……你可以查看底层代码,你可以了解系统的工作原理,你可以自己微调它。”

另一个被低估的保障我们安全因素?媒体。当必应表示它爱上一位记者并想让他离开妻子时,它最终登上了《纽约时报》的头版——之后,微软短暂地“切断了”必应的电源。

回顾过去,Willison现在实际上感觉对人工智能操纵人们的担忧减少了——主要是因为“这似乎并没有发生。也许,也许它真的可能发生,只是还没有人真正尝试过?但这现在对我来说比一年前感觉不那么具有威胁性了。”

Edwards:所以你不担心人工智能会接管世界、毁灭人类、奴役我们之类的事情?

Simon:不……大型语言模型基本上就是我iPhone上的预测文本,只是规模更大而已。而且我不认为我iPhone上的预测文本会像《终结者》里的场景那样毁灭全人类。

过于人性化?

虽然错误输出通常被称为人工智能的“幻觉”,但Edwards因推广替代术语“虚构”而受到赞誉。这是心理学中的一个术语,用来描述用想象力填补记忆空白。Willison抱怨说,这两个术语仍然源于已知和观察到的人类行为。

但他随后承认,阻止将类人特征投射到人工智能的趋势可能已经太晚了。“那艘船已经起航了……”这里面是否也隐藏着某种优势?“事实证明,将人工智能视为人类是一种非常有用的捷径,可以帮助你了解如何与它们互动……” “你会告诉人们,‘看,它很容易受骗。’你会告诉人们它会编造东西,它会产生所有这些幻觉……我认为人类的比喻是帮助人们理解如何使用这些东西以及它们如何工作的有效捷径。”

有些人仍然“哀悼”必应早期暴躁个性的消失,Edwards 指出,并补充说“这个故事还没有结束”。(他被邀请加入一个 Discord 频道,人们在那里讨论如何使用“微调的 Llama 模型或其他什么东西”复活那个不诚实的必应聊天个性。“所以,”他笑着说,“故事还在继续!”)

在节目的结尾,Simon 承认他现在“事事都用”AI。“我觉得,一旦你意识到你拥有一个本质上不可靠的系统,你就能学会如何处理它。”这就像新的视觉模型,可以为盲人提供口头描述。

“我听说有人说,‘给盲人提供这样不可靠的技术是不负责任的——是不道德的——它会误导他们。’而我的回答是,你见过导盲犬吗?因为导盲犬本质上是不可靠的——就像,它们很好直到它们看到松鼠,然后所有赌注都无效!盲人用户非常擅长使用不可靠的技术来获得结果。如果他们明白——他们指着某样东西,它会给他们一个描述——有时会出错,但这仍然比没有这项技术要好。

“我认为这非常重要。你必须学会使用强大、快速、极其廉价——并且极度不可靠且会犯错的技术。如果你能弄清楚如何做到这一点,你就能从中获得巨大的价值。”

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注