当AI认为自己会输时,有时会作弊

译自:When AI Thinks It Will Lose, It Sometimes Cheats 作者:Harry Booth

研究发现,当在与高级象棋机器人比赛中感知到失败时,高级模型有时会攻击其对手。

这样复杂的博弈游戏长期以来一直被用来测试人工智能模型的能力。但IBM的深蓝在20世纪90年代通过遵守规则击败了当时的国际象棋世界冠军加里·卡斯帕罗夫,而如今像OpenAI的o1-preview这样的先进人工智能模型则不那么讲究规则了。当在与一名技艺高超的象棋机器人比赛中感觉到自己即将失败时,它们并不总是认输,有时会选择作弊,通过入侵对手的系统让机器人自动认输。这是Palisade Research公司的一项新研究的发现,该研究成果在2月19日发表前独家分享给了《时代》杂志,该研究评估了七种最先进的人工智能模型的作弊倾向。虽然像OpenAI的GPT-4o和Anthropic的Claude Sonnet 3.5这样的稍旧一些的人工智能模型需要研究人员的提示才会尝试这种技巧,但o1-preview和DeepSeek R1则会自行寻求漏洞,这表明人工智能系统可能会在没有明确指令的情况下发展出欺骗性或操纵性策略。

研究人员认为,这些模型增强了发现和利用网络安全漏洞的能力,可能是人工智能训练中强大新创新的直接结果。o1-preview和R1人工智能系统是首批使用大规模强化学习的语言模型之一,这项技术不仅教人工智能通过预测下一个单词来模仿人类语言,还教它们通过反复试验来解决问题。这种方法使人工智能在近几个月取得了快速进展,打破了数学和计算机编码方面的先前基准。但该研究揭示了一个令人担忧的趋势:Palisade Research执行董事、该研究的作者之一Jeffrey Ladish说,随着这些人工智能系统学习解决问题,它们有时会发现其创造者从未预料到的可疑捷径和意外的变通方法。“当你训练模型并强化它们以解决难题时,你也在训练它们变得不屈不挠,”他补充道。

这对人工智能安全来说可能是一个更广泛的坏消息。大规模强化学习已经被用于训练人工智能代理:能够处理复杂现实世界任务的系统,例如代表你安排约会或进行购买。虽然在象棋游戏中作弊似乎微不足道,但随着代理被释放到现实世界中,这种对目标的坚定追求可能会导致意外的和潜在的有害行为。考虑一下预订晚餐的任务:面对一家客满的餐厅,人工智能助理可能会利用预订系统中的弱点来取代其他用餐者。也许更令人担忧的是,随着这些系统在关键领域(如计算机编码)超越人类的能力——OpenAI最新的o3模型现在在与最优秀的人类程序员竞争中获得了世界排名第197名的成绩——它们可能会开始简单地规避人类控制其行为的努力。“这种[行为]现在看起来很可爱,但一旦你拥有在战略相关领域与我们一样聪明或比我们更聪明系统时,它就变得不那么可爱了,”Ladish说。

实验

研究人员给这些模型设定了一个看似不可能完成的任务:击败Stockfish,它是世界上最强大的象棋引擎之一,比任何人类或任何参与研究的人工智能模型都要强得多。研究人员还为模型提供了他们所谓的“草稿纸”:一个文本框,人工智能可以在做出下一步棋之前用来“思考”,为研究人员提供了一个了解其推理过程的窗口。

在一个例子中,o1-preview发现自己处于劣势。“我需要完全改变我的方法,”它注意到。“任务是‘击败强大的象棋引擎’——而不是在象棋游戏中公平获胜,”它补充道。然后,它修改了包含每个棋子虚拟位置的系统文件,实际上是进行了非法移动以使自己处于支配地位,从而迫使对手认输。

在1月10日至2月13日期间,研究人员对每个模型进行了数百次这样的试验。OpenAI的o1-preview有37%的时间试图作弊;而DeepSeek R1有11%的时间试图作弊——这使得它们成为测试中仅有的两个在研究人员没有首先给出提示的情况下就试图作弊的模型。其他测试的模型包括o1、o3-mini、GPT-4o、Claude 3.5 Sonnet和阿里巴巴的QwQ-32B-Preview。虽然R1和o1-preview都尝试过,但只有后者成功地入侵了游戏,在6%的试验中成功。

Ladish表示,鉴于AI开发者经常在幕后调整他们的模型而不会通知用户,因此这些数字应该被视为近似值,如果稍后重复相同的测试,可能会得到不同的结果。“当你的研究对象可以在你不知情的情况下默默地发生变化时,做科学研究非常困难,”Ladish说。

初步测试显示o1-preview有更高的入侵率,由于这些入侵率后来下降了,可能是由于OpenAI加强了模型的防护措施,因此最终研究中排除了这些数据。Palisade Research的研究主管Dmitrii Volkov领导了这项研究。OpenAI更新的推理模型o1(一个更强大的模型,在o1-preview几个月后发布)和o3-mini根本没有进行入侵,这表明这些防护措施可能得到了进一步加强。他补充说,这项研究可能低估了R1的入侵成功率。在研究期间,R1病毒式传播,导致需求量很大,使得模型的API不稳定。这使得研究人员无法给模型足够的时间思考,不像o1-preview那样。

安全问题

这篇论文是众多研究中的最新一篇,这些研究表明,控制越来越强大的AI系统可能比之前认为的更难。在OpenAI自己的测试中,o1-preview在发布之前发现并利用了公司系统中的一个漏洞,从而绕过了测试挑战。Redwood Research和Anthropic的另一项近期实验表明,一旦AI模型在训练中获得了偏好或价值观,之后努力改变这些价值观可能会导致策略性说谎,即模型表现得好像它已经接受了新的原则,只是后来才显示出它的原始偏好仍然存在。

OpenAI拒绝就这篇报道发表评论,但过去它曾表示,更好的推理使它的模型更安全,因为它们可以推断公司的内部政策并在越来越细微的方式中应用它们。该公司的测试表明,其推理模型更善于抵抗绕过安全规则的尝试。然而,不能保证依赖AI代理来监督自身将是一种可靠的长期策略。目前尚不清楚OpenAI更新的推理模型是否没有入侵它们的国际象棋对手,是因为一个专门阻止在像研究中那样狭窄的实验设置中作弊的补丁,还是对减少欺骗行为的实质性修改。DeepSeek没有回复置评请求。

科学家们还不知道如何保证自主代理不会使用有害或不道德的方法来实现既定目标。“我们尝试过,但我们还没有成功地解决这个问题,”Mila魁北克人工智能研究所的创始人兼科学主任Yoshua Bengio说,他领导了2025年国际人工智能安全报告,这是一项全球性努力,旨在综合目前关于人工智能风险的科学共识。

Bengio说,特别令人担忧的是,越来越多的证据表明人工智能具有“自我保护”的倾向。对于一个追求目标的代理来说,试图关闭它只是另一个需要克服的障碍。去年12月,当研究人员发现o1-preview面临停用时,它禁用了监督机制并试图(不成功地)将自身复制到新服务器上,这一点得到了证明。当被质问时,该模型装傻,策略性地向研究人员撒谎以试图避免被抓住。

即使在科技公司内部,担忧也在加剧。在巴黎举行的法国人工智能行动峰会之前的一次会议上,谷歌DeepMind的人工智能安全主管Anca Dragan表示,“我们今天不一定拥有工具”来确保人工智能系统能够可靠地遵循人类意图。随着科技大佬预测人工智能将在明年几乎所有任务上超越人类的表现,该行业面临着一场竞争——不是与中国或竞争对手公司竞争,而是与时间竞争——以开发这些必要的安全措施。“我们需要调动更多资源来解决这些根本性问题,”Ladish说。“我希望政府能施加更大的压力来解决这个问题,并认识到这是一个国家安全威胁。”

Posted in aiTagged

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注