今天的 AI 智能体很大程度上要归功于研究人员 Andrew Barto 和 Richard Sutton。
译自:Reinforcement Learning Pioneers Honored With ACM Turing Prize
作者:Joab Jackson
两位研究人员早期在强化学习方面的理论工作于周三获得认可,美国计算机协会 宣布 Andrew G. Barto 和 Richard S. Sutton 两位研究人员荣获 2024 年 ACM A.M. 图灵奖。
ACM
两位研究人员对于开发强化学习的概念和算法基础至关重要,强化学习是当前基于 AI 的代理技术的基石。
他们将共同获得 100 万美元的奖金(由 Google 赞助),以表彰他们的辛勤工作。
ACM A.M. 图灵奖通常被称为“计算机领域的诺贝尔奖”,以英国数学家 Alan M. Turing 的名字命名,他阐明了计算的数学基础,并创造了 图灵测试,这是一个用于评估机器是否已实现类人智能行为的思想实验(以及当前基准)。
因此,今年的奖项非常适合其同名者。
Google DeepMind 首席科学家 Jeff Dean 在一份声明中指出:“Alan Turing 在 1947 年的一次演讲中表示,‘我们想要的是一台可以从经验中学习的机器。’” “由 Barto 和 Sutton 开创的强化学习直接回答了 Turing 的挑战。他们的工作是过去几十年人工智能进步的关键。”
Barto 是马萨诸塞大学阿默斯特分校信息与计算机科学荣誉退休教授。Sutton 是阿尔伯塔大学的计算机科学教授,也是 Keen Technologies(“John Carmack 的 AGI 努力”)的研究科学家,以及 阿尔伯塔机器智能研究所的研究员。
强化学习受到神经科学甚至心理学思想的启发,构成了代理 AI 的基础,或者说是计算机实体感知和行动的基础,最好是以满足用户意图的方式行动。为此,代理依赖于“奖励”,或对其行为质量的反馈。
Barto 和 Sutton 开发了强化学习的许多基础知识,并在 1998 年的开创性教科书“Reinforcement Learning: An Introduction”中分享了他们的学习成果。
这项工作建立在 马尔可夫决策过程 (MDP) 的基础上,其中代理在随机环境中做出决策,并在每次行动后获得奖励信号,目标是最大化其奖励。
MDP 假设代理了解其环境。强化学习更进一步,假设代理对环境或其奖励一无所知。
“ACM 公告 总结道:“强化学习的最小信息要求,加上 MDP 框架的通用性,使得强化学习算法可以应用于范围广泛的问题。”
两人是第一个发现神经网络可以代表学习函数,并且代理可以将学习和规划结合起来的人。然后,获得环境知识可以成为规划的基础。
两人开创的其他一些技术——与其他研究人员合作——包括时间差分学习,这有助于解决奖励预测问题,以及策略梯度方法,以解决强化学习不足的那些高维动作空间。
强化学习在 2016 年和 2017 年通过 AlphaGo 计算机程序 击败了最优秀的人类 *围棋 * 选手,从而获得了首次重大胜利。
源自 AlphaGo 的 AI 系统已被调整以解决其他问题。2022 年,研究人员使用其中一个系统发现了一种称为矩阵乘法的基本数学任务的新算法。
OpenAI 的 ChatGPT 同样也将其成功归功于强化学习。根据 ACM 的说法,为了训练其大型语言模型,该服务使用了一种称为“从人类反馈中进行强化学习 (RLHF)”的技术来捕捉人类的期望。