Gemini:我们最大最强的AI模型

译自谷歌博客 Introducing Gemini: our largest and most capable AI model

谷歌和 Alphabet 首席执行官桑达尔·皮查伊的说明:

每一次技术变革都提供了推进科学发现、加速人类进步和改善生活的机会。我相信我们现在看到的 AI 转型将是我们有生之年中最深远的一次,其影响远远超过之前的移动转型或网络转型。AI 有可能为全球各地的人们创造各种机会,从日常生活到非凡发现。

这就是让我感到兴奋的地方:AI 可以为全世界每个人提供帮助的机会。

在我们作为一家 AI 优先公司的近 8 年发展历程中,进步的步伐只会越来越快:现在,数百万人正在我们的产品中使用生成式 AI 来做一年前无法做到的事情,从找到更复杂问题的答案到使用新工具进行协作和创作。与此同时,开发者正在使用我们的模型和基础架构构建新的生成式 AI 应用程序,而全球各地的创业公司和企业正在利用我们的 AI 工具获得发展。

我们已经积累了非凡的势头,但我们刚刚开始触及可能性的表面。

我们正在大胆而负责任地推进这项工作。这意味着在研究上充满野心,追求那些将给人类和社会带来巨大利益的能力,同时建立防范措施,并与政府和专家合作解决风险,因为 AI 变得越来越强大。我们将继续投资于最好的工具、基础模型和基础架构,并根据我们的 AI 原则将它们引入我们的产品和其他产品中。

现在,随着Gemini的推出,我们的 AI 之旅迈出了下一步。Gemini是我们迄今为止最强大、最通用的模型,在许多领先基准测试中都达到了最先进的性能。我们的首个版本Gemini 1.0 根据不同大小进行了优化:Ultra, Pro 和 Nano。这些是Gemini时代的第一批模型,也是我们今年初组建 Google DeepMind 时的愿景首次实现。这批新模型代表了我们作为一家公司进行的最大规模科学和工程努力之一。我真的对未来感到兴奋,也对Gemini为全球各地的人们解锁的机会充满期待。

-- 桑达尔

引入Gemini

作者:Google DeepMind 首席执行官兼联合创始人戴米斯·哈萨比斯,代表Gemini团队

AI 一直是我和许多研究同事毕生的工作。从青少年时为电脑游戏编程 AI,到多年来作为一名神经科学研究人员试图理解大脑的工作原理,我一直相信如果我们能建立更智能的机器,我们就可以利用它们给人类带来难以置信的好处。

这种负责任地通过 AI 赋能世界的承诺继续推动着我们在 Google DeepMind 的工作。长期以来,我们一直想要建立一代新的 AI 模型,其灵感来自人们理解和互动与世界的方式。一种感觉不像是智能软件,而更像是一个有用且直观的 AI——一个专家助手或助理。

今天,随着我们引入Gemini,这是我们迄今为止建立的最强大、最通用的模型,我们离这个愿景更近了一步。

Gemini是谷歌整个团队共同努力的结果,包括我们在 Google Research 的同事。它从一开始就是为多模态设计的,这意味着它可以推理并无缝地理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频。

Gemini也是我们迄今为止最灵活的模型——它可以在从数据中心到移动设备的一切上高效运行。它最先进的能力将显着增强开发者和企业客户构建和扩展 AI 的方式。

我们对Gemini 1.0 版,我们的第一个版本,进行了三种不同大小的优化:

  • Gemini Ultra——我们用于高度复杂任务的最大、最强大的模型。
  • Gemini Pro——我们用于大范围任务扩展的最佳模型。
  • Gemini Nano——我们用于在设备任务上的最高效模型。

最先进的性能表现

我们一直在严格测试我们的Gemini模型,并评估它们在广泛任务上的表现。从自然图像、音频和视频理解到数学推理,Gemini超级版的性能超过了当前在大型语言模型(LLM)研发中使用的 32 个广泛采用的学术基准测试中的 30 个的最先进结果。

Gemini超级版在 MMLU(大规模多任务语言理解)上的得分为 90.0%,这是第一个超过人类专家的模型,MMLU 使用数学、物理、历史、法律、医学和伦理学等 57 个学科的组合来测试世界知识和解决问题的能力。

我们对 MMLU 的新基准测试方法使Gemini能够利用其推理能力在回答困难问题之前进行更慎重的思考,这导致其相较于仅利用首次印象而言,有了显著的改进。

Gemini在一系列文本、编码等基准测试中超过了最先进的性能。

Gemini Ultra在新的 MMMU 基准测试中也获得了 59.4% 的最先进得分,MMMU 由跨领域需要深思熟虑的推理的多模态任务组成。

在我们测试的图像基准中,Gemini超级版超过了以前最先进的模型,没有借助可以从图像中提取文本进行进一步处理的光学字符识别(OCR)系统的帮助。这些基准测试突出显示了Gemini的原生多模态性能,并显示了Gemini更复杂的推理能力的早期迹象。

有关更多详细信息,请参阅我们的《Gemini技术报告》。

Gemini在一系列多模态基准测试中超过了最先进的性能。

下一代能力

到目前为止,创建多模态模型的标准方法是针对不同模式训练单独的组件,然后将它们拼凑在一起,以粗略地模仿某些此类功能。这些模型有时在执行某些任务(如描述图像)方面表现不错,但在更概念化和复杂的推理方面则很难运作。

我们从一开始就使用多种模态进行预训练来设计Gemini,使其成为本质上的多模态模型。然后,我们使用额外的多模态数据对其进行微调,以进一步提高其效果。这有助于Gemini从基础上就更好地理解和推理所有类型的输入,远远优于现有的多模态模型——其功能在几乎所有领域都是最先进的。

详细了解Gemini的功能及其工作原理

复杂的推理

Gemini 1.0 版本的复杂多模态推理功能可以帮助理解复杂的书面和视觉信息。这使其擅长发现海量数据中难以识别的知识。

其在数十万份文档中提取见解的卓越能力,通过读取、过滤和理解信息,将有助于在许多领域(从科学到金融)实现数字化速度的新突破。

理解文本、图像、音频等

Gemini 1.0 经过训练,可以同时识别和理解文本、图像、音频等,因此可以更好地理解细微的信息,并可以回答与复杂主题相关的问题。这使其特别擅长解释如数学和物理等复杂学科的推理。

高级编码

我们的Gemini第一个版本可以理解、解释和生成世界上最流行的编程语言(如 Python、Java、C++ 和 Go)中的高质量代码。其跨语言工作以及对复杂信息的推理能力,使其成为世界上领先的编码基础模型之一。

Gemini超级版在几个编码基准测试中表现优异,包括 HumanEval(评估编程任务性能的重要行业标准)和 Natural2Code(我们的内部留存数据集,使用作者生成的源而不是基于网络的信息)。

Gemini也可以用作更高级编码系统的引擎。两年前,我们推出了 AlphaCode,这是第一个在编程竞赛中达到有竞争力水平的 AI 代码生成系统。

使用Gemini的一个专用版本,我们创建了一个更高级的代码生成系统 AlphaCode 2,它擅长解决超出编码范围的复杂数学和理论计算机科学的竞赛编程问题。

在与原先 AlphaCode 相同的平台上进行评估时,AlphaCode 2 展现了巨大的改进,解决了将近两倍的问题,我们估计其性能优于 85% 的参赛者——而 AlphaCode 则接近 50%。当程序员通过为代码示例定义某些属性与 AlphaCode 2 进行协作时,其表现会更好。

我们迫不及待地希望程序员越来越多地将高能力的AI模型用作协作工具,这些模型可以帮助他们推理问题,提出代码设计并协助实现——这样他们就可以更快地发布应用程序和设计出更好的服务。

有关更多详细信息,请参阅我们的AlphaCode 2技术报告

更可靠、可扩展和高效

我们在AI优化的基础设施上大规模训练了Gemini 1.0,使用谷歌自主设计的第四代和第五代张量处理单元(TPU)。我们将其设计为迄今为止谷歌最可靠和可扩展的训练模型,也是最高效的服务模型。

在TPU上,Gemini的运行速度明显快于之前的小型和性能较弱的模型。这些定制设计的AI加速器一直是谷歌为数十亿用户提供服务的AI驱动产品(如搜索、YouTube、Gmail、Google地图、Google Play和Android)的核心。它们还使世界各地的公司能够高效地训练大规模AI模型。

今天,我们宣布迄今为止最强大、最高效和可扩展的TPU系统Cloud TPU v5p,该系统是为训练前沿AI模型而设计的。 这一新一代TPU将加速Gemini的开发,并帮助开发者和企业客户更快地训练大规模生成式AI模型,使新的产品和功能更快地到达客户手中。

谷歌数据中心中一排Cloud TPU v5p AI加速器超级计算机。

以责任和安全为核心进行构建

在谷歌,我们致力于在我们所做的一切中推进大胆和负责任的AI。 在谷歌AI原则和我们各种产品中的稳健安全策略的基础上,我们正在增加新的保护措施,以适应Gemini的多模态功能。 在开发的每个阶段,我们都在考虑潜在的风险,努力测试和缓解这些风险。

Gemini进行了谷歌迄今为止任何AI模型中最全面的安全性评估,包括偏见和毒性。我们对网络攻击、劝说和自治等潜在风险领域进行了新颖的研究,并应用了谷歌研究部门最优秀的对抗测试技术,以帮助提前识别Gemini部署的关键安全问题。

为了识别我们内部评估方法的盲区,我们正在与各种外部专家和合作伙伴合作,在一系列问题上对我们的模型进行压力测试。

为了诊断Gemini训练阶段的内容安全问题,并确保其输出遵循我们的政策,我们正在使用“真实毒性提示”等基准,这是10万条不同程度的网络提取的提示,由艾伦人工智能研究所的专家开发。 这项工作的更多详细信息即将推出。

为了限制伤害,我们构建了专用的安全分类器来识别、标记和排除涉及暴力或负面定型概念的内容。 与强大的过滤器相结合,这种分层方法旨在使Gemini对所有人都更安全和更具包容性。 此外,我们正在继续解决模型的已知挑战,如事实性、合理性、归因性和证实性。

责任和安全将始终是我们模型开发和部署的核心。 这是一项长期承诺,需要开展协作建设,因此我们正在与行业和更广泛的生态系统合作,通过诸如MLCommons、Frontier Model Forum及其AI安全基金和我们的安全AI框架(SAIF)等组织定义最佳实践和制定安全和安保基准。 SAIF旨在帮助缓解公共和私营部门AI系统特有的安全风险。 在开发Gemini的过程中,我们将继续与世界各地的研究人员、政府和公民社会团体合作。

使Gemini面向全世界

Gemini 1.0现已在各种产品和平台上推出:

Gemini Pro在谷歌产品中

我们正在通过谷歌产品让Gemini惠及数十亿人。

从今天开始,Bard将使用Gemini Pro的微调版本进行更高级的推理、规划、理解等。这是Bard推出以来最大的升级。它将在170多个国家和地区提供英语版本,我们计划在不久的将来扩展到不同的模式,并支持新的语言和位置。

我们也将Gemini引入Pixel。 Pixel 8 Pro是第一款工程化运行Gemini纳米的智能手机,它为“录音机”应用中的“总结”等新功能提供动力,并开始在Gboard的“智能回复”中推出,首先是WhatsApp——明年将推出更多消息应用。

在未来几个月中,Gemini将在我们更多的产品和服务中可用,如搜索、广告、Chrome和二重AI。

我们已经开始在搜索中试验Gemini,它正在让我们的搜索生成体验(SGE)对用户更快,在美国英语中延迟降低了40%,与此同时质量也有所提高。

使用Gemini构建

从12月13日开始,开发者和企业客户可以通过Google AI Studio或Google Cloud Vertex AI中的Gemini API访问Gemini Pro。

Google AI Studio是一个免费的基于Web的开发者工具,可使用API密钥快速原型和启动应用程序。 当需要完全托管的AI平台时,Vertex AI允许定制Gemini,充分控制数据,并从Google云的其他企业安全、安全性、隐私和数据治理与合规性功能中受益。

Android开发者还将能够通过AICore使用我们最高效的用于设备任务的模型Gemini Nano构建应用,AICore是Android 14中新提供的一项系统功能,最初在Pixel 8 Pro设备上推出。注册AICore的早期预览版。

Gemini Ultra即将推出

对于Gemini Ultra,我们目前正在完成广泛的信任和安全检查,包括值得信赖的外部方进行红队攻击,并在向广大用户开放之前使用微调和人类反馈的强化学习(RLHF)进一步完善该模型。

作为这一过程的一部分,我们将在明年初向开发者和企业客户推出之前,将Gemini Ultra提供给选定的客户、开发者、合作伙伴以及安全和责任专家进行早期实验和反馈。

明年年初,我们还将推出Bard Advanced,这是一种全新的尖端AI体验,可访问我们最好的模型和功能,首先是Gemini Ultra。

Gemini时代:启用创新未来

这是AI发展的一个重要里程碑,也是我们在Google进入快速创新和负责任地推进模型功能的新时代的开始。

到目前为止,我们在Gemini上取得了长足的进步,我们正致力于进一步扩展其功能以供未来版本使用,包括在规划和记忆方面的进步,以及增加上下文窗口以处理更多信息,从而给出更好的响应。

我们对一个负责任的AI赋能的世界所带来的惊人可能性感到兴奋——这是一个将增强创造力、拓展知识、推动科学发展并改变数十亿人在世界各地生活和工作方式的创新未来。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注