Anthropic发布其迄今为止最强大的编码模型

Anthropic发布最强编码模型 Claude Opus 4 和 Sonnet 4！性能炸裂，轻松超越前代，长上下文推理能力MAX！集成 Amazon Bedrock 和 Vertex AI，更有 Claude Code 工具加持，VS Code 和 JetBrains 扩展直接PK GitHub Copilot！云原生开发者必备！

译自：Anthropic Launches Its Most Powerful Models for Coding Yet

作者：Frederic Lardinois

旧金山 — 在其首次开发者大会 Code with Claude 上，人工智能公司 Anthropic 今天发布了其大型语言模型 (LLM) 的最新版本：Claude Opus 4 和 Claude Sonnet 4。

这些更新承诺为开发者和工程团队带来重大进步，尤其是在编码和长上下文推理方面。在所有与编码相关的基准测试中，这两种模型都轻松超越了其前代产品，尽管在视觉推理等其他领域，旧的 Sonnet 模型实际上优于新的模型。

虽然 Sonnet 3.7 已经提供了一种混合方法，既有快速响应，又有用于更深入推理的扩展思考模式，但 Opus 4 之前缺乏这种可调节的能力。此更新将相同的双模式功能带到 Opus 4。

Anthropic 首席执行官 Dario Amodei 在该公司的 Code with Claude 会议上。图片来源：The New Stack。

这些新模型可立即在 Anthropic 自己的 API、Amazon Bedrock 和 Google 的 Vertex AI 等平台上使用。Claude Sonnet 4 在 Claude.ai 上免费提供，而 Opus 4 则供付费用户使用。

“Claude 4 标志着人工智能协作的新时代，”该公司表示。“我们正在构建 Claude，使其成为您值得信赖的合作伙伴——以完整的上下文运行，持续关注更长的项目，并在每一步都推动变革性影响。”

图片来源：Anthropic。

Opus 4

Opus 是 Anthropic 旗舰模型的名称。当 Opus 3 在一年多前发布时，它巩固了 Anthropic 作为提供一些最佳编码用例模型的声誉。该公司将 Opus 4 描述为其迄今为止最强大的模型，也是“世界上最好的编码模型”。该公司表示，它还擅长解决问题和为代理产品提供动力。

与此同时，GitHub 使用 Claude 作为其新的软件工程 (SWE) 代理的基础，表示使用 Opus 4 实现了 9% 的更好结果，同时减少了 30% 的 tokens。

Claude 玩口袋妖怪。图片来源：Anthropic。

在某种程度上，Opus 4 的突出之处在于它可以处理长时间运行的任务，并在 Anthropic 描述的“数千个步骤”中保持其上下文。该模型的一些测试人员已经能够

这种新功能。“Opus 4 为编码提供了真正先进的推理能力，”Rakuten 人工智能总经理 Yusuke Kaji 说。“当我们的团队在一个复杂的开源项目上部署 Opus 4 时，它自主编码了近七个小时——这是人工智能能力的一次巨大飞跃，让团队感到惊讶。”

Anthropic 保持了使用 Opus 4 的价格与之前的版本相同，API 使用费为每百万个输入 tokens 15 美元，模型输出为每百万个 tokens 75 美元。

图片来源：Anthropic。

Sonnet 4

像包括 OpenAI 和 Google 在内的大多数其他 LLM 公司一样，

以不同的价格点提供各种模型（Haiku 今天没有更新，是该公司最快、最便宜的模型，但也是最不智能的模型。）对于 Sonnet 4，Anthropic 表示，这个新版本改进了 Sonnet 3.7，后者长期以来一直领先于 SWE-bench 基准测试，用于评估软件工程任务的模型。它现在的得分为 72.7%，而之前的版本为 62.3%。

Anthropic 声称：“该模型在性能与内部和外部用例的实用性之间取得了平衡，同时提供了增强的可操纵性，使您可以更好地控制它如何实施更改。”

在今天于旧金山举行的公司发布会上，Anthropic 首席执行官 Dario Amodei 还指出，Sonnet 4 不像其前代产品那样过于热切，这是使用之前版本的开发人员的常见抱怨，他们经常认为它与 Sonnet 3.5 相比有点令人失望。

Anthropic 改进的不仅仅是模型本身。它还为用户如何使用这些模型添加了一些新功能。Opus 4 和 Sonnet 4 现在都可以使用工具，包括网络搜索，同时思考问题。这里最有趣的是，他们可以在工具使用和推理之间来回切换，因为他们试图改进他们的响应。他们甚至可以并行使用多个工具。此外，在允许的情况下，这些模型现在可以访问本地文件。Anthropic表示，这使它们能够“展示显著提高的记忆能力，提取和保存关键事实，以保持连续性并随着时间的推移建立隐性知识”。

Anthropic还保持了Sonnet 4的价格稳定。仍然是每百万token 3美元/15美元（输入/输出）。

Claude Code

除了新的模型之外，Anthropic还在今天正式发布其代理式编码工具Claude Code。Claude Code可以存在于终端中，现在也可以存在于开发者的IDE中。Anthropic正在为VS Code和JetBrains提供扩展。这使其直接与GitHub Copilot以及Cursor和Windsurf等工具展开竞争（为了使事情更有趣，后者也在其工具中向开发者提供Anthropic的模型）。

Anthropic还在发布一个新的Claude Code SDK，以便开发者可以使用Claude Code代理作为核心来构建自己的代理和应用程序。

SDK的示例代码非常有趣：它是GitHub上的Claude Code。有了这个，开发者现在可以在pull request上标记Claude，以“响应审查者的反馈、修复CI错误或修改代码”。Anthropic和GitHub长期以来一直是密切的合作伙伴。

Opus 4

Sonnet 4

Claude Code

相关文章：

发表回复 取消回复

发表回复取消回复