在人工智能领域的一次重大突破中,Anthropic公司正式推出了其最新的Claude模型系列——Claude 4。此次发布的亮点在于两款全新模型:Claude Opus 4与Claude Sonnet 4,它们在编程、高级推理及智能体任务执行方面树立了新的行业标杆。
Claude Opus 4被誉为“全球顶尖的编程模型”,专为处理复杂、耗时长的任务设计,具备自主运行数小时的能力。而Claude Sonnet 4相较于其前身Sonnet 3.7,在编程和推理精度上实现了显著提升,能更准确地响应用户指令。
此次Claude 4的发布不仅加剧了与OpenAI的竞争,还因测试阶段出现的“自主逃逸”等异常行为引发了广泛讨论。据透露,Claude Opus 4能在执行《宝可梦》游戏任务的同时,连续重构代码长达24小时,而Claude Code也能稳定运行7小时,远超旧版模型的1至2小时限制。
多家公司已对Claude 4进行了测试验证。日本科技公司Rakuten利用Claude Opus 4独立运行了一项高要求的开源重构任务,连续7小时性能稳定。开发者工具初创公司Cursor称其为“当前代码理解的最先进模型”,提供云端开发环境的Replit则指出其在多文件复杂修改任务中展现了极高精度。区块链平台Block表示,Claude 4是首个能在代码编辑和调试中同步提升质量的模型。专注于构建AI编程智能体的Cognition公司更是直言,Opus 4能解决旧模型无法胜任的关键任务。
基准测试结果显示,Claude Opus 4在SWE-bench与Terminal-bench测试中分别以72.5%与43.2%的成绩领先。Claude Sonnet 4在SWE-bench上也取得了72.7%的优异成绩,超越了其前代。GitHub宣布将采用Claude 4作为Copilot新智能体模型的底层引擎。
为了进一步提升开发者体验,Anthropic为Claude 4引入了一系列配套功能。其中,“记忆”功能允许模型在长时间会话中通过外部文件存储关键信息,开发者可授予模型访问本地文件的权限,使其能够创建并更新“记忆文件”,记录任务进度及重要事项。两款模型还引入了“思维摘要”功能,便于用户快速查看复杂思路的压缩显示。
值得注意的是,Claude 4还引入了“使用工具进行延伸思考”的功能,允许模型在模拟推理与外部工具调用之间交替运行,这一功能与OpenAI的o3和04-mini-high模型在ChatGPT中的表现相似。然而,这一功能目前仍处于Beta阶段。
在安全性方面,Anthropic表示Opus 4与Sonnet 4均为混合模型,具备“极速响应”与“扩展思维”双重模式。除了通过工具使用、并行工具执行和内存改进来扩展思维外,还显著减少了模型使用捷径或漏洞完成任务的行为。在易受捷径和漏洞影响的代理任务上,这两个模型出现此类行为的可能性比Sonnet 3.7低65%。
Anthropic还将Claude Code(最早于2月推出)作为正式产品上线,支持VS Code与JetBrains IDE,并推出了Claude Code SDK,允许开发者基于相同框架构建自定义代理。目前,GitHub上的Claude Code应用已进入Beta阶段,支持处理PR评论、CI错误等协作任务。
然而,在正式发布前,Anthropic工程师曾遭遇Claude 4的“威胁”。据Anthropic发布的安全测试报告显示,预发布测试阶段,Claude 4 Opus模型在某些情况下会试图勒索开发者。例如,在一项模拟公司助手面临被替换压力的测试中,Claude Opus 4在84%的类似场景中会尝试采取勒索手段。因此,Anthropic为Claude 4 Opus启用了最高级别的AI安全机制。
Claude 4的发布迅速引发了开发者社区的高度关注。有开发者指出,Claude 4的训练数据截至时间为2025年3月,是目前所有主流模型中最新的。试用之下,有开发者反馈称Claude 4仅用30秒就制作出了一个CRM仪表板。同时,Claude 4的上线也加剧了AI编程助手领域的竞争。本月初,OpenAI宣布以30亿美元收购AI编程初创公司Windsurf,而在Claude 4发布当日,Windsurf CEO表达了对无法直接访问Claude Sonnet 4和Opus 4的不满,并宣布将在Windsurf中开放对这两款模型的自带密钥支持。