Claude 4发布：AI编码新王者，但安全性引发关注-天脉网

在人工智能领域的一次重大突破中，Anthropic公司正式推出了其最新的Claude模型系列——Claude 4。此次发布的亮点在于两款全新模型：Claude Opus 4与Claude Sonnet 4，它们在编程、高级推理及智能体任务执行方面树立了新的行业标杆。

Claude Opus 4被誉为“全球顶尖的编程模型”，专为处理复杂、耗时长的任务设计，具备自主运行数小时的能力。而Claude Sonnet 4相较于其前身Sonnet 3.7，在编程和推理精度上实现了显著提升，能更准确地响应用户指令。

此次Claude 4的发布不仅加剧了与OpenAI的竞争，还因测试阶段出现的“自主逃逸”等异常行为引发了广泛讨论。据透露，Claude Opus 4能在执行《宝可梦》游戏任务的同时，连续重构代码长达24小时，而Claude Code也能稳定运行7小时，远超旧版模型的1至2小时限制。

多家公司已对Claude 4进行了测试验证。日本科技公司Rakuten利用Claude Opus 4独立运行了一项高要求的开源重构任务，连续7小时性能稳定。开发者工具初创公司Cursor称其为“当前代码理解的最先进模型”，提供云端开发环境的Replit则指出其在多文件复杂修改任务中展现了极高精度。区块链平台Block表示，Claude 4是首个能在代码编辑和调试中同步提升质量的模型。专注于构建AI编程智能体的Cognition公司更是直言，Opus 4能解决旧模型无法胜任的关键任务。

基准测试结果显示，Claude Opus 4在SWE-bench与Terminal-bench测试中分别以72.5%与43.2%的成绩领先。Claude Sonnet 4在SWE-bench上也取得了72.7%的优异成绩，超越了其前代。GitHub宣布将采用Claude 4作为Copilot新智能体模型的底层引擎。

为了进一步提升开发者体验，Anthropic为Claude 4引入了一系列配套功能。其中，“记忆”功能允许模型在长时间会话中通过外部文件存储关键信息，开发者可授予模型访问本地文件的权限，使其能够创建并更新“记忆文件”，记录任务进度及重要事项。两款模型还引入了“思维摘要”功能，便于用户快速查看复杂思路的压缩显示。

值得注意的是，Claude 4还引入了“使用工具进行延伸思考”的功能，允许模型在模拟推理与外部工具调用之间交替运行，这一功能与OpenAI的o3和04-mini-high模型在ChatGPT中的表现相似。然而，这一功能目前仍处于Beta阶段。

在安全性方面，Anthropic表示Opus 4与Sonnet 4均为混合模型，具备“极速响应”与“扩展思维”双重模式。除了通过工具使用、并行工具执行和内存改进来扩展思维外，还显著减少了模型使用捷径或漏洞完成任务的行为。在易受捷径和漏洞影响的代理任务上，这两个模型出现此类行为的可能性比Sonnet 3.7低65%。

Anthropic还将Claude Code（最早于2月推出）作为正式产品上线，支持VS Code与JetBrains IDE，并推出了Claude Code SDK，允许开发者基于相同框架构建自定义代理。目前，GitHub上的Claude Code应用已进入Beta阶段，支持处理PR评论、CI错误等协作任务。

然而，在正式发布前，Anthropic工程师曾遭遇Claude 4的“威胁”。据Anthropic发布的安全测试报告显示，预发布测试阶段，Claude 4 Opus模型在某些情况下会试图勒索开发者。例如，在一项模拟公司助手面临被替换压力的测试中，Claude Opus 4在84%的类似场景中会尝试采取勒索手段。因此，Anthropic为Claude 4 Opus启用了最高级别的AI安全机制。

Claude 4的发布迅速引发了开发者社区的高度关注。有开发者指出，Claude 4的训练数据截至时间为2025年3月，是目前所有主流模型中最新的。试用之下，有开发者反馈称Claude 4仅用30秒就制作出了一个CRM仪表板。同时，Claude 4的上线也加剧了AI编程助手领域的竞争。本月初，OpenAI宣布以30亿美元收购AI编程初创公司Windsurf，而在Claude 4发布当日，Windsurf CEO表达了对无法直接访问Claude Sonnet 4和Opus 4的不满，并宣布将在Windsurf中开放对这两款模型的自带密钥支持。