Anthropic公司近日推出其最新人工智能模型Claude Sonnet 4.6,在编程、计算机操作、长上下文推理等多个领域展现出显著进步。这款新模型不仅在性能上接近其高端系列Opus,还在成本方面更具优势,引发业界广泛关注。
根据Anthropic公布的基准测试数据,Claude Sonnet 4.6在金融分析、办公任务和视觉推理等关键指标上已超越其2月6日发布的Opus 4.6版本。该模型支持100万token的上下文窗口,能够处理更复杂的任务场景。对于免费和Pro订阅用户,Sonnet 4.6已成为claude.ai和Claude Cowork平台的默认模型,并新增文件创建、连接器、专业技能与内容压缩等功能。
在定价策略上,Sonnet 4.6保持与前代版本相同的水平,每百万token输入价格为3美元,输出价格为15美元。这种高性价比特性使其在发布后迅速获得市场认可,导致美股软件板块出现波动。截至美东时间周二收盘,Intuit股价下跌超过5%,甲骨文、Applovin跌幅超过3%,Salesforce、Atlassian等公司股价也有不同程度下滑。
开发者社区对Sonnet 4.6的反响热烈。多位开发者在社交平台分享使用体验,展示该模型在代码重构、多文件修改等任务中的出色表现。有开发者表示,Sonnet 4.6仅通过一次调用就完成了整个代码库的重构工作,新增3000多行代码并创建12个新文件。其百万token上下文窗口功能尤其受到称赞,用户可以导入整个代码库而无需担心信息丢失。
在视觉推理能力方面,Sonnet 4.6也有显著提升。测试显示,该模型在生成SVG代码创建Xbox控制器图像的任务中,展现出比前代更强的立体感和细节处理能力。这种进步使其在与Gemini和ChatGPT等模型的竞争中更具优势。
Anthropic特别强调Sonnet 4.6在计算机使用方面的突破。该模型在OSWorld基准测试中表现出色,能够像人类一样操作Chrome、LibreOffice等真实软件环境。早期用户反馈显示,Sonnet 4.6在处理复杂表格、填写多步骤网页表单等任务中已接近人类水平,显著提高了办公效率。
在开发模式上,Sonnet 4.6提供"扩展思维"和"自适应思维"两种选择。开发者可以根据任务需求调整模型的推理强度,这种灵活性使其能够适应不同场景的应用需求。在Vending-Bench Arena商业模拟测试中,Sonnet 4.6展现出卓越的战略规划能力,通过前期投资和后期盈利的平衡策略,最终取得领先成绩。
尽管Sonnet 4.6在多个领域表现优异,但Anthropic承认,对于需要深度推理的复杂任务,Opus 4.6仍是首选方案。特别是在代码库重构、多Agent协同工作等场景中,Opus系列仍保持着技术优势。这种分层产品策略使Anthropic能够满足不同用户群体的需求。
安全评估显示,Sonnet 4.6在多语言场景下均能保持稳定表现。研究人员使用普通话、阿拉伯语、英语等七种语言测试模型的信息提供意愿和违规请求响应能力,结果显示该模型在各种语言环境下都能有效识别并拒绝潜在有害请求。

