阿里云近日正式推出新一代大语言模型Qwen3.6-Plus,将其定位为“国产最强编程模型”。这款模型在编程能力评测中表现突出,在智能体编程SWE-bench系列评测和真实世界智能体任务Claw-eval等权威测试中,编程表现超越参数规模达其2至3倍的GLM-5、Kimi-K2.5等同类产品,编程能力已接近全球顶尖的Claude系列模型。
在逻辑推理测试中,Qwen3.6-Plus展现出深度思考能力。面对经典悖论题“甲说乙说谎,乙说丙说谎,丙称甲乙均说谎,且仅一人说真话”,该模型未采用概率猜测,而是通过“假设—验证—排除”的完整链路逐步推导。它先假设甲说真话进行验证,发现矛盾后转向丙的陈述,最终锁定乙为唯一说真话者。整个过程结构严密,每步推导均有依据,体现了真正的逻辑分析能力。
在复杂指令执行测试中,Qwen3.6-Plus同样表现优异。当被要求“用300字以内写自我介绍,开头须为反问句,禁用‘领先、智能、赋能’三词,结尾需用比喻,语气模仿资深科技记者”时,该模型精准满足所有条件。其生成的文本信息密度高、表达克制,既规避了行业术语,又保持了专业记者的叙事风格,完全摆脱了传统AI输出的机械感,达到可直接作为商业稿件发布的标准。
工程交付能力测试进一步验证了Qwen3.6-Plus的实用性。面对“开发具备选题、生成、打分功能的AI短视频脚本工具网站”的需求,该模型未局限于代码生成,而是从产品架构层面进行系统设计。它首先拆解宏观需求,明确目标用户与核心功能模块,随后规划技术栈选型、前后端分离方案及数据流转机制,完整设计了用户从选题到优化的全流程。模型还提供了交互提示词设计、接口代码示例及部署成本优化建议,展现出从创意到落地的完整产品化能力。
行业分析认为,Qwen3.6-Plus的发布标志着国产大模型评价标准从“知识广度”和“趣味性”转向“稳定性”与“工程化”。当AI模型能够像资深员工一样独立完成任务拆解、规避业务风险并输出系统性方案时,其角色已从对话辅助工具升级为独立的数字生产单元。在数字劳动力快速普及的背景下,企业与个人的核心竞争力正转向如何高效整合和利用这些智能资源。
目前,Qwen3.6-Plus已上线阿里云百炼平台,输入价格低至每百万Tokens 2元;千问3.6基础版则通过悟空、千问APP等渠道向开发者和个人用户开放体验。
