阿里开源首个原生语言世界模型Qwen-AgentWorld，赋能智能体跨领域交互新突破-天脉财经

阿里近日宣布推出全新原生语言世界模型Qwen-AgentWorld，这是首个专为AI智能体研发设计的语言世界模型，提供35B-A3B和397B-A17B两种参数规模版本。与传统模型不同，Qwen-AgentWorld的核心目标并非降低训练成本或替代真实交互环境，而是通过内部环境模拟增强通用智能体的决策能力，使其在执行动作前能够预判环境反馈。

该模型的创新性体现在训练流程设计上。研究团队从预训练阶段就将环境建模纳入核心目标，贯穿CPT（持续预训练）、SFT（监督微调）和RL（强化学习）全流程。此前通用大模型通常在完成基础训练后，才通过后训练阶段补充环境理解能力，而Qwen-AgentWorld通过端到端训练，使模型天然具备环境感知与预测能力。更引人注目的是，单一模型即可同时支持文本类（MCP、Search、Terminal、SWE）和GUI类（Web、OS、Android）共7类交互环境，实现跨领域知识迁移。例如在模拟手机系统时，模型能准确预测点击删除图标后的界面变化；在电脑系统模拟中，可完整呈现从菜单栏选择"文件-打印"的操作路径。

为系统评估模型性能，研究团队同步推出AgentWorldBench评测基准。该基准基于5个前沿模型在9个成熟评测集的真实交互数据构建，采用开放式评分标准，从格式规范、事实准确性、逻辑一致性、环境真实性和输出质量五个维度综合评估。测试结果显示，397B-A17B版本以58.71分的综合得分超越GPT-5.4（58.25分）、Claude Opus 4.8和Gemini 3.1 Pro等主流模型，尤其在Terminal代码执行和SWE工具调用场景中表现突出。35B-A3B版本通过三阶段训练流水线优化后，得分提升8.66分，超越Claude Sonnet 4.6，且在文本和GUI两类场景中均保持优势。

在深度分析129条思维链数据时，研究人员发现模型涌现出三种独特推理模式。其一是自我修正机制，模型通过"Wait!"信号触发中断，主动修正事实错误或视角偏差，在测试中平均每轮出现10.4次自我纠错。其二是信息泄露防护，在搜索场景中，模型能识别查询与答案的无关性，避免泄露目标信息。其三是多步因果推理，例如预测"curl -s localhost:3000 | python3 -m json.tool"命令时，模型能分解出服务器未启动、端口无监听、curl失败等6个中间步骤。这些能力使模型在处理复杂任务时展现出接近人类的问题拆解能力。

目前，阿里已开源35B-A3B模型权重和AgentWorldBench评测基准，开发者可通过GitHub、ModelScope和Hugging Face平台获取资源。这项研究突破了传统智能体训练对真实环境的依赖，通过语言建模构建可控的虚拟交互空间，为通用智能体发展开辟了新路径。特别是在跨领域任务处理中，模型展现出的知识迁移能力，预示着未来AI智能体将具备更强的环境适应性和任务泛化能力。