阿里发布首个原生语言世界模型Qwen-AgentWorld，助力通用智能体能力跃升-天脉财经

阿里近日正式推出首个原生语言世界模型（LWM）Qwen-AgentWorld，为AI智能体的研发与训练提供全新解决方案。该模型提供35B-A3B与397B-A17B两种参数规模，核心目标并非降低训练成本或替代真实交互环境，而是通过内部环境模拟增强智能体的决策能力，使其在执行动作前可预判环境反馈。

区别于传统模型训练流程，Qwen-AgentWorld创新性地将环境建模贯穿预训练全周期，从初始的CPT（持续预训练）到后续的SFT（监督微调）及RL（强化学习）阶段均以环境模拟为核心目标。这一设计突破了以往通用基础模型需先完成训练再单独适配环境理解的局限。模型支持同时模拟七类交互场景，涵盖文本类（MCP、搜索引擎、终端、软件环境）与图形界面类（网页、操作系统、安卓系统），通过跨领域知识迁移实现单一模型的多场景覆盖。

在图形界面处理方面，模型采用可渲染代码（如无障碍树XML、HTML标记）替代传统像素帧分析，使纯文本建模即可解析视觉环境。例如在模拟手机系统时，模型能通过代码层级预测点击删除图标后的界面变化；在电脑系统模拟中，可准确预测通过菜单栏执行打印操作的流程；网站交互场景下，则能模拟点击"添加用户"按钮后的仪表盘更新状态。

为验证模型性能，研究团队同步发布配套评测基准AgentWorldBench。该基准整合5个前沿模型在9个成熟评测集的真实交互数据，从格式规范、事实准确性、逻辑一致性、环境真实性及输出质量五个维度构建评估体系。测试结果显示，397B-A17B版本以58.71分的综合得分超越GPT-5.4（58.25分）、Claude Opus 4.8及Gemini 3.1 Pro等主流模型，在终端模拟和软件环境预测领域表现尤为突出。35B-A3B版本经三阶段训练后，整体得分提升8.66分，超越Claude Sonnet 4.6，且在文本与图形界面场景中均保持优势。

深度分析129条文本类预测的思维链后，研究团队发现三种独特推理模式：模型通过"Wait!"信号触发自我修正机制，平均每轮预测中断10.4次以修正事实错误或视角偏差；在搜索场景中，模型能主动屏蔽与查询无关的参考答案，防止信息泄露；面对复杂指令时，模型可构建多步因果链，例如准确预测包含服务器启动、端口监听、管道传输等六个环节的代码执行流程。

该模型已通过GitHub、ModelScope及Hugging Face平台开源，包含35B-A3B版本权重及AgentWorldBench评估工具包。研究团队指出，语言世界建模为智能体训练提供了超越真实环境的可控扩展路径，通过解耦式环境模拟与统一基础模型的双范式探索，有望推动通用智能体突破现有交互能力边界。