在北京智源大会的现场,一场关于人工智能技术未来走向的讨论正热烈展开。全球AI竞争的焦点正悄然转变——从虚拟世界的内容创造,迈向物理世界的真实互动。这一转变背后,是机器人技术突破关键瓶颈的迫切需求,也是人工智能深入实体经济、解决现实问题的必经之路。
想象这样一个场景:深夜,小女孩在卧室熟睡,厨房传来洗碗的嘈杂声。父亲没有说话,只是轻轻挥手,母亲便心领神会,起身关上卧室门。这一看似简单的动作,实则蕴含着机器人难以跨越的能力鸿沟——理解物理世界的复杂信息并做出决策。未来,机器人若想具备类似能力,依赖的正是“世界模型”这一核心技术。
在本次大会上,智源研究院发布了世界模型的最新成果——悟界·Physis-v0.1和悟界·RoboBrain Orca。悟界·Physis-v0.1作为全球首款通用世界基座模型,旨在构建真实物理世界的人工智能底层引擎。它弥补了主流模型在物理规则理解、推演结果可信度及长程记忆方面的不足,实现了物理交互、感知与决策的统一,显著提升了AI在物理世界中的推理能力。而悟界·RoboBrain Orca则专注于物理状态预测,推动AI从文本理解迈向物理世界感知与交互。
智源研究院院长王仲远解释道,世界模型是面向物理世界的基座模型。长期以来,AI技术多停留在聊天、写代码等虚拟层面,但在机器人作业、自动驾驶等领域,对物理规律的深刻理解与因果推理能力至关重要。他举例说,视频模型能生成“天上飞的猪”,这在数字世界或许有趣,但在物理世界却是灾难。因此,世界模型需具备物理正确性、动作因果性、长程一致性和通用泛化性等核心能力。
物理正确性要求模型理解并遵守真实物理规律;动作因果性需模型理解动作与状态变化的因果关系;长程可推演性指模型在长时间跨度内保持逻辑连贯;通用泛化性则意味着一个基座模型能适配多种场景,如指挥机器人、自动驾驶预判行人意图或辅助新药研发。王仲远强调,真正的世界模型必须能理解和推理真实物理世界的时间、空间与规律,并具备主动交互能力。
当前,世界模型仍处于发展早期,但已成为全球科技巨头竞逐的焦点。谷歌、英伟达等企业纷纷加大投入,试图在这片万亿级市场中占据先机。据摩根士丹利预测,到2035年,世界模型赋能的产业规模将达10万亿美元;国元证券则提出,2030年全球搭载世界模型的机器人市场将突破3万亿元,成为AI增长的核心引擎。
在这场竞赛中,中国科研界已不再仅仅是跟随者。作为全球最早布局世界模型的机构之一,智源研究院的步伐坚定而清晰。从2023年图灵奖得主杨立昆提出新一代世界模型概念,到2024年明确世界模型为下一代大模型技术,再到2025年推出全球首个原生多模态世界模型悟界·Emu3.5,智源研究院不断突破技术边界。如今,悟界·Physis-v0.1与悟界·RoboBrain Orca的发布,再次证明了中国科研团队在世界模型领域的领先地位。
王仲远表示,与大语言模型时代海外巨头的先发优势不同,在世界模型这一全新赛道上,中国科研界已拥有独立且原创的技术路径,甚至开始定义问题与技术路线本身。“在这片无人区,中国正与世界处于同一起跑线。”他说。



