在人工智能的发展历程中,一个核心议题始终萦绕:智能的根源何在?人类智能源自对世界的不断探索,在与物理环境的互动中逐步积累并进化;而机器智能则基于人类有限的知识积累,仅凭这些似乎难以真正融入物理世界。
随着单一模态智能的发展触及天花板,人工智能的下一步演进路径成为业界关注的焦点。
在2025年世界人工智能大会主论坛上,商汤科技董事长兼CEO徐立发表了题为《人工智能的十年演进》的主旨演讲,分享了商汤科技对于人工智能发展的深刻洞察。
徐立指出,过去的十年是人工智能认知变化最为迅速的十年,也是商汤科技成立的十年。在这十年间,人工智能经历了从感知AI到生成式AI的重大跃迁。谷歌搜索趋势显示,人工智能的热度在几个关键时间点实现了显著提升。
在感知AI阶段,深度学习在视觉领域的兴起推动了第一波认知升级和产业落地。大量标注数据被用于训练垂直领域模型,如商汤方舟产品平台集成了上万个感知模型,能够完成多种识别任务。然而,这种智能主要依赖于人工标注,泛化能力受限。
进入生成式AI阶段后,情况发生了根本性变化。生成式AI根植于自然语言,互联网文本天然蕴含知识,无需后期标注加工。高知识密度促成了模型的强大泛化与通用能力,成为当今通用AI发展的关键基石。然而,随着数据量的快速增长,标注数据将面临耗尽的风险,自然语言数据也可能在不久的将来被消耗殆尽。
面对这一挑战,商汤科技选择了一条自然路径:融合视觉感知与语言能力,构建原生多模态系统。通过引入大量图文数据和高阶多模态思维链,模型能力得到持续激发。这种多模态思维链不仅提升了模型的文本推理能力,还增强了其对空间和物理世界的理解力。
然而,徐立也指出了人工智能面临的根本性问题:当书本与互联网知识穷尽时,下一代的智能将从何处获取?他提出,与现实世界的互动是智能增长的重要源泉。因此,商汤科技致力于开发能够理解并生成统一世界模型的AI系统。
为此,商汤科技推出了“开悟”世界模型产品平台。该平台能够基于自然语言描述生成符合3D物理规则的特定视角视频片段。通过这一功能,用户可以在虚拟环境中探索真实世界的场景,为自动驾驶、机器人等领域提供强大的模拟演练平台。
“开悟”世界模型不仅解决了主动交互数据稀缺的难题,还为AI通过模拟进行真实世界探索提供了可能。徐立表示,随着基模型能力的增强和对世界理解的加深,理解与生成的统一将开创新的交互可能性。