天脉资讯
财经快讯 价值公司 财经人物 IPO解读 热门赛道 经济解码 科技业界 文化艺术 消费零售 大燕公益 商业快讯

阿里Qwen-VLA入局具身智能:探索通用之路,挑战与机遇并存

2026-06-04来源:快讯编辑:瑞雪

人工智能的发展正从虚拟世界加速向物理世界延伸。过去两年间,AI技术形态持续突破,从文本生成到图像创作,再到视频生成,其认知能力不断逼近人类感知边界。如今,科技企业纷纷将目光投向具身智能领域,试图让AI突破屏幕限制,真正实现与物理环境的交互。这种转变标志着智能体发展进入新阶段——AI不仅要理解语言指令,更要通过机械肢体完成复杂操作。

阿里巴巴通义千问团队推出的Qwen-VLA模型,成为这一领域的重要突破。该模型采用"大脑-小脑"协同架构,其中认知中枢基于Qwen3.5多模态模型构建,负责理解环境与语言指令;动作控制系统则创新性地引入11.5亿参数的扩散模型解码器,专门处理机械臂的连续轨迹生成。这种设计使模型能够直接输出关节角度等物理参数,而非传统VLA模型依赖的视觉预测框架。

机器人行业长期面临碎片化困境:家用机器人只能叠衣服,工业设备仅会分拣物品,不同场景需要定制化算法。这种"专机专用"模式导致研发成本居高不下,阻碍了规模化应用。Qwen-VLA试图通过统一策略模型破解难题,其技术路线将桌面操作、双臂协作等任务抽象为数学问题,实现跨硬件平台的策略复用。测试数据显示,该模型在未接触过的物体抓取任务中,成功率较传统模型提升37%,在动态场景拦截任务中表现尤为突出。

训练这种多模态模型需要海量数据支撑。研究团队构建了包含四类数据的训练集:74.2%来自真实机器人遥操作记录,6%为人类第一视角视频,3.7%通过仿真引擎自动生成,剩余8.5%为通用图文数据。这种组合既保证了动作真实性,又通过合成数据覆盖了长尾场景。例如,仿真系统生成的800万条碰撞轨迹,使模型能应对训练中未出现的复杂接触情况。

技术实现采用四阶段训练法:首先通过文本指令建立动作先验,继而进行多模态对齐训练,然后通过人类示范视频学习标准操作,最后在仿真环境中强化学习纠错能力。这种渐进式训练使模型既能理解"把红色方块放在蓝色圆柱旁边"这类复杂指令,又能适应光线变化等环境干扰。在动态操控评测中,模型对移动物体的拦截成功率达到89%,超越多数专门优化此类场景的传统模型。

尽管取得突破,具身智能仍面临多重挑战。当前物理动作数据规模不足文本数据的万分之一,复杂接触交互场景下的模型健壮性有待提升。视觉、语言、动作的多任务联合训练存在优化冲突,部分纯视觉能力在引入动作生成后出现性能倒退。更重要的是,现有系统缺乏触觉反馈,仅依赖视觉输入难以完成精细操作。长程任务规划也是未解难题,目前评测多集中在十几秒的短任务,数小时级的自主任务分解与故障恢复尚未实现。

Qwen-VLA的实践证明,通过统一基座模型收敛碎片化物理控制的技术路径具有可行性。当算法开始感知重力、摩擦力等物理约束,人工智能才真正踏上改造物理世界的征程。这场变革不仅需要算法创新,更依赖传感器技术、数据采集、仿真系统等多领域的协同突破。