天脉资讯
财经快讯 价值公司 财经人物 IPO解读 热门赛道 经济解码 科技业界 文化艺术 消费零售 大燕公益 商业快讯

具身智能新突破:LWD系统助力机器人真实世界“自主进化”

2026-05-02来源:快讯编辑:瑞雪

具身智能发展正面临关键瓶颈——真实世界数据与经验的匮乏,成为制约其迈向规模化应用的核心挑战。尽管VLA等大模型在机器人预训练阶段取得突破,但当机器人进入真实场景时,模型能力提升仍高度依赖人工标注与重复训练,难以应对物理世界的复杂性与动态性。这一现状表明,具身智能尚未突破“实验室到现实”的临界点,而突破的关键在于获取大规模、高质量的真实交互数据。

针对这一难题,上海创智学院与智元具身研究中心联合提出LWD(Learning While Deploying)大规模强化学习训练系统,尝试将“部署”过程转化为持续学习的核心环节。该系统通过构建真实世界数据闭环,让机器人在执行任务的同时自主生成学习信号,形成“执行-反馈-优化”的自主进化链条。这一方案跳出了传统依赖人工示教或仿真数据的局限,为具身智能的规模化落地提供了新路径。

LWD的核心创新在于构建了强化学习驱动的闭环数据飞轮。在真实任务中,机器人集群产生的所有交互数据——包括成功轨迹、试错恢复过程甚至人类引导的失败案例——均被统一回传至云端共享缓冲区。强化学习机制将这些传统意义上的“无效数据”转化为优化模型的关键信号,使机器人能够从错误中学习风险规避策略,从成功中提炼通用操作模式。随着部署规模扩大,数据飞轮加速运转,云端更新的策略定期下发至终端,形成持续优化的自主循环。

为应对真实世界数据的复杂性,LWD引入了分布隐式价值学习(DIVL)算法。传统算法通过单一评分衡量机器人表现,在动态环境中易产生误判;而DIVL通过分析动作的概率分布,使机器人能够理解不同操作的风险等级与潜在收益。例如,在泡茶任务中,机器人可通过分析水温、时间等变量的分布特征,自主判断当前动作的合理性,即使缺乏明确奖励信号也能持续优化策略。这一突破有效解决了真实场景中奖励稀疏、评价模糊的难题。

针对VLA模型多步决策的特点,LWD结合Q-learning with Adjoint Matching(QAM)技术,优化了策略更新路径。传统方法需全局重推策略,计算成本高且易偏离目标;QAM则通过局部参数调整实现快速迭代,使机器人能够在保持任务连续性的同时高效学习。这一改进显著提升了大规模部署时的学习效率,为复杂长程任务的突破奠定了基础。

在智元G1双臂机器人集群的实测中,LWD展现了突破性表现。测试涵盖商超动态补货、泡茶、调酒等八项多模态任务,其中长程操作任务持续时间达5-8分钟,涉及数十个连续物理交互步骤。实验数据显示,LWD训练的通用策略在所有任务中平均成功率达0.95,较传统行为克隆方法提升25%,较先进离线强化学习基线提升9-13%。尤其在调酒、装鞋等长程任务中,LWD通过中间错误恢复与长期信用分配机制,实现了成功率的大幅跃升,验证了真实世界经验持续学习对复杂操作的关键作用。

LWD的提出标志着具身智能能力迭代方式的范式转变。传统模式下,“部署”被视为模型训练的终点;而LWD证明,自主改进应成为机器人策略的内在属性。通过将学习过程延伸至真实场景,机器人能够突破人工标注数据的限制,从物理世界的无序交互中自主提取优化信号。这一转变不仅推动了算法框架的升级,更为具身智能在开放环境中的商业化应用开辟了新可能——只有具备持续进化能力的机器人,才能真正融入千行百业的复杂场景,释放长期商业价值。