具身智能新突破：LWD系统助力机器人真实世界“自主进化”-天脉财经

具身智能发展正面临关键瓶颈——真实世界数据与经验的匮乏，成为制约其迈向规模化应用的核心挑战。尽管VLA等大模型在机器人预训练阶段取得突破，但当机器人进入真实场景时，模型能力提升仍高度依赖人工标注与重复训练，难以应对物理世界的复杂性与动态性。这一现状表明，具身智能尚未突破“实验室到现实”的临界点，而突破的关键在于获取大规模、高质量的真实交互数据。

针对这一难题，上海创智学院与智元具身研究中心联合提出LWD（Learning While Deploying）大规模强化学习训练系统，尝试将“部署”过程转化为持续学习的核心环节。该系统通过构建真实世界数据闭环，让机器人在执行任务的同时自主生成学习信号，形成“执行-反馈-优化”的自主进化链条。这一方案跳出了传统依赖人工示教或仿真数据的局限，为具身智能的规模化落地提供了新路径。

LWD的核心创新在于构建了强化学习驱动的闭环数据飞轮。在真实任务中，机器人集群产生的所有交互数据——包括成功轨迹、试错恢复过程甚至人类引导的失败案例——均被统一回传至云端共享缓冲区。强化学习机制将这些传统意义上的“无效数据”转化为优化模型的关键信号，使机器人能够从错误中学习风险规避策略，从成功中提炼通用操作模式。随着部署规模扩大，数据飞轮加速运转，云端更新的策略定期下发至终端，形成持续优化的自主循环。

为应对真实世界数据的复杂性，LWD引入了分布隐式价值学习（DIVL）算法。传统算法通过单一评分衡量机器人表现，在动态环境中易产生误判；而DIVL通过分析动作的概率分布，使机器人能够理解不同操作的风险等级与潜在收益。例如，在泡茶任务中，机器人可通过分析水温、时间等变量的分布特征，自主判断当前动作的合理性，即使缺乏明确奖励信号也能持续优化策略。这一突破有效解决了真实场景中奖励稀疏、评价模糊的难题。

针对VLA模型多步决策的特点，LWD结合Q-learning with Adjoint Matching（QAM）技术，优化了策略更新路径。传统方法需全局重推策略，计算成本高且易偏离目标；QAM则通过局部参数调整实现快速迭代，使机器人能够在保持任务连续性的同时高效学习。这一改进显著提升了大规模部署时的学习效率，为复杂长程任务的突破奠定了基础。

在智元G1双臂机器人集群的实测中，LWD展现了突破性表现。测试涵盖商超动态补货、泡茶、调酒等八项多模态任务，其中长程操作任务持续时间达5-8分钟，涉及数十个连续物理交互步骤。实验数据显示，LWD训练的通用策略在所有任务中平均成功率达0.95，较传统行为克隆方法提升25%，较先进离线强化学习基线提升9-13%。尤其在调酒、装鞋等长程任务中，LWD通过中间错误恢复与长期信用分配机制，实现了成功率的大幅跃升，验证了真实世界经验持续学习对复杂操作的关键作用。

LWD的提出标志着具身智能能力迭代方式的范式转变。传统模式下，“部署”被视为模型训练的终点；而LWD证明，自主改进应成为机器人策略的内在属性。通过将学习过程延伸至真实场景，机器人能够突破人工标注数据的限制，从物理世界的无序交互中自主提取优化信号。这一转变不仅推动了算法框架的升级，更为具身智能在开放环境中的商业化应用开辟了新可能——只有具备持续进化能力的机器人，才能真正融入千行百业的复杂场景，释放长期商业价值。