当前,高质量数据匮乏已成为具身智能发展面临的核心难题,也是人形机器人“大脑”进化的关键阻碍。这一瓶颈问题,正引发行业内的广泛关注与深度思考。
在冲刺A股“人形机器人第一股”的征程中,宇树科技在其披露的招股书里明确提及了这一问题。招股书显示,宇树科技计划搭建大规模真实数据集、开发高性价比遥操系统、建立自动化标注机制,以形成“数据飞轮”。这一系列规划,体现了人形机器人头部企业对“大脑”瓶颈的前瞻性布局,释放出行业发展的重要信号:当行业的关注点从“能跑能跳”转向“能干活”时,数据采集能力的重要性超越了硬件性能,成为新的竞争分水岭。谁具备规模化、高质量的真机数据生产能力,谁就能在“大脑”进化竞赛中抢占先机。
为解决高质量数据规模化生产难题,以乐聚机器人为代表的企业提出了全新的产业级基础设施构想——人形机器人训练场。训练场并非简单的场地堆砌,而是一个系统性工程。它集成了标准化数据采集流程、多模态传感器系统、统一数据格式与接口,以及高效数据标注与管理平台。
若将真机数据比作推动产业发展的“石油”,那么训练场就是规模化、系统化生产这一核心燃料的“数据油田”与“精炼厂”。训练场的核心价值在于从根源上解决行业高质量数据供给不足的问题。目前,全球开源的真机数据时长,对于训练大模型所需的亿级参数而言远远不够。而通过规模化、流程化的训练场布局,数据产量有望大幅提升,从根本上解决“没数据可训”的困境。
训练场还具有多方面的重要作用。它降低了全行业的研发门槛和重复投入,如同“共享工厂”一般,让各方按需使用数据和算力,使有限资源能够聚焦于算法模型的创新。同时,训练场加速了具身模型迭代与场景落地的闭环。数据采集、模型训练、算法部署、效果验证可在同一空间内快速循环,实现“边采边训、即训即用”的敏捷迭代。训练场能够全面加速人形机器人的产业规模化进程。其训练出的基础模型具备更强的泛化能力,降低了对场景定制化开发的依赖,削减了单台机器人的投入成本。而且,训练场的兴起会伴随数据采集、标注、质检等全流程标准的制定,为行业规范的建立提供实践基础。
在国家战略的推动下,训练场正从概念逐步走向现实,从零星试点向网络化布局拓展。乐聚机器人凭借先发优势,成为国内具身真机数据领域的标杆企业,为行业提供了可借鉴的范本。目前,全国已规划建设14个人形机器人训练场,其中9个由乐聚参与建设,包括北京全国最大规模的训练场,形成了“全国核心+区域覆盖”的基建格局。
这些训练场针对不同场景进行专业化分工,又通过统一的数据平台实现互联互通。依托这一网络,乐聚实现了年产2500万条真机数据的规模化产能,成为行业数据供给的重要力量。更值得关注的是乐聚在数据开放方面的举措。其LET数据集开源了超过60000分钟的高质量真机数据,全平台总下载量突破100万次,成为行业公认的优质数据资源。在开放原子开源基金会的指导下,乐聚还牵头建设了国家级具身智能开源数据集社区。这表明,真机数据的价值在于流通,当更多开发者、科研团队和企业能够携手研究,整个行业的技术迭代速度将得到重新定义。
在标准建设层面,乐聚积极参与规则制定。公司参与了国家级标准训练场试点,申请并参与7项行业标准。这一布局能够将乐聚的一线实践经验融入标准制定过程,有望转化为可推广的行业共识。从训练场网络布局,到数据集开源,再到标准建设,乐聚构建了一个覆盖“基建—数据—生态—标准”的全链路真机数据体系,旨在向全行业开放基础设施能力,推动人形机器人产业的协同发展。
随着具身智能数据规模化元年的开启,乐聚的实践让行业认识到,真机数据训练场不仅是数据采集的基地,更是连接技术、企业与场景的枢纽,是推动人形机器人规模化商业化的关键基础设施。人形机器人产业的发展已不再局限于单一技术的突破,而是需要全产业链、全基础设施的协同共进。随着真机数据生态的持续完善,人形机器人有望突破“大脑”瓶颈,从实验室走向千行百业。


