智元机器人发布通用具身基座大模型GO-1,引领具身智能新纪元
近日,智元机器人在科技创新领域迈出重要一步,正式发布其首个通用具身基座模型——智元启元大模型Genie Operator-1(简称GO-1)。这一突破性成果标志着具身智能向通用化、开放化与智能化方向加速迈进。
GO-1的核心在于其创新的Vision-Language-Latent-Action(ViLLA)框架,该框架巧妙融合了VLM(多模态大模型)与MoE(混合专家)技术。VLM作为主干网络,基于互联网大规模纯文本和图文数据训练,赋予了GO-1强大的场景感知与理解能力。而MoE则通过隐动作专家模型和动作专家模型,分别利用人类操作和跨本体操作视频以及高质量仿真和真机数据,实现了动作的理解与精细执行能力。
GO-1的五大特点尤为引人注目:采训推一体化设计,实现了数据采集、模型训练与推理的无缝衔接;小样本快速泛化能力,使得模型能够在极少数据甚至零样本情况下适应新场景与新任务;一脑多形特性,让GO-1能够轻松迁移至不同机器人形态,快速适配各种本体;持续进化机制,借助智元的数据回流系统,模型能够从实际执行中遇到的问题数据中不断学习与进化;人类视频学习能力,通过结合互联网视频和真实人类示范,增强了模型对人类行为的理解。
在构建过程中,GO-1基于具身领域的数字金字塔架构,从底层的大规模纯文本与图文数据,到人类操作/跨本体视频,再到仿真数据与真机示教数据,形成了全面的“基础教育”与“能力培训”。这一设计使得GO-1能够轻松应对多样化的环境与物体,快速学习新操作。
ViLLA框架的引入,使得GO-1能够将多相机视觉信号与人类语言指令直接转化为机器人的动作执行。与Vision-Language-Action(VLA)模型相比,ViLLA通过预测隐式动作标记,有效弥合了图像-文本输入与机器人执行动作之间的鸿沟。例如,当用户用日常语言向机器人发出“挂衣服”的指令时,GO-1能够准确理解指令含义,拆解任务步骤,并根据所学知识和仿真经验,精准完成挂衣动作。
GO-1的应用场景广泛,从家庭生活的准备餐食、收拾桌面,到办公和商业场景的接待访客、发放物品,再到工业等更多领域的操作任务,都能轻松应对。GO-1还具备持续进化的能力,能够在实际执行中遇到问题后,从数据回流中不断学习,直至成功完成任务。例如,在制作咖啡过程中,若机器人不慎将杯子放歪,GO-1将能够从这一错误中学习,并在后续任务中避免类似情况发生。