在机器人技术领域的最新突破中,智元机器人公司正式揭晓了其首款通用具身基座模型——智元启元大模型Genie Operator-1(简称GO-1)。这一创新成果不仅标志着机器人智能发展的新里程碑,还预示着具身智能正加速向通用化、开放化与智能化迈进。
GO-1的核心在于其提出的Vision-Language-Latent-Action(ViLLA)框架,该框架巧妙融合了VLM(多模态大模型)与MoE(混合专家)技术。VLM作为主干网络,借助互联网的海量文本与图文数据,赋予了GO-1强大的场景感知与理解能力。而MoE则通过隐动作专家模型和动作专家模型,利用人类操作视频与高质量仿真数据,进一步提升了模型的动作理解与执行能力。
GO-1的五大特点尤为引人注目:采训推一体化设计确保了数据采集、模型训练与推理的无缝衔接;小样本快速泛化能力使得模型能够在极少数据甚至零样本条件下迅速适应新场景与新任务;一脑多形特性意味着GO-1能轻松迁移至不同形态的机器人,实现跨本体应用;持续进化功能则通过数据回流系统,让模型在实际执行中不断学习进步;人类视频学习能力更是增强了模型对人类行为的理解,提升了其智能化水平。
智元机器人的GO-1基于具身领域的数字金字塔构建,从底层的互联网纯文本与图文数据,到上层的人类操作视频、仿真数据,再到顶层的真机示教数据,每一层都为GO-1提供了全面的“基础教育”与“能力培训”。这种多层次的数据融合,使得GO-1能够轻松应对多样化的环境与物体,快速学习并执行新操作。
在实际应用中,GO-1展现出了惊人的表现。用户只需通过简单的语言指令,如“挂衣服”,GO-1便能根据视觉信号与所学知识,拆解任务步骤并精准完成。无论是家庭场景中的倒水、烤吐司,还是商务会议中的拿饮料、拿苹果,GO-1都能迅速响应并高效完成任务。GO-1还能通过数据回流持续进化,不断优化自身性能。
GO-1的成功发布,不仅解决了具身智能面临的场景与物体泛化能力不足、语言理解能力缺失、新技能学习缓慢以及跨本体部署困难等问题,更为机器人广泛应用于家庭、办公、商业及工业等领域提供了强大的技术支持。随着技术的不断进步与应用的不断拓展,GO-1将引领具身智能迈向更加广阔的未来。