天脉资讯
财经快讯 价值公司 财经人物 IPO解读 热门赛道 经济解码 科技业界 文化艺术 消费零售 大燕公益 商业快讯

智元机器人ACoT-VLA架构入选CVPR 2026并开源 助力攻克操控难题

2026-03-11来源:快讯编辑:瑞雪

在计算机视觉与机器人技术交叉领域,一项突破性研究成果引发全球关注。智元机器人(AGIBOT)与北京航空航天大学联合研发的ACoT-VLA架构,凭借其创新性思维范式成功入选计算机视觉顶会CVPR 2026。该架构突破传统视觉语言动作模型(VLA)的局限,首次将推理过程从语义空间延伸至动作空间,为机器人复杂操作任务提供了全新解决方案。

传统VLA模型长期面临"语义理解强、动作执行弱"的矛盾,尤其在需要多步骤协同的操控场景中表现欠佳。研究团队提出的动作链思维(Action Chain-of-Thought)范式,通过构建动作序列的显性推理机制,使机器人能够像人类一样分解任务步骤、评估动作效果并动态调整策略。实验数据显示,该架构在工具使用、物体操作等复杂任务中的成功率较传统模型提升42%,推理效率提高3倍。

作为AGIBOT WORLD CHALLENGE机器人挑战赛的官方基线模型,ACoT-VLA已实现完整开源。开发者可基于该架构快速构建机器人操控系统,其模块化设计支持从仿真环境到真实场景的无缝迁移。目前,全球已有超过300个研究团队下载使用该模型,在工业装配、医疗辅助等领域开展应用探索。

这项成果标志着机器人智能体从"被动执行"向"主动规划"的关键跨越。研究团队透露,下一代架构将整合触觉感知与物理推理能力,进一步缩小虚拟仿真与真实世界的性能差距。随着开源社区的持续完善,ACoT-VLA有望成为机器人复杂操作任务的基础性技术平台。

谷歌Workspace更新Gemini AI助手,助力办公实现文档表格PPT自动生成
IT之家 3 月 11 日消息,据科技媒体 Engadget 昨天报道,谷歌正在 Workspace 应用中更新 Gemini AI助手,能够让 AI 在 Docs 文稿中生成初稿、在 Sheets 表格中…

2026-03-11

谷歌Gemini Embedding 2登场:全模态融合,开启AI嵌入技术新篇章
3月10日,谷歌DeepMind推出Gemini Embedding2,这是该公司首个原生多模态嵌入模型,将文本、图像、视频、音频及文档统一映射至单一嵌入空间,标志着AI嵌入技术迈入全模态融合的新阶段。 谷…

2026-03-11

三星AI战略加速布局:整合多模型入手机,欲抢占市场先机
据金融时报报道,三星电子在人工智能(AI)领域动作频频,展现出积极布局的态势,意在通过与更多AI公司合作,整合AI模型至智能手机,削弱苹果在全球市场的领先地位。上周,三星发布了第三代AI手机Galaxy S…

2026-03-11

电子书阅读器怎么选?科大讯飞办公本X5Pro等五款热销产品功能性能大比拼
今天,我们将对比几款市场上热销的电子书阅读器,特别是科大讯飞办公本X5Pro/X5,看看它在众多选择中表现如何。其他品牌在某些方面也有其独特之处,但在整体性价比和多功能性上,科大讯飞办公本X5Pro/X5无疑…

2026-03-10