打破技术壁垒！小米发布开源VLA模型，消费级显卡实现机器人流畅运行-天脉财经

小米机器人团队今日宣布，正式发布并开源全新具身智能VLA模型——Xiaomi-Robotics-0，其真机运行画面同步公开。这一成果标志着小米在机器人领域实现关键突破，以47亿参数规模、视觉语言理解与高性能实时执行能力的结合，在三大主流仿真测试中全面超越行业标杆，斩获全项SOTA（当前最先进水平），并在真实机器人上实现流畅动作执行。

传统机器人模型长期面临两大核心难题：一是推理延迟高导致动作断层，模型在真实环境中反应迟缓，难以完成连贯操作；二是硬件门槛过高，依赖专业显卡运行，限制了技术普及。小米此次发布的模型通过自研Mixture-of-Transformers（MoT）混合架构，创新性采用“双脑协同系统”破解困局。其中，视觉语言大脑（VLM）负责理解模糊指令与环境感知，动作执行小脑（DiT）则专注于生成流畅动作轨迹，二者通过流匹配技术实现精准协同，从根源上消除机械卡顿现象。

技术团队设计的两阶段训练方案进一步强化模型性能。初期跨模态预训练确保模型在掌握动作技能的同时，保留物体识别、视觉问答等基础能力；后期通过异步推理模式与Clean Action Prefix技术，解决真机运行中的动作断层问题，配合Λ-shape Attention Mask机制提升环境适应力。实测显示，该模型在分拣积木、拆解大块积木、叠放毛巾等任务中表现卓越，尤其能主动整理多余毛巾，展现对柔性物体的精准操控能力。

在Libero、Calvin、SimplerEnv三大国际测试集中，Xiaomi-Robotics-0对标30余款主流模型，以全项SOTA成绩稳居行业第一梯队。其颠覆性优势在于支持消费级显卡实时推理，普通开发者无需昂贵设备即可运行模型，这一特性直接打破高端技术垄断。小米同步开放技术主页、GitHub代码及Hugging Face模型权重，全球开发者可自由获取资源进行二次开发，推动具身智能技术加速迭代。

雷军在社交平台透露，小米已持续深耕机器人领域多年，目前正面向全球招募顶尖人才，团队正全力研发下一代技术。此次发布的成果仅是阶段性突破，未来将持续探索机器人技术的边界。随着Xiaomi-Robotics-0的开源，原本局限于实验室的高端技术正走向开放生态，为行业创新注入新动能。