在人工智能领域的前沿探索中,小米团队近期取得多项突破性进展,其多篇研究成果成功入选国际顶级会议ICLR 2026。这一会议以推动人工智能理论与方法创新为核心目标,小米团队的入选成果覆盖多模态推理、强化学习、智能体交互、自动驾驶及音频生成等关键方向,展现了该公司在AI技术全栈布局中的深厚积累。
针对强化学习领域长期存在的训练效率瓶颈,小米团队提出的《Shuffle-R1》框架通过动态重组数据流实现突破。该研究创新性引入成对轨迹采样与优势值批次重排序技术,有效解决了多模态大模型训练中的优势坍缩与轨迹沉默问题。实验数据显示,在保持极低计算开销的同时,该框架在多个基准测试中超越现有强化学习基线模型,为复杂场景下的智能决策提供了新范式。
在移动智能体交互领域,《MobileIPL》研究构建了迭代偏好学习框架,通过Thinking-level DPO技术实现思考步骤的精细化优化。其独创的三阶段指令演化机制突破了高质量轨迹数据稀缺的制约,在AITZ等主流GUI-Agent测试中刷新性能纪录。该成果特别在分布外场景中展现出显著增强的鲁棒性,为智能设备的人机交互提供了更可靠的解决方案。
端到端自动驾驶研究方面,《ReCogDrive》项目实现了多技术模块的深度融合。研究团队通过分层认知数据流水线注入驾驶领域知识,结合认知引导扩散规划器生成物理可行轨迹,并首创DiffGRPO强化学习算法直接优化驾驶策略。闭环测试表明,该方案在NAVSIM与Bench2Drive等平台上的表现全面领先现有技术路线,为自动驾驶系统的认知能力提升开辟了新路径。
其他创新成果同样引人注目:《ThinkOmni》研究实现了文本推理能力向视觉、语音等多模态的零成本迁移;《Flow2GAN》通过融合流匹配与对抗生成技术,在保持音频高保真度的同时将合成步数大幅压缩;《WorldSplat》则突破4D动态驾驶场景生成技术,为自动驾驶仿真测试提供更真实的虚拟环境。这些成果共同构成了小米在人工智能领域的技术矩阵,彰显其从基础研究到应用落地的全链条创新能力。


