近日,小米在AI领域投下一枚重磅炸弹,正式发布MiMo-V2家族三款全新模型——MiMo-V2-Pro、MiMo-V2-Omni和MiMo-V2-TTS。其中,此前匿名上线OpenRouter并引发广泛关注的Hunter Alpha,被证实为MiMo-V2-Pro的早期测试版本;另一神秘模型Healer Alpha则对应MiMo-V2-Omni。这一消息不仅揭开了此前匿名模型的神秘面纱,更让小米在AI领域的布局浮出水面。
据小米官方披露,Hunter Alpha上线全球最大API聚合平台OpenRouter后,调用量持续攀升,连续多日登顶日榜,累计调用量突破1T tokens。经过一周的迭代优化,正式版MiMo-V2-Pro在长文处理能力和Agent场景稳定性上实现显著提升。雷军在发布会上直言,该模型在榜单表现已超越马斯克旗下xAI的Grok,并透露小米今年在AI领域的研发和资本投入将超过160亿元。
作为家族旗舰,MiMo-V2-Pro专为高强度Agent场景打造,总参数量超1T,激活参数42B,采用混合注意力架构,支持1M超长上下文。该模型在OpenClaw、Claude Code等框架中展现出卓越的端到端任务完成能力,可自主完成复杂工作流编排、长程规划和精准工具调用。官方称其整体体验超越Claude Sonnet 4.6,逼近Claude Opus 4.6,但API定价仅为后者的1/5。技术规格上,MiMo-V2-Pro将混合注意力比例从5:1提升至7:1,在参数规模扩大的同时维持高效推理,并引入轻量级MTP层提升生成速度。
研发团队负责人罗福莉在推特发文透露,MiMo-V2-Pro的训练始于数月前,最初目标是提升长上下文推理效率。她将此次突破称为"安静的突袭",强调从Chat范式向Agent范式的转变速度超出预期。她特别提到,团队通过强制体验"编排式上下文"系统,激发了研究人员的想象力,这种想象力迅速转化为研发推进速度。对于未来规划,她表示模型将在稳定后开源,并总结道:"必须在回报出现前一年就做出战略判断,后训练阶段的敏捷性则依赖产品直觉驱动的极致迭代周期。"
与MiMo-V2-Pro形成互补的是全模态交互模型MiMo-V2-Omni。该模型在音频理解方面支持环境声分类、多说话人分离和长音频连续理解,综合表现超越Gemini 3 Pro;图像理解能力逼近顶尖闭源模型,可处理复杂图表分析;视频理解则实现原生音视频联合输入,具备情境感知与未来推理能力。目前,MiMo-V2-Omni已开放API服务,支持256K上下文,定价为输入0.4美元/百万tokens,输出2美元/百万tokens。
第三款模型MiMo-V2-TTS聚焦高表现力语音生成,采用自研Audio Tokenizer与多码本联合建模架构,经过上亿小时语音数据预训练和多维度强化学习。该模型支持多粒度语音风格控制,既能整体定调也能精准调节局部情绪表达,在韵律自然度、音质稳定性、字词准确性等维度持续优化。得益于多层码本建模,模型可在离散token空间中高保真建模语音,使强化学习奖励信号更直接作用于生成过程。
为推动Agent生态发展,小米宣布将联合OpenClaw、OpenCode等五大开发框架团队,为全球开发者提供MiMo-V2-Pro和MiMo-V2-Omni为期一周的限时免费接口支持。这一举措被视为小米构建AI生产力系统的关键一步,其"全栈模型家族"战略正引发行业关注。此前,Hunter Alpha在Claw-eval测试中击败智谱GLM-5-Turbo的消息,已让市场对小米的AI实力重新评估。
随着小米正式入局,国内大模型竞争格局再生变数。有分析指出,小米的"万亿参数隐形冠军"策略与DeepSeek形成直接对垒。据悉,DeepSeek-V4将于4月发布,该模型在Coding能力和长期记忆方面取得突破,并强化了视觉处理和AI搜索功能。随着各家战略调整和人才流动,今年大模型市场的技术路线之争将更加激烈。