蚂蚁百灵Ling-2.6-flash模型揭晓：高效推理，百万字长篇轻松生成-天脉财经

蚂蚁集团旗下百灵团队近日宣布，其研发的Instruct模型Ling-2.6-flash正式对外发布。这款总参数量达104B、激活参数7.4B的模型此前以匿名形式在OpenRouter平台测试，连续多日占据热榜首位，日均tokens调用量突破百亿级别，引发开发者社区广泛关注。

技术团队通过引入混合线性架构，使模型在4卡H20硬件环境下实现每秒340tokens的推理速度，Prefill吞吐量达到同类产品Nemotron-3-Super的2.2倍。在token效率优化方面，该模型在Artificial Analysis完整评测中仅消耗15M tokens，较主流模型降低90%以上，形成显著的智效比优势。针对Agent场景的定向增强训练，使其在工具调用、多步规划等核心能力上达到同尺寸模型领先水平。

实测数据显示，在前端开发任务中，模型能自动规划网站核心组件并添加明暗模式切换等扩展功能，1分钟内完成原型开发。当用户要求修改主色调时，模型可在10秒内精准定位并调整相关代码，较传统模型几分钟的修改耗时形成质的飞跃。在长文本生成场景，基于该模型的长篇写作助手可实现每秒200+tokens的稳定输出，百万字级作品仅需数十分钟即可完成。

架构设计层面，研发团队在Ling 2.0基础上创新采用MLA+Lightning Linear混合架构，配合高度稀疏化的MoE架构，使模型在长上下文处理场景中保持优势。通过系统性优化BF16、FP8等精度模式的推理链路，模型在真实交互场景中的系统吞吐和单用户TPS显著提升，首字响应时间缩短至行业领先水平。

在强化学习训练阶段，团队构建大规模高保真交互环境，重点提升模型的指令遵循、工具调用和长程执行能力。评测数据显示，该模型在BFCL-V4、TAU2-bench等专业榜单中表现优异，在Claude Code、Kilo Code等主流开发框架中展现出良好兼容性。尽管在复杂指令遵循和中英双语切换方面仍有优化空间，但其在通用知识、数学推理等基础能力上已对齐国际顶尖水平。

目前，Ling-2.6-flash已在OpenRouter平台及官方渠道开放免费API调用服务，首周提供全量免费额度，后续将维持每日50万tokens的免费配额，超出部分按输入0.6元/百万tokens、输出1.8元/百万tokens计费。BF16、FP8、INT4等量化版本将于近期开源，为开发者提供更多部署选择。