马斯克盛赞！Kimi 论文革新残差连接深度学习底层范式迎新变-天脉财经

在人工智能领域，底层架构的突破往往比上层应用的优化更具颠覆性。近日，中国AI公司月之暗面（Moonshot AI）发布的技术报告《Attention Residuals》（注意力残差）引发全球关注，其提出的创新架构在同等算力下可将模型性能提升25%，这项突破被OpenAI前核心成员Jerry Tworek誉为"深度学习2.0的开端"。

这项技术直指现代大模型的核心组件——残差连接（Residual Connections）。自2015年ResNet论文提出该设计以来，这种通过"直通道"传递原始输入的机制已成为深度学习的基石。但月之暗面团队发现，传统残差连接存在根本性缺陷：随着网络加深，各层贡献被稀释，导致大量中间层实质上处于"闲置"状态。研究显示，某些大模型中超过30%的层可直接移除而不影响性能。

创新的关键在于将注意力机制从横向的序列处理维度，旋转90度应用于纵向的深度维度。团队为每层引入可学习的"查询向量"，使模型能动态决定参考哪些前序层的输出。这种设计仅增加约100行代码，却让480亿参数模型的验证损失显著下降。在博士级科学推理GPQA-Diamond基准测试中，新架构展现出7.5%的性能飞跃，数学和代码生成任务也有3%以上的提升。

工程实现上的突破同样值得关注。为解决全量注意力带来的内存爆炸问题，团队开发了Block AttnRes方案，将网络划分为多个模块，模块间采用稀疏注意力连接。通过跨阶段缓存机制和两阶段计算策略，训练开销控制在4%以内，推理延迟增加不超过2%。这种设计哲学在理论优雅性与工程实用性之间取得了平衡——当测试更激进的动态查询向量方案时，虽然性能进一步提升，但因会增加推理延迟而被放弃。

这项突破的意义远超技术本身。当行业普遍聚焦于数据规模和模型参数量时，月之暗面选择回归深度学习的基础设施进行重构。研究显示，新架构改变了模型对深度与宽度的资源分配偏好，使增加网络层数真正产生价值，而非简单的参数堆砌。这种方法论的转变，可能预示着深度学习进入新的发展阶段——当现有框架的优化空间逐渐耗尽，重新审视那些被视为"已解决问题"的基础组件，或许能打开新的性能天花板。

马斯克盛赞！Kimi 论文革新残差连接 深度学习底层范式迎新变

马斯克盛赞！Kimi 论文革新残差连接深度学习底层范式迎新变