天脉资讯
财经快讯 价值公司 财经人物 IPO解读 热门赛道 经济解码 科技业界 文化艺术 消费零售 大燕公益 商业快讯

马斯克盛赞!Kimi 论文革新残差连接 深度学习底层范式迎新变

2026-03-18来源:天脉网编辑:瑞雪

在人工智能领域,底层架构的突破往往比上层应用的优化更具颠覆性。近日,中国AI公司月之暗面(Moonshot AI)发布的技术报告《Attention Residuals》(注意力残差)引发全球关注,其提出的创新架构在同等算力下可将模型性能提升25%,这项突破被OpenAI前核心成员Jerry Tworek誉为"深度学习2.0的开端"。

这项技术直指现代大模型的核心组件——残差连接(Residual Connections)。自2015年ResNet论文提出该设计以来,这种通过"直通道"传递原始输入的机制已成为深度学习的基石。但月之暗面团队发现,传统残差连接存在根本性缺陷:随着网络加深,各层贡献被稀释,导致大量中间层实质上处于"闲置"状态。研究显示,某些大模型中超过30%的层可直接移除而不影响性能。

创新的关键在于将注意力机制从横向的序列处理维度,旋转90度应用于纵向的深度维度。团队为每层引入可学习的"查询向量",使模型能动态决定参考哪些前序层的输出。这种设计仅增加约100行代码,却让480亿参数模型的验证损失显著下降。在博士级科学推理GPQA-Diamond基准测试中,新架构展现出7.5%的性能飞跃,数学和代码生成任务也有3%以上的提升。

工程实现上的突破同样值得关注。为解决全量注意力带来的内存爆炸问题,团队开发了Block AttnRes方案,将网络划分为多个模块,模块间采用稀疏注意力连接。通过跨阶段缓存机制和两阶段计算策略,训练开销控制在4%以内,推理延迟增加不超过2%。这种设计哲学在理论优雅性与工程实用性之间取得了平衡——当测试更激进的动态查询向量方案时,虽然性能进一步提升,但因会增加推理延迟而被放弃。

这项突破的意义远超技术本身。当行业普遍聚焦于数据规模和模型参数量时,月之暗面选择回归深度学习的基础设施进行重构。研究显示,新架构改变了模型对深度与宽度的资源分配偏好,使增加网络层数真正产生价值,而非简单的参数堆砌。这种方法论的转变,可能预示着深度学习进入新的发展阶段——当现有框架的优化空间逐渐耗尽,重新审视那些被视为"已解决问题"的基础组件,或许能打开新的性能天花板。

斑马智行二次递表港交所 阿里巴巴、上汽为股东
智能座舱领域迎来重要动态,斑马智能信息技术股份有限公司(以下简称“斑马智行”)正式向港交所递交上市申请,德意志银行、中金公司、国泰君安国际共同担任联席保荐人。值得一提的是,这并非斑马智行首次尝试登陆港交所,早在2025年8月,该公司就已提交过上市申请,此次是再度向IPO发起冲刺。

2026-03-18