天脉资讯
财经快讯 价值公司 财经人物 IPO解读 热门赛道 经济解码 科技业界 文化艺术 消费零售 大燕公益 商业快讯

Kimi新架构引硅谷热议:马斯克点赞Karpathy锐评,深度学习迎变革?

2026-03-17来源:快讯编辑:瑞雪

传统残差结构自2015年提出以来,始终是神经网络加深的基石。但当大模型层数突破数百层后,这种"一刀切"的信息叠加方式暴露出致命缺陷:所有层级输出以固定权重涌入主干路径,导致早期提取的关键特征被后续海量信息淹没。研究团队通过实验发现,在PreNorm架构下,模型隐藏状态范数随深度呈指数增长,迫使深层网络必须产生极大输出才能获得"发言权",这种机制不仅造成参数浪费,更使梯度分布严重失衡——初始层梯度占总量80%以上,而深层梯度几乎可以忽略不计。

AttnRes的创新在于将深度维度转化为可检索的特征空间。每层配备的"伪查询向量"如同智能导航仪,通过计算与历史层输出的相似度生成注意力权重,配合RMSNorm归一化防止异常值主导。为解决全量注意力计算成本过高的问题,团队开发出分块注意力机制:将数百层网络划分为8-16个模块,模块内维持基础累加,模块间进行精细注意力聚合。这种设计使显存占用仅与模块数量成正比,在Kimi Linear架构(480亿参数)的实测中,端到端推理延迟增加不足2%,却带来1.25倍的算力效率提升。

在1.4万亿token训练数据的验证下,新架构展现出惊人的性能跃迁:在知识深度测试GPQA-Diamond中提升7.5分,数学竞赛任务Minerva Math和代码生成任务Humaneval分别提高3.6分和3.1分,通用理解基准MMLU和中文能力测试C-eval也全面超越传统模型。更关键的是,梯度分布可视化显示,所有层级均保持活跃状态,首层嵌入信息能穿透数十层直达决策层,彻底解决了传统架构的信息稀释难题。

这项由18岁准高三生陈光宇领衔的研究,正在改写深度学习的发展轨迹。前OpenAI核心研究员Jerry Tworek评价:"当残差连接从机械叠加变为智能调度,我们正在见证深度学习2.0时代的曙光。"随着计算硬件突破内存带宽瓶颈,这种深度维度的全量检索机制或将重新定义模型扩展法则,使AGI之路不再依赖单纯的参数堆砌,而是转向更高效的深度调度艺术。

2026成都桃花盛会夜启幕:科技赋能非遗 共绘春日文旅新画卷
这一盛会不仅象征着成都市春季文旅消费季的启动,更以其独特的夜间开幕形式,为市民和游客献上了一场视觉与文化的双重盛宴。 在开幕式上,成都市文广旅局还发布了“蓉城囍事·花重锦官城”春日浪漫线路,围绕“鹅黄、胭粉、…

2026-03-17

京东发力具身智能数据采集,两年集千万小时数据赋能产业新突破
为推动行业健康快速发展,京东依托超级供应链核心优势,以及零售、物流、健康、工业、外卖、家政等海量真实业务场景,将建成全球规模最大、场景最全的具身智能数据采集中心,两年内积累超1000万小时优质数据,助力具身…

2026-03-17