天脉资讯
财经快讯 价值公司 财经人物 IPO解读 热门赛道 经济解码 科技业界 文化艺术 消费零售 大燕公益 商业快讯

Kimi新架构引行业关注!17岁高中生共作一作,技术之路未来可期

2026-03-17来源:快讯编辑:瑞雪

研究团队从网络深度与序列时间的对偶性出发,发现传统残差连接存在"记忆负担"问题。在PreNorm架构下,各层信息等权重累加导致早期特征被稀释,就像人类大脑无差别存储所有记忆,反而让关键信息难以检索。更严峻的是,隐藏状态范数随深度指数增长,引发训练不稳定现象。针对这些痛点,团队创造性地引入注意力机制替代固定累加:当前层通过可学习查询向量,动态选择需要关注的前置层信息,实现"选择性回忆"。

为解决计算复杂度从O(L)激增至O(L²)的难题,研究团队开发出Block AttnRes技术。该方案将连续若干层压缩为"信息块",每个块仅保留一个摘要向量。当处理第N层时,只需关注块间摘要与块内实时输出,使复杂度降至O(L·B)。配合缓存式流水线通信、序列分片预填充等工程优化,该技术在实际模型中展现出惊人效率。

在Kimi Linear 48B大模型(3B激活参数)的验证中,新机制带来显著提升:训练计算量减少20%的同时,数学推理(MATH、GSM8K)、代码生成(Humaneval)等任务性能持平或优化,多语言理解一致性得到改善。更关键的是,这项技术可作为"即插即用"组件直接替换传统残差连接,无需调整网络其他部分。

这项研究的共同一作名单中,17岁高中生陈广宇的加入引发科技圈热议。这位北京少年从黑客松比赛起步,在导师董科含引导下,通过研读Transformer经典论文、参与GitHub开源项目,逐步构建起对大模型技术的认知体系。其关于"机械辅助手"的创意项目不仅获得硅谷AI初创公司CEO关注,更让他在旧金山实习期间直接参与144张H100显卡的探索性项目,与早期投资者Vinod Khosla展开技术对话。

陈广宇的技术成长轨迹颇具启示意义:从运营短视频账号到钻研Triton kernel优化,从经营跨境电商到重写注意力机制,这个年轻人始终被底层技术的魅力所驱动。当他因GitHub上的FLA项目被Kimi团队相中时,其技术积累已形成完整闭环——这种将兴趣转化为专业能力的成长路径,或许比"天才少年"的标签更具参考价值。