天脉资讯
财经快讯 价值公司 财经人物 IPO解读 热门赛道 经济解码 科技业界 文化艺术 消费零售 大燕公益 商业快讯

阿里巴巴研究揭示:AI训练中极少数关键位置驱动模型性能跃升

2026-04-03来源:快讯编辑:瑞雪

阿里巴巴集团Qwen Pilot团队在强化学习领域取得突破性进展,其最新研究颠覆了传统对AI模型训练的认知。这项发表于国际学习表征会议(ICLR)的研究表明,大语言模型在强化学习训练过程中,超过98%的词汇选择几乎保持不变,真正推动性能提升的改变集中在不足2%的关键位置。这一发现犹如解开优秀学生成绩飞跃的密码——并非依靠海量练习,而是通过少数关键题目的突破性理解实现质的飞跃。

研究团队通过Jensen-Shannon散度这一数学工具,对模型训练前后的词汇选择变化进行精密测量。数据显示,在使用可验证奖励的SimpleRL训练方法时,仅有1.7%的词汇位置发生显著变化;即便采用约束较少的DAPO方法,变化比例也未超过17%。这些关键位置呈现出明显的位置偏好:序列开头的改变对应高层次决策修正,如同调整文章整体框架;结尾的优化则聚焦答案格式规范,类似完善结论表述。不同训练方法在变化模式上差异显著,约束严格的策略将更新集中在极少数位置,而宽松方法则产生更广泛但强度较低的调整。

深入分析发现,模型变化程度与预测不确定性存在强关联。在原本就确定该选什么词汇的低熵位置,强化学习几乎不进行干预;而在模型拿不准的高熵区域,修正概率显著提升。DAPO方法展现出独特能力,甚至能重塑模型原本确定但错误的预测,这种特性使其在训练中表现出更强的探索性。相比之下,SimpleRL则像谨慎的修正者,专注于解决模型最不确定的问题。

词汇类型分析揭示出更精细的优化机制。高变化位置集中出现逻辑连接词、数学表达式等推理相关术语,而数字、运算符等结构化组件则倾向于保持稳定。但同一词汇在不同语境中可能表现迥异——定冠词"the"虽常出现在高变化词汇列表,但其实际变化程度却普遍较低。这表明决定词汇是否改变的关键,在于其在特定推理轨迹中的功能角色,而非词汇本身的语义属性。

与传统监督学习形成鲜明对比的是,强化学习展现出独特的优化哲学。监督微调如同严苛的教师,要求模型逐字模仿标准答案,导致更密集的词汇变化;而强化学习更像智慧导师,仅在关键决策点给予指导,允许模型保持个性化思维。实验数据显示,监督微调的散度分布强烈集中在高不确定性区域,而强化学习则表现出更大的灵活性,这种差异反映了两种范式在标准化与个性化之间的本质区别。

交叉采样实验为理论提供了有力验证。研究人员将强化学习模型在关键位置的词汇选择"移植"到基础模型,发现仅替换1.53%-4%的词汇,就能使模型在数学推理任务中的准确率提升2-3倍。更令人惊讶的是,这种混合策略在某些情况下甚至超越纯强化学习模型的表现。反向实验则显示,替换约5%的强化学习词汇选择,即可使其性能退化至基础模型水平。这些结果证明,强化学习的优势高度集中在少数关键决策点。

性能变化呈现渐进式特征,随着关键词汇注入次数的增加,准确率呈现平滑上升趋势。这种特性表明,强化学习并非引入全新推理行为,而是通过精细调整现有候选词汇的排序,引导生成过程走向更有效的推理轨迹。研究显示,约30%的强化学习首选词汇在基础模型中已排名第一,超过80%的词汇位于基础模型的前三候选之列,这揭示出其优化机制的本质——在高质量候选集合内进行微调而非创造新选项。

对训练动态的追踪发现,分布变化在训练过程中逐渐聚焦。初期模型会尝试各种调整,但随着训练推进,变化越来越集中在少数词汇上。这种演化模式意味着,最终起作用的关键位置集合在训练后期才完全确定。基于这一发现,研究团队提出散度加权优势函数方法,通过调节词汇级学习信号来优化训练。实验表明,该策略在数学推理任务中可将准确率提升2-3个百分点,为开发更高效的训练方法开辟了新路径。

这项研究不仅改变了AI训练的技术路线,更引发对学习本质的深层思考。当发现AI的"聪明"源于关键时刻的精准判断,而非海量计算时,这种认知转变正在重塑AI研发的底层逻辑。未来的训练方法或将聚焦于识别和优化这些关键决策点,在提高效率的同时,为理解AI行为提供更清晰的视角。对普通用户而言,这意味着更精准高效的AI服务正在到来,而其背后的技术突破,或许也能为人类学习策略的优化提供有益启示。

Q&A

问:强化学习训练中的关键改变比例是否固定?
答:研究显示关键改变比例与训练方法密切相关。SimpleRL方法下仅1.7%词汇位置发生显著变化,DAPO方法则将比例提升至17%左右。交叉采样实验证实,在数学推理任务中,1.53%-4%的关键词汇替换即可实现性能飞跃,证明不同场景下起作用的改变比例存在差异,但普遍集中在极少数位置。

问:为什么强化学习不进行全面优化而是聚焦关键点?
答:这种策略源于其独特的优化机制。强化学习通过重新排序现有候选词汇而非引入新选项来工作,约80%的强化学习首选词汇已存在于基础模型的前三候选之列。同时,模型更倾向于修正原本不确定的高熵位置,这种精准干预既能保持模型原有能力,又能高效修正关键推理决策,实现性能质的提升。

问:这项发现对AI开发实践有何具体影响?
答:该研究为训练方法优化提供了新方向。传统方法追求全面改进,而新发现提示可专注于识别关键决策点。研究团队开发的散度加权优势方法已在实验中提升模型准确率2-3个百分点,证明通过调节词汇级学习信号可显著提高训练效率。这种精准优化策略有望降低计算成本,同时增强对AI行为的可控性,最终为用户带来更优质的AI产品。

祝融号新发现:火星岩石纹理或由盐风化塑造,为地火研究添新证
基于上述观测与模拟,研究团队提出火星尘埃中的盐分在岩石表面沉积和吸附,并在适宜的温湿度条件下发生潮解形成微量卤水,在后续蒸发过程中盐分重新结晶,产生的结晶压力会逐步破坏岩石结构,最终塑造了祝融号观测到的岩石表…

2026-04-03

苹果携手港大推出LGTM渲染框架:攻克4K算力难题 赋能Vision Pro画质跃升
当前主流的“前馈 3D 高斯泼溅”(Feed-forward 3D Gaussian Splatting)技术,能利用 AI 将 2D图片快速转化为可多角度观看的 3D 场景,但在处理高分辨率画面时,随着…

2026-04-03

Allen人工智能研究所推出MolmoWeb:开源视觉网络智能体新选择
让MolmoWeb在众多网络智能体中脱颖而出的不仅是其小尺寸,还有一个事实:Ai2并没有通过从专有的基于视觉的智能体进行蒸馏来训练模型。 不过,大体而言,来自Anthropic、谷歌、OpenAI等公司的专…

2026-04-03

OpenAI总裁剧透:AGI近在咫尺!押注Spud模型,全力冲刺最后关卡
他说OpenAI的技术路线就是一棵科技树,GPT推理系列是一个分支,Sora的世界模型是另一个分支,两个分支的构建方式完全不同。」 不过Brockman特意点了一句,ChatGPT里的图像生成不受影响,因…

2026-04-03