阿里巴巴研究揭示：AI训练中极少数关键位置驱动模型性能跃升-天脉财经

阿里巴巴集团Qwen Pilot团队在强化学习领域取得突破性进展，其最新研究颠覆了传统对AI模型训练的认知。这项发表于国际学习表征会议（ICLR）的研究表明，大语言模型在强化学习训练过程中，超过98%的词汇选择几乎保持不变，真正推动性能提升的改变集中在不足2%的关键位置。这一发现犹如解开优秀学生成绩飞跃的密码——并非依靠海量练习，而是通过少数关键题目的突破性理解实现质的飞跃。

研究团队通过Jensen-Shannon散度这一数学工具，对模型训练前后的词汇选择变化进行精密测量。数据显示，在使用可验证奖励的SimpleRL训练方法时，仅有1.7%的词汇位置发生显著变化；即便采用约束较少的DAPO方法，变化比例也未超过17%。这些关键位置呈现出明显的位置偏好：序列开头的改变对应高层次决策修正，如同调整文章整体框架；结尾的优化则聚焦答案格式规范，类似完善结论表述。不同训练方法在变化模式上差异显著，约束严格的策略将更新集中在极少数位置，而宽松方法则产生更广泛但强度较低的调整。

深入分析发现，模型变化程度与预测不确定性存在强关联。在原本就确定该选什么词汇的低熵位置，强化学习几乎不进行干预；而在模型拿不准的高熵区域，修正概率显著提升。DAPO方法展现出独特能力，甚至能重塑模型原本确定但错误的预测，这种特性使其在训练中表现出更强的探索性。相比之下，SimpleRL则像谨慎的修正者，专注于解决模型最不确定的问题。

词汇类型分析揭示出更精细的优化机制。高变化位置集中出现逻辑连接词、数学表达式等推理相关术语，而数字、运算符等结构化组件则倾向于保持稳定。但同一词汇在不同语境中可能表现迥异——定冠词"the"虽常出现在高变化词汇列表，但其实际变化程度却普遍较低。这表明决定词汇是否改变的关键，在于其在特定推理轨迹中的功能角色，而非词汇本身的语义属性。

与传统监督学习形成鲜明对比的是，强化学习展现出独特的优化哲学。监督微调如同严苛的教师，要求模型逐字模仿标准答案，导致更密集的词汇变化；而强化学习更像智慧导师，仅在关键决策点给予指导，允许模型保持个性化思维。实验数据显示，监督微调的散度分布强烈集中在高不确定性区域，而强化学习则表现出更大的灵活性，这种差异反映了两种范式在标准化与个性化之间的本质区别。

交叉采样实验为理论提供了有力验证。研究人员将强化学习模型在关键位置的词汇选择"移植"到基础模型，发现仅替换1.53%-4%的词汇，就能使模型在数学推理任务中的准确率提升2-3倍。更令人惊讶的是，这种混合策略在某些情况下甚至超越纯强化学习模型的表现。反向实验则显示，替换约5%的强化学习词汇选择，即可使其性能退化至基础模型水平。这些结果证明，强化学习的优势高度集中在少数关键决策点。

性能变化呈现渐进式特征，随着关键词汇注入次数的增加，准确率呈现平滑上升趋势。这种特性表明，强化学习并非引入全新推理行为，而是通过精细调整现有候选词汇的排序，引导生成过程走向更有效的推理轨迹。研究显示，约30%的强化学习首选词汇在基础模型中已排名第一，超过80%的词汇位于基础模型的前三候选之列，这揭示出其优化机制的本质——在高质量候选集合内进行微调而非创造新选项。

对训练动态的追踪发现，分布变化在训练过程中逐渐聚焦。初期模型会尝试各种调整，但随着训练推进，变化越来越集中在少数词汇上。这种演化模式意味着，最终起作用的关键位置集合在训练后期才完全确定。基于这一发现，研究团队提出散度加权优势函数方法，通过调节词汇级学习信号来优化训练。实验表明，该策略在数学推理任务中可将准确率提升2-3个百分点，为开发更高效的训练方法开辟了新路径。

这项研究不仅改变了AI训练的技术路线，更引发对学习本质的深层思考。当发现AI的"聪明"源于关键时刻的精准判断，而非海量计算时，这种认知转变正在重塑AI研发的底层逻辑。未来的训练方法或将聚焦于识别和优化这些关键决策点，在提高效率的同时，为理解AI行为提供更清晰的视角。对普通用户而言，这意味着更精准高效的AI服务正在到来，而其背后的技术突破，或许也能为人类学习策略的优化提供有益启示。

Q&A

问：强化学习训练中的关键改变比例是否固定？
答：研究显示关键改变比例与训练方法密切相关。SimpleRL方法下仅1.7%词汇位置发生显著变化，DAPO方法则将比例提升至17%左右。交叉采样实验证实，在数学推理任务中，1.53%-4%的关键词汇替换即可实现性能飞跃，证明不同场景下起作用的改变比例存在差异，但普遍集中在极少数位置。

问：为什么强化学习不进行全面优化而是聚焦关键点？
答：这种策略源于其独特的优化机制。强化学习通过重新排序现有候选词汇而非引入新选项来工作，约80%的强化学习首选词汇已存在于基础模型的前三候选之列。同时，模型更倾向于修正原本不确定的高熵位置，这种精准干预既能保持模型原有能力，又能高效修正关键推理决策，实现性能质的提升。

问：这项发现对AI开发实践有何具体影响？
答：该研究为训练方法优化提供了新方向。传统方法追求全面改进，而新发现提示可专注于识别关键决策点。研究团队开发的散度加权优势方法已在实验中提升模型准确率2-3个百分点，证明通过调节词汇级学习信号可显著提高训练效率。这种精准优化策略有望降低计算成本，同时增强对AI行为的可控性，最终为用户带来更优质的AI产品。