首页电脑数码 Layer 6 AI：训练大模型时勿让它"跑偏"

Layer 6 AI：训练大模型时勿让它"跑偏"

2026-06-20 0

这项由加拿大Layer 6 AI研究团队完成的工作，以预印本形式发布于2026年6月，论文编号为arXiv:2606.16154，感兴趣的读者可通过该编号检索完整原文。

一、模型训练的"崩溃"困局

你有没有见过一个本来学习成绩不错的学生，突然某天开始在考卷上乱写一通——要么写满了无意义的重复数字，要么用中文夹杂日文夹杂阿拉伯文写出一堆乱码？这听起来荒谬，但在当下最前沿的大语言模型训练领域，这件事真实地发生着，而且发生得相当频繁。

研究团队在训练过程中记录到了两种典型的"崩溃"模式。第一种叫"高熵崩溃"——模型的输出开始散乱，内容开始出现各种语言混杂、代码片段、乱码符号等毫不相干的内容，好像大脑彻底乱掉了，什么都往外乱吐。第二种叫"低熵崩溃"——模型走向了另一个极端，它的输出变得极度单调，比如反复输出一长串零，或者陷入某个固定的模板循环，就像一个人太紧张，反而什么都说不出来，只剩一句"答案是答案"在无限循环。

这两种崩溃背后，其实是同一件事在作祟：强化学习训练过程的不稳定性。这项研究想做的，就是搞清楚这种不稳定性究竟从哪里来，并提出一种简单、有效的解法。

二、强化学习训练究竟是怎么回事

在深入讲解这项研究之前，需要先理解一下大语言模型训练中的强化学习究竟在做什么。

普通人最熟悉的语言模型训练，是让模型"看了大量文字之后预测下一个词"，这叫预训练。但为了让模型真正"会做题"——比如解数学题、回答多步骤的问题——研究人员发明了一种叫做"带有可验证奖励的强化学习"（简称RLVR）的方法。

可以把这个过程理解成这样：给模型出一道数学题，它可以生成多种不同的解法。每种解法答对了就给奖励，答错了就扣分。模型通过反复尝试，逐渐学会往"更可能答对"的方向走。这听起来很合理，实际上问题重重。

目前最主流的训练方式叫做GRPO（群组相对策略优化）。它的核心逻辑是：对同一道题，让"老版本的模型"先生成一批答案，然后根据这批答案的好坏给每个答案打一个相对分（叫做"优势值"），再用这个分数来更新"新版本的模型"。这里关键的问题是：老版本和新版本之间存在差距，用老版本生成的样本来训练新版本，就像用三年前的菜谱来指导今天的厨师——两者的水平已经不一样了。

为了控制这种"偏离"，研究人员引入了"重要性比率截断"机制，简单说就是：如果新旧模型在某个词上的概率差距太大，就把这个词的训练信号截掉，不让它参与更新。直觉上这似乎是个好主意——毕竟差距越大的地方越不可信，截掉它们不是很稳健吗？

然而Layer 6 AI的研究团队做了一个实验，直接打脸了这个直觉。他们把截断阈值调得越来越严，也就是把越来越多的"差距大"的词截掉，结果发现：训练崩溃了，而且崩溃得更彻底。截得越狠，反而越容易出问题。这说明，"与旧模型差距大"本身并不是崩溃的根本原因，问题一定出在别的地方。

三、一把手术刀：解剖每一个词的梯度效果

研究团队换了一个视角：不问"这个词离旧模型有多远"，而是问"更新这个词，会让模型在这个位置的概率分布怎么变化"。

要理解这个思路，先要理解语言模型是怎么"选词"的。在每个生成步骤，模型面对整个词汇表（可能有几万个词），给每个词打一个分，然后把这些分通过"软最大值函数"（softmax）转化成概率。比如在"我今天吃了___"这个位置，"饭"可能有30%的概率，"苹果"可能有20%，"汽车"可能只有0.001%，如此类推。

现在，训练的时候模型生成了某个词（比如"苹果"），我们根据这个词是不是正确答案给一个奖励信号，然后对模型参数做一个小小的调整（梯度更新）。问题来了：这个调整会怎么影响下次遇到同样位置时，各个词的概率？

研究团队推导出了一个数学公式（即论文中的方程1），揭示了一个出乎意料的规律。对于所有**没被采样到**的词，它们的概率变化取决于三件事：这次采样到的词的概率、那个未采样词自己的概率、以及一个叫做C(p)的参考值。C(p)等于所有词的概率的平方和，它像一个"标尺"，衡量当前概率分布有多集中或多分散。

用一个更直观的说法：每个词都有一个"地位"——如果它的概率高于C(p)这个阈值，就叫"峰值词"（Peak）；如果低于这个阈值，就叫"谷值词"（Valley）。同时，这次采样到的那个词的奖励信号有正负之分——如果这次生成的答案比平均水平好，优势值为正；如果比平均水平差，优势值为负。

这样一来，每一次对某个词的训练，实际上可以落入四个格子之一：正优势+峰值词（Pos-peak）、正优势+谷值词（Pos-valley）、负优势+峰值词（Neg-peak）、负优势+谷值词（Neg-valley）。

这四个格子对模型的影响截然不同，研究团队通过理论推导和实验分别验证了每种情况下模型"混乱程度"（即熵）的变化趋势。其中Pos-valley和Neg-peak这两类更新会让模型的分布变得更混乱、更随机，是推向高熵崩溃的主要力量。Pos-peak的更新则会让分布变得更集中、更确定，是稳定的。而Neg-valley的更新虽然短期内能降低混乱度，但在模型整体比较随机（高熵）的时候，它反而会把分布过度压缩，导致低熵崩溃。

这个发现非常关键：决定训练是否崩溃的，不是某个词"离旧模型有多远"，而是"这个词在当前模型眼中是峰值词还是谷值词，以及它携带的是正还是负的奖励信号"。

四、实验验证：把四种训练方式分开测试

为了验证这个理论，研究团队做了一组极为干净的实验：他们用SmolLM3-3B这个模型在NuminaMath-LEAN数学数据集上训练，每次只激活四个格子中的一个，观察训练走向哪里。

结果完全符合理论预测。单独只做Pos-peak训练，模型非常稳定，熵持续下降，但成绩快速到顶之后就不再进步了——因为模型只是在强化自己已经擅长的事情，不探索新路径。单独做Pos-valley或Neg-peak训练，模型的熵迅速飙升，随后生成内容开始崩溃，变成乱码式的输出。单独做Neg-valley训练，模型早期确实有所进步，因为它在过滤掉一些错误的低概率尝试，但后来模型陷入过度自信，生成内容变得单调重复，出现低熵崩溃。

当研究团队把这四个格子按"正/负优势"或"峰值/谷值"两两组合测试时，结论进一步明朗化：正优势（Pos）方向的训练——也就是只对那些比平均水平好的答案进行强化——在稳定性和最终表现上是最均衡的，和主流基线方法DAPO的表现相当。换句话说，从安全性和有效性两个角度看，"只强化赢家"是个简单而有力的策略。

五、WAPO的提出：只从赢家身上学

基于上述发现，研究团队提出了一个叫做"赢家优势策略优化"（Winner Advantage Policy Optimization，简称WAPO）的方法。

它的核心思想极简：在一批答案中，只对那些优势值为正的答案（即比平均水平好的答案）进行策略梯度更新，那些比平均水平差的答案直接忽略，不对模型产生任何训练信号。如果一道题的所有回答都是错的（没有任何"赢家"），这道题对本轮训练不产生任何贡献。

用一个直白的比喻：老师批改作业，只从做对的题目里总结经验，做错的题目不做任何处理。这和"把错题讲一遍"的常规教学方式截然不同，但在这个场景下却更有效。

WAPO并不是简单粗暴地"扔掉失败案例"。它依然保留了GRPO家族方法的核心机制：重要性比率（用来修正新旧模型之间的差距）、截断（避免单次更新幅度太大）、以及以组为单位的优势归一化（让每道题内部的答案互相比较）。唯一的改变就是：把所有负优势项的贡献置零。

研究团队还从理论上证明了WAPO的梯度方向是正确的。他们考虑一个简化的"二元奖励"场景（答对得1分，答错得0分），推导出：WAPO的梯度更新方向和"直接最大化答对概率"的梯度方向是一致的，只是多了一个自适应的权重因子1-qx（其中qx是当前模型在这道题上的答对率）。这个权重因子有个很好的特性：当一道题的答对率已经很高时，权重自动缩小，模型不会在已经掌握的题目上浪费精力；当一道题很难时，权重较大，模型会把更多注意力放在这道题上。这是一种自然的"难题优先"机制。

与此同时，研究团队还比较了WAPO和另外两个只使用正样本的方法。一个叫PSR，它不使用截断机制也不用相对优势归一化，结果学习效率较低，成绩很快遇到天花板。另一个叫RAFT++，它按每条答案的长度进行归一化，结果模型学会了"写短答案更省力"的策略，训练到后期专门产出极短的模板化回答，比如"思考了一下，答案是3。答案：3"——这显然是一种偷懒式的崩溃，虽然形式没有乱，但学习质量极差。WAPO通过保留相对优势归一化和截断，有效规避了这两个问题。

六、大规模实验：跨任务、跨模型的全面验证

研究团队在四个数据集和三个模型家族上做了系统实验，覆盖了数学推理和多步问答两大类任务。

数学推理方面，他们选用了Math-500（一个包含500道标准数学题的评测集）和NuminaMath-LEAN（一个包含两万多道数学竞赛题的大型数据集）。多步问答方面，他们选用了Hotpot-QA和OTT-QA（这两个任务要求模型先在网上搜索相关信息，再综合推理给出答案，难度远高于单轮问答）。三个被测试的模型分别是Qwen3-4B、SmolLM3-3B和Gemma3-4B，它们都是参数量在3到4亿之间的中等规模语言模型。

对比的基线方法包括GRPO（标准版）、DAPO（改进了长度归一化和截断策略）、GSPO（用序列级别的比率替换了词级别的比率）。每种基线方法都经过了针对各数据集的调参，确保比较公平。

实验结果呈现了非常清晰的规律。在多步问答任务上，WAPO的优势最为突出。在OTT-QA数据集上，WAPO相比次优的稳定基线，在Qwen3-4B模型上领先9.9个百分点，在Gemma3-4B上领先3.2个百分点。在Hotpot-QA上，WAPO分别领先4.5和10.6个百分点。DAPO在这些任务中频繁崩溃——在Hotpot-QA的三个模型里有两个崩溃，在OTT-QA的Qwen3-4B上甚至在100步内就彻底失败，无法给出有效数字。GRPO和GSPO相对稳定，但往往在训练中途就停止进步了，而WAPO能持续提升到最后。

在数学任务上，WAPO的表现与最强基线基本持平，只在训练初期有时略慢（这正是前面提到的"难题优先"权重因子带来的保守性——初期不急着在已经擅长的题目上猛追）。从最终训练完成后的成绩来看，WAPO能追上并与其他方法并驾齐驱。

研究团队还额外测试了WAPO的"泛化能力"——把在Hotpot-QA上训练好的模型拿去做2wiki问答（一个全新的多步问答数据集），以及把在NuminaMath-LEAN上训练好的模型拿去做AIME'25（一个顶级数学竞赛题集）。在2wiki测试中，WAPO在三个模型家族上全面领先其他方法，说明它学到的不是针对特定数据集的技巧，而是更通用的推理能力。在AIME'25上，WAPO与其他方法基本持平，这是个极高难度的任务，各方法整体差距不大。

此外，研究团队还考察了一个容易被忽视的指标：pass@k，即在k次尝试中至少答对一次的概率。这个指标衡量的是模型的"探索多样性"——如果一个模型总是输出同样的内容，它的pass@k曲线会很快平坦。结果显示，WAPO在pass@k方面的表现也优于或持平于其他基线，说明虽然WAPO只用正样本训练，但它并没有变成一个只会走老路的僵化模型，仍然保持了良好的探索能力。

七、说到底，这项研究改变了什么

归根结底，这项研究做了一件看起来简单、却颇具价值的事：它不再把训练不稳定的原因归咎于"模型跑偏了太远"这个模糊的说法，而是深入到每一个词的训练信号层面，搞清楚了"哪类更新有害、哪类有益"。这就好比医生不满足于诊断"身体不好"，而是精确指出"是这两根神经的信号传导出了问题"。

这种分析视角带来了一个极简的解法：WAPO。它只做了一件事——把负优势的更新从训练中去掉——却在多个任务和模型上显著提升了训练稳定性，尤其是在那些困难的多步推理任务上。

对于普通用户而言，这项研究意味着未来的AI助手在学习新能力时，更不容易"走火入魔"输出乱码或陷入循环，整个训练过程能更可控、更稳定地推进，最终到达更好的效果。研究团队已将完整代码开源，有兴趣的开发者可通过论文提供的GitHub地址自行验证。

对于研究者来说，这项工作也提出了一些值得继续深入的方向：负优势样本中是否也有部分是有价值的，只是目前难以从粗粒度奖励信号中区分？这个分析框架能否扩展到更大规模的模型或更复杂的任务（比如编程、文字转SQL）？如果能更精细地识别和利用负样本中的有效信号，训练效率是否能进一步提升？

如果你对这些问题感到好奇，值得读一读原文，编号arXiv:2606.16154，所有理论推导和实验细节都在那里等着你。

Q&A

Q1：WAPO方法和普通GRPO训练方式有什么本质区别？

A：GRPO在训练时，不管一条答案是好是坏，都会让它影响模型参数的更新——答得好的被强化，答得差的被抑制。WAPO的区别在于，它完全忽略那些答得比平均水平差的答案，只从答得比较好的答案中提取经验。用来更新模型的机制（截断、重要性比率、相对优势归一化）完全保留，唯一的改动就是把负优势的贡献置零。

Q2：为什么截断更多"离旧模型很远的词"反而会导致崩溃？

A：研究发现，截断阈值越严，受影响最大的是那些本来概率就很低的词。而这些低概率词在负优势更新中，本来是"降低混乱度"的力量（Neg-valley类型）。如果把它们的更新信号也截断，剩下的训练信号里熵增效应（来自Neg-peak和Pos-valley类型的更新）就相对更占主导，结果反而让模型越训越乱，加速崩溃。

Q3：WAPO在数学任务上为什么有时比GRPO或GSPO慢一些？

A：WAPO使用了一个自适应权重因子，当一道题的答对率已经比较高时，会自动减小更新力度。这意味着在训练初期，对相对容易的题目，WAPO的学习步伐会比较保守，看起来追得慢。但这种保守在后期会带来好处——模型不会因为在简单题上过度强化而损失在难题上的探索能力，最终成绩能追上并与其他方法持平甚至在困难任务上超越。

郑重声明：本站发布内容宗旨在传播更多信息，仅提供查阅，与本站立场无关，不拥有所有权，不承担相关法律责任。不具有任何效益，仅供参考。如果需要专业知识建议，请咨询相关专业人士。如有侵权请联系邮箱。一经查实，立即删除！

喜欢(0)

7B小模型如何在代码任务上击败数百亿参数的大模型？

华硕日本展台实测ExpertBook军规笔记本：踩踏：泼