别把 Product Hunt 当作冷启动:独立开发者追求的不是流量而是对的人
2026-06-14
2026-06-20 0

这项由加拿大Layer 6 AI研究团队完成的工作,以预印本形式发布于2026年6月,论文编号为arXiv:2606.16154,感兴趣的读者可通过该编号检索完整原文。
一、模型训练的"崩溃"困局
你有没有见过一个本来学习成绩不错的学生,突然某天开始在考卷上乱写一通——要么写满了无意义的重复数字,要么用中文夹杂日文夹杂阿拉伯文写出一堆乱码?这听起来荒谬,但在当下最前沿的大语言模型训练领域,这件事真实地发生着,而且发生得相当频繁。
研究团队在训练过程中记录到了两种典型的"崩溃"模式。第一种叫"高熵崩溃"——模型的输出开始散乱,内容开始出现各种语言混杂、代码片段、乱码符号等毫不相干的内容,好像大脑彻底乱掉了,什么都往外乱吐。第二种叫"低熵崩溃"——模型走向了另一个极端,它的输出变得极度单调,比如反复输出一长串零,或者陷入某个固定的模板循环,就像一个人太紧张,反而什么都说不出来,只剩一句"答案是答案"在无限循环。
这两种崩溃背后,其实是同一件事在作祟:强化学习训练过程的不稳定性。这项研究想做的,就是搞清楚这种不稳定性究竟从哪里来,并提出一种简单、有效的解法。
二、强化学习训练究竟是怎么回事
在深入讲解这项研究之前,需要先理解一下大语言模型训练中的强化学习究竟在做什么。
普通人最熟悉的语言模型训练,是让模型"看了大量文字之后预测下一个词",这叫预训练。但为了让模型真正"会做题"——比如解数学题、回答多步骤的问题——研究人员发明了一种叫做"带有可验证奖励的强化学习"(简称RLVR)的方法。
可以把这个过程理解成这样:给模型出一道数学题,它可以生成多种不同的解法。每种解法答对了就给奖励,答错了就扣分。模型通过反复尝试,逐渐学会往"更可能答对"的方向走。这听起来很合理,实际上问题重重。
目前最主流的训练方式叫做GRPO(群组相对策略优化)。它的核心逻辑是:对同一道题,让"老版本的模型"先生成一批答案,然后根据这批答案的好坏给每个答案打一个相对分(叫做"优势值"),再用这个分数来更新"新版本的模型"。这里关键的问题是:老版本和新版本之间存在差距,用老版本生成的样本来训练新版本,就像用三年前的菜谱来指导今天的厨师——两者的水平已经不一样了。
为了控制这种"偏离",研究人员引入了"重要性比率截断"机制,简单说就是:如果新旧模型在某个词上的概率差距太大,就把这个词的训练信号截掉,不让它参与更新。直觉上这似乎是个好主意——毕竟差距越大的地方越不可信,截掉它们不是很稳健吗?
然而Layer 6 AI的研究团队做了一个实验,直接打脸了这个直觉。他们把截断阈值调得越来越严,也就是把越来越多的"差距大"的词截掉,结果发现:训练崩溃了,而且崩溃得更彻底。截得越狠,反而越容易出问题。这说明,"与旧模型差距大"本身并不是崩溃的根本原因,问题一定出在别的地方。
三、一把手术刀:解剖每一个词的梯度效果
研究团队换了一个视角:不问"这个词离旧模型有多远",而是问"更新这个词,会让模型在这个位置的概率分布怎么变化"。
要理解这个思路,先要理解语言模型是怎么"选词"的。在每个生成步骤,模型面对整个词汇表(可能有几万个词),给每个词打一个分,然后把这些分通过"软最大值函数"(softmax)转化成概率。比如在"我今天吃了___"这个位置,"饭"可能有30%的概率,"苹果"可能有20%,"汽车"可能只有0.001%,如此类推。
现在,训练的时候模型生成了某个词(比如"苹果"),我们根据这个词是不是正确答案给一个奖励信号,然后对模型参数做一个小小的调整(梯度更新)。问题来了:这个调整会怎么影响下次遇到同样位置时,各个词的概率?
研究团队推导出了一个数学公式(即论文中的方程1),揭示了一个出乎意料的规律。对于所有**没被采样到**的词,它们的概率变化取决于三件事:这次采样到的词的概率、那个未采样词自己的概率、以及一个叫做C(p)的参考值。C(p)等于所有词的概率的平方和,它像一个"标尺",衡量当前概率分布有多集中或多分散。
用一个更直观的说法:每个词都有一个"地位"——如果它的概率高于C(p)这个阈值,就叫"峰值词"(Peak);如果低于这个阈值,就叫"谷值词"(Valley)。同时,这次采样到的那个词的奖励信号有正负之分——如果这次生成的答案比平均水平好,优势值为正;如果比平均水平差,优势值为负。
这样一来,每一次对某个词的训练,实际上可以落入四个格子之一:正优势+峰值词(Pos-peak)、正优势+谷值词(Pos-valley)、负优势+峰值词(Neg-peak)、负优势+谷值词(Neg-valley)。
这四个格子对模型的影响截然不同,研究团队通过理论推导和实验分别验证了每种情况下模型"混乱程度"(即熵)的变化趋势。其中Pos-valley和Neg-peak这两类更新会让模型的分布变得更混乱、更随机,是推向高熵崩溃的主要力量。Pos-peak的更新则会让分布变得更集中、更确定,是稳定的。而Neg-valley的更新虽然短期内能降低混乱度,但在模型整体比较随机(高熵)的时候,它反而会把分布过度压缩,导致低熵崩溃。
这个发现非常关键:决定训练是否崩溃的,不是某个词"离旧模型有多远",而是"这个词在当前模型眼中是峰值词还是谷值词,以及它携带的是正还是负的奖励信号"。
四、实验验证:把四种训练方式分开测试
为了验证这个理论,研究团队做了一组极为干净的实验:他们用SmolLM3-3B这个模型在NuminaMath-LEAN数学数据集上训练,每次只激活四个格子中的一个,观察训练走向哪里。
结果完全符合理论预测。单独只做Pos-peak训练,模型非常稳定,熵持续下降,但成绩快速到顶之后就不再进步了——因为模型只是在强化自己已经擅长的事情,不探索新路径。单独做Pos-valley或Neg-peak训练,模型的熵迅速飙升,随后生成内容开始崩溃,变成乱码式的输出。单独做Neg-valley训练,模型早期确实有所进步,因为它在过滤掉一些错误的低概率尝试,但后来模型陷入过度自信,生成内容变得单调重复,出现低熵崩溃。
当研究团队把这四个格子按"正/负优势"或"峰值/谷值"两两组合测试时,结论进一步明朗化:正优势(Pos)方向的训练——也就是只对那些比平均水平好的答案进行强化——在稳定性和最终表现上是最均衡的,和主流基线方法DAPO的表现相当。换句话说,从安全性和有效性两个角度看,"只强化赢家"是个简单而有力的策略。
五、WAPO的提出:只从赢家身上学
基于上述发现,研究团队提出了一个叫做"赢家优势策略优化"(Winner Advantage Policy Optimization,简称WAPO)的方法。
它的核心思想极简:在一批答案中,只对那些优势值为正的答案(即比平均水平好的答案)进行策略梯度更新,那些比平均水平差的答案直接忽略,不对模型产生任何训练信号。如果一道题的所有回答都是错的(没有任何"赢家"),这道题对本轮训练不产生任何贡献。
用一个直白的比喻:老师批改作业,只从做对的题目里总结经验,做错的题目不做任何处理。这和"把错题讲一遍"的常规教学方式截然不同,但在这个场景下却更有效。
WAPO并不是简单粗暴地"扔掉失败案例"。它依然保留了GRPO家族方法的核心机制:重要性比率(用来修正新旧模型之间的差距)、截断(避免单次更新幅度太大)、以及以组为单位的优势归一化(让每道题内部的答案互相比较)。唯一的改变就是:把所有负优势项的贡献置零。
研究团队还从理论上证明了WAPO的梯度方向是正确的。他们考虑一个简化的"二元奖励"场景(答对得1分,答错得0分),推导出:WAPO的梯度更新方向和"直接最大化答对概率"的梯度方向是一致的,只是多了一个自适应的权重因子1-qx(其中qx是当前模型在这道题上的答对率)。这个权重因子有个很好的特性:当一道题的答对率已经很高时,权重自动缩小,模型不会在已经掌握的题目上浪费精力;当一道题很难时,权重较大,模型会把更多注意力放在这道题上。这是一种自然的"难题优先"机制。
与此同时,研究团队还比较了WAPO和另外两个只使用正样本的方法。一个叫PSR,它不使用截断机制也不用相对优势归一化,结果学习效率较低,成绩很快遇到天花板。另一个叫RAFT++,它按每条答案的长度进行归一化,结果模型学会了"写短答案更省力"的策略,训练到后期专门产出极短的模板化回答,比如"思考了一下,答案是3。答案:3"——这显然是一种偷懒式的崩溃,虽然形式没有乱,但学习质量极差。WAPO通过保留相对优势归一化和截断,有效规避了这两个问题。
六、大规模实验:跨任务、跨模型的全面验证
研究团队在四个数据集和三个模型家族上做了系统实验,覆盖了数学推理和多步问答两大类任务。
数学推理方面,他们选用了Math-500(一个包含500道标准数学题的评测集)和NuminaMath-LEAN(一个包含两万多道数学竞赛题的大型数据集)。多步问答方面,他们选用了Hotpot-QA和OTT-QA(这两个任务要求模型先在网上搜索相关信息,再综合推理给出答案,难度远高于单轮问答)。三个被测试的模型分别是Qwen3-4B、SmolLM3-3B和Gemma3-4B,它们都是参数量在3到4亿之间的中等规模语言模型。
对比的基线方法包括GRPO(标准版)、DAPO(改进了长度归一化和截断策略)、GSPO(用序列级别的比率替换了词级别的比率)。每种基线方法都经过了针对各数据集的调参,确保比较公平。
实验结果呈现了非常清晰的规律。在多步问答任务上,WAPO的优势最为突出。在OTT-QA数据集上,WAPO相比次优的稳定基线,在Qwen3-4B模型上领先9.9个百分点,在Gemma3-4B上领先3.2个百分点。在Hotpot-QA上,WAPO分别领先4.5和10.6个百分点。DAPO在这些任务中频繁崩溃——在Hotpot-QA的三个模型里有两个崩溃,在OTT-QA的Qwen3-4B上甚至在100步内就彻底失败,无法给出有效数字。GRPO和GSPO相对稳定,但往往在训练中途就停止进步了,而WAPO能持续提升到最后。
在数学任务上,WAPO的表现与最强基线基本持平,只在训练初期有时略慢(这正是前面提到的"难题优先"权重因子带来的保守性——初期不急着在已经擅长的题目上猛追)。从最终训练完成后的成绩来看,WAPO能追上并与其他方法并驾齐驱。
研究团队还额外测试了WAPO的"泛化能力"——把在Hotpot-QA上训练好的模型拿去做2wiki问答(一个全新的多步问答数据集),以及把在NuminaMath-LEAN上训练好的模型拿去做AIME'25(一个顶级数学竞赛题集)。在2wiki测试中,WAPO在三个模型家族上全面领先其他方法,说明它学到的不是针对特定数据集的技巧,而是更通用的推理能力。在AIME'25上,WAPO与其他方法基本持平,这是个极高难度的任务,各方法整体差距不大。
此外,研究团队还考察了一个容易被忽视的指标:pass@k,即在k次尝试中至少答对一次的概率。这个指标衡量的是模型的"探索多样性"——如果一个模型总是输出同样的内容,它的pass@k曲线会很快平坦。结果显示,WAPO在pass@k方面的表现也优于或持平于其他基线,说明虽然WAPO只用正样本训练,但它并没有变成一个只会走老路的僵化模型,仍然保持了良好的探索能力。
七、说到底,这项研究改变了什么
归根结底,这项研究做了一件看起来简单、却颇具价值的事:它不再把训练不稳定的原因归咎于"模型跑偏了太远"这个模糊的说法,而是深入到每一个词的训练信号层面,搞清楚了"哪类更新有害、哪类有益"。这就好比医生不满足于诊断"身体不好",而是精确指出"是这两根神经的信号传导出了问题"。
这种分析视角带来了一个极简的解法:WAPO。它只做了一件事——把负优势的更新从训练中去掉——却在多个任务和模型上显著提升了训练稳定性,尤其是在那些困难的多步推理任务上。
对于普通用户而言,这项研究意味着未来的AI助手在学习新能力时,更不容易"走火入魔"输出乱码或陷入循环,整个训练过程能更可控、更稳定地推进,最终到达更好的效果。研究团队已将完整代码开源,有兴趣的开发者可通过论文提供的GitHub地址自行验证。
对于研究者来说,这项工作也提出了一些值得继续深入的方向:负优势样本中是否也有部分是有价值的,只是目前难以从粗粒度奖励信号中区分?这个分析框架能否扩展到更大规模的模型或更复杂的任务(比如编程、文字转SQL)?如果能更精细地识别和利用负样本中的有效信号,训练效率是否能进一步提升?
如果你对这些问题感到好奇,值得读一读原文,编号arXiv:2606.16154,所有理论推导和实验细节都在那里等着你。
Q&A
Q1:WAPO方法和普通GRPO训练方式有什么本质区别?
A:GRPO在训练时,不管一条答案是好是坏,都会让它影响模型参数的更新——答得好的被强化,答得差的被抑制。WAPO的区别在于,它完全忽略那些答得比平均水平差的答案,只从答得比较好的答案中提取经验。用来更新模型的机制(截断、重要性比率、相对优势归一化)完全保留,唯一的改动就是把负优势的贡献置零。
Q2:为什么截断更多"离旧模型很远的词"反而会导致崩溃?
A:研究发现,截断阈值越严,受影响最大的是那些本来概率就很低的词。而这些低概率词在负优势更新中,本来是"降低混乱度"的力量(Neg-valley类型)。如果把它们的更新信号也截断,剩下的训练信号里熵增效应(来自Neg-peak和Pos-valley类型的更新)就相对更占主导,结果反而让模型越训越乱,加速崩溃。
Q3:WAPO在数学任务上为什么有时比GRPO或GSPO慢一些?
A:WAPO使用了一个自适应权重因子,当一道题的答对率已经比较高时,会自动减小更新力度。这意味着在训练初期,对相对容易的题目,WAPO的学习步伐会比较保守,看起来追得慢。但这种保守在后期会带来好处——模型不会因为在简单题上过度强化而损失在难题上的探索能力,最终成绩能追上并与其他方法持平甚至在困难任务上超越。