诺诚健华:奥布替尼40余项研究结果在第31届欧洲血液学协会年会亮相
2026-06-16
2026-06-20 0

这项由清华大学、慕尼黑工业大学、南洋理工大学、不列颠哥伦比亚大学、德克萨斯大学奥斯汀分校及德国ELLIS研究所、马克斯普朗克智能系统研究所联合开展的研究,以预印本形式于2026年6月发布,论文编号为arXiv:2606.18195,感兴趣的读者可通过该编号查阅完整原文。
**训练AI的那些烦恼**
教一个AI学会推理,就像培训一名新员工。你给他出题,他答完之后,你只告诉他"对了"或者"错了"——这种方式叫做强化学习,靠奖励信号驱动学习。问题在于,大多数时候这个员工都答错了,而你只说了句"错",他并不知道哪一步走偏了,只能反复碰壁、慢慢摸索。这就是所谓"稀疏奖励"的困境,费时费力,效率极低。
一种更聪明的做法是找一位有经验的前辈,让他在员工答题的每一步都给出详细点评——"这里的思路对了,那里推断有点问题"——这种方式叫做"在线蒸馏",靠密集的过程指导代替结果奖励。可这需要一位更强的前辈模型,而找到这样一位现成的前辈并不容易,成本也很高。
于是研究者想到了一个绝妙的折中方案:让AI自己当自己的老师。这个思路叫做"在线自蒸馏",简称OPSD——模型同时扮演学生和老师两个角色,学生负责解题,老师则掌握一些额外的"内幕信息"来引导学生。这种方法在普通的自回归语言模型(也就是像ChatGPT那类逐字生成文本的模型)上已经被证明相当有效。
然而,这批研究者把目光对准了另一类正在崛起的AI模型——扩散语言模型,并发现了一个被忽视的空白:现有的自蒸馏方法完全是为逐字生成设计的,硬搬到扩散语言模型上根本行不通。于是他们从头设计了一套专属方案,取名d-OPSD,并在四项推理任务上验证了它的威力:同样的效果,只需要原来十分之一的训练步数。
**一、扩散语言模型究竟是什么?一种"从模糊到清晰"的生成方式**
要理解这项研究的核心,得先搞清楚扩散语言模型和普通语言模型的根本区别。
普通的大语言模型,比如GPT系列,生成文字的方式就像一位打字员,从左到右,一个字一个字往下敲,每次只能看到已经打出来的内容,根据这些内容预测下一个字应该是什么。这种方式有个天然的限制:它无法回头修改,也无法同时考虑前后文的双向关系,每一个字的决策都只依赖左边的内容。
扩散语言模型则完全不同。它的生成过程更像是一位版画师从一张空白的版面开始创作:最初,整张版面上所有位置都是蒙版遮住的空白(用一个特殊的"mask"标记表示),然后版画师一轮一轮地揭开最有把握的那些位置,每揭开一批,下一轮的判断就更有依据,直到整张版面全部填满、作品完成。这个过程被称为"去噪"——从全部遮蔽到逐步清晰。
关键的不同在于:在每一轮去噪中,模型可以同时看到已经揭开的所有位置,不管它们在文本中的位置是前是后。也就是说,扩散语言模型天然具备双向感知能力——它既能看"前文",也能看"后文"。正是这个特性,成为了这项研究的核心突破口。
具体来说,训练时会有一个"加噪"过程:给定一段干净的答案,随机用mask盖住其中一部分,让模型练习从不完整的信息中还原出原文;推理时则反过来,从全部被mask的序列出发,每一步揭开最有把握的若干个位置,反复迭代,直到生成完整答案。
**二、老办法为什么搬不过来?两个根本性的不兼容**
在理解扩散语言模型的工作方式之后,现有自蒸馏方法的问题就一目了然了。
传统自蒸馏对普通语言模型的做法是这样的:把一道题的标准答案或参考解题过程直接附在题目后面,拼接成一个"特权提示词",老师模型拿到这个加了参考答案的题目,而学生模型只拿到原始题目。老师因为看到了答案,生成的预测自然更准确;学生则在没有答案的条件下生成答案,并在每一个词的位置上向老师的分布靠拢。这套逻辑对逐字生成来说非常自然——因为逐字生成本来就是看左边猜右边,把参考答案放在题目左边(作为前缀)是顺理成章的。
然而扩散语言模型生成的是整段答案,不是一个一个字往后加,没有"看左边猜右边"这回事。把参考答案放在题目左边这个操作,对扩散语言模型来说不仅设计感奇怪,而且研究者后来的实验揭示了一个更严重的问题:这样做,老师和学生给每个位置的词汇预测几乎完全一样。换句话说,老师并没有比学生多提供任何新信息——这种自蒸馏等于什么都没蒸,白费力气。
研究者用一个具体数据来说明这一点。他们定义了"Top-K重叠率"——在每个去噪步骤中,老师和学生对同一个位置的词汇排名最靠前的K个选项,有多少比例是重叠的。对于传统做法,这个重叠率接近1,几乎完全相同;而对于他们提出的新方法,这个重叠率落在一个合理的中间范围,老师确实提供了学生不具备的新视角。
第二个不兼容是监督的粒度问题。普通语言模型的训练天然以"下一个词"为单位,每生成一个词就有一次监督信号,这叫做"词级别监督"。扩散语言模型则不同——它每一步揭开的是一批词,且只有那些在本轮被揭开的位置才真正参与了本轮的状态转变。如果强行把词级别监督套用过来,就会把很多根本没参与本轮决策的位置也纳入计算,信号来源混乱,优化方向失真。
**三、核心创新一:让学生的"未来答案"成为老师的参考书**
既然把参考答案放在题目前面是一种不适合扩散语言模型的设计,研究团队的解决思路充分利用了扩散语言模型独有的双向感知能力。
回忆一下版画师的比喻。版画师每一轮都会揭开一批位置,此时版面上既有已经确定的内容,也有还被遮住的内容。对于一个普通语言模型来说,它只能看到左边已经揭开的内容;但扩散语言模型可以同时感知整个版面,包括右边尚未揭开的位置。这就意味着,如果我们偷偷在右边的位置写上一些"剧透信息",模型是可以看到并加以利用的。
d-OPSD的做法正是基于这个思路。具体流程是这样的:首先让学生模型正常生成一个完整答案,相当于版画师完成了一幅作品,我们把这个完整答案暂时保存下来,称之为"自生成的未来"。然后,在老师模型参与决策的时候,把这个完整答案中的一部分随机"提前揭示"出来——不是放在题目前面,而是直接替换掉对应位置的mask标记,让老师在当前这一轮去噪时就能看到这些"来自未来"的内容。
这个设计有一个精妙的比喻:就像一个人能够穿越回十年前,带着对未来发生的事情的了解重新做决策。十年前的你(学生)在当时并不知道后来的走向,但另一个版本的你(老师)带着对结局的了解,给出的每一步建议自然更有依据。学生通过向老师学习,逐渐内化这种"来自未来的经验"。
这个"揭示多少未来信息"的程度由一个叫做"保留比例"的参数控制,论文中记作ρteacher。保留比例越高,老师看到的未来内容越多,老师就越强;但研究者发现,老师并不是越强越好,因为老师太强的时候,学生和老师的差距太大,学习信号反而变得难以消化。实验显示保留比例设为0.25时效果最佳。
此外,研究者还特别指出,老师看到的这些"未来信息"是学生自己生成的,而不是数据集里的标准答案——这一点至关重要。因为学生生成的答案会随着训练过程而变化,老师也随之更新,整个过程始终保持"在线",不会陷入依赖静态数据的困境。
**四、核心创新二:把监督从"一个词"升级到"一个去噪步骤"**
解决了老师的构建问题,还需要解决监督信号的粒度问题。
回到版画师的比喻。版画师每一轮会选出他最有把握的若干个位置,把它们从遮蔽状态揭开,并确定下来。这若干个被揭开的位置,才是本轮真正发生状态变化的位置,也是本轮决策的主角。研究者的方案是:只在这些"本轮被揭开的位置"上计算老师和学生的分布差异,其余位置则不参与本轮的监督。
这个"本轮被揭开的位置集合"在论文中叫做Kt,是从全部还被遮住的位置中,按照预测置信度从高到低挑选出来的top-k个位置。整个训练轨迹中,所有步骤的Kt合并起来,恰好覆盖所有位置——每个位置都会在它被揭开的那一步参与恰好一次监督,既不重复也不遗漏。这种按步计算损失的方式被称为"步级别散度"。
有一个细节值得关注:这个Kt应该由谁来决定?是学生最有把握的位置,还是老师最有把握的位置?研究者做了对比实验,发现以老师的置信度来选取Kt效果更好。背后的道理不难理解:老师因为看到了未来信息,它最有把握的位置往往是它能给出最强指导的位置,让学生在这些位置上向老师学习,信号质量最高。
最终的训练目标,是在整个轨迹的所有步骤上,对所有Kt位置的KL散度(一种衡量两个概率分布差异的度量)取平均,让学生的预测分布逐步向老师靠拢。研究者选用了"反向KL"而非"正向KL",原因在于反向KL具有"模式寻求"特性——它倾向于让学生专注于最可能的答案模式,而不是试图覆盖老师分布的所有可能性,这对于推理任务来说更为鲁棒。
**五、一些让训练更稳定的工程细节**
理论设计之外,研究团队还披露了几个让训练实际运作起来的工程技巧,这些细节在实践中至关重要。
其一是固定老师策略。由于老师和学生共享同一套模型参数,如果参数更新太快,老师的分布也会随之剧烈变化,导致每一步的监督信号都不稳定。研究者的做法是把老师固定在训练开始时的初始参数上,只让学生的参数更新。这样老师提供的是一个稳定的基准,学生可以踏实地朝着这个目标靠近。
其二是逐词裁剪。在计算KL散度的时候,某些词汇位置的分布差异可能异常大(比如某个罕见词的概率在老师和学生之间差了好几个数量级),这些异常值如果不加限制,会主导整个梯度方向,让训练朝着奇怪的方向走。研究者借鉴了其他工作的经验,对每个词汇位置的散度贡献施加一个上限,把过大的偏差截断,实验证明这显著提升了训练稳定性和最终性能——没有裁剪的版本在约150步之后开始崩溃,最终准确率跌至69.37%;加了裁剪的版本则稳定爬升至81%。
其三是只在正确答案上训练。每一道题,研究团队会让学生模型最多尝试8次(类似于pass@8),只要有一次生成了正确答案,就用这个正确答案来构造自蒸馏的训练样本,计算损失并更新参数;如果8次都没生成正确答案,则跳过这道题。实验表明,只在正确生成上训练,比在所有生成(包括错误答案)上训练效果更好,尽管两者都比基线好。
其四是输入拼接技巧。扩散语言模型每一步的注意力计算需要覆盖整个序列,如果把每一步的输入分别传入模型计算损失,内存占用会随步骤数线性增长,很快爆内存。研究者的办法是把整条轨迹中所有步骤的输入张量拼接成一个大批次,一次性传入模型,由于所有步骤共享同一套模型权重,梯度在拼接后的批次里保持独立,不需要额外存储中间状态,从而大幅节省了内存。
**六、实验结果:四项任务全面碾压,训练步数仅需十分之一**
研究团队在四项推理任务上对d-OPSD进行了系统评测,基础模型选用了LLaDA-8B-Instruct,一个当时最先进的扩散语言模型。
四项任务分别是:GSM8K(小学数学应用题)、MATH500(竞赛级数学题)、Countdown(用给定的三个数字通过四则运算凑出目标数)、Sudoku(4×4数独,需满足约束条件填写数字)。前两个考验数学推理,后两个考验规划与约束求解能力。
对比的基线方法包括:强化学习类方法diffu-GRPO和VRPO,以及监督微调类方法SFT和d3LLM(后者是一种基于静态数据集的离线自蒸馏方法)。
在性能上,d-OPSD在几乎所有设置下都达到或超越了最佳基线。以生成长度256为例:GSM8K上,d-OPSD达到81.0%,而最强的RLVR基线diffu-GRPO为79.8%;MATH500上,d-OPSD与diffu-GRPO同为37.2%;Countdown上,d-OPSD以37.9%明显领先diffu-GRPO的33.2%;Sudoku上,d-OPSD以23.9%大幅超过diffu-GRPO的18.4%。
更令人印象深刻的是训练效率。达到峰值性能所需的优化步数(即梯度更新次数),diffu-GRPO在GSM8K上需要7700步,d-OPSD只需425步;在MATH500上diffu-GRPO需要6600步,d-OPSD只需100步;在Countdown上diffu-GRPO需要5000步,d-OPSD只需175步;在Sudoku上diffu-GRPO需要3800步,d-OPSD只需425步。平均算下来,d-OPSD大约只需要原来约10%甚至更少的训练步数就能收敛。研究者将这种效率优势归因于步级别的密集监督——强化学习只在最终给出一个粗粒度的奖励信号,而d-OPSD在每一步的每个位置都有来自老师的细粒度指导,信息密度远非强化学习可比。
此外,研究团队还做了一个"先验验证"实验,用来确认自蒸馏的前提条件是否成立:老师是否足够强,强到能够引导学生?他们从训练集中随机抽取500道题,让学生生成答案后构造自老师输入,再用老师分布重新生成答案,观察正确率。结果显示,即使保留比例仅为0.10,老师的答题准确率也显著高于学生(例如在GSM8K上,学生Pass@1为81.3%,而保留比例0.10的老师已能达到85.6%,0.50时达到94.8%,接近Pass@8的95.5%)。这证明了老师确实掌握了学生所不具备的额外能力,自蒸馏的信息传递是有实质内容的。
**七、新方法与老方法的正面对决:为什么"看未来"胜过"看参考答案"**
为了单独验证自蒸馏老师的构建方式是否关键,研究者设计了一个控制变量实验:保持步级别散度监督不变,只把老师的构建方式换成传统的"把参考答案拼到题目前面",其余完全相同,测试这个"AR风格OPSD"与d-OPSD的差距。
结果是:AR风格OPSD在GSM8K上达到78.4%,在MATH500上达到33.4%;而d-OPSD分别达到81.0%和37.2%,差距明显。
前面提到的Top-K重叠率指标为这个差距提供了直接解释。研究者计算了两种方法下,每个去噪步骤中,老师和学生的词汇分布在各个位置的Top-20重叠比例。AR风格方法的重叠率接近1——老师和学生的预测几乎完全一致,老师没有提供任何超越学生的新信息,自蒸馏形同虚设。而d-OPSD的重叠率维持在一个适中的范围,老师的分布与学生有实质差异,这种差异就是可以转移给学生的新知识和新思路。
这个发现有一定的普遍意义:自蒸馏要有效,老师和学生之间必须存在有意义的差异,这个差异不能太大(学生学不会)也不能太小(没有可学的东西)。d-OPSD通过让老师看到学生自己生成的未来答案,而非静态的标准答案,恰到好处地制造了这种有益的分布差异。
**八、方法的局限与已知失效场景**
研究团队在论文中坦诚地披露了一个重要的失效模式:在某些训练设置下,d-OPSD在达到性能峰值之后会出现"政策崩溃"——性能急剧下降,模型变得无法正常工作。这与强化学习方法中观察到的同类现象一致。研究者推测,这种崩溃可能源于反向KL的"模式寻求"特性在后期训练中变得过于极端——模型越来越只盯着某几种答题模式,丧失了多样性和灵活性,最终彻底"死锁"。论文中展示的Countdown任务的训练曲线清晰地呈现了这种模式:性能在175步左右达到峰值后快速下滑。
这意味着在实践中需要仔细监控训练过程,选取合适的检查点,而不能无限制地延续训练。如何从根本上解决这一稳定性问题,是研究者明确指出的未来工作方向。
归根结底,这项研究的意义在于证明了一件事:专门为某类模型设计的训练方法,会比通用方法更有效,这种专门设计可以从根本原理出发,而不只是表面的参数调整。对于扩散语言模型这类还处于快速发展阶段的新兴技术来说,d-OPSD提供了一条在计算资源有限的情况下快速提升推理能力的可行路径。当然,政策崩溃这一悬而未决的问题,也提醒着研究者和使用者,这条路还没有完全铺平。对于那些希望深入了解全部技术细节的读者,可以通过论文编号arXiv:2606.18195查阅完整原文。
Q&A
Q1:d-OPSD和普通强化学习训练扩散语言模型有什么区别?
A:强化学习训练扩散语言模型(如diffu-GRPO)只在模型生成完整答案后给一个"对了"或"错了"的信号,属于稀疏奖励,模型需要大量尝试才能学会。d-OPSD则是让模型同时扮演老师和学生,老师在每个去噪步骤都给出密集的指导信号,信息量远多于奖励信号,因此同等效果只需约十分之一的训练步数。
Q2:扩散语言模型的"自蒸馏老师"为什么要用模型自己生成的答案,而不是数据集里的标准答案?
A:研究者通过实验发现,用静态标准答案构造老师时,老师和学生的预测分布几乎完全相同(Top-K重叠率接近1),老师没有提供任何新知识,蒸馏等于无效。而用模型自己生成的答案做老师,老师和学生之间存在适度的分布差异,老师确实掌握了可以传递给学生的额外信息,蒸馏才真正有效。
Q3:d-OPSD训练过程中的"政策崩溃"是什么意思,有办法解决吗?
A:政策崩溃是指模型在达到最佳性能后,继续训练反而导致性能急剧下滑,模型变得无法正常推理。这与强化学习训练中观察到的类似现象一致,研究者推测是训练目标的"模式寻求"特性在后期过于极端所致。目前的应对方法是提前停止训练并选取峰值检查点,从根本上解决这一问题是论文指出的未来研究方向。