即墨开展平台业务培训 推进教师管理数字化
2026-06-15
2026-06-20 0
这项由新加坡国立大学LV-NUS实验室联合复旦大学、北京大学与字节跳动公司共同开展的研究,于2026年6月发布于arXiv预印本平台,论文编号为arXiv:2606.17628v1。研究的核心成果是一个名为OPD-Evolver的智能体训练框架,它让一个参数量仅90亿的小模型在多项测试中追平甚至超越了参数量高达3970亿的超大模型。

假设你刚入职一家新公司,第一天什么都不懂,第二天开始慢慢摸索,第三天开始记笔记,第四天拿出笔记本翻翻哪条记录对今天的工作有用,第五天把没用的记录划掉,把有价值的记录整理得更清晰……几个月后,你已经成为部门里解决问题最快的人。这个"靠经验成长"的过程,正是这篇论文想赋予AI的能力。
然而,当前的大多数AI系统在这个过程中只做到了"记笔记"这一步——它们能存储经历,但不知道哪条记录真正有用,不知道怎么从记录里学到真正的工作技巧,也不知道什么时候该把过时的笔记扔掉。OPD-Evolver要做的,是让AI把这整套"靠经验进步"的流程都学会。
一、当AI有了记忆,问题才刚刚开始
现代AI智能体已经普遍配备了某种形式的"记忆系统"。这些系统让AI可以把之前完成任务的经历、犯过的错误、学到的技巧存储起来,供未来使用。听起来非常合理——毕竟人类就是靠积累经验来提升能力的。
但研究团队发现,"有记忆"和"会用记忆进步"之间,隔着一道巨大的鸿沟。
以一个管理仓库的人为例。仓库里堆满了各种操作手册、工作日志、经验总结,但如果这个人每次处理问题时随手抓一本书翻翻,不管这本书是否跟当前问题有关;完成任务后把所有细节不加筛选地全记下来;随着时间推移,仓库里的东西越堆越多,旧的、错的、重复的都混在里面——那么这个仓库非但没有帮助这个人,反而成了负担。
当前的AI记忆系统,大多就处于这种状态。它们能存储经历,但往往缺乏四种关键能力:一是判断哪些存储的经验真正值得在当前任务中使用;二是把选出的经验真正转化为有效的行动;三是从新的经历中提炼出值得长期保存的知识;四是定期整理记忆仓库,淘汰过时或错误的内容,合并重复的条目。
这四种能力,研究团队将其称为"经验选择、经验驱动执行、经验写入、经验管理",并把同时具备这四种能力的AI称为"合格的智能体进化者"(agent evolver)。这个名字的意思是,这个AI不仅能完成任务,还能系统地通过经验让自己持续变得更好。
二、一个仓库管理员的四重修炼
为了让读者真正理解这四种能力的含义,可以用一个更具体的比喻来理解。
把AI的记忆系统比作一个老员工的工作笔记本。每天开始工作前,这个员工需要翻翻笔记本,找出今天任务最相关的那几页(经验选择)。然后,他用这些笔记里的方法和教训来指导今天的具体操作(经验驱动执行)。任务结束后,他把今天学到的新东西记下来,但不是把所有细节都写进去,而是提炼出最有价值的心得(经验写入)。每隔一段时间,他还会整理整个笔记本,把重复的内容合并,把已经过时的方法划掉,把错误的经验标记警告(经验管理)。
研究团队指出,这四种能力不能分开训练,因为它们彼此紧密依赖。如果"经验选择"能力差,AI每次翻到的都是无关内容,执行时就会受到干扰;如果"经验写入"质量低,记录下来的都是泛泛而谈的废话,后续选择时根本找不到有价值的内容;如果"经验管理"缺失,随着时间推移,笔记本里的内容越来越臃肿混乱,最终反而拖累性能。
三、笔记本不只有一个本子:四层记忆结构
OPD-Evolver的记忆系统并不是一个简单的大杂烩,而是按照用途精心划分成四个层次,就像一个细心的员工会准备几种不同类型的笔记本一样。
最底层是"轨迹记忆"(trajectory memory),相当于工作日记——完整记录了某次任务从开始到结束的详细过程,包括每一步做了什么、看到了什么、得到了什么反馈。这类记忆内容丰富、细节真实,但也相当冗长,就像把一天的工作录像存下来,以备将来参考。
第二层是"提示记忆"(tip memory),相当于便利贴——记录的是一些简短的警告或经验法则,比如"操作系统任务里千万别忘了给目录设置权限"、"SQL查询前先核实列名"。这类记忆简短、具体,直接对应某类容易犯的错误。
第三层是"技能记忆"(skill memory),相当于操作手册——记录的是可以跨任务复用的通用操作流程,比如"如何系统地探索一个陌生数据库的结构",或者"如何在迷宫环境中进行高效路径规划"。这类记忆抽象程度更高,单次提炼成本也更大,但复用价值极高。
最顶层是"工具记忆"(tool memory),相当于代码片段库——存储的是可以直接执行的命令模板或代码结构,需要时直接调用即可。
这四层记忆各有侧重:工作日记内容详尽但难以直接复用,操作手册高度可复用但提炼成本高,便利贴简洁直接,代码库可以直接运行。AI在每次任务前,会从四个层次分别检索相关内容,然后综合判断哪些值得注入到当前任务的提示上下文中。
四、快慢两个循环:AI是如何"边干边学"的
OPD-Evolver的整体运作机制分为两个相互配合的循环,研究团队用"快循环"和"慢循环"来描述它们。
快循环负责实时运行。每当AI面对一个新任务,它首先从记忆仓库里检索相关内容,每个层次最多取50条候选记忆。但这50条候选内容里难免有些是无关的、过时的或者互相矛盾的,所以AI需要进一步从中筛选出真正有用的那些,注入到当前任务的背景信息里。接着,AI带着这些选定的经验去执行任务,在与环境的多轮交互中完成工作。任务结束后,AI根据结果和过程,向四个记忆层次分别补充新的记录——有些任务产生新的技能,有些产生新的便利贴,有些什么都不值得记。每隔30个任务,AI还会主动进入一次"仓库整理"模式,通过查找、合并、删除等操作清理记忆仓库,防止它变得臃肿混乱。
快循环解决的是"怎么用经验做好当前任务"的问题,但它本身并不训练AI的能力——就像一个员工每天参照笔记工作,但如果没有人系统地告诉他哪些笔记写得好、哪些判断正确,他的笔记质量和判断水平不会自动提升。
这就是慢循环的任务。慢循环负责从AI的历史交互中提炼训练信号,教会AI把那四种经验管理能力真正内化进自己的"本能"里。
五、如何知道一条经验究竟值多少钱?
慢循环面临一个核心难题:怎么知道某条存储的记忆究竟有没有价值?
任务的结果反馈是最直接的信号,但问题在于,一次任务成功与否受到很多因素的共同影响——使用的经验、执行的策略、任务本身的难度,都掺杂在里面。如果只是笼统地说"这次任务成功了,所以用到的所有记忆都是好的",这个逻辑显然过于粗糙。
研究团队设计了一套"结果校准归因"(outcome-calibrated attribution)方法,本质上是一种受控对照实验的思路。对于记忆仓库里的某条记忆,研究者会收集两类任务数据:一类是这条记忆被检索到但没有被选入提示上下文的任务(相当于对照组),另一类是这条记忆被选入提示上下文的任务(相当于实验组)。然后比较两组的平均成功率——如果"用了这条记忆"的任务成功率更高,说明这条记忆确实有正面价值;如果成功率差不多或者更低,说明这条记忆帮助有限甚至可能有干扰。
此外,这个评分还会考虑"使用次数"因素。一条只被使用过一两次的记忆,它的评分参考价值较低——毕竟样本太少;被大量使用过的记忆,其评分就更可靠。这个置信度调整让整套归因系统更加稳健。
最终,每条记忆都获得了一个数值化的"价值分",高分意味着这条记忆真正帮助过AI,低分意味着它是噪音甚至是有害的。
六、有了价值分,老师才能真正教出好学生
有了每条记忆的价值评分,慢循环就可以构建训练信号了。研究团队采用的方法叫"在线策略自我蒸馏"(on-policy self-distillation)——这个名字听起来很复杂,但本质上可以理解为一种特殊的"观摩更聪明的自己"训练方式。
在这个框架里,同一个AI模型扮演两个角色:一个是"学生",只能看到正常情况下能看到的信息;另一个是"教师",除了看到学生能看到的内容,还额外看到了用价值分标注过的"内幕信息"——比如每条候选记忆的价值分、历史上哪些任务的执行路径最成功、新产生的记忆在未来表现如何。
针对四种能力,系统分别构建了四种训练场景。在经验选择的训练中,教师版本看到了每条候选记忆的价值分,它会做出更合理的筛选决策;学生版本的筛选行为被教师版本纠正,逐步学会分辨好记忆和坏记忆。在经验驱动执行的训练中,教师版本看到了哪些记忆是高价值的以及同类任务中最成功的执行轨迹;通过模仿这些成功案例,学生学会了在没有外部辅助的情况下也能直接做出正确行动。在经验写入的训练中,教师版本知道哪些新产生的记忆后来真正有用,因此能示范如何写出高质量的记忆;学生通过模仿,学会了把失败经历提炼成真正有价值的教训,而不是泛泛的废话。在经验管理的训练中,教师版本看到了整个记忆仓库的健康诊断报告——哪些条目重复率高,哪些条目使用频率低但质量好——从而示范正确的合并、删除决策;学生学会了主动维护记忆仓库的质量。
整个训练过程中,教师版本的参数是冻结的(即它不会因训练而改变),梯度只通过学生版本的行为进行反向传播。训练结束后,只有学生版本被部署使用,它不再需要任何"内幕信息",就能凭借训练中内化的判断力独立完成选择、执行、写入和管理。
七、拿数据说话:一个小模型挑战参数量超它40倍的巨头
研究团队在四个不同类型的测试平台上评估了OPD-Evolver,涵盖数据库操作、操作系统任务、数学物理问答、代码交互以及网格迷宫导航等场景,力求全面检验这套框架的通用性。
在与七种同类记忆系统的对比中,OPD-Evolver在全部10个子测试中均排名第一,不论是4B版本还是9B版本。以最具代表性的几个数据为例:在操作系统任务上,OPD-Evolver-9B的成功率为65%,而表现最好的对比系统MemEvolve只有61%;在代码安全挑战(CTF)测试上,OPD-Evolver-9B达到57%,比最近的竞争者高出4个百分点;在状态抽象推理任务上,OPD-Evolver-9B以52.92%超过了MemEvolve的48%。
更令人注目的是与超大规模模型的对比。研究团队将OPD-Evolver-9B与两个业界顶级的商业大模型进行了比较:参数量高达3970亿(其中170亿处于激活状态)的QWEN3.5-397B-A17B,以及参数量约1960亿的STEP-3.5-FLASH。在全部10个子测试中,OPD-Evolver-9B在6个测试上超过了前者,在9个测试上超过了后者。换句话说,一个参数量只有约90亿的小模型,通过学会"管理和使用经验",在多项任务上挑战了参数量超过它40倍的对手。
在与基于训练的方法的对比中,OPD-Evolver在6个测试中赢得了5个。与纯强化学习方法GRPO相比,OPD-Evolver在最困难的网格迷宫子任务(需要找到钥匙才能开门的KeyRoom关卡)上的成功率从3.92%提升到了9.80%,翻了将近一倍半。
八、拆解实验:去掉哪个零件损失最大?
为了验证各个组成部分的必要性,研究团队进行了系统的消融实验——用通俗的话说,就是逐一"拆零件",看看去掉哪个部分会造成多大损失。
实验结果显示,去掉"结果校准归因"(即不再精确测量每条记忆的价值)是损失最大的改动,平均成功率从约38.67%下降到约32.13%,其中CTF任务下降了7.31个百分点,SQL任务下降了7.36个百分点。这说明,精准地知道哪条经验有价值,是整套系统最核心的基础。
去掉"慢循环蒸馏"(即AI不再通过训练将这些能力内化)是第二大损失,平均下降约33.10%。这证明了仅仅在运行时依赖记忆提示是不够的,必须把经验管理能力真正训练进模型本身。
去掉"经验写入蒸馏"(即不再训练AI写出高质量记忆的能力)导致CTF成功率从34%降到29%;去掉"学习型记忆选择"(改为纯粹按相似度排名取前5条)导致SQL成功率从45.86%降到42.04%;去掉"记忆管理训练"也带来了明显的性能下降。这四组数据共同说明,每一种经验管理能力都不是可有可无的装饰,而是整套系统不可或缺的组成部分。
九、从数字到直觉:记忆质量究竟变化了多少?
研究团队还从更直观的角度展示了OPD-Evolver带来的变化——不只是最终成功率,而是记忆本身的质量。
在经验选择方面,通过比较训练前后AI所选记忆的平均价值分,可以看到明显的提升。以SQL任务为例,原始模型所选记忆的中位价值分约为0.66,OPD-Evolver训练后提升到0.79;在CTF和Bash任务上,分别从0.69、0.66提升到0.76、0.76。更重要的是,低价值记忆(分布的下四分位)从约0.50提升到了0.62以上——这说明AI不只是偶尔选出更好的记忆,而是从整体上减少了"把没用的东西注入进去"的概率。
在经验写入方面,变化更为显著。原始模型写出的记忆中位价值分约为0.80到0.82,训练后提升到0.89到0.91,且分布更集中——意味着AI不再产生那么多泛泛而谈的废话,而是更稳定地产出真正有价值的经验记录。
此外,研究团队还测试了一个特别有意思的问题:如果把外部记忆仓库完全去掉,只让训练后的OPD-Evolver用内化的能力执行任务,结果会如何?结果显示,即使没有任何外部记忆辅助,OPD-Evolver的成功率也比原始模型高出3到7个百分点,且完成同样任务所需的步骤数减少了最多2.5步。这说明慢循环训练真的把高价值经验"烧录"进了模型的参数里,而不只是让模型学会了如何翻笔记本。
十、案例解析:同样的任务,不同的判断
研究论文提供了几个具体案例,非常直观地展示了OPD-Evolver和普通模型之间的差异。
在一个操作系统任务中,要求AI在某个目录下创建多个文件,设置特定权限,并按修改时间排序生成文件列表。记忆仓库里有5条候选记忆,包括两个技能、一个提示、两个工具。普通模型选择了一个目录权限设置技能和一个配置文件工具——这两条都跟当前任务沾点边,但都不是最直接相关的。OPD-Evolver则选择了与批量文件权限修改直接相关的技能和验证文件列表的提示,完全跳过了那个不相关的工具。这种判断上的差异,正是"经验选择"能力的体现。
在一个网格迷宫任务中,AI失败了——它在一系列移动后提前提交,但实际上还没有站到目标格子上。普通模型从这次失败中写出的教训是"避免无效操作、记得验证目标、预览每步移动"——这些建议都正确,但都过于笼统,根本没有指向真正的失败原因。OPD-Evolver则直接写出了核心教训:"仅仅探索相邻格子是不够的"——这条记忆精准指向了AI在那次任务中犯的具体错误,未来遇到类似情况时能直接起到警示作用。
还有一个SQL查询失败案例。普通模型从失败中产生了大量记忆:3个新技能、4个通用SQL注意事项、2个新工具——内容丰富,但绝大多数都是宽泛的操作建议,没有指向真正的失败原因(错误地假设了列名,DESCRIBE语法出错)。OPD-Evolver只写出了2条提示:在WHERE子句前验证列名,以及DESCRIBE返回数据行而不是表结构说明语法有误。没有技能,没有工具,只有两条直击要害的教训。
归根结底,OPD-Evolver解决的是一个非常本质的问题:AI系统积累了大量经验,但不知道该怎么从中真正学习。大多数现有的AI记忆系统,就像一个认真记笔记但从不整理、也没人告诉他哪些笔记有价值的学生——笔记本越来越厚,但能力没有系统性的提升。
这篇论文给出的解决方案,是让AI学会扮演自己的"教练"。通过测量每条经验在历史任务中实际带来的价值变化,再用这种精确的价值信号来训练AI的判断力,最终把"知道什么经验值得保留和使用"这种元能力内化到模型本身。训练完成后,AI不需要任何额外的外部辅助,就能在新任务中自然表现出更精准的记忆选择、更有效的执行方式、更高质量的经验记录,以及更及时的仓库维护。
一个90亿参数的小模型能够挑战3970亿参数的超大模型,本质上说明的是:在特定类型的任务中,"怎么用经验"比"有多少参数"更重要。这对AI系统的未来发展方向提供了一个值得思考的视角——更大的模型固然有其优势,但让模型真正学会"经验性成长",或许是一条更可持续也更高效的路径。
有兴趣深入了解这项研究的读者,可以通过arXiv:2606.17628查阅完整论文。
Q&A
Q1:OPD-Evolver是如何判断哪条记忆有价值的?
A:OPD-Evolver使用了一种叫"结果校准归因"的方法。简单说,就是对记忆仓库里的每一条记忆,收集两种历史数据:这条记忆被使用过的任务,和这条记忆被检索到但没被使用的任务,然后比较两组任务的平均成功率。如果"用了这条记忆"的任务成功率更高,这条记忆就被评为高价值;反之则低价值。使用次数越多的记忆,评分的置信度也越高。
Q2:OPD-Evolver的慢循环训练具体是怎么进行的?
A:慢循环训练让同一个AI模型扮演"学生"和"教师"两个角色。学生只能看到正常信息,教师则额外看到每条记忆的价值分、历史成功轨迹等内幕信息。训练时,教师在同样的任务场景下示范更好的决策,学生逐步模仿,最终把判断力内化进自己的参数里。训练完成后只部署学生版本,它不再需要任何内幕信息就能独立做出高质量的经验管理决策。
Q3:OPD-Evolver的四层记忆结构分别存什么?
A:四层记忆各有侧重。轨迹记忆存储完整的任务执行过程,细节丰富但较冗长;提示记忆存储简短的经验法则和警告,类似便利贴;技能记忆存储可跨任务复用的通用操作流程,类似操作手册;工具记忆存储可直接执行的命令模板或代码片段。AI在每次任务前会从四个层次分别检索候选内容,再筛选出最相关的注入当前任务。