OpenAI拟租赁俄亥俄州10GW数据中心园区:Nvidia或提供资金支持
2026-06-11
2026-06-10 0
这项由加州大学伯克利分校(UC Berkeley)与加州大学旧金山分校(UCSF)、Voio公司联合开展的研究,以预印本形式于2026年6月3日发布,论文编号为arXiv:2606.04433。有兴趣深入了解的读者可以通过该编号在arXiv平台查阅完整论文。

一个看似简单却困扰已久的问题
设想你是一位经验丰富的放射科医生,每天的工作是将患者今天拍的胸部X光片与三个月前的那张放在一起比较,判断某个阴影是新出现的还是已经缩小了。这件事对你来说轻而易举,因为你的大脑会自动"记住"上一张图,然后把两张图叠在一起找不同。
然而对于目前流行的那些多模态AI系统——也就是那种既能看图又能对话的人工智能——来说,这件事却出奇地困难。每当它被要求比较两张图片时,它实际上是在用完全"失忆"的眼睛分别打量每一张图,然后把两份描述都交给语言处理模块,让那个模块在脑子里做比较。就好比你让一个人用眼罩蒙住眼睛,先摸清楚第一个物体的形状,再摸清楚第二个物体的形状,最后靠记忆判断两者的差异——而不是让他同时用双眼看着两个物体。
问题的根源在于,现有这些AI系统的"视觉部分"(也就是负责把图片转化成计算机能理解的数字信号的那个模块)在设计之初,完全是按照"每次只看一张图"来工作的。它每次接收一张图片,独立处理,输出一批数字,然后"忘掉"这张图,等待下一张。等语言模块收到两批数字之后,才开始做比较。
这种流程有个致命的弱点:那些细微但至关重要的差异,往往在"视觉部分"独立处理每张图时就已经被抹掉了。如果一个X光片上的阴影只是稍微变淡了一点点,这个细节可能对单张图的整体语义理解毫无影响——所以视觉模块在压缩信息时可能直接忽略了它。等到语言模块拿到两组压缩后的信息时,那个关键的差异已经不在了。
一、问题究竟出在哪里:视觉模块的"先天失忆症"
现代多模态AI的工作原理,用一个比喻来说,很像一条老式工厂流水线。第一道工序是"视觉工人",他们的任务是把每一张照片转化成一份标准化的数字报告,但他们手边没有之前任何一张照片,只能就当前这张写报告。第二道工序是"语言工人",他们拿着所有报告进行汇总分析,试图从这些独立报告里发现规律或差异。
这种架构设计在处理单张图片时工作得很好——毕竟大多数AI视觉任务确实只需要看一张图。但随着AI被越来越多地用于那些需要"前后对比"的场景,这个先天设计缺陷就越来越明显了。研究人员把这种状态称为"无状态编码"——视觉模块没有状态记忆,每次都是白纸一张重新开始。
更深层的原因是,现有的视觉模块大多是通过"把图片和文字对应起来"的方式预训练的,也就是学会了"这张图大概是一只猫"这样的语义对应关系。这种训练方式天然地推动视觉模块去捕捉高层次的语义信息,而忽略那些对语义没什么影响的细节——比如某个角落里多了一个小光点,或者某条线稍微移动了几毫米。恰恰是这些"语义上无关紧要"的细节,在医疗诊断、遥感变化检测、图像编辑验证等实际任务中至关重要。
研究团队在论文中明确指出了这种矛盾:视觉模块为了适应预训练任务而形成的特征提取习惯,会系统性地抑制那些在单张图上"不重要"但在跨图比较时"非常重要"的细节信息。
二、研究团队的解法:给视觉模块装一扇"后视窗"
这项研究的核心贡献,是提出了一种叫做"有状态视觉编码器"(Stateful Visual Encoder,简称SVE)的新设计思路。
继续用流水线的比喻:研究团队的做法,相当于在"视觉工人"的工作台旁边装了一扇窗户,让他在处理当前这张图的同时,可以随时回头看一眼上一张图。不再是盲目地独立工作,而是边看新图边对照旧图,把有差异的地方特别标注出来。这样等他把报告交给"语言工人"时,报告里已经包含了"与上一张相比,这里多了一个阴影"这样的差异信息。
从技术角度来说,这个设计在原有视觉处理模块的每一层,都额外插入了一个"跨图注意力"机制。"注意力"这个词在AI领域是个专业术语,但它的意思其实很直白:就是让当前正在处理的信息去"查询"另一份信息,看哪些地方是相关的。在这里,当前图片的每一个局部区域,都会去查询上一张图片对应位置的信息,把两者的差异融入自身的特征表示中。
研究团队特别强调,这个设计遵循了一个非常重要的原则——"因果性",也就是当前图只能看上一张图,不能"偷看"还没出现的未来图片。这就好比你在看视频时,只能用已经看过的画面来理解当前画面,不能提前知道后面会发生什么。这个设计让SVE特别适合那些实时交互、实时决策的应用场景。
三、研究团队尝试了哪些"装窗户"的方式
在确定最终方案之前,研究团队一共探索了四种不同的设计思路,像是在做不同风格的"后视窗"实验。
第一种叫"自注意力扩展"(Self-Ext),思路是直接把上一张图的信息塞进原有的注意力计算中,让视觉模块在做自我分析时同时能看到上一张图的内容。这种方法最省事,不需要新增额外的计算模块。
第二种叫"自适应归一化"(AdaLN-Zero),思路是先把上一张图的整体信息浓缩成一个数字向量,然后用这个向量来"调节"当前图的处理方式,就像根据天气调整烹饪火候一样。这种方法对上一张图的信息做了大量压缩。
第三种叫"交叉注意力"(Cross),思路是专门新增一个计算步骤,让当前图的每个局部去精确查询上一张图的每个局部,实现细粒度的逐像素比较,而不是只看一个整体印象。
第四种是研究团队最终选定的冠军方案,叫"交叉注意力加前馈网络"(Cross+FFN),是在第三种方案的基础上再加一个信息处理步骤。如果说交叉注意力是"找到上一张图和当前图的对应关系",那么额外加入的前馈网络就是"把这种对应关系进一步消化吸收,变成当前图自己的特征"。两步合一,效果更好。
经过在控制实验上的比较,Cross+FFN脱颖而出,在所有测试任务上都表现最好。相比之下,第一种方案"自注意力扩展"甚至在某些任务上反而比不加任何改进的原始模型更差,说明简单粗暴地把两张图的信息混在一起,反而会干扰原有的特征提取能力。第二种方案相对稳定但提升有限,因为把整张图压缩成一个数字向量损失了太多细节,就好比用一句话描述一部电影,然后据此判断续集改了什么——信息量远远不够。
四、怎样把新模块接入原有系统:三个关键细节
研究团队在实现SVE时,特别注意了三个工程细节,这三个细节对最终效果的影响甚至比结构设计本身还要关键。
第一个细节是"克隆初始化"。新加入的交叉注意力模块,其初始参数是直接从紧邻的原有自注意力模块复制过来的,而不是随机初始化。这就好比让一个在图书馆工作了多年的老员工去带一个新岗位的同事——新同事直接继承了老员工的工作方法和经验,而不是从零开始摸索。这样做的好处是,新模块从一开始就知道该如何处理视觉特征,不需要从头学习基础技能。
第二个细节是"零初始化输出"。虽然新模块的输入部分借鉴了旧模块的参数,但其输出层的权重被设置为零。这意味着在训练刚开始时,新模块对最终结果的影响为零,整个系统等同于原来没有改动的版本。随着训练推进,新模块才逐渐学会发挥自己的作用,对结果产生影响。这个设计确保了训练的平稳起步,避免了新模块一开始就产生错误干扰,把整个系统带偏。实验结果表明,去掉这个零初始化会造成最大的性能下滑,说明这是最关键的稳定训练的手段。
第三个细节是"阻断梯度回传"。在训练过程中,新模块从上一张图中读取信息,但这个读取操作不会反过来影响上一张图的特征计算方式。换句话说,上一张图的特征是"只读"的参考资料,不会因为被查询而改变。用一个比喻:你可以参考图书馆里的资料来写论文,但你的写作行为不会改变图书馆里那本书的内容。这个设计让上一张图的特征保持稳定,作为一个可靠的参照基准。
五、用三种"考试题"来验证效果
为了严格检验SVE到底有没有用,研究团队设计了三种从不同角度考察跨图比较能力的控制实验任务。
第一种任务叫"跨图空间聚合"。具体操作是:在计算机屏幕截图的随机位置放一个红点,拍一张图;再换一张截图,在另一个位置放红点,拍第二张图;然后让AI计算两个红点之间的距离,或者三到五张图上的红点构成的几何图形面积。这个任务的难点在于,背景是复杂的网页界面,视觉干扰极多,而AI需要精确定位每张图上那个微小的红点,再跨图计算几何关系。没有跨图记忆能力的原始模型,表现明显不如SVE——在两张图距离估计这个最基础的子任务上,SVE的平均绝对误差从1.17降低到了0.56,几乎减半。
第二种任务叫"多目标视觉差异描述"。研究团队用了一个专门的3D场景生成系统,生成两张画面,每张画面里有三四十个不同形状、颜色、材质的物体,两张图之间有四处细微变化——某个球移动了位置,某个圆柱不见了,某个立方体换了颜色等等。AI需要准确找出所有四处变化并描述清楚。这个任务考验的是在密集视觉信息中精确定位细微差异的能力。SVE在描述准确性的多项指标上均有提升,变化描述的准确率从91.1%提升到了92.7%,文字生成质量(用CIDEr指标衡量)从529.5提升到543.9。
第三种任务叫"视觉轨迹行为克隆",性质最接近真实的交互场景。具体来说,AI要学着模仿一个"机器人导师"在连续任务中的操作方式。每完成一步操作,AI看到新的场景截图,然后决定下一步怎么做。这里涉及四种不同类型的任务,包括拼图、旋转立方体、移动火柴棍、旋转3D物体。SVE在所有四种任务上的预测困惑度(衡量模型对正确答案有多"自信")都有所下降,说明状态感知能力确实帮助了AI更好地跟踪任务进展。
六、验证的关键问题:是因为"更聪明"了,还是只是"更努力"了
研究团队在做实验时遇到了一个必须回答的质疑:SVE的提升,到底是因为它真的学会了利用上一张图的信息,还是仅仅因为新加入的模块带来了更多可训练参数,让模型整体容量变大了?
为了排除这种可能,他们设计了一个"容量对照组"——一个和SVE有完全相同数量的新增参数、完全相同的架构结构,唯一区别是新加入的模块不读取上一张图的信息,而是读取当前图自己的信息(也就是变成了自我注意力)。这个对照组叫"Self+FFN"。
结果很清晰:Self+FFN确实比原始无状态模型有一定提升,说明增加参数本身有一点点帮助;但SVE在几乎所有任务上都明显好于Self+FFN,而且特别是在那些确实需要跨图比较的任务上,差距更大。唯一例外是一个叫"拼图重组"的子任务,在这个任务里两者相当——研究团队指出,这恰好是四个任务中最不需要视觉比较的那个,模型只需要看当前状态就能决定下一步,不需要对比前后变化。这个例外反而进一步支持了结论:SVE的优势确实来自对历史视觉状态的有效利用,而不是参数量的增加。
七、这种改进适用于哪些模型:跨家族的普适性测试
一项真正有价值的改进,应该不仅仅适用于某一个特定模型,而是能够广泛应用于各种不同的系统。研究团队专门做了大规模的普适性验证。
在输入分辨率方面,研究团队测试了从256像素到768像素的五个不同分辨率。结果表明,SVE在所有分辨率下都持续优于无状态基线。特别有趣的是,在分辨率较低、基线模型表现较差的情况下,SVE的相对提升最为明显;随着分辨率提高,两者都逼近任务的性能天花板,差距自然缩小。
在模型规模方面,研究团队测试了从0.8亿参数到90亿参数的四个不同规模。SVE在所有规模上都优于基线,而且同样有一个规律:在基线表现较弱的小模型上,SVE的提升幅度更大。更令人印象深刻的是,配备了SVE的小模型(比如4亿参数版本)有时候能匹敌甚至超过不带SVE的大模型(比如9亿参数版本)——这意味着通过改进视觉模块的设计,可以部分弥补模型规模上的劣势。
在模型家族方面,研究团队在五个来自不同团队、采用不同架构设计的多模态AI系统上测试了SVE,分别是Qwen3-VL、Qwen3.5、GLM-4.6V-Flash、InternVL3.5和Gemma-3。这五个模型在视觉编码器设计、图像分辨率处理方式、语言模型架构等方面各有不同。SVE在所有五个模型上都带来了可观的提升,验证了这个改进方案不依赖于特定的实现细节,具有良好的通用性。
八、深入解剖:SVE到底改变了什么
除了任务性能的提升,研究团队还专门分析了SVE究竟如何改变了视觉特征本身,从而理解提升背后的机制。
他们做了一个实验:给定当前图片,分别用"真实的上一张图"和"随机的另一张图"作为历史参考,看SVE产生的特征有多大差异。对于无状态基线来说,这两种情况产生的特征完全相同(因为它根本不读取历史信息);而对于SVE来说,两种情况产生的特征有显著差异——这直接证明了SVE确实在用历史图片的信息来影响当前图片的特征提取方式。
他们还分析了当两个模型(SVE和无状态基线)在同一道题上给出不同答案时,谁更可能是对的。结果发现,在119对有分歧的样本中,SVE正确的占66.4%,无状态基线正确的只有33.6%——也就是说,当它们意见不一致时,SVE的判断更可靠。
更细致的分析揭示了一个优雅的现象:SVE对视觉特征的修改是高度稀疏的。在一张图的所有视觉位置(大约24×24个区域)中,绝大多数位置的特征几乎没有因为参考历史图而改变,只有少数几个关键位置的特征发生了显著更新。这说明SVE不是对整张图进行了大规模"翻新",而是精准地识别出了那些与历史图有差异的局部区域,并集中更新这些区域的特征。这种"精准手术"式的工作方式,既保留了视觉模块原有的强大能力,又有效补充了跨图比较所需的差异信息。
九、从实验室到真实世界:三个医疗和地球观测场景的验证
把一个技术想法在控制实验中验证成功只是第一步,更重要的是看它能否在真实世界的复杂任务中发挥作用。研究团队选择了三个真实应用场景。
第一个场景是纵向放射科诊断。研究团队使用了一个包含16,347对胸部X光图像的医学数据集,每对图像来自同一个患者在不同时间点拍摄的,配有描述两次检查之间医学发现变化的文字标注。在这个任务上,加了SVE的模型在标准文本生成指标上全面超过无状态基线,比如CIDEr分数从145.1大幅提升到178.9。
为了评估模型是否真正理解了临床上有意义的变化,研究团队还引入了一套更严格的评估框架,将27种具体的胸部X光发现类别(如肺部阴影、气胸、心脏肥大等)的变化检测准确性单独统计。SVE在微观F1和宏观F1两个指标上都超过了基线,变化检测准确率从86.83%提升到89.21%。按照解剖区域细分来看,纵隔区域的提升幅度最大(微观F1从7.18提升到12.32),这类发现往往视觉特征细微,最考验跨图比较能力。
第二个场景是精细图像对比。研究团队使用了一个包含超过30万张图像编辑样本的数据集,每个样本包含原始图和编辑后的图,以及描述这次编辑操作的文字说明。任务是给定两张图,让AI猜测编辑者做了什么操作。由于这个任务的参考答案是基于编辑指令写的,不一定准确描述实际发生的视觉变化,所以研究团队没有用传统的文字相似度指标,而是请了一个更强大的AI系统(Claude Opus)来担任"裁判",对三方进行配对比较:SVE输出、无状态基线输出、原始参考说明。结果是:在1400个测试样本中,SVE输出被裁判认为比无状态基线更好的有209次,而无状态基线比SVE好的只有171次;即便与"标准答案"相比,SVE也在346次对比中胜出,原始参考说明胜出的有296次,还有758次平局。这说明SVE的描述有时候甚至比标注者写的原始参考答案更准确地描述了实际发生的视觉变化。
第三个场景是遥感变化检测。这个任务要求AI比较同一地理区域在不同时间点拍摄的卫星图像,描述发生了哪些变化,比如新建了建筑、道路被拓宽、植被减少等。研究团队使用了一个标准的遥感变化描述数据集,与此前所有发表过的专门设计用于这个任务的特定架构模型进行比较。结果SVE不仅超过了无状态通用基线,还在综合评分(S*m指标,综合了BLEU-4、METEOR、ROUGE-L和CIDEr四个维度)上以80.46分的成绩超过了所有已发表的专用模型——包括专门为遥感变化检测任务设计的各类专用架构,最强的专用模型SACNet得分是79.97。这意味着一个通用多模态AI系统在加入了SVE之后,在专业任务上可以超越专门为该任务定制的专用系统。
十、坦诚面对局限:哪些地方还不够好
研究团队在论文中坦率地指出了SVE当前版本的几个局限性,这种诚实态度值得赞赏。
第一个局限是历史窗口的范围。目前的SVE设计只让每张图"回看"紧邻的上一张图,不能直接查询更早的图片。虽然信息可以通过层层传递间接积累(就像传话游戏一样,A告诉B,B再告诉C,C就间接知道了A说的话),但这种间接传递不可避免地会丢失细节。对于需要参考很久以前的图像的任务,这个设计可能力不从心。
第二个局限是应用领域的广度。三个真实世界验证场景——放射科、图像编辑、遥感——虽然覆盖了多样化的视觉变化类型,但没有覆盖具身智能(机器人操作)、触觉感知、音视频联合分析等其他可能同样需要跨图比较能力的场景。
第三个局限是计算开销。在每个视觉处理层都加入交叉注意力机制,会增加额外的计算量。这个额外开销相对于语言模型部分来说通常是可接受的,但在图片分辨率很高、需要处理很长视觉序列或很多历史帧时,开销会变得不可忽视。研究团队承认,未来可能需要更高效的稀疏注意力或记忆压缩机制来解决这个问题。
---
说到底,这项研究做了一件看起来不算复杂、但影响却相当深远的事情:把原本"只顾当下"的AI视觉系统,改造成了"能记住上一刻"的系统。这个改动发生在整个AI处理流水线的最前端——视觉信息刚刚进入系统的那一刻——而不是在后续的语言处理阶段打补丁。这种"前端干预"的思路,使得那些细微但关键的视觉差异在被压缩和处理之前就能得到妥善保存。
对于普通用户来说,这项研究意味着未来AI在帮你比较两份文档截图的差异、分析旅行前后同一地点的变化、或者辅助医生追踪病情变化时,会变得更加敏锐和可靠。对于整个AI研究领域来说,这项工作提出了一个颇具启发性的问题:除了把语言模型做得越来越大,是不是也应该重新审视视觉编码器的设计,让它从根本上更适合处理多图、连续视觉信息的场景?
对这项研究感兴趣的读者,可以通过arXiv编号2606.04433查阅完整论文,获取所有技术细节、实验数据和代码实现信息。
---
Q&A
Q1:有状态视觉编码器和普通多模态AI在处理图片比较时有什么本质区别?
A:普通多模态AI的视觉部分每次只处理一张图,处理完就"忘掉",再处理下一张,最后由语言模块来做比较。有状态视觉编码器则让视觉处理模块在分析当前图时,同时能参照上一张图的内容,这样细微差异在最早的处理阶段就能被捕捉到,不会因为信息压缩而丢失。
Q2:有状态视觉编码器是不是需要从头训练一个全新的AI模型?
A:不需要。研究团队的设计思路是在现有预训练模型的视觉模块中,插入新的交叉注意力层,并且利用克隆初始化和零初始化输出等技巧,让新模块平稳融入原有系统,只需要做有监督微调,不需要重新预训练整个模型。
Q3:有状态视觉编码器在医学图像分析中的实际表现如何?
A:在胸部X光纵向对比任务中,加入有状态视觉编码器后,模型的变化检测准确率从86.83%提升到89.21%,文字生成质量指标CIDEr从145.1大幅提升到178.9,在27种具体胸部医学发现的变化检测中,大多数类别的F1分数均有提升,尤其是纵隔区域提升最为显著。