首页电脑数码港理工让AI图片编辑听懂你的意思：文字和手势一起用才是对的

港理工让AI图片编辑听懂你的意思：文字和手势一起用才是对的

2026-06-20 0

这项由香港理工大学视觉计算实验室与OPPO研究院联合完成的研究，以预印本形式发布于2026年6月，论文编号为arXiv:2606.16767。感兴趣的读者可以通过这个编号在arXiv平台上找到完整的论文内容。

**你有没有遇到过这样的尴尬时刻？**

你打开一个AI图片编辑软件，想让它把照片里猫咪的头稍微向左转一点点，于是输入"让猫咪的头略微向左转"。结果AI理解成了"大幅度扭转猫头"，把照片改得面目全非。你又试了另一个工具，这次可以用鼠标"拖拽"猫咪的鼻尖来指定方向，结果猫脸的皮肤被奇怪地拉伸变形，完全不像转头，更像是被捏着脸揉了一把。

这两种体验——一种靠文字，一种靠手势——都让你抓狂，因为它们各自只懂半边话。这正是香港理工大学的研究团队所要解决的核心问题：如何让AI同时"听懂"你说的话，又"看懂"你比划的动作？

**一、两种工具各有残缺，单打独斗都不够用**

要真正理解这个问题的价值，先要搞清楚现有AI图片编辑工具到底卡在哪里。

目前主流的AI图片编辑方式大致分为两条路。第一条路是"用文字指挥"，你打一段话，AI就按照文字来修改图片。这类方法的代表包括FLUX.1 Kontext和Qwen-Image-Edit等业界领先的大型模型，它们在改变颜色、材质、物体类别等方面表现出色。但文字这种工具有一个天然的缺陷：它描述不了"多少"和"在哪里"。"稍微"是多少？"向左一点"是几厘米？文字本质上是模糊的，AI对"稍微"的理解可能和你差了十万八千里。

第二条路是"用手势指挥"，也叫"拖拽编辑"。你在图片上标记一个起点和一个终点，告诉AI"把这个点从这里移到那里"。这类方法的代表有GoodDrag、DragDiffusion等，它们在精确控制空间位置方面有优势，知道该动哪里、动多少。然而，纯手势操作有另一个致命弱点：它不懂语义，只知道几何。当你在鳄鱼图片的上颌处画一个向上的箭头，你的意图是"张嘴"，但AI看到的只是"这个点要向上移动"，于是它把上颌的皮肤和骨骼朝上拉扯变形，而不是做出张嘴这个自然动作。

文字懂意图，不懂位置。手势懂位置，不懂意图。这就好比你在指挥一位厨师，一种方式只告诉他"做一道有点辣的菜"，他不知道加多少辣椒；另一种方式只给他看"加两勺辣椒"的动作示范，他却不知道这是要做红烧肉还是麻婆豆腐。最好的办法显然是两者结合：一边说"做一道微辣的麻婆豆腐"，一边演示"加这么多辣椒"。

正是基于这个洞察，研究团队提出了他们称之为"文本-视觉协同指令图像编辑"的新任务，简称TV-Edit。

**二、搭建一个能同时理解两种语言的翻译器**

明确了问题之后，研究团队面临的第一个挑战是：没有合适的训练数据。

现有的图片编辑数据集要么只有文字标注，要么只有手势轨迹，没有一套既包含文字说明、又包含精确空间轨迹的完整数据。研究团队的解决方案是：去视频里找答案。

视频天然是一种"时间轴上的图片序列"，相邻两帧之间的物体运动就是现成的空间轨迹，而这段运动可以被描述成自然语言指令。研究团队从公开的视频数据集中收集素材，把每段视频切分成起始帧和结束帧的配对，然后通过一套三步流程来制作训练数据。

第一步处理空间信息。他们使用了两个专门的工具：SEA-RAFT负责计算光流，也就是图片中每个像素从第一帧到第二帧移动了多少；Co-Tracker-V3负责追踪密集的网格点，记录每个点的具体轨迹。然后，他们根据运动幅度的大小来筛选哪些点值得保留——动得多的地方更重要，但小幅运动也不能丢。最终保留下来的是一组稀疏的"起点-终点"坐标对，精确记录了哪些位置移动到了哪里。

第二步生成文字描述。直接把两张图片扔给AI语言模型，让它描述"发生了什么"，这种方式往往会产生误差，因为模型容易被无关信息干扰。研究团队采用了一个更聪明的做法：先把第一步找到的特征点用不同颜色标注在图片上，然后告诉语言模型"只关注这些标注点的运动，描述它们从一张图到另一张图发生了什么"。这种"视觉提示"策略让语言模型的注意力集中在真正重要的运动上，生成的文字描述更加准确。

第三步做质量过滤。原始视频中有很多不适合用于图片编辑训练的素材：镜头抖动的视频、背景整体移动的镜头、模糊或质量差的帧。研究团队设计了一套过滤规则，通过检测边界区域的光流来排除"摄像机在移动"的情况，确保只保留"图中物体在移动而背景静止"的素材。此外，他们还设计了一个"生成-验证"的闭环来检查文字描述的质量，让AI自己检验自己生成的描述是否与图片内容匹配。

经过这三步处理，研究团队最终积累了23,000组高质量的训练样本，称之为TV-Edit-23K数据集。每组样本包含起始图片、结束图片、空间轨迹坐标和文字描述，而且每组数据还可以"正反两用"——从起始图到结束图是一个训练样本，从结束图回到起始图是另一个样本，这样实际可用的训练对数量翻了一倍。

**三、一个能接驳现有系统的"空间理解模块"**

有了数据，接下来需要设计模型架构。研究团队面临一个重要的工程选择：是从头训练一个全新的AI，还是在现有的强大AI基础上添加新能力？

他们选择了后者，理由很实际：现有的大型图片编辑模型（如Qwen-Image-Edit和FLUX.1 Kontext）已经花费了大量资源训练出了很强的语义理解能力，要让它们具备空间控制能力，最高效的方式是添加一个专门负责空间理解的"插件"，而不是推翻重来。

这个"插件"被称为"内容感知空间控制器"，它的工作原理可以用一个比喻来理解：原有的大型AI模型就像一位经验丰富的室内设计师，他非常擅长判断风格和美感，但不太擅长精确测量"沙发要左移多少厘米"。新加入的控制器就像一位精确的测量助手，他不仅能告诉设计师"沙发要从这里移到那里"，还能结合房间的整体布局来解读这个移动指令——同样是"左移"，在不同的房间格局下可能意味着完全不同的操作细节。

从技术实现上来看，这个控制器的工作分为几个层次。首先，系统把用户指定的"起点-终点"坐标对转化成两张特殊的"地图"：一张标注了每个控制点在起始图中的位置，另一张标注了这些点在目标位置的坐标。每个点的值被设置为它的编号，这样即使处理多个点，系统也能知道哪个起点对应哪个终点。接着，这两张位置地图经过一个轻量的编码器处理，变成与图片尺寸匹配的特征表示。这些特征随后分别与起始图的图像特征和噪声特征拼接在一起，让空间坐标信息"嵌入"到图像内容的语境中。

经过这一步处理，控制器理解的就不再是抽象的"某个点要从(104, 492)移到(271, 389)"，而是"猫鼻子这个位置要移到那个位置"——同样的坐标，现在有了具体的物体语义支撑。

然后，这些"带有物体语义的空间信息"被送入控制器的核心——一组轻量化的Transformer模块（这是一种擅长处理序列关系的神经网络结构）。为了不让控制器太笨重（直接复制整个大模型会让参数量爆炸），研究团队做了两个瘦身操作：把控制器内部的特征维度缩减一半（参数量因此减少约75%），并且只使用5层Transformer块，而不是原始大模型的60层。

然而，精简之后可能导致控制器的表达能力不足，"声音太小"让大模型听不清楚。为了解决这个问题，研究团队引入了一个"时间调制注入层"——这是整个设计中相当精妙的一个细节。在AI生成图片的过程中，早期步骤负责确定整体结构和布局，后期步骤负责填充细节和纹理。时间调制注入层会根据当前处于哪个生成步骤，动态调整控制器对大模型施加的影响强度。在早期结构性步骤中放大空间控制信号，在后期细节步骤中适当收敛，让整体结构和局部细节的平衡更好。

这个控制器最终会生成一系列"残差控制特征"，以类似ControlNet的方式注入到大模型的各层中，持续引导整个生成过程。整套机制的一个重要特点是"即插即用"——只需要针对不同的大型基础模型做少量适配，同一套控制器架构就可以分别与Qwen-Image-Edit和FLUX.1 Kontext配合使用。

**四、训练时的一个小技巧：让AI先学大局，再精雕细节**

模型架构确定之后，训练策略也有独到之处。

AI生成图片的过程可以理解为"从噪声中雕刻图像"：一开始图片全是噪点，经过多个步骤逐渐清晰。在早期步骤（噪声多）中，AI确定画面的整体结构和空间布局；在后期步骤（噪声少）中，AI打磨毛发、纹理等细节。对于TV-Edit这样以空间控制为核心目标的任务，早期步骤显然更关键——如果物体的位置一开始就没移到正确地方，后期再怎么精修细节也无济于事。

研究团队因此选择了一个偏向早期步骤的训练目标（技术上称为"Z0预测目标"），它的数学效果等同于给不同时间步骤的损失乘以不同的权重系数——时间步骤值越大（噪声越多、越早期），权重越大，惩罚越重。这意味着模型在训练时被强制要求在最嘈杂的早期阶段就做对空间布局，而不是把希望寄托在后期细节修正上。

在此基础上，研究团队还显式地调整了训练时随机采样时间步骤的分布。他们使用一种叫做Beta分布的概率分布，初始时将采样重心放在大时间步骤（高噪声区间），随着训练推进逐渐松开这个偏置。通过系统的实验，他们发现Beta(5,2)这个参数配置效果最佳：它将训练注意力主要集中在高噪声阶段，同时保留了对低噪声阶段的适度覆盖，两者缺一不可。

**五、一把公平的尺子：专门为这个新任务设计的评测标准**

TV-Edit是一个全新的任务，而新任务需要新的评测方法。

研究团队发现，现有的评测体系无法全面衡量"文字加手势协同编辑"的质量。专门评测拖拽编辑的DragBench只关注几何精度，不评估语义是否正确；专门评测文字编辑的基准测试只看语义，不看空间。于是他们构建了TV-Edit-Bench，一个包含120个精心筛选样本的全新评测集。

这120个样本来自三个不同的来源，各自担负不同的测试使命。第一部分来自真实视频的帧对，捕捉自然世界中真实发生的运动模式。第二部分来自图片转视频模型（Wan2.2）生成的素材，专门用于测试一个叫"运动幅度控制"的能力：同一个动作，只改变幅度，看AI能不能精确跟随。比如同样是"让狗狗的头向左转"，一个样本转15度，另一个转45度，文字指令相同但手势轨迹长短不同，AI能否准确区分？第三部分来自NanoBanana Pro等先进编辑模型生成的图片对，专门用于测试"语义消歧"能力：同样的手势轨迹，配上不同的文字（比如"抬头"和"张嘴"），AI能否根据文字选择正确的语义动作？

评测指标也被设计成三个维度，缺一不可。图像保真度方面，使用LPIPS指标衡量编辑结果与参考目标图片的像素级相似度，同时引入基于DINOv3模型的全局相似度和局部相似度两个指标，后者更能抵抗轻微的像素错位干扰，给出更公平的评价。几何精度方面，在编辑结果中找到与目标点对应的位置，计算实际落点与理想落点之间的距离，分别报告稀疏匹配距离和密集匹配距离，距离越小表示空间控制越精准。语义忠实度方面，用Qwen-3-VL这样的大型多模态语言模型作为评估者，给出两项打分：一项是"概念保留分"，评估图片中未被编辑的区域是否保持了原样；另一项是"指令遵循分"，评估编辑结果是否忠实执行了文字指令的语义意图。

**六、实验结果：两类方法的短板一目了然，TV-Edit双双突破**

研究团队拿TV-Edit与一批代表性方法进行了正面比较，包括GoodDrag、DragDiffusion、LightningDrag等拖拽类方法，以及FLUX-Kontext、Qwen-Image-Edit、NanoBanana Pro等文字指令类方法。

实验结果非常清晰地呈现出两类方法各自的致命缺陷。拖拽类方法在几何精度上表现出色，以GoodDrag为代表，其密集匹配距离达到0.0648，空间控制相当准确。然而，它的指令遵循分只有0.75——意味着AI知道"把某个点移到哪里"，却经常搞错"这个移动对应什么自然动作"。文字指令类方法恰好相反，NanoBanana Pro的全局一致性达到0.9432，概念保留接近满分，但其密集匹配距离高达0.1195，远超拖拽类方法——文字可以说清楚要做什么，却无法控制具体移动到哪里。

TV-Edit打破了这种两难困境。TV-Edit-Qwen版本在密集匹配距离上达到0.0462，比最好的拖拽类方法还要提升28.7%，空间控制精度反而超越了专门为空间控制设计的拖拽工具。与此同时，它的指令遵循分达到0.93，不仅比基础模型Qwen-Image-Edit（0.86）显著提升，甚至超过了谷歌的商业闭源模型NanoBanana Pro（0.89）。这说明视觉轨迹信息不只是提供了几何约束，它还帮助AI更准确地理解了文字指令的语义意图——两种信号产生了正向的化学反应。

在视觉对比上，这种差异更加直观。当要求AI"让狐狸微微张开嘴"时，拖拽类方法往往把狐狸的脸拉扯变形；文字类方法通常能做出张嘴动作，但开口幅度往往过大或方向不对；而TV-Edit能准确实现"微微张开"这个既有语义又有幅度约束的复合指令。在移动狗狗位置的案例中，TV-Edit在没有明确指令的情况下，甚至能理解狗绳应该跟着狗一起移动——这是一种基于场景理解的隐性推断能力。

研究团队还额外在传统的DragBench评测集上测试了TV-Edit，与专门针对拖拽任务设计的方法相比。TV-Edit-Qwen的平均点位偏移误差达到17.31，远低于最好的对比方法GoodDrag（24.26）和DragLora（23.77），说明TV-Edit的空间控制能力即便放在纯几何任务的评判标准下，也具备很强的竞争力。

**七、更多可能性：同时改造外观和位置**

研究团队还展示了一项让人印象深刻的扩展能力：TV-Edit可以同时完成空间变换和外观改造。

在展示的案例中，用户给一只柯基犬的图片指定了"头部向右转"的运动轨迹，同时在文字指令中加上"把它变成老虎"。最终的结果是：一只老虎的头部按照指定的幅度和方向完成了转头动作。类似地，用户可以一边控制老虎头部变大的幅度，一边让老虎变成白色；一边控制北极熊头部缩小，一边给北极熊戴上皇冠或太阳镜。这说明TV-Edit并没有牺牲大型基础模型原本强大的语义编辑能力，而是在这个能力基础上叠加了精细的空间控制层。

**八、自我审视：哪些地方还可以更好**

研究团队在论文中也坦诚地指出了TV-Edit的两个局限。

其一是速度。TV-Edit构建在大型基础编辑模型之上，而这类模型的推理速度本身就比较慢，这使得TV-Edit目前还无法支持实时交互式编辑——用户拖动一个点之后需要等待一段时间才能看到结果，这对于需要频繁细调的创作流程来说是个障碍。

其二是三维局限。TV-Edit非常擅长处理二维平面上的运动，比如左右移动、简单的大小变化、在图片平面内的旋转等。但对于需要理解三维空间的操作——比如让一个正面朝向的人物侧转身体（涉及透视变形）——当前系统的能力还比较有限。这是因为稀疏的二维坐标轨迹本质上无法完整表达三维变换所需的深度信息。

说到底，TV-Edit这项研究做了一件看似简单、实则精妙的事：它发现了两种主流AI编辑方式各自的"语言残缺"，然后设计了一套让这两种残缺语言互相补全的机制。文字告诉AI"你要做什么"，手势告诉AI"要做多少、做到哪里"，两者合一，AI终于能够真正"听懂"复杂的编辑意图。

对于普通用户来说，这意味着一种更自然的交互体验：你不再需要费尽心思措辞，也不再需要担心拖拽手势被错误解读——你可以同时用嘴巴说和手比划，就像和真人助手沟通一样。对于创作者来说，这开辟了一个新的可能性空间：精确到幅度的形变控制，与创意性的外观改变，可以在同一次操作中无缝完成。

这项研究的数据、模型和代码均已承诺开放发布，有兴趣深入探索的读者可以通过arXiv编号2606.16767找到完整论文，跟踪代码和数据集的发布进度。

Q&A

Q1：TV-Edit和普通的AI图片编辑有什么区别？

A：普通AI图片编辑要么只能用文字指令，要么只能用拖拽手势，两者各有缺陷：文字说不清楚"移动多少"，手势看不懂"要做什么动作"。TV-Edit同时接受文字和手势两种输入，文字提供语义意图，手势提供空间约束，两者协同工作，编辑结果更准确。

Q2：TV-Edit-23K数据集是怎么来的？

A：研究团队从公开视频数据集中收集素材，取每段视频的起始帧和结束帧作为图片对，用光流算法和点追踪算法提取物体的运动轨迹作为手势标注，再用多模态语言模型（Qwen-3-VL）生成对应的文字描述，经过严格的质量过滤后得到23,000组完整的训练样本。

Q3：TV-Edit可以同时修改图片的外观和位置吗？

A：可以。TV-Edit在提供空间轨迹控制的同时，完整保留了基础大模型的语义编辑能力。用户可以在文字指令中加入外观改变要求（比如"变成老虎"或"加上太阳镜"），同时通过手势指定空间变换，模型会同时执行两类操作。

郑重声明：本站发布内容宗旨在传播更多信息，仅提供查阅，与本站立场无关，不拥有所有权，不承担相关法律责任。不具有任何效益，仅供参考。如果需要专业知识建议，请咨询相关专业人士。如有侵权请联系邮箱。一经查实，立即删除！

喜欢(0)

河南淇县：电商生态链绘就县域消费新图景

清华慕尼黑工大等高校联手：让AI扩散语言模型学会回忆未来