精简架构聚焦AI:网络安全公司SentinelOne宣布裁员8%
2026-05-29
2026-06-01 0
当AI助手同时具备GUI操作和工具调用能力时,执行准确率不升反降。这一反常现象揭示了混合动作空间的核心难题:模型无法正确选择执行路径。
传统计算机使用代理(CUA)主要依赖原子化的图形界面操作,包括点击、输入等基础动作。这类操作虽然通用性强,但在处理复杂任务时步骤冗长,误差容易累积。相比之下,工具调用通常更加高效精准,比如处理电子表格时,一个API就能完成需要多次菜单操作的任务。
研究团队发现一个出人意料的结论:即使为强大模型接入工具,性能也不会自动提升。在GUI-Tool混合环境中,代理每步都面临路径选择困境:GUI通用但低效,工具高效但有局限性。模型若缺乏选择能力,就会出现两种典型错误:
工具使用不足:明明存在更高效工具,却坚持使用GUI操作。
工具滥用:在不恰当场景频繁调用工具,反而降低成功率。
这项研究将问题定义为最优GUI-Tool路径选择:在长期任务中动态决定何时使用GUI操作,何时调用工具,从而形成高效可靠的执行路径。

实验数据清楚呈现这一反直觉现象:Qwen3VL-8B几乎不使用工具,准确率反而下降;Qwen3VL-235B则过度依赖工具,步骤减少但准确率降低。Claude系列同样显示,加入工具后步骤数减少,但准确率下降。这说明混合动作空间的核心挑战在于路径选择能力。
为解决路径选择难题,首先需要高质量的GUI-Tool交错轨迹数据。然而现实中这类数据极其稀缺,现有GUI数据多为纯GUI操作轨迹。
ToolCUA提出交错GUI-Tool轨迹扩展管道,将GUI数据转化为混合轨迹。整个过程分为三个关键步骤:
1、轨迹感知的合成工具库构建
分析每条GUI轨迹的任务目标和操作序列,从中抽象出可调用工具。例如从Chrome设置流程中提取语言设置工具,从表格操作中提取数据透视工具。
2、基于下一状态验证的工具轨迹生成
利用大语言模型生成功能等价的纯工具轨迹,并通过下一帧截图验证工具执行效果。
3、交错GUI-Tool轨迹生成
随机保留部分GUI操作,形成多种GUI与工具交错的执行轨迹,帮助模型理解决策边界。

基于这些数据,ToolCUA执行工具引导的GUI强化微调。这一阶段重点不是学习完整策略,而是建立混合动作基础能力。模型先通过监督学习掌握工具调用知识,再通过单步强化学习校准关键切换点的选择。
第二阶段在线代理强化学习着重解决完整任务轨迹的路径选择问题。团队构建了支持GUI和工具操作的高可用沙盒环境,并设计了核心奖励机制:

工具适用性奖励(R_tool)鼓励模型在适合工具的任务中调用工具,在不适合的任务中避免工具。
路径效率奖励(R_length)通过组内比较,激励模型发现更短的执行路径,通常意味着用高层工具替代冗余GUI操作。
这一阶段的重点不是增加工具调用,而是教会模型两件事:判断工具适用性和优化执行路径。
ToolCUA在OSWorld-MCP基准测试中取得突破性表现:

8B参数的ToolCUA模型达到46.85%准确率,相比基线提升约66%,超过多个知名模型。更值得注意的是执行效率:平均仅需14.93步,是所有模型中最优的。工具调用率从8.41%提升到24.32%,说明模型确实学会了合理使用工具。
在多应用跨平台测试中,ToolCUA展现出强大的迁移能力。在未训练的Windows环境任务上,仍能达到33.8%准确率,优于多个更大规模的基线模型。
消融实验揭示了三个关键发现:
1、交错轨迹数据不可或缺
缺少前期混合数据训练时,模型难以发展出稳定的工具使用能力。
2、路径效率奖励至关重要
仅靠任务成功奖励无法教会模型判断工具适用性和路径效率。
3、混合训练优于纯GUI训练
GUI-Tool混合训练不仅提升单点性能,还增强跨平台泛化能力。
实际案例展示了ToolCUA的智能路径选择:
在表格处理任务中,ToolCUA识别到结构化操作更适合工具调用;而在VS Code任务中,当遇到信任确认对话框时,又明智地切换回GUI操作完成最后一步。这种动态切换能力正是ToolCUA的核心价值。
这项研究为计算机使用代理的发展指明了方向:混合动作训练将成为下一代CUA的核心范式。通过构建更大规模的工具库和训练更强大的基础模型,CUA将能更好地处理人类面临的复杂问题。