首页热点时事 Agent盲目堆砌工具无效：复旦与通义联合破解智能体选择难题_CUA训练范式革新实践

Agent盲目堆砌工具无效：复旦与通义联合破解智能体选择难题_CUA训练范式革新实践

2026-06-01 0

当AI助手同时具备GUI操作和工具调用能力时，执行准确率不升反降。这一反常现象揭示了混合动作空间的核心难题：模型无法正确选择执行路径。

混合动作空间下的路径困惑

传统计算机使用代理(CUA)主要依赖原子化的图形界面操作，包括点击、输入等基础动作。这类操作虽然通用性强，但在处理复杂任务时步骤冗长，误差容易累积。相比之下，工具调用通常更加高效精准，比如处理电子表格时，一个API就能完成需要多次菜单操作的任务。

研究团队发现一个出人意料的结论：即使为强大模型接入工具，性能也不会自动提升。在GUI-Tool混合环境中，代理每步都面临路径选择困境：GUI通用但低效，工具高效但有局限性。模型若缺乏选择能力，就会出现两种典型错误：

工具使用不足：明明存在更高效工具，却坚持使用GUI操作。

工具滥用：在不恰当场景频繁调用工具，反而降低成功率。

这项研究将问题定义为最优GUI-Tool路径选择：在长期任务中动态决定何时使用GUI操作，何时调用工具，从而形成高效可靠的执行路径。

别光给Agent加Tool了，它根本选不明白！复旦×通义提出全新CUA训练范式

实验数据清楚呈现这一反直觉现象：Qwen3VL-8B几乎不使用工具，准确率反而下降；Qwen3VL-235B则过度依赖工具，步骤减少但准确率降低。Claude系列同样显示，加入工具后步骤数减少，但准确率下降。这说明混合动作空间的核心挑战在于路径选择能力。

第一阶段：数据合成与Tool-Bootstrapped RFT

为解决路径选择难题，首先需要高质量的GUI-Tool交错轨迹数据。然而现实中这类数据极其稀缺，现有GUI数据多为纯GUI操作轨迹。

ToolCUA提出交错GUI-Tool轨迹扩展管道，将GUI数据转化为混合轨迹。整个过程分为三个关键步骤：

1、轨迹感知的合成工具库构建

分析每条GUI轨迹的任务目标和操作序列，从中抽象出可调用工具。例如从Chrome设置流程中提取语言设置工具，从表格操作中提取数据透视工具。

2、基于下一状态验证的工具轨迹生成

利用大语言模型生成功能等价的纯工具轨迹，并通过下一帧截图验证工具执行效果。

3、交错GUI-Tool轨迹生成

随机保留部分GUI操作，形成多种GUI与工具交错的执行轨迹，帮助模型理解决策边界。

别光给Agent加Tool了，它根本选不明白！复旦×通义提出全新CUA训练范式

基于这些数据，ToolCUA执行工具引导的GUI强化微调。这一阶段重点不是学习完整策略，而是建立混合动作基础能力。模型先通过监督学习掌握工具调用知识，再通过单步强化学习校准关键切换点的选择。

Online Agentic RL与Tool-Efficient Path Reward

第二阶段在线代理强化学习着重解决完整任务轨迹的路径选择问题。团队构建了支持GUI和工具操作的高可用沙盒环境，并设计了核心奖励机制：

别光给Agent加Tool了，它根本选不明白！复旦×通义提出全新CUA训练范式

工具适用性奖励(R_tool)鼓励模型在适合工具的任务中调用工具，在不适合的任务中避免工具。

路径效率奖励(R_length)通过组内比较，激励模型发现更短的执行路径，通常意味着用高层工具替代冗余GUI操作。

这一阶段的重点不是增加工具调用，而是教会模型两件事：判断工具适用性和优化执行路径。

OSWorld-MCP上达到46.85%，相对提升约66%

ToolCUA在OSWorld-MCP基准测试中取得突破性表现：

别光给Agent加Tool了，它根本选不明白！复旦×通义提出全新CUA训练范式

8B参数的ToolCUA模型达到46.85%准确率，相比基线提升约66%，超过多个知名模型。更值得注意的是执行效率：平均仅需14.93步，是所有模型中最优的。工具调用率从8.41%提升到24.32%，说明模型确实学会了合理使用工具。

在多应用跨平台测试中，ToolCUA展现出强大的迁移能力。在未训练的Windows环境任务上，仍能达到33.8%准确率，优于多个更大规模的基线模型。

为什么ToolCUA真正学会了选路

消融实验揭示了三个关键发现：

1、交错轨迹数据不可或缺

缺少前期混合数据训练时，模型难以发展出稳定的工具使用能力。

2、路径效率奖励至关重要

仅靠任务成功奖励无法教会模型判断工具适用性和路径效率。

3、混合训练优于纯GUI训练

GUI-Tool混合训练不仅提升单点性能，还增强跨平台泛化能力。

真正的GUI-Tool协同

实际案例展示了ToolCUA的智能路径选择：

在表格处理任务中，ToolCUA识别到结构化操作更适合工具调用；而在VS Code任务中，当遇到信任确认对话框时，又明智地切换回GUI操作完成最后一步。这种动态切换能力正是ToolCUA的核心价值。

这项研究为计算机使用代理的发展指明了方向：混合动作训练将成为下一代CUA的核心范式。通过构建更大规模的工具库和训练更强大的基础模型，CUA将能更好地处理人类面临的复杂问题。

郑重声明：本站发布内容宗旨在传播更多信息，仅提供查阅，与本站立场无关，不拥有所有权，不承担相关法律责任。不具有任何效益，仅供参考。如果需要专业知识建议，请咨询相关专业人士。如有侵权请联系邮箱。一经查实，立即删除！

喜欢(0)

iPhone 17如何实现分屏拍摄苹果17前后双镜头同时录制操作指南

电影《引狼入室》-剧情内容详解