首页
看点啥
插画图片
首页 热点时事 Agent盲目堆砌工具无效:复旦与通义联合破解智能体选择难题_CUA训练范式革新实践

Agent盲目堆砌工具无效:复旦与通义联合破解智能体选择难题_CUA训练范式革新实践

2026-06-01 0

当AI助手同时具备GUI操作和工具调用能力时,执行准确率不升反降。这一反常现象揭示了混合动作空间的核心难题:模型无法正确选择执行路径。

混合动作空间下的路径困惑

传统计算机使用代理(CUA)主要依赖原子化的图形界面操作,包括点击、输入等基础动作。这类操作虽然通用性强,但在处理复杂任务时步骤冗长,误差容易累积。相比之下,工具调用通常更加高效精准,比如处理电子表格时,一个API就能完成需要多次菜单操作的任务。

研究团队发现一个出人意料的结论:即使为强大模型接入工具,性能也不会自动提升。在GUI-Tool混合环境中,代理每步都面临路径选择困境:GUI通用但低效,工具高效但有局限性。模型若缺乏选择能力,就会出现两种典型错误:

工具使用不足:明明存在更高效工具,却坚持使用GUI操作。

工具滥用:在不恰当场景频繁调用工具,反而降低成功率。

这项研究将问题定义为最优GUI-Tool路径选择:在长期任务中动态决定何时使用GUI操作,何时调用工具,从而形成高效可靠的执行路径。

别光给Agent加Tool了,它根本选不明白!复旦×通义提出全新CUA训练范式

实验数据清楚呈现这一反直觉现象:Qwen3VL-8B几乎不使用工具,准确率反而下降;Qwen3VL-235B则过度依赖工具,步骤减少但准确率降低。Claude系列同样显示,加入工具后步骤数减少,但准确率下降。这说明混合动作空间的核心挑战在于路径选择能力

第一阶段:数据合成与Tool-Bootstrapped RFT

为解决路径选择难题,首先需要高质量的GUI-Tool交错轨迹数据。然而现实中这类数据极其稀缺,现有GUI数据多为纯GUI操作轨迹。

ToolCUA提出交错GUI-Tool轨迹扩展管道,将GUI数据转化为混合轨迹。整个过程分为三个关键步骤:

1、轨迹感知的合成工具库构建

分析每条GUI轨迹的任务目标和操作序列,从中抽象出可调用工具。例如从Chrome设置流程中提取语言设置工具,从表格操作中提取数据透视工具。

2、基于下一状态验证的工具轨迹生成

利用大语言模型生成功能等价的纯工具轨迹,并通过下一帧截图验证工具执行效果。

3、交错GUI-Tool轨迹生成

随机保留部分GUI操作,形成多种GUI与工具交错的执行轨迹,帮助模型理解决策边界。

别光给Agent加Tool了,它根本选不明白!复旦×通义提出全新CUA训练范式

基于这些数据,ToolCUA执行工具引导的GUI强化微调。这一阶段重点不是学习完整策略,而是建立混合动作基础能力。模型先通过监督学习掌握工具调用知识,再通过单步强化学习校准关键切换点的选择。

Online Agentic RL与Tool-Efficient Path Reward

第二阶段在线代理强化学习着重解决完整任务轨迹的路径选择问题。团队构建了支持GUI和工具操作的高可用沙盒环境,并设计了核心奖励机制:

别光给Agent加Tool了,它根本选不明白!复旦×通义提出全新CUA训练范式

工具适用性奖励(R_tool)鼓励模型在适合工具的任务中调用工具,在不适合的任务中避免工具。

路径效率奖励(R_length)通过组内比较,激励模型发现更短的执行路径,通常意味着用高层工具替代冗余GUI操作。

这一阶段的重点不是增加工具调用,而是教会模型两件事:判断工具适用性优化执行路径

OSWorld-MCP上达到46.85%,相对提升约66%

ToolCUA在OSWorld-MCP基准测试中取得突破性表现:

别光给Agent加Tool了,它根本选不明白!复旦×通义提出全新CUA训练范式

8B参数的ToolCUA模型达到46.85%准确率,相比基线提升约66%,超过多个知名模型。更值得注意的是执行效率:平均仅需14.93步,是所有模型中最优的。工具调用率从8.41%提升到24.32%,说明模型确实学会了合理使用工具。

在多应用跨平台测试中,ToolCUA展现出强大的迁移能力。在未训练的Windows环境任务上,仍能达到33.8%准确率,优于多个更大规模的基线模型。

为什么ToolCUA真正学会了选路

消融实验揭示了三个关键发现:

1、交错轨迹数据不可或缺

缺少前期混合数据训练时,模型难以发展出稳定的工具使用能力。

2、路径效率奖励至关重要

仅靠任务成功奖励无法教会模型判断工具适用性和路径效率。

3、混合训练优于纯GUI训练

GUI-Tool混合训练不仅提升单点性能,还增强跨平台泛化能力。

真正的GUI-Tool协同

实际案例展示了ToolCUA的智能路径选择:

在表格处理任务中,ToolCUA识别到结构化操作更适合工具调用;而在VS Code任务中,当遇到信任确认对话框时,又明智地切换回GUI操作完成最后一步。这种动态切换能力正是ToolCUA的核心价值。

这项研究为计算机使用代理的发展指明了方向:混合动作训练将成为下一代CUA的核心范式。通过构建更大规模的工具库和训练更强大的基础模型,CUA将能更好地处理人类面临的复杂问题。

喜欢(0)

上一篇

iPhone 17如何实现分屏拍摄 苹果17前后双镜头同时录制操作指南

iPhone 17如何实现分屏拍摄 苹果17前后双镜头同时录制操作指南

下一篇

电影《引狼入室》-剧情内容详解

电影《引狼入室》-剧情内容详解
猜你喜欢