首页
看点啥
插画图片
首页 经济看点 微软与东南大学联手:让AI助手真正学会"拖拽"和"画图",不再只会点击鼠标

微软与东南大学联手:让AI助手真正学会"拖拽"和"画图",不再只会点击鼠标

2026-05-19 0

这项由东南大学、微软研究院、武汉大学、中山大学及阿布扎比穆罕默德·本·扎耶德人工智能大学联合完成的研究,以预印本形式于2026年5月发布在arXiv平台,论文编号为arXiv:2605.12501v1。感兴趣的读者可通过该编号在arXiv上找到完整论文。

微软与东南大学联手:让AI助手真正学会

鼠标不只会点击——AI助手的"操作盲区"

每当你打开电脑,几乎所有与屏幕的交互都不只是点击按钮那么简单。你在Excel里拖动单元格角落来填充公式,在Word里框选一段文字然后拖到新位置,在Photoshop里用套索工具一笔一划地描出人物轮廓,在PowerPoint里把一个形状拖到另一个形状的正中心——这些操作稀松平常,却对自动化AI助手构成了真正的难题。

近年来,像GPT-o3和Claude这样的"电脑操控AI"已经能够帮助用户自动完成一些屏幕上的工作。这类AI被称为"计算机使用智能体",它们通过"看"屏幕截图来理解当前状态,然后决定下一步该做什么。然而,研究团队在实际测试中发现了一个让人有些尴尬的现象:哪怕是当今最强大的AI模型,在面对"拖拽"、"框选"、"描边"这类稍微复杂一点的操作时,失误率远远高于简单点击。换句话说,这些AI就像一个刚学会按门铃的机器人,却完全不知道怎么开锁。

研究团队把这个现象称为"长尾问题"——绝大多数的操作失败,都集中在那些复杂度高、出现频率相对较低的交互类型上。他们的核心判断是:这个问题很大程度上源于训练数据的严重匮乏。简单点击的数据到处都是,但"在Photoshop里描出一只猫的轮廓"这种操作,几乎没有现成的训练数据可以用。

一次摸底测试:GPT-o3在"工作场景"中的真实表现

为了摸清问题所在,研究团队在微软Azure平台上收集了近200个真实任务,涵盖办公软件操作、网页浏览和电子游戏三大场景,让GPT-o3逐一完成,并详细分析所有失败案例。

结果相当直观。在办公软件场景里,每100个失败案例中,有37个是因为AI找错了位置——也就是说,它知道该做什么,却不知道该在屏幕的哪个地方做。这类错误被称为"动作定位错误",是最主要的失败原因,远超过"规划错误"(知道在哪里,但不知道该做什么)。而在那些需要拖拽或其他复合动作的任务里,坐标定位错误的比例更是显著高于简单点击任务。

网页浏览场景的情况稍好一些,但规律类似。游戏场景中规划错误占主导,因为游戏需要更多策略性判断,而非精准定位。

这份测试报告直接指向了两个亟待解决的问题:现有的评测基准无法衡量复杂操作能力,而训练数据里几乎没有这类复杂操作的样本。

一把新尺子:CUActSpot评测基准的诞生

既然旧的尺子量不准,就得造一把新尺子。研究团队手工构建了一个名为CUActSpot的评测基准,专门用来测试AI在复杂交互上的能力。

这个评测基准的核心创新,在于它打破了过去"只测点击"的传统。以往的评测基准,不管多难,基本上都是同一个模式:给AI看一张截图,让它找出某个按钮的位置,然后检查它指出的位置是否在按钮范围内。这就像只考语文的"找错别字",而完全不考"写作文"。

CUActSpot把测试范围扩展到了五种不同的操作对象:标准界面元素(按钮、复选框之类)、文本内容(选中某段话、在某处点击设置光标)、表格(Excel里的各种操作)、画布(PowerPoint里的图形操作)以及自然图像(Photoshop里对照片内容进行操作)。动作类型也从单纯的点击扩展到了拖拽(需要确定起点和终点两个坐标)和绘制(需要确定一系列连续坐标点,比如描出物体轮廓)。

整个基准包含206个精心设计的样本,涵盖12种高层任务类型和33种细分任务类型。为了确保质量,每个样本都经过了至少四个人的测试和修正——原始标注者设计任务,另外三个人独立尝试完成,若有歧义就修改,人类无法完成的就直接删除。

评分方式也经过了精心设计。对于需要多个坐标点的任务,评测系统会区分"有序"和"无序"两种情况——拖拽鼠标画圆是有序的(必须从圆心开始),而框选一段文字是无序的(从前往后或从后往前都可以)。此外,系统还引入了"禁止区域"的概念,防止AI通过在全屏随机乱点来蒙对答案。

数据工厂:用代码"渲染"出训练数据

有了评测标准,下一步是解决训练数据匮乏的问题。研究团队提出了一套全新的数据合成流水线,其核心思路是:与其从现实世界的软件截图里艰难地标注数据,不如直接用程序"生成"带有精确坐标信息的截图。

这个思路可以用烘焙来理解。传统方法就像从街上买蛋糕然后分析成分,费力而不精确;新方法则是自己按照食谱烤蛋糕,从一开始就知道每一种材料的精确用量。由于截图本身就是用代码渲染出来的,每个元素的坐标信息自然而然就记录在案,完全不需要人工标注。

在此基础上,研究团队让高级AI模型(具体使用的是OpenAI的o3模型)扮演"任务设计师"的角色,根据这些坐标信息自动生成对应的操作指令。更巧妙的是,他们允许o3在生成任务时进行数学推算。举一个论文中的真实例子:屏幕上有一个箭头形状和一个椭圆形状,已知箭头圆心坐标、箭头尖端坐标、椭圆顶部坐标,o3就能推算出"把箭头的圆心拖到某处,使箭头尖端恰好指向椭圆顶部"这样的复杂任务,并自动计算出正确的起点和终点坐标。这种能力极大地丰富了生成任务的多样性。

五种操作对象各自有一套专属的渲染方案。界面元素数据复用了Phi-Ground项目的网页爬取流水线:从Common Crawl这个巨大的网页存档库中抓取网页,经过语言过滤、领域去重(同一网站最多保留50个页面,防止单一网站风格主导模型)、渲染截图、规则过滤等多个清洗步骤,最终用GPT-4o为每个元素生成描述标签,共获得约1050万个高质量样本。

文本数据的渲染则采用了一个"拼贴"方案:团队收集了2500种开源英文字体和约200张不同分辨率的文字背景图(包括空白Word文档、记事本窗口截图等),然后用Python的PyQt5库把维基百科和GitHub上的文字内容渲染到这些背景上,同时精确记录每个字符的坐标。

表格数据的生成尤为精细,分四步完成。首先从开源数据集收集约1.6万张原始表格,然后用GPT对每张表格进行"演化"——改变主题(比如把"工作时间统计表"改成"数学成绩统计表")、改变结构(添加合并单元格、新增列等),生成约16万张各不相同的表格。接着用o3生成约1万套不同风格的CSS样式表,通过随机调整颜色、字体、边框等参数扩展成多样化的视觉风格。最后把内容和样式随机组合,并对一半的表格随机遮挡大量单元格(模拟Excel中大量空白格的真实情况),得到视觉风格高度多样的表格截图。

画布数据采用了一个程序化的PowerPoint模拟器,支持76种基本形状,涵盖矩形、椭圆、三角形、箭头、连接线、标注框、星形、多边形等九大类别。每个生成的画面都包含3到8个随机放置的形状,并模拟了PowerPoint编辑模式下的视觉细节——八个红色控制点、顶角的蓝色顶点标记、旋转手柄等,让合成数据尽可能贴近真实软件的外观。

自然图像数据则直接来源于Meta开源的SAM(Segment Anything)数据集。对于每张图片,团队随机选取五个区域,用GPT-4o为每个区域生成详细描述,再用轮廓提取算法把区域的分割掩码转换成20个顶点的多边形边界曲线。这套边界数据主要用于支持Photoshop式的"抠图"和"涂抹遮罩"任务。

通过这套流水线,研究团队共生成了约5000万条训练样本,其中界面元素数据约3000万条,其余四种模态各约500万条。

训练与对比:一个4B参数的小模型逆袭

有了数据,研究团队用它来训练模型。他们选择了Phi-3.5-VL作为基础模型,这是微软开发的一个参数规模约40亿的视觉语言模型。选择这个相对"小"的模型,是因为他们想测试纯数据质量和多样性的效果,而不是单纯靠模型规模取胜。

训练出来的模型被命名为Phi-Ground-Any-4B,在CUActSpot评测基准上取得了44.4%的总体得分,超过了所有参数量低于320亿的开源模型。对比一下其他模型的表现:拥有70亿参数的UI-TARS-1.5-7B得了28.5%,拥有320亿参数的EvoCUA-32B同样得了28.5%,参数量相当的OpenCUA-7B得了39.8%,而同为320亿参数的OpenCUA-32B得了52.5%。考虑到Phi-Ground-Any-4B只有40亿参数,这个成绩相当出色。

当然,如果只看另外两个主流评测基准——ScreenSpot-Pro和UI-Vision,Phi-Ground-Any-4B的表现就相对平庸了,分别只得了26.3%和15.8%,远低于一些竞争对手。这个反差引出了一个值得深思的问题。

评测基准的"知识壁垒"之争

研究团队在论文中专门花了相当篇幅讨论这个反差背后的深层原因,这也是整篇论文最有意思的观察之一。

ScreenSpot-Pro和UI-Vision这两个当前最流行的评测基准,都覆盖了大量真实桌面软件,包括Photoshop、AutoCAD、各类专业应用等。这些基准的一个重要特点是:很多任务本身就需要软件专业知识才能完成。以论文中举的例子为例:"点击Photoshop中的减淡工具图标"——如果你从来没用过Photoshop,根本不知道减淡工具长什么样,即便图标就在眼前也很难认出来。这对人类用户也是一样的。

这种设计有其合理之处:真实的AI助手确实需要熟悉各种软件。但问题在于,这样的评测结果,很难分清楚一个模型得分高,究竟是因为它的"定位能力"强,还仅仅是因为它恰好在训练数据里见过这款软件的界面截图。一个专门用ScreenSpot-Pro相关数据训练的模型,会在这个基准上得高分,但这不代表它真的学会了如何准确定位屏幕上的任意目标。

研究团队用了一个直接的实验来验证这一点。他们把Phi-Ground-Any-4B在Phi-Ground项目的应用数据(通过必应搜索收集的常见软件截图,可能与两个基准有重叠)上进一步微调,结果在ScreenSpot-Pro上的得分从26.3%跳升到41.5%,在UI-Vision上从15.8%跳升到29.7%,双双大幅提升。但与此同时,在CUActSpot上的得分却从44.4%下降到了36.5%。训练特定软件的数据,确实能让模型在依赖软件知识的基准上表现更好,但这种提升并不代表通用定位能力的真正进步。

为了进一步验证评测基准的有效性,研究团队还做了一个很有说服力的实验。他们用GPT-o3统一充当"规划者"(决定下一步该做什么),然后让不同的模型充当"执行者"(把规划转化为具体坐标),在OSWorld这个端到端的真实任务基准上测试。结果发现,有几个模型在ScreenSpot-Pro上的得分比GPT-o3高出近30个百分点,但在OSWorld上的得分却并不比GPT-o3高多少。而Phi-Ground-Any-4B在ScreenSpot-Pro上只有26.3%,在OSWorld上却能达到42.4%,接近GPT-o3自己执行时的44.1%。这说明CUActSpot的排名结果,与真实任务完成能力的相关性更高。

多样性的魔法:为什么"见多识广"比"深入专精"更重要

论文中另一个重要发现,来自对训练数据构成的系统性消融实验。

研究团队从零开始,每次只增加一种模态的训练数据,观察模型在各项测试上的表现变化。这个实验揭示了一个反直觉但又很有说服力的规律:单独扩大某一种数据的规模,带来的收益迅速递减;但每次引入一种新模态的数据,不仅该模态的测试分数大幅提升,其他模态的分数也会跟着涨。

具体来看,从零到200万条界面元素数据,总体得分从0跳到14.8%。加入100万条文本数据后,总体得分升到21.5%,而且不只是文本子项提升,界面元素子项也从31.6%升到了34.2%。加入100万条表格数据后,表格子项从21.9%大幅升到了40.6%,同时画布和图像子项也有小幅提升。加入画布和自然图像数据后,各子项持续稳步提升。

相比之下,如果只是把某一种数据从200万条增加到500万条,带来的提升远远没有引入新模态来得显著,甚至会遇到平台期。

研究团队把这个现象命名为"多样性缩放",并提出了一个解释:要想同时处理好文本选择、表格操作、画布拖拽、图像区域定位这些看似不同的任务,模型必须学习一些底层的、跨任务通用的能力——比如理解"目标在哪里"、"这个目标的边界是什么"、"从这里拖到哪里才合理"。这些通用能力只有在见过足够多样化的任务之后才能真正形成,单纯在一类任务上堆数据,反而会让模型过度专精于某种特定的模式识别。

这个发现,在某种程度上呼应了大型语言模型的一个经典观察:语言模型在语言任务上展现出的"涌现能力",往往来自于训练数据在话题、风格、语言方面的极高多样性,而不仅仅是数据量。

跨任务泛化:学会了1加2,也学会了2加1

除了多样性缩放,研究团队还发现了一个有趣的"举一反三"现象。他们统计了Phi-Ground-Any-4B在CUActSpot上能成功完成的细分任务类型数量:CUActSpot包含33种细分任务,训练数据只覆盖了其中20种,但模型实际上能成功完成其中27种。

也就是说,有7种训练数据里完全没有的细分任务,模型通过"组合"已有知识,自己摸索出了完成方法。论文中给出的解释是:模型分别学会了"操作文字内容"和"操作图像区域"这两种能力,然后在面对"操作图像里的文字"(比如选中PPT幻灯片图片里的文字)这种新任务时,能够把两种能力融合起来,在没有专门训练数据的情况下完成任务。

这种跨任务的泛化能力,让研究者对未来充满期待:随着训练数据的模态和任务类型持续扩展,AI助手在没有见过的新型操作上的表现,很可能也会跟着提升,而不是永远只会做训练时见过的那几件事。

说到底,这项研究在做什么

归根结底,这篇论文做了三件相互关联的事。

第一,它指出了一个被长期忽视的问题:现有的AI操控能力评测,基本上只测"点击",完全忽略了拖拽、绘制这类在实际工作中极为常见的操作。评测基准的设计偏差,导致整个领域的研究方向也跟着偏了。

第二,它提供了一套工具:CUActSpot评测基准,让研究者能更准确地测量模型在复杂操作上的真实能力;以及一套数据合成流水线,让这类稀缺的复杂操作训练数据能够以大规模的方式自动生成。

第三,它给出了一个方向性的结论:对于电脑操控AI来说,训练数据的多样性可能比数据规模更重要。想要训练出能真正帮助用户完成日常工作的AI助手,与其在同一类操作上堆积海量数据,不如系统地扩展它所见过的操作类型。

当然,这项研究也有它坦承的局限。CUActSpot只有206个样本,是一个诊断性的小型基准,并不能覆盖真实工作流中的所有复杂情况,尤其是需要连续多步操作的长序列任务。合成数据与真实软件截图之间的分布差异,也是一个尚未完全解决的问题——从实验结果就能看出,在合成数据上训练好的模型,还需要额外的真实数据微调才能在软件知识密集的基准上表现出色。

不过,从另一个角度来看,能在40亿参数规模上通过纯合成数据达到这样的性能,本身已经说明了这条路线的可行性。随着合成数据质量和多样性的持续提升,以及模型架构的进一步优化,一个真正能帮你在Photoshop里描轮廓、在Excel里拖公式的AI助手,可能不再是遥远的未来。

有兴趣深入了解的读者,可以通过arXiv编号2605.12501查阅完整论文,研究团队也在GitHub(microsoft/Phi-Ground)上开放了基准数据、训练数据、代码和模型权重,可以直接下载使用。

---

Q&A

Q1:CUActSpot评测基准和ScreenSpot-Pro这类主流评测基准有什么本质区别?

A:ScreenSpot-Pro等主流基准基本上只测试点击操作,目标以标准界面元素为主,而且很多题目需要软件专业知识才能作答,导致分数很难区分"定位能力"和"软件记忆"。CUActSpot则专门扩展了拖拽和绘制等复合动作,覆盖文本、表格、画布、自然图像五种操作对象,并刻意减少了对软件专业知识的依赖,让评测结果更能反映模型的通用定位能力。实验证明,CUActSpot的排名与真实任务完成率的相关性更高。

Q2:Phi-Ground-Any-4B的训练数据是怎么生成的,为什么不直接用真实截图?

A:研究团队采用了代码渲染的方式生成截图,因为渲染过程中每个元素的坐标天然就是已知的,完全不需要人工标注。五种模态分别用网页渲染、字体渲染、HTML表格渲染、程序化画布模拟器和SAM分割数据集实现。相比从真实软件截图里艰难标注,这种方式能以极低成本生成数千万条带有精确坐标的训练样本,并且通过让o3模型进行数学推算来自动生成复杂操作指令。

Q3:"多样性缩放"这个发现对AI训练有什么实际意义?

A:这个发现说明,对于电脑操控AI来说,与其在同一类操作(比如只点击界面按钮)上堆积大量数据,不如系统地引入更多种类的操作类型。实验显示,每引入一种新模态数据,不仅该模态的性能大幅提升,其他模态也会跟着受益。这与堆同类数据很快遇到收益递减形成鲜明对比。实践层面的意义是:构建通用操控AI助手时,应该优先追求操作类型的广度,而不仅仅是某一类操作的数据量。

喜欢(0)

上一篇

2026年国产智慧实验室品牌推荐:迈克生物在全流程智慧运

2026年国产智慧实验室品牌推荐:迈克生物在全流程智慧运

下一篇

iPhone 18 Pro外观实锤:延续上代造型 新配色是最大看点

iPhone 18 Pro外观实锤:延续上代造型 新配色是最大看点
猜你喜欢