: 首页; 看点啥; 插画图片

首页经济看点微软与东南大学联手：让AI助手真正学会"拖拽"和"画图"，不再只会点击鼠标

微软与东南大学联手：让AI助手真正学会"拖拽"和"画图"，不再只会点击鼠标

2026-05-19 0

这项由东南大学、微软研究院、武汉大学、中山大学及阿布扎比穆罕默德·本·扎耶德人工智能大学联合完成的研究，以预印本形式于2026年5月发布在arXiv平台，论文编号为arXiv:2605.12501v1。感兴趣的读者可通过该编号在arXiv上找到完整论文。

微软与东南大学联手：让AI助手真正学会

鼠标不只会点击——AI助手的"操作盲区"

每当你打开电脑，几乎所有与屏幕的交互都不只是点击按钮那么简单。你在Excel里拖动单元格角落来填充公式，在Word里框选一段文字然后拖到新位置，在Photoshop里用套索工具一笔一划地描出人物轮廓，在PowerPoint里把一个形状拖到另一个形状的正中心——这些操作稀松平常，却对自动化AI助手构成了真正的难题。

近年来，像GPT-o3和Claude这样的"电脑操控AI"已经能够帮助用户自动完成一些屏幕上的工作。这类AI被称为"计算机使用智能体"，它们通过"看"屏幕截图来理解当前状态，然后决定下一步该做什么。然而，研究团队在实际测试中发现了一个让人有些尴尬的现象：哪怕是当今最强大的AI模型，在面对"拖拽"、"框选"、"描边"这类稍微复杂一点的操作时，失误率远远高于简单点击。换句话说，这些AI就像一个刚学会按门铃的机器人，却完全不知道怎么开锁。

研究团队把这个现象称为"长尾问题"——绝大多数的操作失败，都集中在那些复杂度高、出现频率相对较低的交互类型上。他们的核心判断是：这个问题很大程度上源于训练数据的严重匮乏。简单点击的数据到处都是，但"在Photoshop里描出一只猫的轮廓"这种操作，几乎没有现成的训练数据可以用。

一次摸底测试：GPT-o3在"工作场景"中的真实表现

为了摸清问题所在，研究团队在微软Azure平台上收集了近200个真实任务，涵盖办公软件操作、网页浏览和电子游戏三大场景，让GPT-o3逐一完成，并详细分析所有失败案例。

结果相当直观。在办公软件场景里，每100个失败案例中，有37个是因为AI找错了位置——也就是说，它知道该做什么，却不知道该在屏幕的哪个地方做。这类错误被称为"动作定位错误"，是最主要的失败原因，远超过"规划错误"（知道在哪里，但不知道该做什么）。而在那些需要拖拽或其他复合动作的任务里，坐标定位错误的比例更是显著高于简单点击任务。

网页浏览场景的情况稍好一些，但规律类似。游戏场景中规划错误占主导，因为游戏需要更多策略性判断，而非精准定位。

这份测试报告直接指向了两个亟待解决的问题：现有的评测基准无法衡量复杂操作能力，而训练数据里几乎没有这类复杂操作的样本。

一把新尺子：CUActSpot评测基准的诞生

既然旧的尺子量不准，就得造一把新尺子。研究团队手工构建了一个名为CUActSpot的评测基准，专门用来测试AI在复杂交互上的能力。

这个评测基准的核心创新，在于它打破了过去"只测点击"的传统。以往的评测基准，不管多难，基本上都是同一个模式：给AI看一张截图，让它找出某个按钮的位置，然后检查它指出的位置是否在按钮范围内。这就像只考语文的"找错别字"，而完全不考"写作文"。

CUActSpot把测试范围扩展到了五种不同的操作对象：标准界面元素（按钮、复选框之类）、文本内容（选中某段话、在某处点击设置光标）、表格（Excel里的各种操作）、画布（PowerPoint里的图形操作）以及自然图像（Photoshop里对照片内容进行操作）。动作类型也从单纯的点击扩展到了拖拽（需要确定起点和终点两个坐标）和绘制（需要确定一系列连续坐标点，比如描出物体轮廓）。

整个基准包含206个精心设计的样本，涵盖12种高层任务类型和33种细分任务类型。为了确保质量，每个样本都经过了至少四个人的测试和修正——原始标注者设计任务，另外三个人独立尝试完成，若有歧义就修改，人类无法完成的就直接删除。

评分方式也经过了精心设计。对于需要多个坐标点的任务，评测系统会区分"有序"和"无序"两种情况——拖拽鼠标画圆是有序的（必须从圆心开始），而框选一段文字是无序的（从前往后或从后往前都可以）。此外，系统还引入了"禁止区域"的概念，防止AI通过在全屏随机乱点来蒙对答案。

数据工厂：用代码"渲染"出训练数据

有了评测标准，下一步是解决训练数据匮乏的问题。研究团队提出了一套全新的数据合成流水线，其核心思路是：与其从现实世界的软件截图里艰难地标注数据，不如直接用程序"生成"带有精确坐标信息的截图。

这个思路可以用烘焙来理解。传统方法就像从街上买蛋糕然后分析成分，费力而不精确；新方法则是自己按照食谱烤蛋糕，从一开始就知道每一种材料的精确用量。由于截图本身就是用代码渲染出来的，每个元素的坐标信息自然而然就记录在案，完全不需要人工标注。

在此基础上，研究团队让高级AI模型（具体使用的是OpenAI的o3模型）扮演"任务设计师"的角色，根据这些坐标信息自动生成对应的操作指令。更巧妙的是，他们允许o3在生成任务时进行数学推算。举一个论文中的真实例子：屏幕上有一个箭头形状和一个椭圆形状，已知箭头圆心坐标、箭头尖端坐标、椭圆顶部坐标，o3就能推算出"把箭头的圆心拖到某处，使箭头尖端恰好指向椭圆顶部"这样的复杂任务，并自动计算出正确的起点和终点坐标。这种能力极大地丰富了生成任务的多样性。

五种操作对象各自有一套专属的渲染方案。界面元素数据复用了Phi-Ground项目的网页爬取流水线：从Common Crawl这个巨大的网页存档库中抓取网页，经过语言过滤、领域去重（同一网站最多保留50个页面，防止单一网站风格主导模型）、渲染截图、规则过滤等多个清洗步骤，最终用GPT-4o为每个元素生成描述标签，共获得约1050万个高质量样本。

文本数据的渲染则采用了一个"拼贴"方案：团队收集了2500种开源英文字体和约200张不同分辨率的文字背景图（包括空白Word文档、记事本窗口截图等），然后用Python的PyQt5库把维基百科和GitHub上的文字内容渲染到这些背景上，同时精确记录每个字符的坐标。

表格数据的生成尤为精细，分四步完成。首先从开源数据集收集约1.6万张原始表格，然后用GPT对每张表格进行"演化"——改变主题（比如把"工作时间统计表"改成"数学成绩统计表"）、改变结构（添加合并单元格、新增列等），生成约16万张各不相同的表格。接着用o3生成约1万套不同风格的CSS样式表，通过随机调整颜色、字体、边框等参数扩展成多样化的视觉风格。最后把内容和样式随机组合，并对一半的表格随机遮挡大量单元格（模拟Excel中大量空白格的真实情况），得到视觉风格高度多样的表格截图。

画布数据采用了一个程序化的PowerPoint模拟器，支持76种基本形状，涵盖矩形、椭圆、三角形、箭头、连接线、标注框、星形、多边形等九大类别。每个生成的画面都包含3到8个随机放置的形状，并模拟了PowerPoint编辑模式下的视觉细节——八个红色控制点、顶角的蓝色顶点标记、旋转手柄等，让合成数据尽可能贴近真实软件的外观。

自然图像数据则直接来源于Meta开源的SAM（Segment Anything）数据集。对于每张图片，团队随机选取五个区域，用GPT-4o为每个区域生成详细描述，再用轮廓提取算法把区域的分割掩码转换成20个顶点的多边形边界曲线。这套边界数据主要用于支持Photoshop式的"抠图"和"涂抹遮罩"任务。

通过这套流水线，研究团队共生成了约5000万条训练样本，其中界面元素数据约3000万条，其余四种模态各约500万条。

训练与对比：一个4B参数的小模型逆袭

有了数据，研究团队用它来训练模型。他们选择了Phi-3.5-VL作为基础模型，这是微软开发的一个参数规模约40亿的视觉语言模型。选择这个相对"小"的模型，是因为他们想测试纯数据质量和多样性的效果，而不是单纯靠模型规模取胜。

训练出来的模型被命名为Phi-Ground-Any-4B，在CUActSpot评测基准上取得了44.4%的总体得分，超过了所有参数量低于320亿的开源模型。对比一下其他模型的表现：拥有70亿参数的UI-TARS-1.5-7B得了28.5%，拥有320亿参数的EvoCUA-32B同样得了28.5%，参数量相当的OpenCUA-7B得了39.8%，而同为320亿参数的OpenCUA-32B得了52.5%。考虑到Phi-Ground-Any-4B只有40亿参数，这个成绩相当出色。

当然，如果只看另外两个主流评测基准——ScreenSpot-Pro和UI-Vision，Phi-Ground-Any-4B的表现就相对平庸了，分别只得了26.3%和15.8%，远低于一些竞争对手。这个反差引出了一个值得深思的问题。

评测基准的"知识壁垒"之争

研究团队在论文中专门花了相当篇幅讨论这个反差背后的深层原因，这也是整篇论文最有意思的观察之一。

ScreenSpot-Pro和UI-Vision这两个当前最流行的评测基准，都覆盖了大量真实桌面软件，包括Photoshop、AutoCAD、各类专业应用等。这些基准的一个重要特点是：很多任务本身就需要软件专业知识才能完成。以论文中举的例子为例："点击Photoshop中的减淡工具图标"——如果你从来没用过Photoshop，根本不知道减淡工具长什么样，即便图标就在眼前也很难认出来。这对人类用户也是一样的。

这种设计有其合理之处：真实的AI助手确实需要熟悉各种软件。但问题在于，这样的评测结果，很难分清楚一个模型得分高，究竟是因为它的"定位能力"强，还仅仅是因为它恰好在训练数据里见过这款软件的界面截图。一个专门用ScreenSpot-Pro相关数据训练的模型，会在这个基准上得高分，但这不代表它真的学会了如何准确定位屏幕上的任意目标。

研究团队用了一个直接的实验来验证这一点。他们把Phi-Ground-Any-4B在Phi-Ground项目的应用数据（通过必应搜索收集的常见软件截图，可能与两个基准有重叠）上进一步微调，结果在ScreenSpot-Pro上的得分从26.3%跳升到41.5%，在UI-Vision上从15.8%跳升到29.7%，双双大幅提升。但与此同时，在CUActSpot上的得分却从44.4%下降到了36.5%。训练特定软件的数据，确实能让模型在依赖软件知识的基准上表现更好，但这种提升并不代表通用定位能力的真正进步。

为了进一步验证评测基准的有效性，研究团队还做了一个很有说服力的实验。他们用GPT-o3统一充当"规划者"（决定下一步该做什么），然后让不同的模型充当"执行者"（把规划转化为具体坐标），在OSWorld这个端到端的真实任务基准上测试。结果发现，有几个模型在ScreenSpot-Pro上的得分比GPT-o3高出近30个百分点，但在OSWorld上的得分却并不比GPT-o3高多少。而Phi-Ground-Any-4B在ScreenSpot-Pro上只有26.3%，在OSWorld上却能达到42.4%，接近GPT-o3自己执行时的44.1%。这说明CUActSpot的排名结果，与真实任务完成能力的相关性更高。

多样性的魔法：为什么"见多识广"比"深入专精"更重要

论文中另一个重要发现，来自对训练数据构成的系统性消融实验。

研究团队从零开始，每次只增加一种模态的训练数据，观察模型在各项测试上的表现变化。这个实验揭示了一个反直觉但又很有说服力的规律：单独扩大某一种数据的规模，带来的收益迅速递减；但每次引入一种新模态的数据，不仅该模态的测试分数大幅提升，其他模态的分数也会跟着涨。

具体来看，从零到200万条界面元素数据，总体得分从0跳到14.8%。加入100万条文本数据后，总体得分升到21.5%，而且不只是文本子项提升，界面元素子项也从31.6%升到了34.2%。加入100万条表格数据后，表格子项从21.9%大幅升到了40.6%，同时画布和图像子项也有小幅提升。加入画布和自然图像数据后，各子项持续稳步提升。

相比之下，如果只是把某一种数据从200万条增加到500万条，带来的提升远远没有引入新模态来得显著，甚至会遇到平台期。

研究团队把这个现象命名为"多样性缩放"，并提出了一个解释：要想同时处理好文本选择、表格操作、画布拖拽、图像区域定位这些看似不同的任务，模型必须学习一些底层的、跨任务通用的能力——比如理解"目标在哪里"、"这个目标的边界是什么"、"从这里拖到哪里才合理"。这些通用能力只有在见过足够多样化的任务之后才能真正形成，单纯在一类任务上堆数据，反而会让模型过度专精于某种特定的模式识别。

这个发现，在某种程度上呼应了大型语言模型的一个经典观察：语言模型在语言任务上展现出的"涌现能力"，往往来自于训练数据在话题、风格、语言方面的极高多样性，而不仅仅是数据量。

跨任务泛化：学会了1加2，也学会了2加1

除了多样性缩放，研究团队还发现了一个有趣的"举一反三"现象。他们统计了Phi-Ground-Any-4B在CUActSpot上能成功完成的细分任务类型数量：CUActSpot包含33种细分任务，训练数据只覆盖了其中20种，但模型实际上能成功完成其中27种。

也就是说，有7种训练数据里完全没有的细分任务，模型通过"组合"已有知识，自己摸索出了完成方法。论文中给出的解释是：模型分别学会了"操作文字内容"和"操作图像区域"这两种能力，然后在面对"操作图像里的文字"（比如选中PPT幻灯片图片里的文字）这种新任务时，能够把两种能力融合起来，在没有专门训练数据的情况下完成任务。

这种跨任务的泛化能力，让研究者对未来充满期待：随着训练数据的模态和任务类型持续扩展，AI助手在没有见过的新型操作上的表现，很可能也会跟着提升，而不是永远只会做训练时见过的那几件事。

说到底，这项研究在做什么

归根结底，这篇论文做了三件相互关联的事。

第一，它指出了一个被长期忽视的问题：现有的AI操控能力评测，基本上只测"点击"，完全忽略了拖拽、绘制这类在实际工作中极为常见的操作。评测基准的设计偏差，导致整个领域的研究方向也跟着偏了。

第二，它提供了一套工具：CUActSpot评测基准，让研究者能更准确地测量模型在复杂操作上的真实能力；以及一套数据合成流水线，让这类稀缺的复杂操作训练数据能够以大规模的方式自动生成。

第三，它给出了一个方向性的结论：对于电脑操控AI来说，训练数据的多样性可能比数据规模更重要。想要训练出能真正帮助用户完成日常工作的AI助手，与其在同一类操作上堆积海量数据，不如系统地扩展它所见过的操作类型。

当然，这项研究也有它坦承的局限。CUActSpot只有206个样本，是一个诊断性的小型基准，并不能覆盖真实工作流中的所有复杂情况，尤其是需要连续多步操作的长序列任务。合成数据与真实软件截图之间的分布差异，也是一个尚未完全解决的问题——从实验结果就能看出，在合成数据上训练好的模型，还需要额外的真实数据微调才能在软件知识密集的基准上表现出色。

不过，从另一个角度来看，能在40亿参数规模上通过纯合成数据达到这样的性能，本身已经说明了这条路线的可行性。随着合成数据质量和多样性的持续提升，以及模型架构的进一步优化，一个真正能帮你在Photoshop里描轮廓、在Excel里拖公式的AI助手，可能不再是遥远的未来。

有兴趣深入了解的读者，可以通过arXiv编号2605.12501查阅完整论文，研究团队也在GitHub（microsoft/Phi-Ground）上开放了基准数据、训练数据、代码和模型权重，可以直接下载使用。

---

Q&A

Q1：CUActSpot评测基准和ScreenSpot-Pro这类主流评测基准有什么本质区别？

A：ScreenSpot-Pro等主流基准基本上只测试点击操作，目标以标准界面元素为主，而且很多题目需要软件专业知识才能作答，导致分数很难区分"定位能力"和"软件记忆"。CUActSpot则专门扩展了拖拽和绘制等复合动作，覆盖文本、表格、画布、自然图像五种操作对象，并刻意减少了对软件专业知识的依赖，让评测结果更能反映模型的通用定位能力。实验证明，CUActSpot的排名与真实任务完成率的相关性更高。

Q2：Phi-Ground-Any-4B的训练数据是怎么生成的，为什么不直接用真实截图？

A：研究团队采用了代码渲染的方式生成截图，因为渲染过程中每个元素的坐标天然就是已知的，完全不需要人工标注。五种模态分别用网页渲染、字体渲染、HTML表格渲染、程序化画布模拟器和SAM分割数据集实现。相比从真实软件截图里艰难标注，这种方式能以极低成本生成数千万条带有精确坐标的训练样本，并且通过让o3模型进行数学推算来自动生成复杂操作指令。

Q3："多样性缩放"这个发现对AI训练有什么实际意义？

A：这个发现说明，对于电脑操控AI来说，与其在同一类操作（比如只点击界面按钮）上堆积大量数据，不如系统地引入更多种类的操作类型。实验显示，每引入一种新模态数据，不仅该模态的性能大幅提升，其他模态也会跟着受益。这与堆同类数据很快遇到收益递减形成鲜明对比。实践层面的意义是：构建通用操控AI助手时，应该优先追求操作类型的广度，而不仅仅是某一类操作的数据量。

喜欢(0)

2026年国产智慧实验室品牌推荐：迈克生物在全流程智慧运

iPhone 18 Pro外观实锤：延续上代造型新配色是最大看点