: 首页; 看点啥; 插画图片

首页电脑数码蚂蚁集团联合高校研发的"视觉猎手":让AI学会主动用眼睛搜索了

蚂蚁集团联合高校研发的"视觉猎手":让AI学会主动用眼睛搜索了

2026-06-20 0

这项由蚂蚁数字科技（蚂蚁集团）联合中国科学院自动化研究所、中国科学院大学、中国人民大学以及北京理工大学共同完成的研究，以预印本形式于2026年6月13日发布在arXiv平台，编号为arXiv:2606.15231。研究成果以"Visual-Seeker"为名，正式提出了一种全新的视觉原生多模态深度搜索智能体。

你有没有遇到过这样的场景：手机里有一张朋友发来的比赛现场照片，你想知道照片里穿45号球衣的那位球员是谁，却发现直接丢给AI问，它根本答不上来？或者你看到一部电影的截图，想查某个道具的颜色，搜索引擎吐给你的全是文字介绍，就是找不到真正带图的答案？

这两个困境，恰恰指向了当前AI搜索领域一个被长期忽视的软肋——AI其实不太会"主动用眼睛"去搜索和推理。

传统的AI搜索系统，哪怕配备了图像输入的能力，骨子里依然是一个文字工作者。它顶多把你给的图片当成一个触发搜索的信号，真正收集证据、拼凑答案的过程，全靠文字。这就好比你雇了一个调查员，他能看懂你给他的照片，但在整个调查过程中，他只愿意翻文件、看报告，就是不肯亲眼去现场观察、拍照取证。

蚂蚁集团的研究团队把这个调查员重新训练了一遍。他们开发的Visual-Seeker，不仅能看懂你提供的图片，还能在整个多轮搜索过程中，主动去网络上找图片、细看图片里的细节，把视觉证据和文字证据像侦探一样拼接在一起，最终给出答案。

一、现有AI搜索的"视觉短板"是怎么形成的

要理解Visual-Seeker的价值，得先明白现有系统为什么会有这个短板。

近年来，随着大型语言模型的飞速发展，研究界开始探索所谓的"深度搜索智能体"。这类系统的核心思路是：不再依赖模型脑子里那些可能过时的知识，而是让它像真人一样，遇到问题就去搜索引擎查资料、翻网页、汇总信息。这个思路相当有效，尤其是处理那种需要多步推理的复杂问题。

然而，这批早期系统天生是文字动物。它们发出的搜索查询是文字，收集的证据是文字，推理过程也是文字。一旦问题涉及图像，就捉襟见肘了。

研究团队发现，后来出现的多模态搜索智能体，虽然能接受图片作为输入，但在设计上有两个根本性的缺陷。

第一个缺陷，是对输入图片的"浅层处理"。现实世界里的图片往往极其复杂——一张NBA比赛照片里可能同时出现十几位球员，一张颁奖典礼合影里站着一排名人。现有的训练数据，偏偏喜欢用那些主体简单、语义明确的图片来训练模型，比如一张单人特写照，或者一个物体的正面图。这导致模型在面对真实世界的复杂图片时，往往认不清目标是谁，更无法精准锁定"那个穿45号球衣的人"。

第二个缺陷，是在整个搜索过程中完全不依赖视觉证据。现有方法的搜索轨迹里，充斥着文字查询和文字结果，几乎没有主动去搜索图片、分析图片内容的步骤。可问题是，有些答案根本就藏在图片里。以论文中举的例子为例：某部电影2018年发行的最新DVD封面上，伊恩·麦克莱恩帽子上羽毛的颜色是什么？这个问题的答案在任何文字资料里都找不到，必须亲眼去找到那张DVD封面图片才能回答。而现有系统根本想不到去做这件事。

这两个缺陷叠加起来，就导致了一个令人尴尬的局面：当你问一个需要"看图找线索、再找更多图来验证"的复杂问题时，现有的AI搜索系统几乎无能为力。

二、一条"侦探培训流水线"：如何教会AI主动看图

要解决上面说的两个缺陷，核心难题在于：哪里来足够的训练数据，让模型学会"在复杂图片里认人"和"主动搜集图片证据"？

真实的多模态深度搜索轨迹数据，在现实中几乎不存在，因为压根就没有人系统地记录过这种多轮、跨模态的搜索过程。于是，研究团队自己设计了一套数据合成流水线，他们称之为"主动视觉推理数据流水线"。

整个流水线分三个阶段，逻辑上环环相扣，就像培训一名侦探要先练眼力、再练破案思路、最后练现场取证。

**第一阶段：练眼力——从复杂图片里精准锁定目标**

训练数据的起点，是一个叫LiveVQA的公开数据集。这个数据集的特点是，图片来自真实世界，往往包含多个实体（人物、地点、组织等），而且每道题目都附带了推理过程。研究团队用这些数据，让AI学习"在一张复杂图片里，认出某个具体的人或物，并用语言描述他的特征"。

具体做法是：给AI同时提供图片、问题和推理过程，让它把图片里出现的实体提取出来，每个实体记录下名字、在图片中的视觉描述（比如"图中举起右手的那位男士"）以及类别（人物、地点还是组织）。

光是提取还不够，提取出来的实体还要经过严格的筛选和去歧义处理。筛选分三步进行。第一步，过滤掉那些过于泛化、无法唯一定位的描述，比如"那个男人"或者"一栋建筑"——这种描述太模糊，没有搜索价值。第二步，过滤掉主体太过明显的图片，比如单人特写照，因为这类图片不需要细致的视觉分辨，训练不了辨别复杂场景的能力。第三步，处理多义实体，比如"Apple"既可能是苹果公司也可能是水果，需要结合图片和问题的上下文，确认这里指的是哪个意思。经过这三重过滤，最终筛出了2000个有价值的"种子实体"，每个实体都是从真实复杂图片中精准锁定的。

**第二阶段：练破案思路——用知识图谱生成多跳推理问题**

有了种子实体，接下来要生成那些需要多步推理才能回答的问题。这里的"多跳"，是指解题过程需要经过多个中间步骤——比如先认出图中的球员，再查他的大学，再查那所大学有没有出过什么历史性的成就，再从那个成就推到某个城市的名称。

研究团队使用了一个基于维基百科构建的离线知识图谱，把它想象成一张巨大的蜘蛛网，每个节点是一个实体（人物、地点、事件等），节点之间的连线是实体之间的关系。从种子实体出发，在这张网上随机游走，就能生成一条推理链。

为了避免生成的推理链过于线性和单调，研究团队设计了两种游走策略来丰富结构。一种叫"回溯策略"：就像侦探在查案时发现某条线索断了，会回到之前的线索重新出发——游走过程中有一定概率跳回之前经过的某个节点，再从那里开岔出去，这样就能生成像树形一样的分叉推理结构。另一种叫"环形约束策略"：从起点出发，在某个分叉点分成两条独立的路线，这两条路线各走几步之后再汇合到一个共同的终点，形成一个环状的推理结构。这两种策略，让生成的推理问题从形态上更接近真实复杂问题的样子。

游走完成后，再用大语言模型把这条推理链翻译成一道自然语言问题，确保问题逻辑自洽、表述清晰。

**第三阶段：练现场取证——强制注入视觉证据**

前两个阶段生成的问题，答案虽然需要多步推理，但本质上还是用文字就能搜索到答案的。真正让Visual-Seeker与众不同的，是第三阶段：把视觉证据强制插入到推理路径中。

做法是这样的：找到某道题的答案实体，比如"《西游记》"，然后用搜索引擎去找这个实体相关的图片。对找到的每张候选图片，用另一个AI模型仔细观察，提取出那些纯粹靠文字描述得不到的视觉细节，比如"主角骑的马是白色的"，或者"封面上的云彩是金色的"。然后，把这个视觉细节作为答案，把一个模糊的搜索关键词作为问题，拼接成一道"必须找到图片才能回答"的子问题，嵌入到原来的多跳问题里。

这样一来，整道题的解答路径就包含了一个必经的视觉取证步骤——模型必须主动搜索某张图片，仔细观察图片细节，才能继续下面的推理。

经过完整的三阶段流水线，研究团队最终合成了5000条高质量的多模态搜索轨迹，其中3000条不含视觉证据注入（用于训练基础搜索能力），800条含有视觉证据注入（用于训练主动视觉取证能力），另有500条纯文字问题轨迹和700条来自公开FVQA数据集的轨迹作为补充。

三、Visual-Seeker的"工具箱"和工作方式

有了训练数据，研究团队用这5000条轨迹，通过监督微调的方式训练了Visual-Seeker。基础模型选用的是Qwen3-VL-8B-Instruct，一个参数规模为80亿的视觉语言模型，训练在8张NVIDIA A100 GPU上进行，共训练3轮。

Visual-Seeker在工作时，会反复进行"思考→选工具→用工具→看结果→再思考"的循环，直到找到答案或者达到最多15轮的交互上限。

这个智能体的工具箱里有五件工具。第一件是文字搜索工具，本质上就是一个搜索引擎接口，输入自然语言查询，返回相关网页的标题和链接。第二件是图片反向搜索工具，把一张图片丢进去，返回互联网上与这张图片相关的网页，用来识别图片里的内容是什么。第三件是图片搜索工具，这是Visual-Seeker区别于同类系统的核心工具之一，输入文字描述，返回相关图片，专门用来主动收集视觉证据。第四件是网页访问工具，输入一个网址，返回该网页的摘要内容，用来深入阅读某条搜索结果。第五件也是核心工具之一，叫图片裁剪工具，输入坐标，对当前图片的某个区域进行放大截取，用来在复杂图片里精细查看某个目标。

拿前面那个"45号球衣球员"的例子来说，Visual-Seeker的工作流程可能是这样的：先用图片裁剪工具把画面中45号球衣所在区域截取放大，再把这个裁剪后的图片丢给图片反向搜索工具，搜到球员的名字，然后用文字搜索工具继续查这位球员的大学，再继续推理下去。全程，图片和文字证据都在被主动调用和交叉验证。

四、测试结果：五项挑战性基准测试全面领跑

为了验证Visual-Seeker的实际效果，研究团队在五个极具挑战性的多模态搜索基准测试上进行了全面评估，分别是MMSearch、MMSearch-Plus、BrowseComp-VL、MM-BrowseComp和VisBrowse-Bench。这五个测试各有侧重：MMSearch-Plus专门考察在多实体复杂图片中的视觉理解能力，MM-BrowseComp和VisBrowse-Bench则重点考察在搜索过程中必须收集视觉证据才能回答的问题。

测试框架分为三类：直接回答（完全依赖模型自身知识，不搜索）、智能体工作流（用工具搜索但不经过专门训练）、多模态深度搜索智能体（专门训练过的系统）。

直接回答的结果充分说明了为什么需要搜索智能体：就算是顶级商业模型，在这五个基准上的平均正确率也相当惨淡，Claude-4-Sonnet只有13.1%，GPT-5也仅有27.2%。模型自带的知识根本不足以回答这类需要实时信息和精细视觉分析的问题。

接上搜索工具后，所有模型的成绩都大幅提升。Claude-4-Sonnet的平均分从13.1%飙升到32.2%，提升幅度高达145.8%。这说明了一件事：工具的加持对于这类任务至关重要，而且研究团队设计的工作流本身就很有价值，对各种模型都适用。

在真正比拼专门训练过的多模态搜索智能体时，Visual-Seeker以平均39.6%的正确率拿下第一，超过了所有对比系统。具体来看，在MMSearch上拿到72.2%，在MMSearch-Plus上拿到27.3%，在BrowseComp-VL上拿到47.6%，在MM-BrowseComp上拿到16.1%，在VisBrowse-Bench上拿到34.7%。

这组数字背后有几个值得关注的细节。与作为基础模型的Qwen3-VL-8B-Instruct相比，Visual-Seeker在每个基准上的提升幅度都接近翻倍，五项平均提升了16.6个百分点。在MM-BrowseComp和VisBrowse-Bench这两个必须主动收集视觉证据才能回答的基准上，Visual-Seeker甚至超越了GPT-5和Gemini-2.5-Pro这两个体量远大于它的商业模型。一个80亿参数的开源模型，在视觉取证类任务上打赢了巨型商业模型，这背后正是专门设计的训练数据发挥了作用。

五、层层拆解：每个设计决策是否真的有效

研究团队没有仅仅展示最终成绩，还做了一系列精细的消融实验，也就是把系统里的某个部分拆掉，看整体表现如何变化，以此验证每个设计决策的真实贡献。

在数据消融实验里，研究团队从零开始，逐步向训练集里加入不同类型的数据。最开始只用FVQA数据集的轨迹和纯文字问题轨迹，模型平均分只有12.6%，相比基础模型没有太大提升。加入由数据流水线第一、二阶段合成的多模态轨迹（不含视觉证据注入）之后，平均分跳升到18.6%，尤其是MMSearch-Plus这个考察复杂图片理解能力的基准，从20.9%提升到了24.5%，提升了17.2个百分点，证明了从复杂图片中精准提取种子实体的训练数据确实有效。进一步加入含有视觉证据注入的轨迹之后，平均分再次跃升到26.0%，MM-BrowseComp和VisBrowse-Bench这两个视觉取证相关的基准分别提升了5个和14.6个百分点，非常直接地验证了"强制注入视觉证据"这个设计的价值。

在工具消融实验里，研究团队分别拆掉图片裁剪工具和图片搜索工具，看看缺少这两件核心工具会怎样。拆掉图片裁剪工具后，VisBrowse-Bench的成绩从34.7%跌至25.1%，跌幅最大，说明这个基准的图片里确实包含多个复杂实体，不裁剪放大就很难认清目标。拆掉图片搜索工具后，VisBrowse-Bench的成绩从34.7%跌至20.1%，跌幅更大，说明这个基准的很多问题确实必须搜索图片才能找到视觉证据。两件工具同时拆掉，成绩进一步恶化。这些数据从另一个角度证实了：Visual-Seeker的视觉原生搜索能力，是靠这两件工具共同支撑起来的，缺一不可。

在工具使用行为分析方面，研究团队还观察了模型在不同基准测试上的实际工具调用情况。对于相对简单的MMSearch，模型平均只需要调用4.3轮工具交互就能得到答案；对于极具挑战性的MM-BrowseComp，平均需要14.1轮，几乎用满了15轮的上限。在工具的分布上，文字搜索工具在各基准上始终是调用比例最高的（48%到65%之间），这说明文字依然是多数问题的主要证据来源。但VisBrowse-Bench是个例外——它的图片反向搜索工具调用比例（15%）和图片搜索工具调用比例（9.3%）明显高于其他基准，说明这个基准的问题确实需要更多的视觉取证操作。

六、一次真实的搜索案例：看它怎么一步步破案

在论文的附录中，研究团队给出了一个完整的搜索案例，可以直观感受Visual-Seeker的工作节奏。

问题是：图中这位女士戴的项链来自某个特定品牌。2018年，关于这个品牌创始人的一部纪录片上映了。纪录片的海报里，主角正在吃什么水果？

首先，模型看到图片后，判断项链区域位于画面的特定位置，调用图片裁剪工具截取颈部区域放大观察。看到放大后的图片，模型认出这似乎是一条带有Vivienne Westwood（薇薇安·韦斯特伍德）Orb标志挂件的珍珠项链。为了确认，模型把裁剪后的图片交给图片反向搜索工具进行验证，搜索结果返回了一些珍珠项链的网页，印证了这是Vivienne Westwood风格的项链。

确认品牌之后，模型用文字搜索工具查询"2018年关于Vivienne Westwood创始人的纪录片"，找到了《Westwood: Punk, Icon, Activist》这部2018年上映的纪录片，主角正是品牌创始人Vivienne Westwood本人。

接下来，为了找到海报上的视觉细节，模型调用图片搜索工具，用"Westwood Punk Icon Activist documentary 2018 poster"作为关键词搜索，成功找到了海报图片。图片显示，Vivienne Westwood在海报中正在吃一根香蕉。模型再用网页访问工具去IMDB页面进一步确认，最终确定答案：香蕉。

这个案例完整地展示了Visual-Seeker的核心能力：从复杂图片里精准定位目标（裁剪放大识别项链），主动去网络上搜索视觉证据（搜索纪录片海报图片），并且在整个过程中灵活地在文字搜索和图片搜索之间切换。

说到底，Visual-Seeker解决的问题，是一个看起来简单却长期被忽视的问题：AI搜索系统能不能真正"用眼睛"来收集证据？

这项研究给出了一个明确的答案：可以，而且方法路径已经相当清晰。关键在于两点，一是用真实复杂图片来训练模型的视觉辨别能力，而不是用过于简单的图片来偷懒；二是在训练数据的推理路径里，强制加入必须通过搜索图片才能完成的步骤，让模型从底层就学会"视觉取证"这个动作。

研究也显示，这种方法并不需要庞大的数据量——5000条精心设计的训练轨迹，就足以让一个80亿参数的模型在多个基准上超越体量大得多的商业模型。这在一定程度上说明，数据的质量和设计思路，有时候比数据的数量更重要。

当然，这套系统还有很多可以改进的地方。目前它在最复杂的基准MM-BrowseComp上的正确率只有16.1%，说明真正困难的跨模态多跳推理问题依然是个巨大的挑战。此外，研究只采用了监督微调而没有引入强化学习，这意味着未来还有更大的性能提升空间。

一个有趣的问题是：当AI不仅能搜文字，还能主动搜图片、分析图片细节，对我们寻找信息的方式意味着什么？当你不需要知道"45号球员叫什么"，只需要把照片丢给它，它就能替你完成整个侦探式的调查，这会怎样改变我们与信息世界的关系？有兴趣深入了解这项研究细节的读者，可以通过arXiv编号2606.15231查阅完整论文。

Q&A

Q1：Visual-Seeker和普通的多模态AI搜索有什么本质区别？

A：普通多模态搜索系统只是把图片作为触发搜索的信号，整个搜索过程依然以文字为主。Visual-Seeker的核心区别在于两点：第一，它能在复杂的多人物图片里精准辨认目标实体；第二，它在搜索过程中会主动去网络上搜索图片、分析图片里的视觉细节，把视觉证据和文字证据结合起来推理，而不只是依赖文字信息。

Q2：Visual-Seeker的5000条训练数据是怎么来的？

A：这5000条数据是通过研究团队自己设计的"主动视觉推理数据流水线"合成的，分三个阶段：先从真实复杂图片中提取精准的种子实体；然后在维基百科知识图谱上通过随机游走生成多跳推理问题；最后再强制插入一个必须搜索图片才能回答的视觉取证子问题。其中3000条不含视觉证据注入，800条含视觉证据注入，另有1200条来自其他来源补充。

Q3：Visual-Seeker在哪类问题上表现最突出？

A：在需要主动收集视觉证据才能回答的问题上表现最突出。在MM-BrowseComp和VisBrowse-Bench这两个专门考察视觉取证能力的基准测试上，Visual-Seeker甚至超越了GPT-5和Gemini-2.5-Pro这两个体量大得多的商业模型。这说明专门针对"视觉原生搜索"设计的训练数据，在这类任务上的效果非常显著。

喜欢(0)

英伟达发明了一种让AI小模型向大模型学习的新方法：效果出奇地好

中山大学与Adobe联手攻克AI生成图片失真难题