: 首页; 看点啥; 插画图片

首页经济看点浙江大学联合研究团队揭秘：让AI真正看懂空间，到底哪种训练方式更强？

浙江大学联合研究团队揭秘：让AI真正看懂空间，到底哪种训练方式更强？

2026-06-05 0

这项由浙江大学、Om AI Research及浙江大学滨江研究院联合开展的研究，以预印本形式于2026年5月27日发布在arXiv平台，编号为arXiv:2605.28132v1，研究方向属于计算机视觉领域。

浙江大学联合研究团队揭秘：让AI真正

一、AI的"眼睛"：为什么看懂空间这么难？

人类走进一个陌生的房间，几乎不需要思考就能知道哪里是门、哪里是桌子、地板距离天花板有多高、椅子和沙发分别在哪个角落。这种对空间的直觉感知，对人类来说理所当然，但对AI来说却是一道极难跨越的鸿沟。

AI要真正"读懂"空间，需要同时完成两件性质截然不同的事：一方面，它需要认识物体是什么——这个东西叫椅子，那个是门；另一方面，它还需要感知物体在哪里、物体之间距离有多远、整个场景的三维结构是什么样的。用一个简单的比喻来说，这就好像一个人不仅要能叫出每位客人的名字，还要精确知道每位客人在宴会厅里的准确位置，以及他们相互之间隔了多少步路。

正因为空间智能如此复杂，它已经成为人工智能研究中最热门的方向之一。自动驾驶汽车需要实时感知道路上的行人、车辆和障碍物的位置；机器人需要在家庭环境中绕过家具、抓取物品；增强现实设备需要把虚拟物体精确地放置在真实世界的某个角落。这些场景无一例外都依赖于AI对空间的深刻理解。

然而，AI研究界在训练AI"看懂"空间这件事上，目前走的主要是两条截然不同的路。一条路是让AI大量阅读图片和文字的配对内容，通过语言来理解视觉——这类模型被称为视觉语言模型，简称VLM。另一条路是让AI学习生成连续的视频画面，通过预测下一帧画面来理解世界如何随时间变化——这类模型被称为视频生成模型，简称VGM。

这两条路哪条更适合培养AI的空间智能？它们各自擅长什么、又各自有什么短板？这正是这项研究想要回答的核心问题。研究团队设计了一套严格的实验框架，第一次系统地比较了这两类模型在空间智能方面的表现，并发现了一个颇具启发性的结论：这两类模型并非谁强谁弱的关系，而是各有所长、互为补充。

二、两种"训练哲学"：语言老师 vs. 视频导演

要理解这项研究的出发点，首先需要弄清楚VLM和VGM这两类模型究竟是如何被训练出来的，它们的"成长经历"有什么根本区别。

视觉语言模型，可以把它理解为一个从小被语言老师培养的学生。这类AI在训练时，看到的是海量的图片加上对应的文字描述，比如一张沙发的照片配上"这是一张棕色的三人沙发"，一张厨房的图片配上"图中可以看到冰箱、水槽和橱柜"。通过大量这样的配对学习，AI逐渐建立起视觉与语言概念之间的桥梁，学会认识并命名各种物体。这类模型的代表包括Qwen3-VL（通义千问的视觉语言版本）和InternVL3（书生浦语的多模态版本）等。

视频生成模型，则更像一个整天浸泡在电影院里的导演学徒。这类AI的训练目标是学会生成逼真的视频画面——给它一段开头，它需要预测接下来的画面会是什么样的。为了完成这个任务，AI必须隐式地学会理解物体在三维空间中如何运动、摄像机视角如何变化、不同视角下同一个物体看起来是什么样子。这类模型的代表包括WAN2.1（万象）和CogVideoX（智谱的视频生成模型）等。

这两种"成长经历"天壤之别，直觉上会让人猜测它们对空间的理解方式应该截然不同。但"直觉上"并不等于"实验证明"。研究团队决定用严格的科学实验来验证这一点。

三、"冻结实验"：把AI的大脑切片来看

研究团队采用的实验方法有一个精妙之处：他们不是让这两类AI直接去完成空间理解任务，而是采用了一种叫做"冻结特征探测"的方法。

用一个类比来解释：假设你想比较两位厨师的厨艺功底，一种方法是给他们同样的食材，让他们自由发挥做菜，然后评判成品。但这样的比较受到很多干扰因素影响，比如一位厨师擅长用某种特殊的锅具，另一位习惯用不同的调料，最终成品的差异可能来自工具而非真正的厨艺。更严格的比较方法是：把两位厨师对食材的"第一感知"固定下来，然后用完全相同的烹饪步骤来测试同样的食材处理之后能做出什么。

研究团队做的正是这样的事。他们把所有的VLM和VGM模型"冻结"起来——也就是说，不再改变这些模型的任何内部参数，只是让它们把看到的视频画面转化成一种叫做"特征向量"的内部表示（可以理解为模型对画面的"第一印象"的数字化记录）。然后，研究团队用一套完全相同的、非常轻量级的"探测模块"，来读取并分析这些冻结的内部表示，测试从中能提取出多少空间信息。

这种设计的好处在于，所有模型使用的探测工具完全一致，排除了模型自身解码器、特殊训练技巧等干扰因素。任何表现差异，都只能归因于模型在预训练阶段学到的内部表示本身，而不是后续的任务特定调优。

为了操作上的统一，研究团队为每个视频设定了一套固定的取帧规则：从视频中连续截取76帧画面作为上下文，然后从中按固定间隔选取20帧作为分析对象。对于视频生成模型，研究团队会把这76帧输入到模型的视频编码器中，提取其在特定"去噪步骤"过程中产生的内部激活值，而不是最终生成的像素画面——研究团队看的是模型内部的"思考过程"，而非它最终"画出来的图"。对于视觉语言模型，则直接把20帧画面输入模型，收集视觉部分对应的隐藏状态。两种模型最终都输出一个20帧的特征库，格式完全一致，方便在相同的探测框架下比较。

四、三道考题：空间智能的三个维度

研究团队为这次比较设计了三种类型的空间智能考题，每一种都代表了空间理解的一个关键维度。

第一道考题叫做"语义标注"，考察AI能否认出一段视频里出现了哪些种类的物体。具体来说，使用的是ScanNet数据集，里面包含室内场景的视频，每个场景标注了出现了哪20类ScanNet物体，比如沙发、门、桌子、椅子等。AI需要从冻结的特征中判断哪些类别的物体出现在了被采样的帧里。评价指标采用了mAP（整体平均精度）、APmid（对出现频率较低的物体类别的平均精度）以及Mid Ratio（APmid除以mAP，衡量AI对稀少类别的识别能力是否与整体持平）。

这道考题的难点在于，它考察的是AI对物体语义概念的掌握程度。一个真正理解物体的AI不仅要能认出常见的椅子桌子，还要能认出不那么频繁出现的类别，比如书架、窗帘之类的物体。

第二道考题叫做"实例分组"，考察AI能否把属于同一个物体的像素正确地归为一组，即便这个物体从不同摄像机角度被拍摄了多次。同样使用ScanNet数据集，AI需要给每个像素生成一个嵌入向量（可以理解为每个像素的"身份标签"），使得属于同一物体实例的像素的标签相互靠近，属于不同物体的像素的标签相互远离。最终用HDBSCAN算法对这些标签进行聚类，得到实例分组结果。评价指标包括T-mIoU（每个真实实例与其最佳预测聚类的平均交并比）和T-SR（在每个包含该实例的视角中都成功找到该实例的比例）。

这道考题的复杂性在于，它同时需要AI具备两种能力：一是能认出一个物体的不同部分都属于同一个东西（语义理解），二是能在不同视角下保持对同一物体的追踪（几何一致性）。

第三道考题叫做"三维几何预测"，考察AI是否能从视频帧中恢复出场景的三维结构。这包括三个子任务：预测每个像素对应的三维空间位置（点云图），预测每个像素到摄像机的距离（深度图），以及估计摄像机在不同帧之间的位置和朝向变化（相机位姿）。使用的数据集是DL3DV，包含各类真实场景的视频，真值由VGGT模型生成的点云图、深度图和相机位姿提供。评价指标包括P-map Err.（点云图误差，越低越好）、AbsRel（深度相对误差，越低越好）和AUC@30（相机位姿精度，30度阈值内的曲线下面积，越高越好）。

五、大揭秘：谁擅长认物体，谁擅长看结构

实验结果出来了，呈现出非常清晰的规律，像是两位运动员在三个不同项目上的竞技成绩——他们都有自己的强项。

在语义标注这道考题上，视觉语言模型的表现远超视频生成模型，差距之大令人印象深刻。视觉语言模型家族的平均mAP达到了92.08，而视频生成模型家族的平均mAP仅为69.89——两者相差超过22个百分点。对于那些出现频率较低的物体类别，差距同样显著：视觉语言模型的APmid平均达到87.28，视频生成模型只有58.63。更有意思的是Mid Ratio这个指标：视觉语言模型平均为0.948，意味着它对稀少类别的识别能力几乎和整体水平持平；而视频生成模型只有0.838，说明它对不常见物体的识别明显偏弱。

在视频生成模型内部，规模最大的WAN2.1-T2V-14B（参数量140亿）是所有生成模型里最好的语义标注者，mAP达到80.00，说明模型规模确实有帮助——但它仍然低于所有被测试的视觉语言模型。视觉语言模型内部，Qwen3-VL-2B（参数量20亿）在APmid、mAP和Mid Ratio三项指标上都拿到了最佳成绩，达到了90.14的APmid和93.56的mAP，而且大多数视觉语言模型都集中在一个较高的性能区间里，说明这种语义优势是整个模型家族的共性，而不是个别模型的特殊表现。

用一个直观的场景来理解这个差异：在实验的定性案例分析中，研究团队展示了ScanNet场景0559_01的一组画面。真实答案是该场景中包含沙发、桌子、门和其他家具。两个Qwen3-VL模型都准确地识别出了全部正确类别，而所有的视频生成模型——无论是OpenSora还是CogVideoX——都漏掉了沙发这个场景中的关键物体，还同时错误地"认出"了一堆实际上不存在的物体。这种差异非常直观地说明了语言监督训练带来的物体识别优势。

在实例分组这道考题上，视觉语言模型同样胜出，尽管优势不像语义标注那么悬殊。视觉语言模型家族的平均T-mIoU为22.66，视频生成模型家族的平均T-mIoU为13.24；T-SR方面分别是11.23和4.35。最强的单个模型依然是Qwen3-VL-2B，达到25.50的T-mIoU和13.56的T-SR，Qwen3-VL-4B和Qwen3-VL-8B紧随其后。

这个结果提供了一个有趣的洞见：在不同视角下把属于同一物体的像素归到一起，这件事不只是一个几何问题，它同样需要AI对物体概念有深刻的理解。在定性案例分析中可以看到，视觉语言模型的特征能把沙发、门这样的主要物体从画面中清晰地分割出来，而视频生成模型的特征往往把不同物体糅合成粗糙的大块区域，无法细致区分不同的语义实体。

然而，在三维几何预测这道考题上，形势完全颠倒了。视频生成模型在所有三个几何指标上都优于视觉语言模型：P-map Err.平均0.152对0.223，AbsRel平均0.072对0.113，AUC@30平均0.527对0.330。这三项差距都相当明显，说明从视频生成模型的内部特征里提取三维几何信息要比从视觉语言模型里容易得多。

表现最好的几何模型是WAN2.1-T2V-14B，三项几何指标全部最优（P-map Err. 0.119，AbsRel 0.044，AUC@30 0.614），WAN2.1-I2V-14B（图像到视频版本）紧随其后。在视觉语言模型中，几何表现最好的是Qwen3-VL-8B，P-map Err.达到0.180，AUC@30达到0.424——研究团队分析这可能与Qwen3-VL在技术报告中描述的专项空间与三维训练有关。但即便如此，Qwen3-VL-8B依然低于视频生成模型的家族平均水平，说明专项的三维训练有帮助但无法完全弥补视频生成预训练带来的几何感知天然优势。

在深度图预测的定性展示中，WAN和CogVideoX的预测结果能够清晰地还原出场景中书架的层次结构和桌子边缘的深度跳变，而InternVL3和Qwen3-VL的预测则显得更加平滑模糊，对局部深度变化的捕捉明显不足。在点云可视化中，WAN预测出的书店场景点云保留了走廊结构和两侧书架的平面关系，而视觉语言模型预测出的点云则更加破碎凌乱，全局的书店布局难以辨认。

研究团队还做了一个重要的消融实验，他们把"探测模块"的深度从1层增加到2层、4层、6层，观察模型排名是否会随之改变。结果发现，无论探测模块多深，模型家族之间的相对排序始终保持稳定：实例分组任务上始终是Qwen3-VL最强，WAN次之，CogVideoX最弱；三维几何任务上始终是WAN最强，CogVideoX次之，Qwen3-VL和InternVL3最弱。这说明探测模块并没有从头学会这些任务，它主要是在"读取"已经预先编码在冻结特征里的信息——整个实验设计的核心假设得到了验证。

六、最有价值的发现：1+1能大于2吗？

研究团队对这种互补性做了一个简单但颇具说服力的验证：把WAN2.1-T2V-14B和Qwen3-VL-8B的冻结特征拼接在一起，然后用同样的探测框架来测试融合后的特征。具体操作是先把两个模型的特征分别做归一化处理，然后在通道维度上直接拼接，输入到完全相同的探测模块。

结果相当鼓舞人心。融合后的特征在语义标注上的mAP达到92.30，超过了单独的Qwen3-VL-8B（91.08）；实例分组上的T-mIoU为23.70，同样高于WAN2.1-T2V-14B（18.98）；深度AbsRel达到0.042，略优于WAN2.1-T2V-14B（0.044）；相机AUC@30达到0.615，同样略优于WAN2.1-T2V-14B（0.614）。换句话说，这个连拼接都算不上精妙的简单融合操作，却能在语义和几何两个维度上同时达到或超越两个最强单模型的水平。

这个结果的含义是：视觉语言模型和视频生成模型所编码的空间信息是真正互补的，而不是重叠冗余的。既然如此简单粗暴的拼接都能奏效，那么设计更加精妙的融合方式，理论上应该能获得更大的提升空间。研究团队也明确指出，这个简单融合实验只是概念验证，不是最终方案，更精巧的融合机制是一个值得深入探索的方向。

七、研究边界：这项发现适用到哪里？

研究团队对自己工作的局限性持非常坦诚的态度。实验数据集主要是ScanNet（室内场景）和DL3DV（各类真实场景重建视频），对室外场景、高度动态的环境或机器人采集的第一视角数据的适用性尚不明确。空间智能的三个测试维度——语义标注、实例分组、三维几何——虽然覆盖了重要的方面，但并没有穷尽空间推理的全部内涵，物理动态、可操作性理解、主动探索和长程具身推理等能力还没有被纳入比较框架。此外，实验中选用的特征层、帧采样方式、空间分辨率和视频生成模型的去噪时间步都是固定的设计选择，虽然团队通过消融实验对探测深度的影响做了验证，但更系统的超参数敏感性分析可以进一步加强实验结论的可靠性。

说到底，这项研究告诉我们的是：当AI研究者在选择用哪种基础模型来处理空间理解任务时，不应该简单地认为"更大的模型""更新的模型"就一定更好，而是要考虑任务的性质——如果任务偏向识别场景中有什么，视觉语言模型的表示基底更占优势；如果任务偏向理解场景的三维结构，视频生成模型的表示基底更有优势。更值得关注的是，把两类模型的特征结合起来似乎是一个非常有前景的方向，即便是最简单的拼接方式都能带来明显的提升。未来在机器人、自动驾驶、增强现实等需要全面空间智能的应用场景中，如何聪明地整合这两类预训练模型的互补优势，可能是推动该领域向前发展的一把重要钥匙。

有兴趣深入了解实验细节和完整数据的读者，可以在arXiv平台通过编号arXiv:2605.28132查阅完整论文，代码也已在GitHub上公开发布于omai-lab/Probing-VLM-VGM项目下。

Q&A

Q1：视觉语言模型和视频生成模型在空间理解上到底有什么具体区别？

A：视觉语言模型通过大量图文配对训练，擅长识别场景中出现了哪些物体类别，也能更好地在多个视角下区分不同物体实例；视频生成模型通过学习生成连续视频帧，内部编码了更丰富的三维几何信息，在深度预测、点云预测和相机位姿估计等任务上表现明显更好。两类模型的优势互相补充而非重叠。

Q2：冻结特征探测实验是怎么保证比较公平的？

A：研究团队把所有模型的参数全部固定不动，只提取中间层的内部表示，然后用完全相同的轻量级探测模块对这些表示进行分析。所有模型用的探测工具架构完全一致，帧采样规则和任务评价标准也完全相同，从而排除了模型特有解码器或后续微调带来的干扰，任何表现差异都只能归因于预训练阶段本身编码的信息。

Q3：把视觉语言模型和视频生成模型的特征融合在一起，真的有用吗？

A：有用，而且效果出乎意料地好。研究团队将WAN2.1-T2V-14B和Qwen3-VL-8B的特征做了最简单的归一化后直接拼接，融合结果在语义标注上超过了单独的Qwen3-VL-8B，在深度和相机估计上则达到或略超WAN2.1-T2V-14B的水平，证明两类模型编码的空间信息是真正互补的，简单拼接就已经能同时保留双方优势。

喜欢(0)

南京大学官宣本科扩招

加拿大发布国家人工智能战略入股扶持本土优秀AI企业