: 首页; 看点啥; 插画图片

首页经济看点清华人大联手打造：让AI视频世界模型跑得既快又听话这个开源框架做到了

清华人大联手打造：让AI视频世界模型跑得既快又听话这个开源框架做到了

2026-06-22 0

清华大学等多所高校联合发布了一项研究，通过arXiv编号2605.30263v1公开成果。这项工作旨在解决AI视频生成模型的实时互动难题，minWM开源框架应运而生。

清华、人大联手打造：让AI视频世界模型跑得既快又听话，这个开源框架做到了

一、一个让AI"导演"能实时控制镜头的梦想

操作游戏时摇杆移动，镜头跟随改变，虚拟世界随之流畅呈现。这种沉浸体验的核心在于镜头响应及时且画面顺畅。若将此“虚拟世界”转变为AI实时生成的视频场景，即可理解论文核心问题。

近年来AI视频生成技术发展迅速，各类模型可生成画质精美、时间连贯的视频片段。这些模型却存在显著短板：如同仅能拍摄长片的导演，必须生成完整视频才能输出，无法边生成边展示，更难以根据实时操控调整镜头。它们擅长创作，而非互动。

由此自然产生疑问：能否将高质量AI视频生成模型改造为能实时互动、响应镜头控制的“视频世界模型”？minWM开源框架正试图回答这一问题。

二、从"画卷"到"实时直播"——改造一个AI导演有多难

理解minWM方案前，需了解现有AI视频模型的工作方式及改造挑战。

主流AI视频生成模型在技术上称为“双向扩散模型”。此类模型如同需要整体构思才动笔的画家，将整幅画细节想清楚后一次性完成。由于能“前后参照”所有帧，画质极高，但必须等待整幅画完成才能展示——在一台A800显卡上，生成一段视频首帧延迟高达771秒，约13分钟，难以适应实时互动场景。

实现实时互动需模型转变为“自回归”方式：像说话一样一帧接一帧向前生成，输出后立即反馈，无需等待完整视频。转换并不简单，模型失去“前后参照”能力后，生成质量常大幅下降，并出现“暴露偏差”——训练时使用真实视频帧，推理时依赖自身生成帧作为输入，差异随时间累积，导致后续质量恶化甚至画面漂移。

即使模型转换为自回归方式，每次生成一帧需数十步去噪，延迟依然很高。因此需进一步“提速”至仅需极少步骤（如4步）生成一帧，此过程称为“少步蒸馏”。

综合所有挑战：需精准标注相机参数的数据、对模型进行可控性微调、自回归训练、少步蒸馏，以及推理效率优化。这一整条流水线此前从未有统一、开源、可复现的框架串联，这正是minWM填补的空白。

三、一条完整的"改造流水线"——minWM的工作原理

minWM的设计思路可类比为汽车改装厂工序。原始双向视频扩散模型如同性能出色但仅适合赛道的赛车，不适合日常实时驾驶互动。改装厂（minWM）需将其改造为能实时响应方向盘操控且高速行驶的智能汽车。

改造流程分两大阶段：第一阶段为模型安装“镜头控制系统”，第二阶段将模型工作方式从“慢速全局计算”改为“快速实时生成”。

第一阶段核心技术为PRoPE（射影相对位置编码）。相机控制本质是告诉模型摄像机位置、朝向及焦距，并生成对应视角画面。PRoPE将每帧相机参数——内参矩阵（决定焦距和畸变）和外参矩阵（决定空间位置和朝向）——编码为数学变换矩阵，注入自注意力机制。自注意力机制是模型处理视频帧时“思考各帧关系”的核心模块。注入后，模型在思考帧间关系时会自动考虑相机视角差异，从而学习根据相机轨迹生成视频。这种方式无需改变原有注意力结构，仅引入相机信息，保留原始模型生成能力。

第二阶段流程由三个步骤串联，研究团队称为“因果强制（Causal Forcing）”或“因果强制++（Causal Forcing++）”。

第一步是自回归扩散训练。从具有相机控制能力的双向模型出发，通过“teacher forcing”训练方式，改造为自回归扩散模型。干净视频帧与加噪帧拼接，训练时使用因果注意力掩码，使模型生成第N帧时只能看到前面内容，不能偷看未来帧。经过这一步，模型具备自回归生成能力，能一帧接一帧生成视频。每帧仍需多步去噪，速度不够快，且因暴露偏差质量弱于双向模型。

第二步是初始化少步模型。有两种方案：方案一“因果ODE初始化”让自回归扩散模型对大量视频帧生成完整去噪轨迹（PF-ODE轨迹），训练少步模型直接从加噪中间帧“跳跃”到干净帧，跳过中间去噪步骤。方案二“因果一致性蒸馏（Causal CD）”因方案一需大量预生成ODE数据耗时占存储，因果强制++提出在线训练替代方案，直接通过一致性条件训练，无需离线生成ODE轨迹。具体使当前模型预测结果与经过一步ODE推进后再用EMA版本模型预测的结果保持一致，配合时间步相关权重函数和距离度量约束训练。两种方案效果等价，后者工程上更高效。

第三步是非对称分布匹配蒸馏（Asymmetric DMD）。经过前两步，模型虽能少步自回归生成，但因蒸馏“老师”质量有限，学生继承局限性，生成质量距离原始双向模型有差距。这一步使少步自回归模型向原始高质量双向模型“对齐”。具体机制：少步学生模型自主生成完整视频，将生成的视频加噪，分别用冻结的双向模型（代表“真实数据分布的评分”）和在线更新的判别模型（代表“当前生成分布的评分”）估算两分布差异，以此梯度指导学生模型参数更新。此过程如同学徒临摹大师风格，最终作品质量向大师靠拢。

蒸馏流程对相机控制完全透明。自回归训练、ODE数据生成或一致性蒸馏、分布对齐等所有阶段均在带有相机条件的数据上进行，所有参与模型具备相机条件能力，确保相机控制能力在蒸馏过程中保留不流失。

四、两个实例——把理论变成真实可用的模型

研究团队选择两个代表性开源视频基础模型作为改造对象：Wan2.1-T2V-1.3B（文本到视频13亿参数）和HY1.5-TI2V-8B（文本加图像到视频80亿参数）。选择前者采用交叉注意力机制注入条件信息，后者采用MMDiT架构（文本和图像特征在同一Transformer联合处理），代表两种主流视频扩散模型设计路线，证明minWM框架架构通用性。

训练设置上，两个模型均训练生成分辨率480×832像素共77帧的视频，自回归“块大小”为4个潜在帧（视频在编码器压缩后的表示）。少步蒸馏统一使用4步推理。HY1.5系列训练批大小32，学习率1×10⁻⁴，双向模型训练8000步，随后依次进行4000步、1500步、500步三阶段蒸馏。Wan2.1系列批大小32，学习率2×10⁻⁴，双向模型训练5000步，随后进行4000步、2000步、200步三阶段蒸馏。

改造后性能提升显著。在单张A800显卡上测量首帧延迟（开始运行到生成第一帧，不含VAE解码时间），原始HY1.5双向模型需771秒，改造成多步自回归模型降至81秒，最终少步自回归模型仅需3.446秒，加速223.75倍。Wan2.1类似：原始双向模型需269秒，多步自回归版本降至28.6秒，少步自回归版本仅需1.137秒，加速236.64倍。

双向模型首帧延迟高是因为必须生成整段视频才能输出第一帧。自回归模型生成完第一帧立即输出，后续帧在观看第一帧时继续生成。用户体验改善远不止数字倍数，它还使“边生成边观看”成为可能。

五、数据是成败的关键——三种路线的对比实验

模型能否根据相机指令生成正确视角画面，数据质量起决定性作用。研究团队在训练数据选择上做了大量实验，总结出三条路线，结果大相径庭。

第一条路线使用SpatialVid数据集，包含大量带有相机参数标注的视频，参数通过计算机视觉算法从视频中“感知估算”，并非真实测量值。实验结果令人失望：HY1.5和Wan2.1模型在此数据上无法可靠执行相机控制指令，额外过滤后问题依然存在。推测感知估算的相机姿态含噪声，且可能存在轨迹不一致问题，使模型难以学到清晰相机-画面对应关系。此结论针对当前训练设置，不代表SpatialVid数据集本身无价值，精细过滤和姿态优化可能改善，研究团队将这一方向留作未来工作。

第二条路线从DL3DV数据集出发，通过三维重建和重新渲染获得视频数据。DL3DV是大规模真实场景数据集，研究团队先用三维重建技术从中重建三维场景，沿预设相机轨迹渲染视频。渲染视频和对应相机参数是完全精确的“地面真值”，无估算误差。实验证明，此数据上训练的模型能成功学会相机可控生成，效果良好。

第三条路线为开源版本专门设计：从OpenVid等图像数据集采样图像，利用WorldPlay（已有视频世界模型）根据指定相机轨迹生成视频。WorldPlay本身具有几何一致性，输出视频具有可信赖的地面真值相机轨迹。实验表明，此路线同样能使模型学会相机可控生成，且更适合开源场景，无需复杂三维重建流程。

六、训练步数与批大小——两个影响成功的关键细节

除数据质量外，研究团队还做了两组消融实验，给出训练步数和最小批大小的具体建议，对复现或迁移工作有直接参考价值。

关于训练步数，以HY1.5为例，相机可控性逐步涌现。训练一两千步时，模型几乎不响应相机控制指令，画面与相机轨迹无关。五千步左右，模型开始响应相机信号，表现不稳定。训练推进到八千步时，模型达到强可控性，能可靠根据相机轨迹生成正确视角视频。相机可控性学习非一蹴而就，需足够训练轮次让模型内化能力。

关于批大小，以Wan2.1为例，这是不可随意缩减的超参数。批大小小于4时，模型几乎无法学会相机可控性。批大小提升到8时，可控性有大幅改善，但仍不够稳定。批大小达到16时，完整训练流程才能顺利完成，获得高质量相机可控性。计算资源有限的研究者可用此下限指标：至少需16的批大小才能保证成功。

七、不只是一个新模型，而是一套可复用的工具箱

minWM定位与一般论文不同。大多数视频生成论文以展示单一最优模型生成结果为核心，minWM目标提供可复用、可扩展的完整工具链。这体现在几个具体方面。

研究团队发布每个训练阶段的中间检查点，而非仅最终模型。其他研究者可从任意中间阶段接力，无需重新从头训练整条流水线，大大降低计算成本。推理代码、训练脚本和使用文档也一同开源，确保结果可独立复现。

框架还支持对已有视频世界模型进行适配，而非仅从零开始转换。以HY-WorldPlay为例，minWM支持将现成视频世界模型迁移到新数据分布、调整训练配方，或进一步压缩到更低推理延迟目标。即使团队已训练好视频世界模型，也可借助minWM蒸馏流程改造得更快、更灵活，无需重复大量上游工作。

推理端，minWM也做了相应工程优化，包括针对流式场景的DiT去噪和VAE解码流水线设计。VAE（变分自编码器）把潜在空间视频表示解码为可见像素画面，在流式推理中与扩散去噪步骤并行或交织，实现视频边生成边播放效果。

研究最大贡献不是某一个更强视频模型，而是将过去散落的各项技术拼图——数据构建、相机控制、自回归训练、少步蒸馏、流式推理——第一次系统组装成完整开源生产线，让更多研究者可站在这条生产线上继续前进，而非每次都从零开始重建。

工作也有局限性。目前支持控制条件只有相机运动，未来计划引入更多控制维度，如人体姿态控制。基于感知估算相机姿态的数据（如SpatialVid）在当前设置下效果欠佳，留待后续研究通过更精细数据处理解决。这些开放问题构成论文给社区留下的研究空间。

minWM为交互式视频生成领域提供了一个开放的工具箱，显著降低了研究门槛。研究者可通过arXiv编号2605.30263查阅完整论文以获取更多技术细节。

---

Q&A

Q1：minWM框架和普通AI视频生成模型有什么区别？

A：普通AI视频生成模型需把整段视频全部算完才能输出，速度极慢，无法实时互动。minWM框架目标是把这类模型改造为能一帧接一帧实时生成、同时响应相机控制指令的“互动式世界模型”，最终单张A800显卡上首帧延迟可从十多分钟压缩到几秒钟。

Q2：训练minWM框架里的模型，对数据有什么特殊要求？

A：相机参数精准度非常关键。研究发现，使用感知算法估算的相机参数（如SpatialVid数据）训练效果很差，模型学不会相机控制。需使用“地面真值”相机轨迹，如通过三维重建后重新渲染视频，或用WorldPlay等已有世界模型生成的视频，才能让模型可靠学会相机可控生成。

Q3：minWM蒸馏流程的三个阶段分别解决什么问题？

A：第一阶段把双向模型改为自回归模型，解决“边生成边输出”问题；第二阶段做少步初始化，把每帧多步去噪压缩到极少步数，解决速度问题；第三阶段用原始高质量双向模型做分布对齐，弥补前两步导致的质量损失，使最终少步自回归模型画质尽量接近原始模型。

喜欢(0)

Anthropic秘密提交美股IPO申请：估值近万亿美元

中科院软件所开源终端特工：用AI合成训练数据让大模型真正学会操控命令行

清华人大联手打造：让AI视频世界模型跑得既快又听话 这个开源框架做到了

清华人大联手打造：让AI视频世界模型跑得既快又听话这个开源框架做到了