工业富联市值超越贵州茅台 A股风向变了
2026-06-22 3362802
2026-06-22 0
清华大学等多所高校联合发布了一项研究,通过arXiv编号2605.30263v1公开成果。这项工作旨在解决AI视频生成模型的实时互动难题,minWM开源框架应运而生。

一、一个让AI"导演"能实时控制镜头的梦想
操作游戏时摇杆移动,镜头跟随改变,虚拟世界随之流畅呈现。这种沉浸体验的核心在于镜头响应及时且画面顺畅。若将此“虚拟世界”转变为AI实时生成的视频场景,即可理解论文核心问题。
近年来AI视频生成技术发展迅速,各类模型可生成画质精美、时间连贯的视频片段。这些模型却存在显著短板:如同仅能拍摄长片的导演,必须生成完整视频才能输出,无法边生成边展示,更难以根据实时操控调整镜头。它们擅长创作,而非互动。
由此自然产生疑问:能否将高质量AI视频生成模型改造为能实时互动、响应镜头控制的“视频世界模型”?minWM开源框架正试图回答这一问题。
二、从"画卷"到"实时直播"——改造一个AI导演有多难
理解minWM方案前,需了解现有AI视频模型的工作方式及改造挑战。
主流AI视频生成模型在技术上称为“双向扩散模型”。此类模型如同需要整体构思才动笔的画家,将整幅画细节想清楚后一次性完成。由于能“前后参照”所有帧,画质极高,但必须等待整幅画完成才能展示——在一台A800显卡上,生成一段视频首帧延迟高达771秒,约13分钟,难以适应实时互动场景。
实现实时互动需模型转变为“自回归”方式:像说话一样一帧接一帧向前生成,输出后立即反馈,无需等待完整视频。转换并不简单,模型失去“前后参照”能力后,生成质量常大幅下降,并出现“暴露偏差”——训练时使用真实视频帧,推理时依赖自身生成帧作为输入,差异随时间累积,导致后续质量恶化甚至画面漂移。
即使模型转换为自回归方式,每次生成一帧需数十步去噪,延迟依然很高。因此需进一步“提速”至仅需极少步骤(如4步)生成一帧,此过程称为“少步蒸馏”。
综合所有挑战:需精准标注相机参数的数据、对模型进行可控性微调、自回归训练、少步蒸馏,以及推理效率优化。这一整条流水线此前从未有统一、开源、可复现的框架串联,这正是minWM填补的空白。
三、一条完整的"改造流水线"——minWM的工作原理
minWM的设计思路可类比为汽车改装厂工序。原始双向视频扩散模型如同性能出色但仅适合赛道的赛车,不适合日常实时驾驶互动。改装厂(minWM)需将其改造为能实时响应方向盘操控且高速行驶的智能汽车。
改造流程分两大阶段:第一阶段为模型安装“镜头控制系统”,第二阶段将模型工作方式从“慢速全局计算”改为“快速实时生成”。
第一阶段核心技术为PRoPE(射影相对位置编码)。相机控制本质是告诉模型摄像机位置、朝向及焦距,并生成对应视角画面。PRoPE将每帧相机参数——内参矩阵(决定焦距和畸变)和外参矩阵(决定空间位置和朝向)——编码为数学变换矩阵,注入自注意力机制。自注意力机制是模型处理视频帧时“思考各帧关系”的核心模块。注入后,模型在思考帧间关系时会自动考虑相机视角差异,从而学习根据相机轨迹生成视频。这种方式无需改变原有注意力结构,仅引入相机信息,保留原始模型生成能力。
第二阶段流程由三个步骤串联,研究团队称为“因果强制(Causal Forcing)”或“因果强制++(Causal Forcing++)”。
第一步是自回归扩散训练。从具有相机控制能力的双向模型出发,通过“teacher forcing”训练方式,改造为自回归扩散模型。干净视频帧与加噪帧拼接,训练时使用因果注意力掩码,使模型生成第N帧时只能看到前面内容,不能偷看未来帧。经过这一步,模型具备自回归生成能力,能一帧接一帧生成视频。每帧仍需多步去噪,速度不够快,且因暴露偏差质量弱于双向模型。
第二步是初始化少步模型。有两种方案:方案一“因果ODE初始化”让自回归扩散模型对大量视频帧生成完整去噪轨迹(PF-ODE轨迹),训练少步模型直接从加噪中间帧“跳跃”到干净帧,跳过中间去噪步骤。方案二“因果一致性蒸馏(Causal CD)”因方案一需大量预生成ODE数据耗时占存储,因果强制++提出在线训练替代方案,直接通过一致性条件训练,无需离线生成ODE轨迹。具体使当前模型预测结果与经过一步ODE推进后再用EMA版本模型预测的结果保持一致,配合时间步相关权重函数和距离度量约束训练。两种方案效果等价,后者工程上更高效。
第三步是非对称分布匹配蒸馏(Asymmetric DMD)。经过前两步,模型虽能少步自回归生成,但因蒸馏“老师”质量有限,学生继承局限性,生成质量距离原始双向模型有差距。这一步使少步自回归模型向原始高质量双向模型“对齐”。具体机制:少步学生模型自主生成完整视频,将生成的视频加噪,分别用冻结的双向模型(代表“真实数据分布的评分”)和在线更新的判别模型(代表“当前生成分布的评分”)估算两分布差异,以此梯度指导学生模型参数更新。此过程如同学徒临摹大师风格,最终作品质量向大师靠拢。
蒸馏流程对相机控制完全透明。自回归训练、ODE数据生成或一致性蒸馏、分布对齐等所有阶段均在带有相机条件的数据上进行,所有参与模型具备相机条件能力,确保相机控制能力在蒸馏过程中保留不流失。
四、两个实例——把理论变成真实可用的模型
研究团队选择两个代表性开源视频基础模型作为改造对象:Wan2.1-T2V-1.3B(文本到视频13亿参数)和HY1.5-TI2V-8B(文本加图像到视频80亿参数)。选择前者采用交叉注意力机制注入条件信息,后者采用MMDiT架构(文本和图像特征在同一Transformer联合处理),代表两种主流视频扩散模型设计路线,证明minWM框架架构通用性。
训练设置上,两个模型均训练生成分辨率480×832像素共77帧的视频,自回归“块大小”为4个潜在帧(视频在编码器压缩后的表示)。少步蒸馏统一使用4步推理。HY1.5系列训练批大小32,学习率1×10⁻⁴,双向模型训练8000步,随后依次进行4000步、1500步、500步三阶段蒸馏。Wan2.1系列批大小32,学习率2×10⁻⁴,双向模型训练5000步,随后进行4000步、2000步、200步三阶段蒸馏。
改造后性能提升显著。在单张A800显卡上测量首帧延迟(开始运行到生成第一帧,不含VAE解码时间),原始HY1.5双向模型需771秒,改造成多步自回归模型降至81秒,最终少步自回归模型仅需3.446秒,加速223.75倍。Wan2.1类似:原始双向模型需269秒,多步自回归版本降至28.6秒,少步自回归版本仅需1.137秒,加速236.64倍。
双向模型首帧延迟高是因为必须生成整段视频才能输出第一帧。自回归模型生成完第一帧立即输出,后续帧在观看第一帧时继续生成。用户体验改善远不止数字倍数,它还使“边生成边观看”成为可能。
五、数据是成败的关键——三种路线的对比实验
模型能否根据相机指令生成正确视角画面,数据质量起决定性作用。研究团队在训练数据选择上做了大量实验,总结出三条路线,结果大相径庭。
第一条路线使用SpatialVid数据集,包含大量带有相机参数标注的视频,参数通过计算机视觉算法从视频中“感知估算”,并非真实测量值。实验结果令人失望:HY1.5和Wan2.1模型在此数据上无法可靠执行相机控制指令,额外过滤后问题依然存在。推测感知估算的相机姿态含噪声,且可能存在轨迹不一致问题,使模型难以学到清晰相机-画面对应关系。此结论针对当前训练设置,不代表SpatialVid数据集本身无价值,精细过滤和姿态优化可能改善,研究团队将这一方向留作未来工作。
第二条路线从DL3DV数据集出发,通过三维重建和重新渲染获得视频数据。DL3DV是大规模真实场景数据集,研究团队先用三维重建技术从中重建三维场景,沿预设相机轨迹渲染视频。渲染视频和对应相机参数是完全精确的“地面真值”,无估算误差。实验证明,此数据上训练的模型能成功学会相机可控生成,效果良好。
第三条路线为开源版本专门设计:从OpenVid等图像数据集采样图像,利用WorldPlay(已有视频世界模型)根据指定相机轨迹生成视频。WorldPlay本身具有几何一致性,输出视频具有可信赖的地面真值相机轨迹。实验表明,此路线同样能使模型学会相机可控生成,且更适合开源场景,无需复杂三维重建流程。
六、训练步数与批大小——两个影响成功的关键细节
除数据质量外,研究团队还做了两组消融实验,给出训练步数和最小批大小的具体建议,对复现或迁移工作有直接参考价值。
关于训练步数,以HY1.5为例,相机可控性逐步涌现。训练一两千步时,模型几乎不响应相机控制指令,画面与相机轨迹无关。五千步左右,模型开始响应相机信号,表现不稳定。训练推进到八千步时,模型达到强可控性,能可靠根据相机轨迹生成正确视角视频。相机可控性学习非一蹴而就,需足够训练轮次让模型内化能力。
关于批大小,以Wan2.1为例,这是不可随意缩减的超参数。批大小小于4时,模型几乎无法学会相机可控性。批大小提升到8时,可控性有大幅改善,但仍不够稳定。批大小达到16时,完整训练流程才能顺利完成,获得高质量相机可控性。计算资源有限的研究者可用此下限指标:至少需16的批大小才能保证成功。
七、不只是一个新模型,而是一套可复用的工具箱
minWM定位与一般论文不同。大多数视频生成论文以展示单一最优模型生成结果为核心,minWM目标提供可复用、可扩展的完整工具链。这体现在几个具体方面。
研究团队发布每个训练阶段的中间检查点,而非仅最终模型。其他研究者可从任意中间阶段接力,无需重新从头训练整条流水线,大大降低计算成本。推理代码、训练脚本和使用文档也一同开源,确保结果可独立复现。
框架还支持对已有视频世界模型进行适配,而非仅从零开始转换。以HY-WorldPlay为例,minWM支持将现成视频世界模型迁移到新数据分布、调整训练配方,或进一步压缩到更低推理延迟目标。即使团队已训练好视频世界模型,也可借助minWM蒸馏流程改造得更快、更灵活,无需重复大量上游工作。
推理端,minWM也做了相应工程优化,包括针对流式场景的DiT去噪和VAE解码流水线设计。VAE(变分自编码器)把潜在空间视频表示解码为可见像素画面,在流式推理中与扩散去噪步骤并行或交织,实现视频边生成边播放效果。
研究最大贡献不是某一个更强视频模型,而是将过去散落的各项技术拼图——数据构建、相机控制、自回归训练、少步蒸馏、流式推理——第一次系统组装成完整开源生产线,让更多研究者可站在这条生产线上继续前进,而非每次都从零开始重建。
工作也有局限性。目前支持控制条件只有相机运动,未来计划引入更多控制维度,如人体姿态控制。基于感知估算相机姿态的数据(如SpatialVid)在当前设置下效果欠佳,留待后续研究通过更精细数据处理解决。这些开放问题构成论文给社区留下的研究空间。
minWM为交互式视频生成领域提供了一个开放的工具箱,显著降低了研究门槛。研究者可通过arXiv编号2605.30263查阅完整论文以获取更多技术细节。
---
Q&A
Q1:minWM框架和普通AI视频生成模型有什么区别?
A:普通AI视频生成模型需把整段视频全部算完才能输出,速度极慢,无法实时互动。minWM框架目标是把这类模型改造为能一帧接一帧实时生成、同时响应相机控制指令的“互动式世界模型”,最终单张A800显卡上首帧延迟可从十多分钟压缩到几秒钟。
Q2:训练minWM框架里的模型,对数据有什么特殊要求?
A:相机参数精准度非常关键。研究发现,使用感知算法估算的相机参数(如SpatialVid数据)训练效果很差,模型学不会相机控制。需使用“地面真值”相机轨迹,如通过三维重建后重新渲染视频,或用WorldPlay等已有世界模型生成的视频,才能让模型可靠学会相机可控生成。
Q3:minWM蒸馏流程的三个阶段分别解决什么问题?
A:第一阶段把双向模型改为自回归模型,解决“边生成边输出”问题;第二阶段做少步初始化,把每帧多步去噪压缩到极少步数,解决速度问题;第三阶段用原始高质量双向模型做分布对齐,弥补前两步导致的质量损失,使最终少步自回归模型画质尽量接近原始模型。