北大发布全球首个自进化5D世界模型:基于摩尔线程全国产算力底座
2026-06-06 3343802
2026-06-06 0
JoyAI-Echo是京东智研Joy Future Academy于2026年6月3日正式全量开源的长音视频一体化生成开源框架,项目源代码、完整预训练权重全部对外开放,开源协议采用Apache 2.0,允许个人免费使用、企业商用部署与二次定制开发。
项目核心定位聚焦最长5分钟连续音视频成片生成,针对性攻克当前AI视频行业三大顽固痛点:跨镜头人物形象变脸、同角色人声随机变调、长片段生成算力消耗大、成片效率极低,也是国内首款落地量产级长时序音视频开源项目,官方技术评级跻身全球长视频生成第一梯队。
不同于市面主流仅支持10~30秒短视频生成的AI视频模型,JoyAI-Echo从底层架构做跨模态优化,打通文本-音频-画面全链路生成逻辑,独创对话式局部修改创作模式,打破AI视频“一次性生成,不满意全片重做”的传统局限,面向开发者、自媒体创作者、企业内容生产团队开放全栈能力。
JoyAI-Echo围绕长视频落地需求设计四大核心功能模块,全部功能开箱可用,细分功能采用无序列表整理:
✅ 5分钟长时序稳定成片:支持一次性生成最高300秒连贯音视频,全片跨场景、跨镜头角色形象、人声保持统一,规避AI变脸、变声通病;
✅ 自然语言对话式编辑:内置Director Agent智能导演助理,口头描述修改需求即可局部改片,仅重绘指定时间轴镜头,无需整段视频重新生成;
✅ 一键高清实时超分:生成同步完成画质增强,原生支持720P→1080P、1080P→2K两档超分辨率输出,省去后期单独渲染步骤;
✅ 全链路音视频同步生成:输入纯文本剧本,自动匹配人物口型、配音、场景画面,口型和台词匹配准确率86.46%;
✅ 轻量化本地部署:适配消费级RTX4090、A100等主流显卡,普通桌面GPU即可完成5分钟短片推理,降低硬件准入门槛;
✅ 开源可二次微调:依托Apache2.0协议,开发者可基于自有数据集微调模型,定制专属数字人、行业垂直生成模型。
官方实测用户偏好数据汇总
| 测评项目 | 实测数据 | 说明 |
|---|---|---|
| 语音识别准确率 | 86.46% | 远超行业72%平均基准值 |
| 音频质量用户满意度 | 81.70% | 创作者盲测打分统计结果 |
| 提示词遵循达标率 | 80.60% | 自然语言需求落地匹配度 |
| 跨镜头角色一致性 | 59.40% | 5分钟全片人物无崩坏达标比例 |
JoyAI-Echo整套框架由四大自研技术构成底层支撑,分模块拆解实现原理,关键技术名词做加粗标注:
本模块是解决角色变脸、音色错乱的关键底层设计,框架运行时独立开辟特征存储分区,在逐帧生成视频过程中,自动抓取两类特征向量并持久化保存:
视觉特征:人物五官、体型、穿搭、场景固定物体的图像编码;
音频特征:说话人声纹、语速、口音、音调特征数据。
记忆数据全程全局复用,5分钟全片任意镜头切换时,模型优先调取历史特征,从算法层面杜绝形象、人声突变;同时存储做轻量化压缩,不会额外成倍占用显卡显存,兼顾效果与算力开销。
采用SFT监督微调+跨模态RLHF人类反馈优化+DMD(Distribution Matching Distillation)分布匹配蒸馏三段式训练方案:
SFT:依托上万组剧本-成片配对数据做指令微调,提升文本理解与画面落地匹配度;
RLHF:基于人工优质成片反馈反向优化模型生成逻辑,提升画面与音频观感;
DMD蒸馏:师生模型特征分布对齐,压缩模型冗余计算量,实测推理速度相比原生架构提升7.5倍,大幅缩短长视频渲染耗时。
#DMD蒸馏简易逻辑伪代码defDMD_Accelerate(teacher_model,student_model,train_dataset):tea_feature=teacher_model.extract_feature(train_dataset)loss=KL_Divergence(student_model.get_dist(),tea_feature)optimizer.backward(loss)
内嵌大语言驱动的导演智能体,工作流程分为两步:
输入完整剧本后,Agent自动拆解人物清单、场景分区、分镜时间线、台词文案四项结构化内容;
用户对话修改,例如“修改第45秒人物服饰,其余画面保留”,系统定位对应片段,只重生成指定时间镜头,已有成片数据复用,节省大量算力与时间成本。
采用深度可分离卷积轻量化网络结构,生成视频数据流同步并行超分运算,不占用后置渲染时间;模块做剪枝优化,低配显卡也能开启高清增强,不造成生成卡顿。

依托长视频稳定生成、低成本迭代优势,JoyAI-Echo落地六大商业化细分赛道,适配B端企业与C端创作者使用:
MCN短剧与自媒体内容量产:短视频团队输入故事脚本,批量生成悬疑、口播类短剧,局部修改功能大幅降低成片返工成本;
数字人直播配套短视频:虚拟主播人设固定后,依托记忆库统一形象与人声,自动产出日常切片短视频、连载小故事;
电商品牌营销宣传片:快消、零售品牌快速迭代多版本种草短片、产品广告,自然语言按需修改镜头,缩短宣传片试制周期;
职业教育课件制作:讲师输入课程文稿,一键生成配套动画讲解视频,低成本制作科普、职教教学素材;
独立游戏与动漫短片:中小型游戏厂商生成剧情过场动画、短篇动漫,减少实拍与原画制作成本;
政企科普公益短片:政务、公益单位批量生成政策科普、安全宣传短视频,轻量化完成内容产出。
选取国内商业化成熟的两款AI视频产品,从最长生成时长、角色一致性、局部编辑、开源属性、画质上限五大维度横向对标:
| 对比项 | JoyAI-Echo(京东) | 可灵AI(快手) | Seedance2.0(字节跳动) |
|---|---|---|---|
| 最大成片时长 | 5分钟连续音视频 | 15秒短视频 | 2分钟以内短片 |
| 跨镜头角色一致性 | 内置记忆库,长时序稳定 | 无全局记忆,长镜头易变脸 | 短镜头稳定,分钟级角色崩坏 |
| 局部对话修改 | 支持自然语言改单镜头 | 全片重生成,无法局部修改 | 仅参数微调,不支持对话编辑 |
| 开源授权 | Apache2.0全开源可商用 | 闭源SaaS付费产品,无开源代码 | 部分权重开放,核心框架闭源 |
| 原生画质上限 | 最高2K实时超分 | 原生4K直出 | 原生2K输出 |
对比总结:JoyAI-Echo在长视频叙事、局部编辑、开源落地层面具备独有优势;可灵AI主打短视频4K高清,Seedance2.0侧重短广告片量产,二者均无法突破分钟级连贯成片瓶颈。
#基础环境版本约束Python>=3.9Torch>=2.1.0CUDA>=11.8#一键安装依赖命令pipinstalltorchtorchvisiontorchaudiotransformersacceleratesentencepiece
#克隆官方GitHub仓库gitclonehttps://github.com/jd-opensource/JoyAI-Echo.gitcdJoyAI-Echo#执行官方脚本自动下载预训练权重pythondownload_weights.py
#生成300秒(5分钟)1080P音视频pythonrun_echo.py--prompt"男生在街边咖啡馆聊天,户外晴天场景"--duration300--resolution1080
参数释义:--duration代表成片秒数,--resolution可选720/1080分辨率档位。
Q1:JoyAI-Echo开源之后可以直接商用吗?
A:项目采用Apache2.0开源协议,个人免费使用、企业商业化二次开发、嵌入自有产品全部合规,无版权收费与商用授权门槛。
Q2:普通家用显卡能不能跑通JoyAI-Echo?
A:RTX4090、RTX3090等24G显存消费级显卡可完整运行,16G显存显卡可通过关闭实时超分模块实现720P短片生成,8G显存仅支持测试推理,无法生成长视频。
Q3:生成5分钟视频大概需要多久?
A:RTX4090单卡生成1080P五分钟成片耗时约9分钟,A100云显卡耗时2.8分钟,关闭DMD加速后耗时提升7.5倍左右。
Q4:能否导入自定义人物图片,生成固定人设数字人视频?
A:支持,可将人物形象图片作为参考图输入,依托跨模态记忆库锁定形象,后续同角色成片不会出现形象变化。
Q5:模型是否支持中英双语台词生成配音?
A:原生支持中英文语音生成,后续社区迭代可扩展小语种配音能力。
GitHub仓库:https://github.com/jd-opensource/JoyAI-Echo
项目官方演示主页:https://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/
HuggingFace模型地址:https://huggingface.co/jdopensource/JoyAI-Echo
JoyAI-Echo作为京东正式开源的长时序音视频生成框架,依靠跨模态记忆存储、DMD蒸馏加速、Director Agent智能编辑三大差异化技术,补齐了国内开源AI长视频领域的技术空白,跳出短视频内卷赛道,落地5分钟连贯成片与对话式改片的实用能力,依托宽松的Apache2.0开源协议降低了中小企业与独立开发者的AI视频落地成本,既为科研从业者提供长视频模型二次研发的底层基座,也为内容生产行业提供低成本自动化成片工具,推动AI视频从碎片化短视频创作走向长内容工业化量产。