首页
看点啥
插画图片
首页 热点时事 2026 智源大会火爆超预期:智源研究院为世界模型定义四大路线|甲子光年

2026 智源大会火爆超预期:智源研究院为世界模型定义四大路线|甲子光年

2026-06-16 0

原创 刘杨楠 2026-06-15 19:16 北京

世界模型以“预测下一物理状态”为核心。

作者|刘杨楠

编辑|王博

2026年6月12日,全球顶级AI研究机构智源研究院组织的第八届北京智源大会于中关村国际创新中心启幕。这场以“技术前沿、国际视野、青年人才”为标签的学术盛会,迅速突破圈层,成为年度科技领域的现象级事件。

智源大会很多场论坛现场,不仅座无虚席,连过道都站满了人。据了解,今年智源大会有一万多名参会者,可以说是相当火爆的一场AI“内行盛会”。

2026北京智源大会现场

在众多的演讲内容中,智源研究院院长王仲远的研究进展报告,是本届大会的核心锚点。他直接抛出了智源对下一代人工智能的完整定义——世界模型

“人工智能正沿着从大语言模型向多模态大模型再向世界模型演进的方向,加速从数字世界迈向物理世界。”王仲远说。

世界模型成为了本届智源大会的一大关键词。

早在2026年3月,杨立昆(Yann LeCun)创办的公司AMI Labs CEO Alexandre LeBrun曾预测:“世界模型将成为下一个热门词汇。6个月内,每家公司都会自称是世界模型来筹集资金。”

LeBrun几乎一语成谶。

过去半年,「甲子光年」接触的多家AI初创企业均在进行战略转型,对外口径尽量往世界模型上靠。

谈论它的人,有的在说一个能够预测物理世界下一秒即将发生什么的算法架构;有的在说一个能够支撑具身智能机器人走入千家万户的聪明大脑;还有的人,用“世界模型”这张精美画布,把自己真正想做的事包装起来,确保自己不会被AI的后浪冲上沙滩。

各式各样的故事背后,有大量投资者在买单。

据报道,过去18个月,全球已有超过100亿美元资金流入世界模型与机器人AI领域。进入2026年,资本热度仍在持续升温。「甲子光年」粗略统计,截止2026年6月,国内明确标注为“世界模型”方向的融资已披露金额超75亿元。

什么是世界模型?世界模型真正能带来什么?不同技术路线都存在哪些局限?又有哪些解法?

1.世界模型,包罗万象

什么是世界模型?

本届智源大会上,智源研究院为世界模型定义了四条清晰的路线。

第一类是以语言为中心的世界模型,包括VLM、VLA,模型在文本空间中预测下一个词,学到的是语言描述的世界,并不能理解背后的物理后果;

第二类是以像素为中心的世界模型,像Sora和Seedance等视频生成类模型,在视觉空间中学习视频或图像,学到的是像素描述的世界;

第三类是以三维结构为中心的世界模型,包括3D重建以及李飞飞团队的World Labs Marble模型,不过模型重建3D空间不等于理解世界,几何结构也不代表物理状态;

第四类是以视觉表征为中心的世界模型,比如杨立昆的JEPA系列模型,预测的是视觉表征的压缩,但视觉嵌入演化不等于物理规律演化。

这个分类非常清晰,可以说是为行业对于世界模型的定义进行了“正本清源”。

这也解释了,为什么这么多的公司会与世界模型有关:视频公司能通过给生成视频增加交互性,让视频有游戏化的趋势,甚至有可能将基于视频生成的世界模型变成新一代“游戏引擎”;世界模型还有可能替代传统的3D建模,为具身智能模型的训练提供合成数据......

边界的模糊也给世界模型创造了巨大的想象空间,使其在短期内迅速汇聚共识,吸引资本、创业者和大厂同时押注。只不过,这些表层的共识下,还有大量的分歧。

斯坦福大学教授李飞飞曾在6月4日发布的长篇技术文章中指出,当前业界存在严重的概念混淆,计算机视觉、机器人学习、强化学习和生成AI等多个领域都在声称开发世界模型,但各自指代的内容截然不同。

但在智源看来,世界模型仍处在发展早期阶段,很重要的原因就是世界模型概念就是太过广泛,就是怎么训练世界模型,技术没有收敛,数据更是远远不够,到底是需要视频数据、仿真数据还是真实物理世界的数据,业内还没有找到方法路径。

这些因素耦合在一起,使得还没有哪一个世界模型真正能够让人感觉特别惊艳,能够解决真实物理世界的各种问题。

概念越热,越需要回到技术本身。

2.问题与答案

相比将世界模型迅速包装成产品叙事,智源研究院更关心的是:下一代大模型如果要从“生成内容”走向“理解和预测世界”,究竟需要怎样的模型范式、全模态数据和具身接口。

智源研究院是国内最早提出并开展世界模型研究的科研机构。从2023年杨立昆在智源大会提出新一代世界模型概念,到2024年智源将其明确为下一代大模型方向,再到悟界·Emu3、悟界·Emu3.5的持续迭代,智源的世界模型研究,并不是在热词出现后才开启,而是从一开始就在尝试把一个被不断泛化的概念,重新落回一组可被研究和验证的核心问题。

今年年初,智源组建新的世界模型团队,启用陈博远、王鹏伟等优秀的年轻研究学者,也是这一思路的延续:在行业共识还很粗糙的时候,先把问题本身变得更清楚。

2026智源大会上,王仲远给出智源研究院对“世界模型”的理解:世界模型以“预测下一物理状态”为核心,“物理状态”可能包含语言、动作、状态、当下的时间和空间等等信息,是面向真实物理世界的下一代基座模型。

面向物理世界的基座模型

真正的世界模型不仅能感知、理解、推理真实的物理状态和物理常识,同时能涵盖文本、视频、深度、力觉、感知的全模态数据,还具备主动交互能力,能够支撑各种物理世界的下游应用。

具体到技术路线上,智源研究院认为将来也许会有第五个分类,或者智源尝试的很有可能是第五个分类:以语言为中心的分类和以视觉表征为中心的分类可能的融合,也叫做潜空间表征,同一个潜空间能够Decode不同的模态。

智源依然延续的悟界·Emu3.5模型训练的思想,就是将各种文字图像视频模态全部压缩,原生统一训练,压缩在同一个语义空间,希望有更多的模态被压缩进来,通过统一潜空间表征各种真实物理世界的状态,Decode成为Action、画面或者其它真实物理世界需要的状态。

“我们认为将来统一的潜空间建模不仅仅是视觉空间,而是全模态潜空间,很有可能是世界模型真正下一个可能的路径。”王仲远表示。

在此基础上,2026智源大会上,智源研究院介绍了两个世界模型的最新进展——悟界·Physis-v0.1和悟界·RoboBrain Orca。

悟界·Physis-v0.1是全球首款通用世界基座模型。它以物理隐空间表征替代传统像素、帧级预测方案,实现跨场景通用物理规律强化学习。搭载专属物理状态编码器,可完成视频、深度RGB、3D点云、力触反馈等全模态信息压缩,统一转化为标准化隐空间物理状态Latent State,打破了传统AI垂类专用的技术瓶颈,弥补;主流人工智能模型不懂真实物理规则、物理推演结果可信度低、长程时序记忆缺失的核心短板,可广泛应用于严肃工业、具身智能、物理仿真、科学研究等真实物理场景。

悟界·RoboBrain Orca是以下一个物理状态预测为核心的具身大脑。它构建 “统一表征 — 建模 — 预测 — 交互” 完整闭环,实现从 Next Token / Frame / Action Prediction 升级为 Next Physical State Prediction,彻底打破传统AI仅能理解文本的局限,推动 AI 从理解文本走向感知、预测与交互物理世界。并融合大量Ego-centric交互数据,强化了世界模型的具身表征,有效提升下游少样本与跨场景的泛化能力, 支撑具身智能机器人在物流场景、酒店服务场景等真实环境中的长期自主作业。

此外,2026智源大会上,智源还发布了一系列创新成果——

悟界·Brainμ1.0是全球首个理解与生成统一的多模态神经科学大模型,从世界模型构建多模态脑科学通用基座。智源联合清华团队基于该模型的研究成果已刊发于Science。一同发布的还有全球最大最全的AI-Ready神经科学数据集及全球最大的AI-Ready神经科学数据平台悟界·BrainToken。

悟界·OpenComplex2.5则是可泛化、物理真实的下一代AI驱动药物发现模型,能精确解析IDP灵活构象,赋能创新药物研发全链路,为神经退行性疾病等难成药靶点研究提供新的技术路径。

智源将这些模型归拢在AI for Life Science的大方向下,涵盖类脑、心脏、蛋白质结构等分支。在王仲远看来,这些都是世界模型可能覆盖的主题,用大脑、蛋白质、细胞构成世界模型,都是在解决物理世界的问题,最终或许殊途同归。

目前来看,这些可能的主题中,具身智能无疑是确定性最高的一个。但即便是这个确定性最高的方向,世界模型与具身智能之间依然面临着一段痛苦的磨合期。

3.具身智能的考验

具身智能的机会足够大,也足够复杂。它几乎能够满足世界模型成长所需的全部场景,同时也给世界模型提出了诸多挑战。例如数据的匮乏、模型技术路线的分歧、不可预估的算力消耗等等。

这些挑战相互交织,彼此牵制,让世界模型在具身智能场景前进的步伐稍显沉重。

先说数据。长期来看,构建世界模型的真实世界数据依然非常缺乏,这些数据散落在不同的孤岛。

其中,视频数据虽然海量,但它的“有效性”存在争议。有人认为视频只能提供表面的视觉信息,无法触及物理因果;也有人持相反观点。王仲远则认为,视频数据仍然没有被充分利用。

但王仲远承认,仅有视频远远不够,真实物理世界的数据依然需要持续累积。目前,智源也正在尝试与高校和企业合作采集数据,内部也在讨论是否需要设计更轻量级、更便捷的数据采集设备。

相比数据的匮乏,具身智能模型的技术路径也远没到收敛的时刻。

最典型的便是世界模型与VLA的路线之争。 VLA(Vision-Language-Action)模型目前在工业分拣、服务机器人等特定场景中已经取得了不错的落地效果。

但VLA的局限性同样明显,如泛化性差;缺乏物理常识;且主动探索能力不足;且VLA模型规模较大,部署的延迟较高,无法满足真实物理世界执行动作的频率。“VLA是当下,世界模型是未来。”王仲远直言。

不过,除了路线之争,目前世界模型的研究也存在一些共性难题。

王仲远表示,全模态融合是当前智源内部重点攻克的难题之一,核心问题是,如何把物理规律教给模型。比如,一瓶水放在桌子旁边和一瓶咖啡放在桌子旁边,跌落的时候产生的物理状态和真实物理世界的影响,人类一看就知道,这些是人类世界模型能够预测的。

现在的人工智能如果真正应用在物理世界的真实应用,会有很多的不足,对于时间、空间、物理规律、各种模态的物理常识不具备世界知识,不具备时间和空间这些明确的感知和决策推演,全模态的处理能力都不具备。

算力消耗同样是绕不开的难题。

王仲远认为,算力需求因模型路线而异,例如是否包含语言数据、采用极致压缩还是生成路径,不同路线对算力的需求差异较大。例如,智源的悟界·Physis通过潜空间建模,不同程度有不同的Decoder去接不同的模态和下游的任务,且隐空间学习本就追求极致压缩,这些都能在一定程度上减少算力消耗。

比较乐观的是,在王仲远看来,LLM时期建起的大量算力基础设施中,大都能在世界模型研究中复用。

例如,悟界Emu3.5采用就在尝试以语言为中心的分类和以视觉表征为中心的分类可能的融合,并以验证模型的可扩展性。世界模型虽然强调全模态,新增Action、State等采集挑战,但算力基础设施、训练框架、工具链大多可复用。只是,后续在实际的场景应用中,还可能催生对世界模型的全新需求,这便需要根据具体的需求倒推基础设施的改进方向。

他还提到一个更前沿思路: 现在万亿参数大模型要消耗1座城市的电,人脑只需要十几瓦,吃几颗蔬菜就可以产生10-20W的能量,可以实现跟大模型一样的感知理解和推理能力,这就是生物结构的神奇。智源确实有这方面的科研探索,就是类脑的研究,但智源觉得人脑的奥秘依然非常复杂,处于相对早期的科研状态。

但那条路能走到最后?没有人知道。

“技术创新是先行的,早于产品,早于系统,我们现在需要对于技术路径进行各种各样的探索,来促进世界模型的爆发。”王仲远坦言,“但最终,还是需要一个具体场景的系统或产品,来证明我们今天反复强调的物理可验证、长时序、因果逻辑推断等技术目标,能够真正落地应用于各种场景。”

4.市场需要模糊的正确

今天世界模型所遭遇的一切,看起来都似曾相识。

1999年,“.com”成为硅谷和纳斯达克的信仰。公司无需盈利、无需商业模式,甚至不需要成熟产品,只要名字加上这后缀,股价便能飞涨。

彼时的互联网,正如今天的物理AI,是一种“信者得救”的宏大叙事。没有人说得清商业模式,但所有人都害怕错过这趟车。

2006年,谷歌CEO施密特首次提出“云计算”。此后,跨国公司争相标榜“云”服务,却有媒体直言:“很多人并非真要搞云计算,不过是借概念炒作而已。”

2017年,区块链成为流行词,无数人借此一夜暴富。一众ICO项目鱼龙混杂,白皮书虚构巨头站台,但资本依然狂热不减。半年内国内ICO融资约26亿元。仅一年时间,泡沫破裂,比特币从近19000美元跌至3000美元,无数项目归零。

历史接连证明,一个足够大的、模糊的想象足以迅速聚集起大量资本,但定义不清最终会把它拖入信任的深渊。可有趣的是,每一次泡沫破裂后,总有一些真正有价值的东西沉淀下来,成为下一个时代的地基。

互联网泡沫后,亚马逊和谷歌活了下来,国内也有BAT为代表的互联网巨头成长起来,定义了数字商业的未来;云计算泡沫后,AWS、Azure与Google Cloud胜出,成为了现代数字经济的底座;区块链泡沫后,那一批最疯狂的项目倒下了,但作为信任机制的核心价值,在金融、供应链管理等特定领域的应用保留了下来。

如今,世界模型正在上演故事的下一幕。

越来越多的人开始把“世界模型”当作一种无需验证的预设。无数投资者、创业者正在排着队,等待一张通往想象中的“物理AGI”的船票。

事实上,光子计算、商业航天、碳中和等等同样是历史性的、攸关全人类命运的课题,为什么唯独世界模型如此热烈?

或许是因为,这些领域都太“透明”了。它们没有世界模型那种充满科幻气味的神秘感。人们很清楚,它们是某一门科学或某一类工程,有相对清晰的物理规律和工程理论可以遵守,是站在无数巨人肩膀上的新成果。

而世界模型不同。它站在很多学科的交叉点上,站在一些至今仍属于人类未解之谜的不确定性上。

互联网、云计算、区块链,归根结底都指向数字世界的确定性。而世界模型需要征服的,是物理世界本身。这是一个远比代码复杂、远比算法混沌、远比协议无序的领域。

或许,相比弄清楚世界模型的准确定义,当前市场更需要的,正是“世界模型”招牌之下那种模糊的正确,以及其中暗藏的无限可能。

这就是世界模型在2026年夏天的真实处境。入局是一切的开始,至于入局的姿态是否正确,答案只能交给时间。

对于世界模型的终局,王仲远的态度很开放,他坦言,智源作为一家科研机构,需要担起原始创新的责任,去开创,去创新,去突破,当然也有可能失败。

“并不排除过两年以后我们发现,今天这个地方没想清楚,那个地方想错了,这恰恰是科研的魅力。”王仲远说。

(封面图及文中配图来源:智源研究院)

END.

喜欢(0)

上一篇

AI 裁员潮正变成一座火药桶

AI 裁员潮正变成一座火药桶

下一篇

理想定义具身智能汽车:比人安全 比人高效 还要对齐特斯拉FSD

理想定义具身智能汽车:比人安全 比人高效 还要对齐特斯拉FSD
猜你喜欢