首页
看点啥
插画图片
首页 热点时事 ICLR 2026|美图提出位置编码场 PE-Field :让 DiT 感知和控制 3D 空间 | BestBlo...

ICLR 2026|美图提出位置编码场 PE-Field :让 DiT 感知和控制 3D 空间 | BestBlo...

2026-06-16 0

MTLab 2026-06-15 18:47 广东

随着视频生成和3D生成从娱乐端走向专业化的内容生产端,影像行业对AI的可控性要求仍在持续提升,保持人物一致性,复现复杂镜头语言、实现画面精准控制和局部空间编辑等能力,也逐渐成为AI创作的底层支撑,然而视角旋转、物体移动、镜头推拉、空间补全等大量编辑任务仍然依赖Prompt控制或多阶段Pipeline,稳定性与可控性都存在明显局限。

另一方面,尽管当前生成模型拥有强大的图像生成能力,但当单帧生成结果进入连续视角或动态运动时往往难以维持稳定的“空间一致性”,例如出现镜头运动不流畅、空间透视关系错乱、多视角内容不连续等问题。对此,让生成模型具备更强的“空间理解能力”,成为AI视觉领域的重要研究方向,“Novel View Synthesis(新视角生成)”也因而受到了越来越多的关注。

近期,美图影像研究院(MT Lab)联合University of Texas at Austin(德克萨斯大学)提出了一种基于扩散Transformer(DiT)的3D位置编码框架——Positional Encoding Field(PE-Field),将传统的2D位置编码扩展为结构化的3D场,使DiT能够更加直接地在3D空间中处理几何信息。该成果已被国际顶级人工智能会议ICLR 2026收录。

论文链接:[2510.20385] Positional Encoding Field

开源代码和模型:GitHub - MTLab/PE-Field · GitHub

图片1: DiT图像块级独立性

图片2:直接新视角合成(NVS)结果

图片3:整体框架

图片4:层次化位置编码

实验结果表明,引入PE-Field的DiT模型在单张图像的新视角合成(Novel View Synthesis)任务中展现出了具有竞争力的性能,它可以通过调整位置编码,生成质量较高的多视角结果;与此同时,PE-Field在泛化能力上也表现出了潜力,在特定物体的3D编辑、物体移除等可控的空间图像编辑(Spatial Image Editing)任务中展现了较好的灵活性和适用性。

图片5:新视角合成结果可视化

图片6:与基于提示词的图像编辑方法的比较

图片7:其他应用场景-物体位置编辑与物体消除

起底智元机器人,谁在推动一个庞然大物向前

达闼科技陨落一周年:具身独角兽的消亡史

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

阅读原文

喜欢(0)

上一篇

港姐引发粤语辩论 新加坡式英语崭露头角:5 篇周末必读

港姐引发粤语辩论 新加坡式英语崭露头角:5 篇周末必读

下一篇

是枝裕和为何在《箱中之羊》中搭档绫濑遥和电视喜剧演员

是枝裕和为何在《箱中之羊》中搭档绫濑遥和电视喜剧演员
猜你喜欢