ICLR 2026｜美图提出位置编码场 PE-Field ：让 DiT 感知和控制 3D 空间 | BestBlo...

2026-06-16 0

MTLab 2026-06-15 18:47 广东

随着视频生成和3D生成从娱乐端走向专业化的内容生产端，影像行业对AI的可控性要求仍在持续提升，保持人物一致性，复现复杂镜头语言、实现画面精准控制和局部空间编辑等能力，也逐渐成为AI创作的底层支撑，然而视角旋转、物体移动、镜头推拉、空间补全等大量编辑任务仍然依赖Prompt控制或多阶段Pipeline，稳定性与可控性都存在明显局限。

另一方面，尽管当前生成模型拥有强大的图像生成能力，但当单帧生成结果进入连续视角或动态运动时往往难以维持稳定的“空间一致性”，例如出现镜头运动不流畅、空间透视关系错乱、多视角内容不连续等问题。对此，让生成模型具备更强的“空间理解能力”，成为AI视觉领域的重要研究方向，“Novel View Synthesis（新视角生成）”也因而受到了越来越多的关注。

近期，美图影像研究院（MT Lab）联合University of Texas at Austin（德克萨斯大学）提出了一种基于扩散Transformer（DiT）的3D位置编码框架——Positional Encoding Field（PE-Field），将传统的2D位置编码扩展为结构化的3D场，使DiT能够更加直接地在3D空间中处理几何信息。该成果已被国际顶级人工智能会议ICLR 2026收录。

论文链接：[2510.20385] Positional Encoding Field

开源代码和模型:GitHub - MTLab/PE-Field · GitHub

图片1: DiT图像块级独立性

图片2:直接新视角合成(NVS)结果

图片3:整体框架

图片4:层次化位置编码

实验结果表明，引入PE-Field的DiT模型在单张图像的新视角合成（Novel View Synthesis）任务中展现出了具有竞争力的性能，它可以通过调整位置编码，生成质量较高的多视角结果；与此同时，PE-Field在泛化能力上也表现出了潜力，在特定物体的3D编辑、物体移除等可控的空间图像编辑（Spatial Image Editing）任务中展现了较好的灵活性和适用性。

图片5:新视角合成结果可视化

图片6:与基于提示词的图像编辑方法的比较

图片7:其他应用场景-物体位置编辑与物体消除

起底智元机器人，谁在推动一个庞然大物向前

达闼科技陨落一周年：具身独角兽的消亡史

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！
公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

阅读原文

喜欢(0)

港姐引发粤语辩论新加坡式英语崭露头角：5 篇周末必读

是枝裕和为何在《箱中之羊》中搭档绫濑遥和电视喜剧演员

ICLR 2026｜美图提出位置编码场 PE-Field ：让 DiT 感知和控制 3D 空间 | BestBlo...

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！
公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。