: 首页; 看点啥; 插画图片

首页电脑数码中山大学与Adobe联手攻克AI生成图片失真难题

中山大学与Adobe联手攻克AI生成图片失真难题

2026-06-20 0

这项由中央大学（Chung-Ang University）计算机机器学习实验室（CMLab）与Adobe Research联合开展的研究，以预印本形式于2026年6月13日发布在arXiv平台，论文编号为arXiv:2606.15158v1。感兴趣的读者可以通过该编号在arXiv上查阅完整原文。

一、一张好图，为何经过AI处理后反而"面目全非"？

你有没有遇到过这样的经历：手里有一张非常高清、细节丰富的参考照片，比如你最喜欢的一款手提包、一个精美的陶瓷摆件，或者一只毛发清晰的宠物猫，然后把它交给某个AI图像生成工具，让AI帮你把这个物体"合成"到另一张场景图里。结果出来之后，那个物体却像是蒙了一层薄雾——细节模糊了，颜色也不对，甚至原本的花纹或者图案都消失了，整体看起来像是一个"假冒品"而不是你提供的那个真实物体。

这种令人沮丧的情况，其实不是AI工具的设计者粗心大意，而是当前几乎所有"参考图引导生成"系统都存在的一个根本性缺陷。问题出在哪里呢？当你把那张高清参考图交给AI系统时，这个系统在把图片"喂"给自己的大脑之前，会先把图片强制缩小到一个固定的低分辨率——就好像你给了画师一张A3大小的精细素描，他却先把它缩印成一枚邮票，然后再用这枚邮票来临摹。邮票上的细节早就丢失殆尽了，画出来的东西自然也就和原图相差甚远。

这个被研究团队称为"参考图引导生成内容"（Reference-guided Generated Content，简称RefGC）的技术领域，支撑着图像合成、定制化生成、图像编辑等大量我们日常使用的AI图像功能。然而它一直存在着两个叠加的问题：第一，高清参考图在进入AI系统之前就被强制压缩，精细信息提前丢失；第二，AI在生成过程中还会额外引入它自己的"创作痕迹"，也就是各种生成伪影，包括物体身份失真、细节不一致、纹理丢失以及整体质量下降。这两个问题加在一起，就造成了最终生成图像与用户期望之间那道难以弥合的鸿沟。

中央大学和Adobe Research的研究团队决定从根本上解决这个问题。他们提出了一个全新的任务框架，将其命名为"参考图引导生成内容的超分辨率精炼"（Reference-guided Generated Content Super-Resolution-Refinement），缩写为RefGC-SR?。这个任务的核心思路是：既然AI生成的图片又低分辨率又有伪影，那为什么不在AI完成生成之后，再用用户最初提供的那张高清参考图来进行"后期修复"呢？就像一位工艺品修复师，手里拿着原件的高清照片，对着一件被粗糙仿制的复制品进行逐一比对、精心修复，最终让复制品既恢复高分辨率，又在细节上忠实还原原件的精髓。

二、这个问题究竟有多普遍？四种"失真症状"逐一拆解

为了让读者更直观地理解这个问题的严重性，研究团队总结了AI参考图引导生成过程中最常见的四种"失真症状"。

第一种叫做"身份失真"。以一组传统手工制作的俄罗斯套娃为例，用户提供了一张套娃的高清图片，上面有精致的绘画细节和特定的面部表情。但AI生成的结果中，套娃的面部特征完全变了样，变成了一个完全不同风格的卡通脸，原本那种民族风情的细腻画工荡然无存。这就好像你让画师画你家的小狗，结果画出来的却是一只完全不同的狗——品种都错了。

第二种叫做"细节不一致"。以一罐果酱为例，瓶身上印有特定的营养成分表和品牌标识。AI生成的结果中，这些文字和标识变得模糊不清，甚至出现了乱码和变形，完全看不出原始信息。这就像你让AI帮你复印一份合同，结果复印出来的版本里很多字都印错了。

第三种叫做"纹理丢失"。以一只蓝紫色的陶瓷兔子摆件为例，表面应该有细腻的陶瓷光泽和微妙的色调变化。但AI生成的版本表面变得平滑而单调，那种独特的材质感完全消失了，看起来像是用塑料做的。

第四种叫做"整体质量下降"。即便物体的基本形状大致正确，整张图片也会显得模糊、生硬，缺乏真实照片应有的那种质感和生命力，就像一张经过多次翻拍的照片，画质越来越差。

在这项研究之前，学术界和工业界有没有其他方法来解决这些问题呢？研究团队对相关技术做了一次全面的梳理，发现现有方法各自只能解决问题的一个片段，没有一种方法能够同时处理所有难题。

普通的图像超分辨率技术（ISR）可以把低清图片变高清，但它是按照相机拍摄失真的规律设计的，完全不懂得怎么处理AI生成产生的那种特殊失真。参考图引导超分辨率技术（RefSR）虽然会利用参考图，但同样只针对自然图像的失真，对AI生成内容的特有问题束手无策。生成内容超分辨率技术（GCSR）专门针对AI生成图片，但它不使用任何参考图，因此无法恢复那些本该来自参考图的特定细节。而现有的参考图引导生成内容精炼技术（RefGCR）虽然最接近目标，能用参考图来修正AI生成的伪影，但它只在固定分辨率下工作，无法同时提升图片清晰度。

研究团队制作了一张比较表格，展示了所有相关技术类型在四个关键维度上的得分情况：是否处理AI生成内容、是否使用高清参考图、是否提升分辨率、是否精炼伪影。结果显示，只有他们提出的RefGC-SR?在全部四个维度上都打了勾。这个发现说明，他们填补的确实是一个真实存在却长期被忽视的技术空白。

三、训练数据从哪来？一套精妙的"配对图片制造流水线"

任何AI模型的训练都需要大量的配对数据——也就是"输入是什么、期望输出是什么"这样的样本对。RefGC-SR?任务需要的是一种三元组：一张含有伪影的低分辨率AI生成图（称为LRGI）、一张高清参考图（称为HRRI）、以及一张对应的高分辨率真实目标图（称为HRGT）。这三张图必须描述同一个物体实例，但可以来自不同角度、不同背景。

问题在于，这样的三元组数据根本不存在于现有数据集中。普通超分辨率数据集里的"降质"是人工模拟的模糊和噪声，不包含真实的AI生成伪影；而现有的AI生成内容数据集又缺乏配套的高清真实目标图。更麻烦的是，如果直接用现有的AI图像合成模型来生成LRGI，这些模型会擅自改变物体的姿势和角度，导致LRGI和HRGT之间的物体姿态不一致——这对于训练来说是个大问题，因为模型会误以为自己还需要学习"改变姿态"，而不是专注于修复细节和提升分辨率。

研究团队因此设计了一套两阶段的数据构建流水线，来从零开始制造这些三元组数据。

第一阶段专注于收集真实世界的HRRI-HRGT配对。团队从三个高分辨率真实图像和视频数据集中提取素材，分别是：ORIDa（提供物体在不同背景下的真实合成图片对）、uCO3D（提供同一物体从多个角度拍摄的视频）、以及UltraVideo（提供在自然运动中拍摄的多样化视频）。对于视频数据，团队先用一个叫做Qwen3-VL的视觉语言模型来自动筛选出以物体为主体的视频片段，然后进行逐帧的细化筛选，并用SAM3（一种专门用于图像分割的模型）为物体生成精确的轮廓遮罩。最后，人工审核员对筛选结果进行最终的质量把关和配对确认。这个过程就像在一个巨大的图书馆里，先让一个AI助手帮你快速翻阅所有书籍，找出可能有用的页面，然后再由专业编辑逐一确认。

第二阶段负责为每对HRRI-HRGT合成对应的LRGI，这是整套流程中最具创意的部分。研究团队专门设计了一个叫做DipRefGC（双联画条件参考图引导生成器）的生成模型。这个模型的核心挑战是：既要让生成的LRGI在物体外观上忠实于HRRI（因为LRGI应该是"试图参照HRRI生成"的结果），又要让物体的姿态和角度严格对齐HRGT（这样训练时模型才能专注于修复，而不是学习改变姿态）。

DipRefGC采用了一种叫做"双联画"的构图方式——每个条件输入图片都被设计成左右两格拼在一起的样子，就像博物馆里并排展示的两幅相关画作。外观控制部分使用了一种"修复式控制网络"（Inpainting ControlNet）：左格放置从HRRI中提取的物体，右格放置HRGT的背景和一个遮盖了物体区域的空白遮罩，强迫模型必须依靠左格的HRRI外观来"填充"右格的空白，从而自然地产生类似真实AI生成的伪影效果。姿态控制部分则使用了另一个"边缘线条控制网络"（Canny ControlNet）：右格展示HRGT中物体区域的轮廓线条，告诉模型"生成的物体必须符合这个形状"。两个控制网络分工明确、各司其职，一个管"画什么"，一个管"怎么摆"。

这套系统构建在FLUX这个强大的图像生成模型基础上，并使用LoRA（一种轻量级微调技术，可以理解为给大模型贴上专用"补丁"）来适配双控制网络。整个DipRefGC在收集到的HRRI-HRGT配对上进行训练，最终成功生成了姿态一致、包含真实AI伪影的LRGI样本。

最终，这套流水线产出了40,000组训练三元组和200组评估三元组，构成了研究团队所称的RefGC-SR?数据集——据称这是该任务领域的第一个真实世界三元组数据集。从DipRefGC的设计方案消融实验来看，仅仅增加Canny边缘控制就能将物体遮罩的IoU（一种衡量形状匹配程度的指标）从0.480提升到0.601，而专门针对合成和定制化两种场景进行联合微调则进一步提升了参考图的身份保留能力，降低了与真实AI生成输出之间的分布差距。

四、核心模型如何工作？频率感知让"粗略轮廓"和"精细纹理"各归其位

有了数据之后，研究团队接下来构建了RefGC-SR?模型本身。这个模型建立在一个叫做FLUX-Kontext的扩散变换器（DiT）骨干模型之上，骨干模型的所有参数全部冻结不动，只在其中插入可训练的新模块。

在设计这个模型之前，研究团队做了两个重要的"侦察实验"，这两个发现直接决定了模型的架构设计思路。

第一个发现来自对FLUX-Kontext本身的频率分析。研究团队测量了这个大模型在每一层神经网络中处理图像时，低频信息（可以理解为图像的整体轮廓和大色块）和高频信息（可以理解为图像的细节纹理和边缘）各自的能量变化。结果显示，低频信息在模型最开始的约5%的层里就已经迅速稳定下来，说明整体结构是在早期层里形成的；而高频信息则要等到最后约10%的层才突然大量出现，说明精细细节是在晚期层里才被添加的。这个发现就像发现了一个画家的作画习惯：他总是先用大笔刷确定整体构图，然后才拿起细笔刷添加细节，从不混淆顺序。

第二个发现来自对LRGI、HRRI和HRGT三者之间关系的分析。研究团队把这三种图像在模型的"理解空间"（即潜在特征空间）里进行了相似度比较：当比较所有频率成分时，LRGI和HRRI与HRGT的相似度没有明显规律；但是，当只单独看低频成分时，结果非常清晰——LRGI的低频成分与HRGT非常接近，而HRRI的低频成分与HRGT差距较大。这说明，从整体结构的角度来看，AI生成的低质量图片（LRGI）实际上已经和期望目标（HRGT）比较接近了，真正的问题是高频的细节信息，而这些细节应该从HRRI里提取，而不是从LRGI里。

基于这两个发现，研究团队设计了两个核心组件。

第一个组件叫做"频率自适应LoRA专家混合"（FreqMoLE）。如果把模型的每一层比作一个工作岗位，那么FreqMoLE的做法是在每个岗位上同时安排两位专家：一位"低频专家"（专门处理整体轮廓和大结构）和一位"高频专家"（专门处理精细纹理和细节）。这两位专家同时工作，但他们的"发言权重"由一个叫做"门控值α"的参数来控制，而且这个权重是随着层数深度自动变化的：在模型的早期层，门控值接近1.0，几乎全部听低频专家的；到了模型的晚期层，门控值逐渐降到接近0，几乎全部听高频专家的。这种安排完美契合了前面发现的那个"先定结构、后加细节"的规律，让每位专家在最合适的时机发挥最大作用。门控值在训练初期被固定住，确保早期层和晚期层的职责分工稳定建立，之后再与两位专家一起共同优化。

第二个组件叫做"频率损失"（Lf），这是用来指导模型学习方向的"评分标准"。这个评分标准分为两部分。低频部分的评分规则是：模型输出的低频成分必须尽量接近HRGT的低频成分，确保整体结构与期望目标保持一致，评分时只计算物体所在区域的差异（通过遮罩来限定范围）。高频部分的评分规则则要巧妙得多：由于HRRI和HRGT拍摄角度不同，无法直接对比像素位置，所以改为比较统计特性——模型输出的高频成分，其平均值和方差应当尽量接近HRRI的高频成分，而不是接近HRGT。这样，模型就能从HRRI里"借鉴"细节的风格和质感，而不需要死板地照搬HRRI的每一个像素。这个设计类似于让厨师学习一道菜的"味道风格"而不是死记每个步骤，让他能在不同食材条件下复现同样的风味。

在实际训练中，最终的总体损失函数由三部分组成：来自FLUX-Kontext骨干的标准流匹配损失（LFM，负责主要的生成质量监督）、来自ImageCritic研究的注意力对齐损失（Laal，负责让模型正确地把注意力集中在HRRI的物体区域而不是背景），以及研究团队自己提出的频率损失（Lf）。这三个评分标准分工协作，分别管控"生成质量"、"参考注意力"和"频率信息的来源分配"三个维度。

五、实验结果如何？数字和眼睛都说了算

研究团队在两个测试场景下评估了RefGC-SR?模型的表现：一是自家构建的RefGC-SR?评估基准（200组三元组，来自训练数据集之外的新样本），二是更贴近真实使用场景的"野外测试"（用四种真实的AI生成模型——DreamFuse、InsertAnything、FreeCus、PersonalizeAnything——来产生LRGI，共200组样本）。

在量化指标上，与对比方法的竞争从以下几个角度展开：CLIP-I分数衡量的是图像内容相似度，DINO分数衡量的是特征层面的相似度，PSNR和SSIM衡量的是像素级别的重建精度，LPIPS衡量的是人类感知层面的图像质量（数值越低越好）。

在RefGC-SR?评估基准上，RefGC-SR?模型以CLIP-I 0.8696、DINO 0.7474、PSNR 17.5148、SSIM 0.6335、LPIPS 0.2746的成绩全面超越所有对比方法。最接近的竞争者ImageCritic（CVPR'26）在CLIP-I上达到0.8542，但在DINO（0.7165）和LPIPS（0.2991）上都明显落后。在野外测试中，RefGC-SR?同样在所有指标上领先，包括合成任务和定制化任务两个子场景均保持了这一优势。

除了数字指标，研究团队还通过视觉比较展示了差异。从定性结果来看，其他方法普遍存在以下问题：有些方法（如DiT4SR）可以提升分辨率，但不能修复生成伪影；有些方法（如ImageCritic）可以修复部分伪影，但图像会变得过于平滑，细节反而更少；有些方法（如ReFIR）在某些细节区域会出现幻觉，凭空添加不存在的纹理；还有些方法（如OmniPaint）根本没有有效地利用HRRI信息来修复生成伪影。RefGC-SR?的输出则在保持整体场景结构的同时，将HRRI中的细节忠实地转移到生成图上。

用户研究的结果更加直观。研究团队邀请了16名参与者，对每个测试样本的四种方法输出（一种SR方法、一种RefSR方法、一种RefGCR方法和本研究方法）从"精炼质量"、"细节恢复质量"、"整体质量"三个维度进行评分。结果显示，RefGC-SR?在所有三个维度上都获得了最高分（排名第一）的概率高达83%、82%、83%，而其他方法的最高分概率最多只有8%。反过来，RefGC-SR?被评为最差的概率只有3%到4%，而ImageCritic被评为最差的概率高达51%到66%——这与量化指标中ImageCritic排名第二的结果形成了鲜明对比。研究团队解释说，这是因为ImageCritic倾向于生成过度平滑的输出，在像素级指标上表现还不错，但人类观察者能明显感受到细节纹理的丧失，认为这是质量下降。这个发现本身也很有意义：量化指标不一定能完整反映人类感知层面的图像质量，特别是在需要恢复精细细节的任务中。

六、消融实验：拆开来看，每个零件都不可或缺

研究团队还进行了系统性的"拆件测试"（消融实验），逐一评估FreqMoLE和Lf各自的贡献。

当两个组件都去掉时（只保留基础模型），CLIP-I为0.8437，DINO为0.6870，LPIPS为0.3538。单独加入Lf时，DINO跳升至0.7386（提升7.5%），LPIPS降至0.2835（改善19.9%），说明频率损失对物体身份的忠实度和感知质量有显著贡献。从视觉上看，没有Lf时，模型会把HRRI的内容直接"注入"到输出里，破坏HRGT的整体结构；加入Lf后，模型学会了既保留HRGT的结构，又从HRRI里借鉴高频细节。单独加入FreqMoLE时，PSNR提升6.0%，CLIP-I提升2.8%，说明层次化的低频/高频专家分工确实有助于提升重建精度。从视觉上看，没有FreqMoLE时，一个透明玻璃杯在输出中变成了不透明的；加入FreqMoLE后，模型正确地恢复了透明感，与HRRI和HRGT保持一致。当两个组件都加入时，所有指标均达到最优：CLIP-I 0.8696、DINO 0.7474、PSNR 17.5148、SSIM 0.6335、LPIPS 0.2746，证明两者扮演着互补而非重叠的角色。

七、泛化能力：对商业AI大模型同样有效

研究团队额外测试了一个很有说服力的场景：如果LRGI是由主流商业AI模型生成的，RefGC-SR?是否仍然有效？他们选取了三款当前广泛使用的商业模型：Gemini 2.5 Flash Image、GPT-Image 1.5以及开源模型Qwen-Image-Edit，用它们生成LRGI，然后交给RefGC-SR?和其他对比方法处理。

从视觉比较来看，其他方法在面对商业模型输出时仍然存在各自的固有局限：有的方法无法识别并修复商业模型产生的特有伪影，有的方法在高频细节上产生幻觉，有的方法根本没有利用HRRI的信息。相比之下，RefGC-SR?在三个商业模型的输出上都展现出稳定的修复和超分辨率能力，能够从HRRI中准确地提取细节信息并融入到修复后的图像中。这说明，尽管RefGC-SR?是在自己构建的合成数据上训练的，它学到的能力具有相当强的泛化性，能够迁移到它从未见过的商业AI系统的输出上。

八、这项研究的局限性和未来方向

研究团队在论文中坦诚地指出了当前工作的主要局限。首先，训练数据集是用DipRefGC合成的，并非直接从真实RefGC管线中采集的样本，这意味着数据中的伪影分布可能与真实世界的所有RefGC系统不完全吻合。其次，数据集目前只涵盖12个物体类别，以物体为中心的场景为主，对于人物、复杂背景或非常规场景的覆盖还不够广泛。第三，RefGC-SR?模型目前绑定在FLUX-Kontext这个特定的骨干模型上，当HRRI和LRGI之间的视角差异或几何变形非常大时，模型可能难以正确处理。

研究团队提出了未来可以改进的几个方向：直接从多种真实RefGC管线中采集LRGI样本来扩展数据集的覆盖范围、纳入更多物体类别和场景类型、将方法扩展到其他DiT骨干模型，以及引入具有几何感知能力的参考图匹配机制来应对大视角差的挑战。

归根结底，这项研究从一个看似细小的工程问题出发——AI生成图像的质量和清晰度不如人意——但它触及的是整个参考图引导生成技术生态的一个系统性缺陷。研究团队没有试图修改现有的生成模型，而是提出了一个后处理的新任务框架，用用户本来就拥有的高清参考图作为修复的线索，同时完成超分辨率和伪影精炼两件事。这个思路上的转换——从"改进生成"变为"善用现有资源来修复生成结果"——不仅在技术上取得了有据可查的进展，也为实际应用开辟了一条务实的路径：用户不需要等待更好的生成模型，只需在生成之后多走一步，就能显著提升最终图像的质量和对参考图的忠实度。对于那些在电商、设计、个人创作等领域大量使用AI生成图像的用户来说，这一步的价值是相当具体和可感知的。有兴趣深入了解技术细节的读者，可以通过arXiv编号2606.15158查阅完整论文。

Q&A

Q1：RefGC-SR?技术解决的核心问题是什么？

A：RefGC-SR?解决的是AI参考图引导生成（比如把你的参考产品图合成到场景里）时产生的两个叠加问题：一是高清参考图在进入AI之前就被强制压缩导致细节丢失，二是AI生成过程本身产生的伪影，比如物体变形、纹理消失等。这套方法在AI生成完成后，用用户本来就提供的那张高清参考图来同时修复伪影和提升分辨率。

Q2：DipRefGC是做什么用的，为什么需要专门设计它？

A：DipRefGC是一个专门用来合成训练数据的生成模型。训练RefGC-SR?模型需要大量"低质量AI生成图、高清参考图、高质量目标图"三件套，但这样的数据根本不存在。直接用现成AI生成模型来造数据的问题是它会改变物体姿态，导致训练时模型误学了"纠正姿态"而不是"修复细节"，所以研究团队专门设计DipRefGC来生成姿态严格一致、同时包含真实AI伪影的低质量图片。

Q3：FreqMoLE和普通LoRA微调有什么不同？

A：普通LoRA只在每一层插入一套可训练参数。FreqMoLE在每一层插入两套参数，一套专门处理图像的整体结构信息（低频专家），一套专门处理精细纹理信息（高频专家）。两套参数的"发言权重"随模型层数自动调整：早期层让低频专家主导，晚期层让高频专家主导，这样就和FLUX-Kontext模型本身"先定结构再加细节"的内在规律完美匹配。

喜欢(0)

蚂蚁集团联合高校研发的"视觉猎手":让AI学会主动用眼睛搜索了

南洋理工大学训练AI图像生成只看有用的部分