: 首页; 看点啥; 插画图片

首页电脑数码南洋理工大学训练AI图像生成只看有用的部分

南洋理工大学训练AI图像生成只看有用的部分

2026-06-20 0

这项由南洋理工大学S-Lab实验室主导的研究以预印本形式发布于2026年6月，论文编号为arXiv:2606.15236，有兴趣深入了解的读者可通过该编号查询完整论文。

当我们谈论AI生成图片，大多数人脑海中浮现的可能是那些能凭空"画出"逼真风景、人像乃至奇幻场景的神奇模型。这些模型背后，有一套被称为"扩散模型"的核心技术——它的工作方式有点像把一张清晰的照片慢慢往里加入噪点，直到变成一片雪花屏，再反过来训练AI学会从雪花屏里"还原"出清晰照片。

然而，南洋理工大学的这支研究团队发现了一个长期被忽视的浪费现象：在AI学习如何"去噪"的整个过程中，相当一部分计算力其实花在了毫无意义的地方。更关键的是，他们不仅发现了这个问题，还提出了一个几乎不需要额外计算资源、不改动任何核心训练流程的修复方案，并将它命名为**频谱强制（Spectral Forcing，简称SF）**。

一、AI画图时究竟在"看"什么？一个关于噪音与信号的故事

要理解这项研究解决的是什么问题，先得理解AI在训练时面对的处境。

以"矫正流扩散"（rectified flow diffusion）这种主流训练方式为例，AI在每一个训练时刻，看到的是一张"半成品图"——它介于纯粹的随机噪点和清晰原始照片之间。时刻越靠近起点（纯噪点），图像越模糊混乱；时刻越靠近终点（清晰照片），图像越接近真实。AI的任务，就是在每一个时刻预测"应该往哪个方向走才能得到真实图像"。

现在，自然界的图片有一个普遍规律：图像中的细节（高频信息，比如纹理、边缘锯齿）天然比粗略轮廓（低频信息，比如大块颜色、整体形状）携带的能量少得多。如果用声音来类比，低频就像低沉的鼓声，穿透力强、能量大；高频就像细碎的沙沙声，微弱易被淹没。

当噪点被加入图像时，这种微弱的高频细节信息极其容易被噪点"盖住"。研究团队通过数学推导得出一条清晰的界线：在任何给定的训练时刻，图像中那些频率超过某个临界值的细节，实际上已经完全被噪点淹没，从中根本无法提取出任何有关原始图像的信息。这条临界线可以用一个公式精确描述，它随着训练时刻向"清晰照片"方向推进而不断扩展，允许越来越多的细节频率露出水面。

这本来是个中性的物理事实。但问题在于：AI并不"知道"这条界线的存在。它在每个时刻都得同时处理图像的所有频率，包括那些已经被噪点完全覆盖、根本不含有用信息的高频部分。

二、被浪费的计算力：AI在"学习"毫无意义的东西

研究团队为了证实这个猜测，做了一个直觉上简单却相当有说服力的实验。他们训练了一个小型AI模型，让它在合成数据上充分学习，然后检查这个模型在每个"时刻-频率"组合上的表现：AI的预测比起"什么都不做、直接输出零"的最简单基线，到底好多少？

结果呈现出一幅清晰的地图，如同一个楔形区域。在低频、以及训练时刻靠近清晰图像的区域，AI确实在做有价值的工作——它学到了数据的真实分布，能比"啥也不预测"的方案强得多。但在高频、以及时刻靠近噪点的区域，出现了两种情况：要么AI的预测退化成了一个固定的数学公式（因为噪点覆盖了信号，AI只能机械地"去掉噪点"，和数据本身无关）；要么AI的预测甚至不如最简单的基线。换句话说，AI把大量计算资源花在了两类没有意义的事情上：一类是解一道固定方程，一类是连方程都没解好。

更有说服力的是，研究团队把同样的检验方法用在了一个真实的、在ImageNet数据集（一个包含大量真实照片的标准测试集）上训练的大型模型上，同样清晰地发现了这个"楔形结构"——那些高频、早期时刻的区域，AI的表现甚至不如零预测基线。浪费计算力的现象不只是理论预测，而是真实存在于实际模型中的。

三、频谱强制：一把随时间伸缩的"低通滤镜"

既然问题已经找到，解决方案就顺理成章了：能不能在每个训练时刻，直接把那些被噪点覆盖、毫无价值的高频信息屏蔽掉，只让AI看到真正有用的部分？

研究团队的答案就是频谱强制。它的工作原理可以用一个滤镜来理解。在摄影中，低通滤镜会让图像变得柔和，滤掉细碎的噪点和锐利边缘，只保留整体颜色和轮廓。频谱强制做的事情与此类似，但有两个关键差异：第一，它基于数学上严格推导出的"有用信号界线"来设定滤镜的截止点；第二，这个截止点会随着训练时刻动态变化——在靠近噪点的时刻，截止点很低，只让极少量低频信息通过；随着时刻向清晰图像推进，截止点不断扩大，允许越来越多的频率进入，直到在最终时刻完全取消滤镜，让AI看到完整图像。

技术上，这个滤镜使用二维离散余弦变换（2D-DCT）来实现——这是一种把图像"分解"成不同频率成分的数学工具，与JPEG图片压缩背后的技术同出一脉。具体流程是：在每个训练步骤中，先把当前时刻的含噪图像做DCT变换，然后用一个软性的圆形遮罩把超出截止半径的高频系数乘以接近零的权重，最后做逆变换还原成图像，再送入AI模型。整个操作不引入任何可学习的参数，计算量约为总训练成本的0.5%，而且完全不改动训练损失函数、采样器、或任何其他组件。

截止点的变化曲线（即"调度方案"）是另一个重要的设计选择。研究团队测试了多种方案：线性增长、平方增长、余弦曲线增长，以及直接从理论公式推导出的"解析方案"。线性方案最简单，就是截止点随时间均匀扩大；解析方案则完全跟随理论预测的信号界线移动。在实验中，线性方案在ImageNet的标准设置下表现最好，而解析方案在更高分辨率的场景中优势明显——这背后的原因研究团队也给出了清晰的解释，后文会详述。

四、什么情况下有效，什么情况下会适得其反

频谱强制不是万能药。研究团队花了大量篇幅清晰界定了它的适用边界，这种诚实是这项研究最值得称道的地方之一。

核心结论可以用一句话概括：频谱强制在两个条件同时满足时效果最好。第一，AI处理图像的方式是"粗粒度分块"（即把图像切成较大的方块作为输入单元，导致模型本身就已经看不到太多高频细节）；第二，图像的高频内容主要是噪点而非有价值的信号。

为了验证这两个条件，研究团队做了一系列精心设计的对照实验，使用了三种合成数据集：一种是模拟自然图像统计规律的"幂律"数据（高频内容少，符合自然图像规律）；一种是包含大量清晰边缘的"矩形"数据（高频内容是真实的边缘信号，至关重要）；一种是混合了多种结构的"结构化"数据。

实验结果非常清晰：在幂律数据上，频谱强制显著改善了AI的学习效果；在矩形数据上，频谱强制反而伤害了模型——因为它屏蔽的高频内容正是矩形边缘，是AI必须学习的关键信号；在结构化数据上，效果介于两者之间，线性方案接近中性。

同样，在分块大小（patch size）的实验中，当每张图像被切成1024个小块时（块很小，每块包含更多细节），频谱强制的收益最高，改善幅度达到70%；当每张图像只被切成16个大块时（块很大，每块已经平均掉了大量细节），效果反而略微下降。这说明，当AI的输入已经因为分块方式而"看不到"高频细节时，频谱强制额外屏蔽这些已经不存在的信息意义不大；但当AI确实在处理高频信息时，显式告诉它"现在这些频率都是噪点，别浪费精力"就很有价值。

五、在真实数据集上的表现：数字会说话

理论和合成实验已经很有说服力，但最终的检验还是得放到真实数据上。研究团队选择了ImageNet-256作为测试场景，使用的模型框架是"JiT"（Just-in-Time，一种由李天宏和何恺明提出的像素空间扩散模型架构）。

在最有代表性的配置下，即使用JiT-700M/32（7亿参数规模，每张256×256的图像被切成64个图块），仅训练60个轮次，加入频谱强制后，FID分数（一种衡量生成图像质量的指标，数值越低越好）从24.19降到了20.68，提升幅度达14.5%；初始分数（Inception Score，衡量生成图像多样性和清晰度，越高越好）则从83.28提升到93.96，提升幅度约13%。这一对比是在完全相同的训练配置下进行的，唯一的变量就是是否启用频谱强制。

更能说明问题的是训练效率：加入频谱强制后，训练60个轮次就能达到原本需要约90个轮次才能达到的图像质量，训练120个轮次就能达到原本约145个轮次的水平。这意味着在实际使用中，可以节省约17%到33%的训练时间，而硬件成本几乎没有增加。

在更大的训练预算下，到120个轮次时，加入频谱强制的模型FID达到15.15，不仅比同样轮次的基线（16.46）强，还已经超过了此前发表的、使用类似架构训练约145个轮次的参考结果。

在较小的模型（JiT-130M/32，同样64个图块）上，频谱强制在早期训练阶段（15个轮次时改善11.6%）优势最明显，随着训练深入，差距逐渐收窄，到200个轮次时仍保持约1.5%的优势。这个模式说明，频谱强制带来的部分收益来自"更快入门"（数据效率），但也有一部分是稳定存在的长期改善。

当分块数量增加到256个（即JiT-130M/16，使用较小的图块切割方式）时，频谱强制的效果缩减到2.2%左右，基本在统计误差范围内。这完美对应了理论预测：更细的分块让AI本身就能看到更多高频细节，此时频谱强制的贡献有限，但也不会造成伤害。

研究团队还对比了多种可能的替代方案。恒定的低通滤镜（不随时间变化）反而比基线更差，因为它永久屏蔽了某些频率，导致AI永远无法学习生成那些高频细节；空间域的高斯模糊效果更差；在损失函数上做频率加权（而非在输入上做滤镜）也明显不如频谱强制；此前提出的"模糊扩散"和"DCT空间扩散"等方法在同等条件下同样不如频谱强制。

六、线性方案为何在ImageNet上胜过理论最优方案？

研究团队对这个看似反直觉的发现给出了详细的解释，读来颇有启发。

解析方案（即截止点完全跟随理论推导的信号界线移动）在小分辨率合成数据上比线性方案强2到3倍，但在ImageNet的256×256标准设置、64个图块的配置下反而输给了线性方案。原因有三点：

首先，理论公式中使用的"幂律指数α"是对自然图像整体频率分布的一个全局拟合值，但真实图像在极高频率段的能量下降速度比全局拟合更快（因为相机传感器噪点、抗混叠处理等因素），导致理论公式对高频部分的处理过于激进，把本来还有一点用的频率也屏蔽掉了。

其次，在64个图块的配置下，图像分块本身就已经截断了大量高频信息，解析方案的早期极度保守（截止点长时间停在最低值附近）会让AI长时间看不到足够多的有效信息，影响梯度质量。

第三，解析方案中截止点的增长速度在训练早期非常缓慢，导致大部分训练时间内AI能看到的频率范围极其有限，学习效率受损。这三个问题在更高分辨率（比如512×512）时都会得到缓解，所以在高分辨率玩具实验中解析方案反而更优。

研究团队的结论是：理论框架提供了"截止点应该随时间单调扩大、在终点达到全频率"这一正确的定性形状，但具体的函数形式在实际使用中需要根据分辨率和分块大小做经验性调整。线性方案是一个在多种配置下都足够稳健的默认选择。

七、在文字生成图片模型中的迁移表现

研究团队进一步把频谱强制插入了SenseNova-U1，一个"原生视觉-语言模型"（即不依赖独立图像编码器、直接处理原始图像像素块的统一文本-图像模型）。这类模型为了控制序列长度，通常也采用较粗的图像分块，正好落在频谱强制的有效区间内。

在DPG-Bench（一个评测文字生成图像综合能力的基准测试）上，加入频谱强制后整体分数从64.35提升到67.85，涵盖的13个子类别中有9个获得改善。提升最集中的子类别是"实体状态"、"实体整体"、"计数"等需要捕捉整体语义结构的维度，而不是那些依赖高频细节的类别——这与理论预测一致，因为这类语义信息主要编码在低频成分中。

在GenEval（另一个文字生成图像能力基准测试）上，总体分数从3.87%提升到4.56%（相对提升约18%），其中"单一物体"类别提升2.81个百分点（约19%），"颜色"类别提升1.33个百分点（约16%）。需要说明的是，这些测试是在模型训练早期（10万步）进行的，需要理解能力的复合构图类别（如"两个物体同框"、"计数"等）在这个阶段两个模型都还是零分，尚未发展出相关能力。

八、各项配置和细节对效果的影响

研究团队还系统性地测试了若干设计参数的影响，为希望实际使用频谱强制的人提供了充分的参考。

关于最低截止点cmin（控制滤镜在训练最初始时刻能通过多少频率），研究发现该参数对效果的影响是单调的：cmin越大（滤镜越宽松），效果越接近基线；cmin越小（滤镜越严格），早期训练越困难，但给AI创造的"迫使它专注低频"的压力也越大。默认值0.05在多种配置下表现稳健。

关于图像分辨率的影响，玩具实验中把图像尺寸从64×64扩大到512×512（同时保持图块数量固定为64），解析方案的相对优势随分辨率增大而显著增强：在64×64时基线最优，解析方案比基线差；在256×256时解析方案已经明显领先基线约15%；在512×512时仍保持约3.3%的优势。在真实ImageNet数据上，在512×512分辨率下，原本在256×256时与基线持平的JiT-130M/32配置，加入频谱强制后获得了3.4%的FID改善。这说明更高分辨率的训练场景是频谱强制更自然的主场。

关于训练与推理的计算开销，全文反复确认：频谱强制仅需一次前向和一次逆向2D-DCT变换，计算量约为基线的0.5%，无可学习参数，无额外内存占用。在推理阶段，同样在每个采样步骤的图像输入上应用同样的滤镜，开销同样可以忽略不计。

归根结底，这项研究的贡献是把一个长期隐藏在AI训练过程中的"结构性浪费"变得可见，并用最小代价将其修复。扩散模型在训练时确实存在一个"有效工作区间"——在这个区间之外，模型要么在机械地解固定方程，要么在做比随机猜测还差的事情。频谱强制把这条边界显式化，用一个动态变化的滤镜告诉模型"现在只有这些频率是值得学习的"，从而让模型把有限的计算力集中在真正重要的地方。

对于普通用户而言，这意味着未来使用类似技术训练的图像生成模型，在同等算力预算下可以更快收敛、生成质量更高；对于开发者而言，这是一个几乎无代价即可接入现有训练流程的改进，尤其对那些出于成本考虑不得不使用粗分块方式的原生视觉-语言模型更有意义。

当然，频谱强制不是所有场景的万能解。如果你的数据本身就富含高频关键信息（比如医学图像中的细微病变），或者你的模型已经在用非常细的分块方式处理图像，频谱强制的贡献就会大幅缩水。研究团队在这方面保持了相当清醒的自我评估，没有把一个有条件适用的技术包装成无限通用的突破——这种清醒本身就很值得学习。

如果你对这项研究感兴趣，想看看背后完整的数学推导和更多实验细节，可以通过arXiv编号2606.15236找到完整论文。

Q&A

Q1：频谱强制（Spectral Forcing）需要修改扩散模型的训练流程吗？

A：频谱强制不需要修改训练的任何核心部分。它只是在图像送入模型之前，加了一个基于当前训练时刻动态调整截止频率的低通滤镜，损失函数、采样器、模型架构、EMA权重全部保持原样。计算量约增加0.5%，没有任何新的可学习参数。

Q2：频谱强制在所有图像生成任务中都有效吗？

A：不是所有场景都有效。频谱强制在两个条件同时满足时效果最好：图像被切成较少、较大的图块（比如64块），以及图像的高频内容主要是噪点而非关键信号。当图像本身富含高频边缘信息（比如轮廓鲜明的几何图形），或者模型本身就采用细粒度分块（比如256块），效果会明显减弱，甚至可能略微下降。

Q3：频谱强制的线性调度方案为什么比理论推导的解析方案在ImageNet标准设置下更好？

A：理论上解析方案应该最优，但在256×256分辨率、64个图块的标准ImageNet配置下，解析方案对高频内容的屏蔽过于激进，且早期截止点增长太慢，导致模型长时间接收不到足够丰富的训练信号。线性方案增长更均匀，避免了这个问题。在更高分辨率（512×512以上）的场景中，解析方案的优势会重新显现。

喜欢(0)

中山大学与Adobe联手攻克AI生成图片失真难题

香港中文大学、上交大联合研究团队让机器人看懂人类双手动作