首页
看点啥
插画图片
首页 热点时事 CVPR 2026 | 全新强化学习框架 BeautyGRPO:重铸真实人像

CVPR 2026 | 全新强化学习框架 BeautyGRPO:重铸真实人像

2026-06-18 0

BlueImageLab 2026-06-17 20:00 广东

全新强化学习框架 BeautyGRPO,构建了细粒度人像精修偏好数据集和首创动态路径引导(DPG)算法。

作者: vivo BlueImage Lab

本文入选 CVPR 2026Highlight

CVPR(IEEE/CVF Conference on Computer Vision and Pattern Recognition)IEEE国际计算机视觉与模式识别会议,主要内容是计算机视觉与模式识别技术。

CVPR 2026投稿16092篇,接收率约25.42%。

论文主页:https://beautygrpo.github.io

摘要:

人像精修的核心挑战在于既要提升肌肤质感,又要完整保留个人原生特征。然而,传统的监督学习局限于像素级模仿,难以捕捉人类复杂的高级审美;而强化学习(RL)虽擅长审美对齐,其随机探索机制却极易破坏原图的高保真需求,导致明显的失真伪影。

为了化解“美学探索”与“高保真”的两难困境,本工作提出全新强化学习框架 BeautyGRPO。该工作首先构建了细粒度人像精修偏好数据集 FRPref-10K 及用于评估的细粒度奖励模型,精准量化微观审美差异;同时首创动态路径引导(DPG)算法,在每一步采样中动态重规划基于高质量锚点的轨迹,有效纠正了随机漂移。实验证明,BeautyGRPO 在真实场景的肌肤纹理重建与整体审美对齐上,全面超越了现有的专精修图方法与通用编辑大模型。

对应的论文已被CVPR2026 接收,并被选为Highlight文章。

该工作由vivo BlueImage Lab,中山大学共同完成。

01

行业困局:

审美探索与高保真的“零和博弈”

高质量的数字人像精修早已成为移动影像时代的高频刚需。然而,对 AI 而言,这是一项极为严苛且微妙的任务:它既要像手术刀般精准剥离痘印、斑点等微小瑕疵,又要让肌肤透出真实的“自然呼吸感”,并完整保留诸如痣等极具辨识度的原生特征。本质上,这是一场“原生高保真”与“人类主观审美”之间的极致博弈。现有的 AI 模型往往受限于底层训练范式,难以做到两全其美。

现有痛点 1:SFT 的“刻板拟合”局限。

目前主流的修图模型(如 RetouchFormer)或通用编辑模型(NanoBanana)大多依赖监督微调(SFT)范式,迫使模型陷入对参考图的“像素级严格拟合”。模型并未真正捕捉人类审美逻辑,一旦训练数据存在瑕疵,便会全盘继承这些错误标注。因此在泛化到真实场景时,极易出现瑕疵残留,或因粗暴的“过度磨皮”导致人脸呈现失真的“硅胶质感”。

现有痛点 2:RL 的“随机失控”副作用。

为突破 SFT 局限,文生图领域尝试引入在线强化学习(RL,如 FlowGRPO)引导模型对齐人类审美。然而,这类方法在采样中往往需要注入随机噪声来驱动探索。对于极度依赖保真度的人像精修而言,这种不断累积的随机漂移(Stochastic Drift)是致命的,会严重破坏原图的高保真流形并引入明显的视觉伪影。

核心挑战:究竟该如何打破这一“零和博弈”,在追求极致美学探索的同时,实现原生特征的绝对保真?

02

技术逻辑:

细粒度审美量化与动态路径引导

我们提出了BeautyGRPO框架,从偏好量化与采样机制两个维度入手解决上述问题:

2.1构建细粒度评价体系:FRPref-10K与多维奖励模型

现有的奖励模型大多聚焦语义对齐和整体美学质量评估,缺乏对人像微小感知差异的敏锐度。 为此,我们构建了业内首个包含 10,000 对高清精修偏好对的大型数据集FRPref-10K,将审美标准拆解为5个细粒度维度:皮肤平滑度、瑕疵去除、纹理质感、清晰度、身份特征保留。 在此基础上,我们结合视觉大模型(VLM)与人类专家校准,训练出具备高感知能力的多维奖励模型。该模型能够敏锐捕捉图片之间的肌肤纹理、光泽质感等微小差异,为强化学习提供高质量的偏好对齐信号。

2.2可控 RL 探索:动态路径引导(DPG,

Dynamic Path Guidance)

针对审美探索与高保真的冲突,DPG 在采样过程中构建了一种柔性的“锚点约束”机制。算法在每一步会规划一条指向高质量参考锚点(Anchor)的确定性轨迹,将其与原始 SDE 采样方向结合计算出专属的“纠正向量(Correction Vector)”。借助时间步自适应的权重衰减策略,DPG 对生成轨迹进行了精细化控制:

03

实验结果

Figure 1: 客观指标全面领先(跨越“感知-失真”困境)

Figure 2: 视觉效果直观对比(拒绝油光,还原呼吸感)

Figure 3: 主观双盲偏好测试(高度契合大众审美)

Figure 4: 优异的基座泛化能力(即插即用)

将 BeautyGRPO 框架直接应用于通用的 Qwen-Image-Edit 大模型,有效化解了原模型在面部编辑时易引发的“身份偏移”和“过度平滑”问题,展现出极强的泛化潜力。

04

结语:

探索计算摄影的“真实之美”

BeautyGRPO 成功让 AI 摆脱了死板的修图套路,在“极致美学”与“原生保真”之间找到了完美的平衡。 这项 CVPR 2026 顶会成果的背后,印证着 vivo 蓝图影像实验室(vivo BlueImage Lab)在计算摄影与 AIGC 前沿的持续深耕。秉承“拒绝同质化粗暴磨皮,还原个人特质与自然真实”的美学哲学,团队期待此类底层算法的突破能够加速落地终端,为用户的每一次日常记录,赋予更专业、更高级的影像质感。

vivo BlueImage Lab

蓝图影像创新实验室,主要负责移动影像算法创新,包括图像/视频处理、图像/视频交互、图像/视频增强、多模态理解大模型等方面的技术前沿探索。

致力于不断提升vivo移动影像的算法能力,使用户能够拍摄出更加清晰、美观的照片和视频。同时积极探索增强现实、具身智能等新兴技术领域的应用,努力为用户提供更加丰富和便捷的影像体验。

欢迎持续关注 vivo 影像技术,获取前沿技术创新经验分享与热招岗位信息。

END

猜你喜欢

喜欢(0)

上一篇

GAIR Paper 102 | 不靠真实语音堆料:低资源 TTS 也能 SOTA | ICML 2026 | Bes...

GAIR Paper 102 | 不靠真实语音堆料:低资源 TTS 也能 SOTA | ICML 2026 | Bes...

下一篇

从高考数学满分到AI辅助填志愿:国产大模型走到哪一步了?

从高考数学满分到AI辅助填志愿:国产大模型走到哪一步了?
猜你喜欢