DiffBFR:革新人脸修复技术,美图与国科大共筑视觉新高度

作者:沙与沫2024.08.28 17:17浏览量:11

简介:本文介绍了美图影像研究院(MT Lab)与中国科学院大学合作提出的DiffBFR技术,该技术基于扩散概率模型,实现了对低质量人脸图像的高精度修复,为计算机视觉领域带来新突破。

千帆应用开发平台“智能体Pro”全新上线 限时免费体验

面向慢思考场景,支持低代码配置的方式创建“智能体Pro”应用

立即体验

在数字化时代,图像修复技术作为计算机视觉和图形学的重要分支,正逐步渗透至我们生活的每一个角落。从老照片的翻新到监控视频的清晰化处理,人脸修复技术以其独特的魅力,成为了众多应用场景中的关键技术。近日,美图影像研究院(MT Lab)与中国科学院大学的研究者们共同提出了一种基于扩散概率模型(Diffusion Probabilistic Models, DPM)的盲人脸图像修复新方法——DiffBFR,这一成果在ACM MM 2023大会上获得了广泛关注。

一、背景与挑战

盲人脸恢复(Blind Face Restoration, BFR)旨在从低质量(low-quality, LQ)的人脸图像中恢复出高质量(high-quality, HQ)的人脸图像,是计算机视觉领域的一项极具挑战性的任务。由于图像在传输或存储过程中可能遭受模糊、噪声、下采样和压缩伪影等多种退化因素的影响,导致图像信息严重损失,从而增加了人脸修复的难度。

传统的BFR方法多依赖于生成对抗网络(GAN),尽管这些方法在特定场景下取得了不错的效果,但仍然存在一些难以克服的问题。特别是在处理长尾分布特征时,GAN方法往往无法同时兼顾头部和尾部样本,导致修复图像出现明显的过平滑和细节消失现象。

二、DiffBFR的创新之处

DiffBFR技术的核心在于其创新性地采用了扩散概率模型(DPM)作为解决方案的基本框架。DPM在拟合真实数据分布的同时,能够较好地保留尾部特征,从而有效避免了GAN方法中存在的过平滑和细节消失问题。

具体而言,DiffBFR设计了两个关键模块:身份恢复模块(Identity Restoration Module, IRM)和纹理增强模块(Texture Enhancement Module, TEM)。

  1. 身份恢复模块(IRM)

    • 功能:该模块主要用于从低质量图像中恢复身份信息,保留结果中的人脸细节。
    • 创新点:提出了一种从LQ图像中加入部分噪声的截断采样方法,取代了传统的以LQ图像为条件、从纯高斯随机分布去噪的方法。这种方法在理论上缩小了DPM的理论证据下界(ELBO),从而恢复了更多的原始细节。
    • 实现方式:引入两个不同输入大小的级联条件扩散模型,以增强采样效果,降低直接生成高分辨率图像的训练难度。
  2. 纹理增强模块(TEM)

    • 功能:该模块用于对图像进行纹理打磨,使恢复结果更加接近真实图像数据。
    • 创新点:引入了一个无条件扩散模型,这是一个与LQ图像完全无关的模型。该模型在纯HQ图像上训练,有助于IRM在像素级空间中输出图像的正确分布。
    • 实现方式:利用时间步长截断采样技术,在保留身份信息的同时对像素级纹理进行打磨。

三、实验与效果

通过实验验证,DiffBFR在多个数据集上均表现出色,不仅在修复精度和准确性上超越了传统GAN方法,还在视觉效果上实现了显著提升。修复后的图像更加清晰、自然,细节更加丰富,更加符合人类的视觉感知。

四、实际应用

DiffBFR技术的应用前景广阔,可广泛应用于监控图像修复、老照片修复、人脸图像超分辨率等多个领域。在司法调查、历史研究、娱乐产业等多个方面都将发挥重要作用。

五、结论

DiffBFR技术的提出,标志着人脸修复技术迈上了一个新的台阶。通过引入扩散概率模型,DiffBFR在避免训练模式崩溃和拟合生成长尾分布方面表现出色,为计算机视觉和图形学领域带来了新的突破。我们有理由相信,在未来的日子里,DiffBFR技术将为我们带来更多惊喜和便利。


本文介绍了美图影像研究院(MT Lab)与中国科学院大学合作提出的DiffBFR技术,该技术以其独特的创新点和显著的效果,为计算机视觉领域的发展注入了新的活力。我们期待DiffBFR技术能够在更多领域得到应用和推广,为人们的生活带来更多便利和美好。

article bottom image

相关文章推荐

发表评论