DiffBFR:革新人脸修复技术,美图与国科大共筑视觉新高度
2024.08.28 17:17浏览量:11简介:本文介绍了美图影像研究院(MT Lab)与中国科学院大学合作提出的DiffBFR技术,该技术基于扩散概率模型,实现了对低质量人脸图像的高精度修复,为计算机视觉领域带来新突破。
千帆应用开发平台“智能体Pro”全新上线 限时免费体验
面向慢思考场景,支持低代码配置的方式创建“智能体Pro”应用
在数字化时代,图像修复技术作为计算机视觉和图形学的重要分支,正逐步渗透至我们生活的每一个角落。从老照片的翻新到监控视频的清晰化处理,人脸修复技术以其独特的魅力,成为了众多应用场景中的关键技术。近日,美图影像研究院(MT Lab)与中国科学院大学的研究者们共同提出了一种基于扩散概率模型(Diffusion Probabilistic Models, DPM)的盲人脸图像修复新方法——DiffBFR,这一成果在ACM MM 2023大会上获得了广泛关注。
一、背景与挑战
盲人脸恢复(Blind Face Restoration, BFR)旨在从低质量(low-quality, LQ)的人脸图像中恢复出高质量(high-quality, HQ)的人脸图像,是计算机视觉领域的一项极具挑战性的任务。由于图像在传输或存储过程中可能遭受模糊、噪声、下采样和压缩伪影等多种退化因素的影响,导致图像信息严重损失,从而增加了人脸修复的难度。
传统的BFR方法多依赖于生成对抗网络(GAN),尽管这些方法在特定场景下取得了不错的效果,但仍然存在一些难以克服的问题。特别是在处理长尾分布特征时,GAN方法往往无法同时兼顾头部和尾部样本,导致修复图像出现明显的过平滑和细节消失现象。
二、DiffBFR的创新之处
DiffBFR技术的核心在于其创新性地采用了扩散概率模型(DPM)作为解决方案的基本框架。DPM在拟合真实数据分布的同时,能够较好地保留尾部特征,从而有效避免了GAN方法中存在的过平滑和细节消失问题。
具体而言,DiffBFR设计了两个关键模块:身份恢复模块(Identity Restoration Module, IRM)和纹理增强模块(Texture Enhancement Module, TEM)。
身份恢复模块(IRM):
- 功能:该模块主要用于从低质量图像中恢复身份信息,保留结果中的人脸细节。
- 创新点:提出了一种从LQ图像中加入部分噪声的截断采样方法,取代了传统的以LQ图像为条件、从纯高斯随机分布去噪的方法。这种方法在理论上缩小了DPM的理论证据下界(ELBO),从而恢复了更多的原始细节。
- 实现方式:引入两个不同输入大小的级联条件扩散模型,以增强采样效果,降低直接生成高分辨率图像的训练难度。
纹理增强模块(TEM):
- 功能:该模块用于对图像进行纹理打磨,使恢复结果更加接近真实图像数据。
- 创新点:引入了一个无条件扩散模型,这是一个与LQ图像完全无关的模型。该模型在纯HQ图像上训练,有助于IRM在像素级空间中输出图像的正确分布。
- 实现方式:利用时间步长截断采样技术,在保留身份信息的同时对像素级纹理进行打磨。
三、实验与效果
通过实验验证,DiffBFR在多个数据集上均表现出色,不仅在修复精度和准确性上超越了传统GAN方法,还在视觉效果上实现了显著提升。修复后的图像更加清晰、自然,细节更加丰富,更加符合人类的视觉感知。
四、实际应用
DiffBFR技术的应用前景广阔,可广泛应用于监控图像修复、老照片修复、人脸图像超分辨率等多个领域。在司法调查、历史研究、娱乐产业等多个方面都将发挥重要作用。
五、结论
DiffBFR技术的提出,标志着人脸修复技术迈上了一个新的台阶。通过引入扩散概率模型,DiffBFR在避免训练模式崩溃和拟合生成长尾分布方面表现出色,为计算机视觉和图形学领域带来了新的突破。我们有理由相信,在未来的日子里,DiffBFR技术将为我们带来更多惊喜和便利。
本文介绍了美图影像研究院(MT Lab)与中国科学院大学合作提出的DiffBFR技术,该技术以其独特的创新点和显著的效果,为计算机视觉领域的发展注入了新的活力。我们期待DiffBFR技术能够在更多领域得到应用和推广,为人们的生活带来更多便利和美好。

发表评论
登录后可评论,请前往 登录 或 注册