一种引入注意力机制的人脸图像修复方法

著录项
  • CN202010433433.1
  • 20200521
  • CN111612718A
  • 20200901
  • 中山大学
  • 王高平;许曼玲;戴宪华
  • G06T5/00
  • G06T5/00 G06T5/40 G06T7/11 G06T7/194 G06K9/62

  • 广东省广州市海珠区新港西路135号
  • 广东(44)
摘要
本发明涉及一种引入注意力机制的人脸图像修复方法,该方法包括:(1)获取原始数据集并进行图像预处理,得到我们需要的人脸图像数据集并合理划分整理为测试集与数据集。(2)将训练数据集输入到引入上下文关注层的图像修复模型中进行训练,该模型在生成器网络中引入了两个并行的编码器网络,一个编码器网络用于进行卷积操作提取高级特征图像,另一个编码器用于引入上下文关注层网络,用于实现前景区域与背景区域之间的长程关联。(3)将测试数据集输入到训练好的人脸修复模型中,测试训练好的修复模型对于缺损人脸图像的修复能力。本发明中引入上下文关注层后,解决了卷积神经网络由于感受野大小有限导致修复模型无法充分利用背景区域信息的问题,实现了背景信息与前景区域的长程关联,充分利用了背景区域信息对前景区域进行填充。引入上下文关注层后,修复模型在一些细节纹理上取得了更好的修复效果,总体上也提升了人脸图像的修复效果。
权利要求

1.一种引入注意力机制的人脸图像修复方法,其特征在于,包括以下步骤:

(1)人脸图像采集,本发明中使用到的数据集来自于CelebA人脸数据集,我们从中随机挑选出40000张人脸图像。

(2)人脸图像划分,将选出的40000张人脸图像按照7比1的比例分成训练集与测试集,两部分中不包含相同的图像,训练集用于训练人脸图像修复模型,测试集用于测试训练好的修复模型的修复效果。

(3)人脸图像预处理,由于CelebA人脸数据集中包含许多背景信息,本发明中对原始CelebA图像进行人脸检测并剪切出人脸区域部分,并将得到的人脸区域部分调整为128×128的人脸图像,得到的人脸图像为本发明中的真实图像;对得到的人脸图像中心区域进行64×64的掩码处理得到缺损图像数据集,用于之后修复模型的训练与测试。

(4)训练修复模型,将经过预处理得到的128×128的人脸图像训练集输入到本发明中的修复模型中进行训练,经过生成器网络与判别器网络之间的对抗训练,不断提升生成器网络拟合样本的能力,保存最终训练好的修复模型。

(5)测试训练好的修复模型,将经过预处理的人脸测试集图像输入训练好的修复模型中,保存生成的修复图像,并从主观视觉感受和客观相似性评价指标两方面与真实图像进行对比,得到的结果代表最终修复模型对缺损人脸图像的修复能力。

2.根据权利要求1所述的一种引入注意力机制的人脸图像修复方法,其特征是:修复模型总体是一个WGAN-GP模型,由生成器网络和判别器网络两部分组成;训练过程中的的目标损失函数由三部分构成,分别为重建损失函数、对抗损失函数和感知损失函数;重建损失函数负责控制修复图像与真实图像在像素级别上保持相似,对抗损失函数负责生成器网络与判别器网络之间的博弈对抗训练,感知对抗损失负责修复图像与真实图像在细节纹理上保持相似性;另外,为了使前景区域与背景信息保持长程关联性,本发明在生成器网络中引入了上下文关注层。

3.根据权利要求2所述的一种引入注意力机制的人脸图像修复方法,其特征是,上下文关注层的工作原理为:

(1)掩码图像进入上下文关注层后,首先将背景区域与前景区域区分开,并将背景区域划分为多个3×3的补丁块。

(2)将大小3×3的背景补丁块整合为3×3的卷积核,并对前景区域进行相应的卷积操作,得到对应的多个重建前景。

(3)通过计算各个重建前景与目标前景区域的内积值得到两者之间的相似性,再通过softmax函数归一化后得到各个背景补丁块在前景区域上对应的注意力得分。

(4)以得到的注意力得分为权值,加权叠加各个重建前景,得到最终背景区域信息对前景区域的重建结果,参与最后图像修复的过程。

4.根据权利要求1所述的一种引入注意力机制的人脸图像修复方法,其特征是,所述步骤(5)具体为:将经过预处理的测试人脸图像数据集输入到训练好的修复模型中,得到生成的修复人脸图像并保存,将生成的修复人脸图像与真实图像做对比,并计算两者之间的均方误差MSE、峰值信噪比PSNR以及平均结构相似性MSSIM,结合主观评价以及三个客观评价指标,评估修复模型的修复能力。

说明书
技术领域

本发明有关于图像修复领域,具体涉及一种引入注意力机制的人脸图像修复方法。

信息化时代的到来使得数字图像信息成为人们相互之间进行信息传递的主要方式,海量的图像信息在获取、压缩、传输等过程中难免会出现部分信息丢失的问题,最大程度的恢复缺损图像丢失的信息,在许多领域都有重大意义。传统的图像修复方法主要可以分为基于结构和基于纹理两大类,它们在小尺度信息丢失的情况下能取得比较好的修复效果,但缺损面积变大,其修复效果急剧下降。深度学习方法的出现,尤其是生成对抗网络与深度卷积神经网络的出现,使得我们可以在更大面积缺损的图像修复上取得较好的效果,并且修复的方式更加智能化,这是传统的图像修复方法无法比拟的。人脸图像的修复在许多领域也有比较重要的价值,尤其是在公安刑侦领域,一种高效智能的修复算法能够很大程度上减轻刑侦人员的工作任务。

基于WGAN-GP的修复模型对于图像修复的过程可以分为编码阶段和解码阶段。在编码阶段,修复模型利用卷积神经网络下采样的方式不断提取缺损图像的特征图像;在解码阶段,利用卷积神经网络进行对应的上采样,将编码得到的特征图像恢复为人脸图像。但由于卷积神经网络感受野大小有限,无法实现前景区域与背景区域之间的长程关联,这限制了模型的修复效果。为了增强前景区域与背景区域之间的关联性,本发明在修复模型中引入了注意力机制,通过引入一种上下文关注层的方式加强了前景区域与背景区域之间的关联,提升了模型的整体修复效果。

为了实现引入注意力机制的人脸图像修复方法,本发明提出方法具体步骤如下:

(1)人脸图像采集,本发明中使用到的数据集来自于CelebA人脸数据集,我们从中随机挑选出40000张人脸图像。

(2)人脸图像划分,将选出的40000张人脸图像按照7比1的比例分成训练集与测试集,两部分中不包含相同的图像,训练集用于训练人脸图像修复模型,测试集用于测试训练好的修复模型的修复效果。

(3)人脸图像预处理,由于CelebA人脸数据集中包含许多背景信息,本发明中对原始CelebA图像进行人脸检测并剪切出人脸区域部分,并将得到的人脸区域部分调整为128×128的人脸图像,得到的人脸图像为本发明中的真实图像。对得到的人脸图像中心区域进行64×64的掩码处理得到缺损图像数据集,用于之后修复模型的训练与测试。

(4)训练修复模型,将经过预处理得到的128×128的人脸图像训练集输入到本发明中的修复模型中进行训练,经过生成器网络与判别器网络之间的对抗训练,不断提升生成器网络拟合样本的能力,保存最终训练好的修复模型。

(5)测试训练好的修复模型,将经过预处理的人脸测试集图像输入训练好的修复模型中,保存生成的修复图像,并从主观视觉感受和客观相似性评价指标两方面与真实图像进行对比,得到的结果代表最终修复模型对缺损人脸图像的修复能力。

所述步骤(4)中图像修复模型总体上是一个生成对抗网络,其结构如图1所示,主要是通过生成器网络与判别器网络相互之间进行博弈对抗训练,不断提升生成器网络拟合数据的能力。

在本发明修复网络模型中,为了实现前景区域与背景信息之间的长程关联性,在生成器网络中引入了一种上下文关注层。上下文关注层利用背景区域信息来处于前景区域的填充,加强了前景区域与背景区域信息之间的联系。

上下文关注层的基本工作流程如图3所示。首先将缺损图像背景区域与前景区域划分开,并将背景区域划分为多个3×3的补丁块,接着将这些3×3的背景补丁块整合为3×3的卷积核,分别对前景区域进行对应的卷积操作,得到多个重建前景;计算各个重建前景与前景区域之间的内积值,再经过softmax函数归一化得到对应的注意力得分,最后将对应的注意力得分作为权值,将各个重建前景区域加权求和得到最终的重建前景参与缺损图像的修复过程。

为了将上下文关注层融入我们的修复模型中,我们在生成器网络中引入了两个并行编码器,一个负责引入上下文关注层,实现前景区域与背景信息之间的长程关联;另一个负责卷积操作,提取缺损图像的特征图。将两个编码器的结果经过concat函数进行特征聚合,最后再经过一个解码器输出最终生成的修复图像。生成器结构如图4所示。

所述步骤(5)中将测试图像输入训练好的修复模型中测试模型的修复效果,分别将引入注意力机制前后的修复模型对测试集进行测试,对比两种修复模型得到的修复图像,并与真实图像进行对比,计算它们与真实图像之间的均方误差MSE、峰值信噪比PSNR以及平均结构相似性MSSIM。

与现有技术相比,本发明的有益效果是:

本发明通过在修复模型生成器网络中引入了注意力机制,解决了卷积神经网络中感受野大小有限带来的问题,实现了前景区域与背景区域信息之间的长程关联。改善了修复模型对于一些高级特征信息的修复,提升了修复模型的整体修复效果。

图1为生成对抗网络结构示意图。

图2为本发明图像预处理过程中HOG特征提取流程图。

图3为本发明提出的上下文关注层工作原理流程图。

图4为本发明修复模型生成器网络结构示意图。

下面对本发明作进一步说明。

本发明的具体实施过程如下:

(1)图像采集,下载公开的CelebA人脸数据集,从大约200000张原始人脸图像中挑选出40000张人脸图像,并对挑选出的原始人脸图像进行重命名,如1.jpg,2.jpg,3.jpg,…,40000.jpg。

(2)图像划分,将40000张原始人脸图像按照7比1的比例划分为训练集与测试集,其中35000张训练集用于之后训练修复模型,5000张测试集用于评估训练好的修复模型的修复性能。

(3)图像预处理,为了裁剪掉原始CelebA数据集人脸图像中多余的背景,使用Dlib库中的人脸检测算法—梯度方向直方图(HOG)对原始CelebA图像进行人脸检测并剪切出人脸区域部分。HOG工作流程如图2所示,首先将图像各个区域不同方向的梯度值累计叠加得到一个特征直方图,再通过SVM分类器分类后输出我们需要的人脸区域图像。将得到的人脸部分区域输出为128×128像素大小的图像,作为本发明中真实数据图像;对得到的真实图像进行二值掩码处理,将中间区域位置大小为64×64的部分掩码,得到的掩码图像作为本发明中的缺损图像。

(4)训练修复模型,本发明中修复模型整体是一个WGAN-GP网络,由一个生成器和两个判别器构成。生成器负责拟合数据,生成最终的修复图像;两个判别器分别为局部判别器和全局判别器,局部判别器负责判定修复区域与真实缺损区域之间的差异,全局判别器负责判定整张修复图像与真实图像之间的差异,使用两个判别器有利于平滑修复区域边缘与背景区域边缘的衔接,提升模型的整体修复能力。

在训练过程中,本发明使用了三种损失函数,重建损失函数、对抗损失函数以及感知损失函数。重建损失函数用于保证修复图像与真实图像在像素级别上的相似性,对抗损失函数作为生成对抗网络训练的主要目标函数,负责指导生成的图像向真实图像逐渐逼近,感知对抗损失用于提升生成的修复图像在一些细节纹理上与真实图像更加相似。三种损失函数联合作为修复模型的目标函数,提升了修复模型的整体修复能力。

本发明生成器网络中引入了两个并行的编码器网络,如图3所示,编码器1中引入了上下文关注层,实现了前景区域与背景信息之间的长程关联。两个并行编码器得到的特征图像经过concat函数聚合后,进入解码器网络部分得到生成的修复图像。

具体实施过程中,为了减小GPU内存压力,训练时对输入数据集进行了批处理,Batchsize设置为16,同时使用了学习率为0.0001的Adam优化算法,一阶矩估计指数衰减参数和二阶矩估计指数衰减参数beta1和beta2依旧设置为0.5和0.9,在数据集的迭代次数上,将epoch设置为80,在GPU上每一次训练的时长大概需要2天。训练完保存生成的修复模型。

(5)测试模型修复效果,将预处理过后得到的测试数据集图像输入到训练好的修复模型中,保存模型生成的修复图像,并与真实图像进行对比,计算生成的修复图像与真实图像之间的均方误差MSE、峰值信噪比PSNR以及平均结构相似性MSSIM。

本发明在引入注意力机制后,修复模型得到的修复图像与真实图像在均方误差上由0.0269下降为0.0246,在峰值信噪比PSNR上由29.553上升到30.018,在平均结构相似性MSSIM上由0.9014上升到0.9168,三种客观评价指标都说明了引入注意力及之后,修复模型的修复能力得到了提升。

本文发布于:2024-09-24 16:32:46,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/73595.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议