基于卷积神经网络的人脸表情识别研究[Word文档]

关键字:基于卷积神经网络的人脸表情识别研究
本文为Word文档,感谢你的关注!
摘要:随着人机交互技术和机器学习技术的发展,人脸表情识别技术逐渐成为研究热点。针对传统人脸表情识别算法鲁棒性差、表情特征提取能力不足的问题,提出一种改进的基于卷积神经网络的人脸表情识别算法。首先对人脸图像进行预处理,检测并分割出人脸关键点的部分图像,然后输入到包含卷积神经网络通道和卷积稀疏自编码(CSAE)预训练通道的双通道模型中。其中卷积神经网络通道部分使用了批量正则化(Batch Normalization)和ReLU
激活函数,加快了模型训练速度,解决了梯度消失问题,同时增加了模型的非线性表达能力。通过引入Dropout技术,解决了网络的过拟合问题。在另一个通道,对输入的人脸表情图像增加了卷积稀疏自编码进行无监督预处理。实验结果表明,该算法在JAFFE、CK+人脸表情数据集上均获得了较好的识别效果。
关键词:人脸表情识别;卷积神经网络;卷积稀疏自编码;特征提取;无监督预处理
DOIDOI:10.11907/rjdk.172863
TP301
A16727800(2018)001002804
Abstract:With the development of humancomputer interaction technology and machine learning technology,facial expression recognition technology has gradually become an important field. In this paper, we proposean improved algorithm based on Convolutional Neural Network (CNN) for face expression recognition due to the lack of robustness
of traditional facial expression recognition algorithm and availabe feature extraction
杨昌济ability.First of all,we pretrain the facial image and detect, segment face. The segmented face applied to a dualchannel model which, includes a convolutional neural network channel and an extra pretraining channel by sparse convolutional autoencoders. The training speed is improved according to Batch Normalization and the ReLU activation function by convolutional neural network channel, and solve the problem of gradient disappearance.This modelcan increase nonlinear expression ability of the model. At the same time,the introduction of dropout technology also remove the problem of overfitting. Another channel that contains a sparse convolutional autoencoder aims to deal with input facial expression images. Experimental results involved this algorithm demon
asp 2.0
stratean improved recognition ability on the JAFFE and CK+dataset.
Key Words:facial expression recognition;convolutional neural network;feature extraction;sparse convolutional autoencoders;unsupervised pretraining
0引言
人类的情感认知一直是人机交互技术研究的重要课题,而人脸表情是传达人类情感和认知的重要方式。面部表情�化能够准确传达人类除语言表达之外的心理活动变化。人脸表情识别系统一般包括人脸检测、图像预处理、特征提取和表情分类4部分。其中表情的特征提取和分类是人脸表情技术研究的重点,关系着最终的表情判别结果。
目前表情识别特征的提取方法主要包括:①几何特征提取,如面部的几何特征:眼睛、嘴巴、眉毛等;②频率特征提取法,如Gabor小波变换;③运行特征提取,如光流法。表情分类方法主要包括线性分类器、K最近邻、弹性图匹配法、支持向量机。Burkert等[6]提出DeXpression深度网络模型,在MMI数据库有较好的识别效果,识别率达到
98.3%;Chai等[7]提出了结合Gabor小波和深度信念网络(DBN)的人脸表情识别方法,在遮挡的情况下识别效果较好;Masci[8]提出了基于无监督的堆叠深度卷积自编码方法应用于层次特征提取。
2006年Hinton[9]在《自然》杂志上发表了利用RBM 编码的深层神经网络,利用单层的RBM自编码预训练使深层的神经网络训练变得可能。深度学习方法已成功应用于语音识别、计算机视觉和自然语音处理等领域,其中最具代表性的就是卷积神经网络(CNN)。1融合卷积神经网络与卷积稀疏自编码的网络模型
阿尼姆斯阿本文针对卷积神经网络在几何变换、形变具有一定程度不变性等方面优势,同时为进一步减少人脸表情图像易受到光照、遮挡和姿态等外界因素影响,提高自身的鲁棒性,提出一种改进的结合了卷积神经网络和卷积稀疏自编码的人脸表情识别算法。具体网络模型如图1所示。
1.1卷积稀疏自编码器
卷积稀疏自编码器是在自编码器的基�A上改进而来。自编码是一种基于预训练阶段的无监督学习算法,通过对原始数据添加约束条件进行权重初始化,使hw,b(x)≈x,输出接近于输入x。卷积自编码(CAE)是把之前自编码中内积的操作转换为卷积的操作[1],卷积核的值决定了卷积操作结果,可以设置不同卷积核进行去噪[2]、模糊变换等处理。
本文的卷积稀疏自编码(CSAE)是在卷积自编码(CAE)基础上进行的改进。通过采用WTA(WinnerTakeAll)[3]方法,加入稀疏约束条件后[4],能够有效地提取神经网
络特征,计算量较少。对于每一个特征图,保留RELU激活函数处理的最大值,并把其它值进行置0处理。采取WTA方法进行每一层的稀疏化处理,相比于收缩正则化方法更加有效[5]。WTA方法只适用于训练阶段,网络训练完成与权重确定后则消失。网络则会继续把图像的有效信息传入到下一层,而不是传入隐藏层的一个非零值进行特征映射。经过预训练之后,为了减少计算量、减少模型参数,选择预训练后固定权重[10]。
由于无监督预训练数据是人脸图像,图像中相邻像素之间的相关性非常强,可以认为训练输入是冗余的,需要进行白化处理来降低输入数据的冗余。本文采用ZCA进行白化处理,在不降低维数的情况下,可以使处理后的数据更接近原始数据。使用无监督预处理后的卷积稀疏自编码器,能够让模型学习到最佳的滤波器,并用最佳滤波器代替传统卷积神经网络的原有滤波器。具体流程如图2所示。
空间分布1.2卷积神经网络
卷积神经网络是一个多层感知神经网络,包含卷积层、下采样层与全连接层。主要思想包括局部感知、权重共享和子采样[11]。本文改进的卷积神经网络有两个卷积层(C1,C2)和两个下采样层(maxpooling),并用ReLU(修正线性单元)激活函数代替传统的Sigmoid激活函数。在激活前加入Batch Normalization(BN)[12]进行规范化操作,避免梯度消失,最后在全连接处加入Dropout[13]技术防止过拟合。卷积神经网络通道中,卷积核大小为5×5,采样核大小为2×2,Dropout系数为0.5。具体网络模型如图3所示。女人的决策
1.2.1卷积层
在卷积神经网络通道中,C1、C2代表卷积层。通常定义卷积层为特征提取层,通过可训练的滤波器对输入图像或上一层特征图像进行卷积处理,得到一个二维特征图。根据输入图像大小定义滤波器卷积核大小,通过不同滤波器处理可以得到不同特征图。每一个卷积后特征图都对应一个大小
相同、方向不同的卷积核。每一个卷积层都有很多特征图,假设定义当前卷积层为l,则第j个特征图表达式如下:神经元x(k)经过(3)、(4)变换,会逐渐形成均值为0、方差为1的正太分布,从而使反向传播变化区域扩大,收敛速度也会加快。
1.2.4线性单元修正
修正线性单元(Rectified Linear Unit)来源于2003年Lennie P对人脑神经细胞稀疏性的研究,其优势在于其具有单侧抑制、稀疏激活性、相对宽阔的兴奋边界。实验结果表明,近似生物神经激活函数ReLU相比于Sigmoid函数效果更好。将ReLU激活函数替代其它激活函数,可有效添加网络稀疏性,因为ReLU激活函数会使一部分神经元输出为0。在神经网络的正确传播中,ReLU激活函数只需要一个阈值即可得到激活值,而不需要经过复杂的运算,从而加快了计算速度。
1.2.5Dropout技术
Dropout技术最早由Hinton[13]在2012年提出,与L1和L2范式技术不同,其基本思想是在每次训练时,让一半的特征检测器停止工作,可以使其有50%的概率被移除神经元,而不依赖其他神经元。实验结果表明该做法可以提供网络泛化能力,防止过拟合。每一次Dropout后,都可以认为训练后的网络模型为整个网络的子网络,从而进一步减小计算量。
2实验与结果分析
2.1实验平台血源性疫苗
实验的硬件平台为:联想R720i77700CPU3.6GHz,软件平台为:Keras深度学习框架、Python语言。
2.2JAFFE 数据集
该数据集共有213张人表情图片,由10位日本女性人脸的共7种人脸表情组成。每种人脸表情有3~4幅图像,每

本文发布于:2024-09-23 07:16:54,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/53848.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:卷积   表情   人脸   神经网络   识别
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议