人脸识别之表情识别(一)--传统方法概述

⼈脸识别之表情识别（⼀）--传统⽅法概述

⼈类通过视觉、味觉、听觉、嗅觉和触觉五个器官来认识世界。我们把⽤眼睛观察到的视觉信息叫做图像信息，如⼈脸的表情信息。⼀般的表情识别可以⽤单个感官完成，也可以⽤多个感官相配合来完成。它是⼀个整体识别和特征识别共同作⽤的结果。具体说来，远处辨认⼈，主要是整体识别，⽽在近距离⾯部表情识别中，特征部件识别则更重要。另外，⼈脸上各部件对识别的贡献也不相同，如眼睛和嘴巴的重要程度⼤于⿐⼦。根据对⼈脑的研究表明，⼈脸的表情识别和⼈脸识别虽然存在联系，但总体说是分开、并⾏的处理过程。

随着⼈脸的计算机处理技术（包括⼈脸检测和⼈脸识别）不断完善，利⽤计算机进⾏⾯部表情分析也就成为可能。总体⽽⾔，表情分析是⼀个⾮常困难的研究⽅向，主要体现在表情特征提取的准确性和有效性上。尤其是后者，因为各种表情本⾝体现在各个特征点运动上的差别就不是很⼤，例如：嘴巴张开并不代表就是笑，也有可能是哭和惊讶等。

⼈脸表情识别技术⽬前主要的应⽤领域包括⼈机交互、安全、机器⼈制造、医疗、通信和汽车领域等。

1971年，⼼理学家Ekman与Friesen的研究最早提出⼈类有六种主要情感，每种情感以唯⼀的表情来反映⼈的⼀种独特的⼼理活动。这六种情感被称为基本情感，由愤怒（anger）、⾼兴(happiness)、悲伤 (sadness)、惊讶(surprise)、厌恶(disgust)和恐惧(fear)组成。

以下所讲到的⼀些⽅法都是从⼈脸识别演变⽽来，结合表情识别的特点⽽运⽤。

⽬前所⽤到的识别特征主要有：灰度特征、运动特征和频率特征三种。灰度特征是从表情图像的灰度值上来处理，利⽤不同表情有不同灰度值来得到识别的依据。这种情况下要求图像对光照、⾓度等因素要进⾏充分的预处理，使获得的灰度值具有归⼀性。运动特征利⽤了不同表情情况下⼈脸的主要表情点的运动信息来进⾏识别。频域特征主要是利⽤了表情图像在不同的频率分解下的差别，速度快是其显著特点。

在具体的表情识别⽅法上，⽅向主要有三个：整体识别法和局部识别法、形变提取法和运动提取法、⼏何特征法和容貌特征法。

整体识别法中，⽆论是从脸部的变形出发还是从脸部的运动出发，都是将表情⼈脸作为⼀个整体来分析，出各种表情下的图像差别。其中典型的⽅法有：基于特征脸的主分量分析（Principal Component Analysis，PCA）法、独⽴分量分析法（Independent Component Analysis，ICA）、Fisher线性判别法（Fisher’s Linear Discriminants，FLD）、局部特征分析（Local Feature Analysis，LFA）、Fisher运动法（Fisher Actions）、隐马尔科夫模型法（Hide Markov Model，HMM）和聚类分析法。收获时间到

局部识别法就是将⼈脸的各个部位在识别时分开，也就是说各个部位的重要性是不⼀样。⽐如说在表

情识别时，最典型的部位就是眼睛、嘴、眉⽑等，这些地⽅的不同运动表⽰了丰富的⾯部表情。相⽐较⽽⾔，⿐⼦的运动就较少，这样在识别时就可以尽量少的对⿐⼦进⾏分析，能加快速度和提⾼准确性。其中最典型的⽅法就是脸部运动编码分析法（Facial Actions Code System，FACS）和MPEG-4中的脸部运动参数法。其他的还有局部主分量分析法（Local PCA）、Gabor⼩波法和神经⽹络法。⼈脸运动编码系统FACS (Facial Action Coding System)，根据⾯部肌⾁的类型和运动特征定义了基本形变单元AU（Action Unit），⼈脸⾯部的各种表情最终能分解对应到各个AU上来，分析表情特征信息，就是分析⾯部AU的变化情况，

FACS有两个主要弱点：1.运动单元是纯粹的局部化的空间模板；2.没有时间描述信息，只是⼀个启发式信息

形变提取法是根据⼈脸在表达各种表情时的各个部位的变形情况来识别的，主要的⽅法有：主分量分析法（PCA）、Gabor⼩波、运动模板法（Active Shape Model，ASM）[7]和点分布模型（Point Distribution Model，PDM）法。

运动法是根据⼈脸在表达各种特定的表情时⼀些特定的特征部位都会作相应的运动这⼀原理来识别的。在上⾯提到的6种基本的表中，脸上⼀些固定的特征点（或部位）的运动⽅向或趋势是固定的，⽐如说⼈在恐惧的时候，眼睛张开的幅度应该⽐正常时要⼤，嘴⼀般是张开的等等，具体情况见表1。典

型的识别⽅法有：光流法（Optical Flow）[8]和MPEG-4中的脸部运动参数法（Face Animation Parameter FAP）。

⼏何特征法是根据⼈的⾯部的各个部分的形状和位置（包括嘴、眼睛、眉⽑、⿐⼦）来提取特征⽮量，这个特征⽮量来代表⼈脸的⼏何特征。根据这个特征⽮量的不同就可以识别不同的表情。重要的⽅法是：基于运动单元（AU）的主分量分析法。在容貌特征法中，主要是将整体⼈脸或者是局部⼈脸通过图像的滤波，以得到特征⽮量。常⽤的滤波器是Gabor⼩波。

当然，这三个发展⽅向不是严格独⽴，它们只是从不同侧⾯来提取所需要的表情特征，都只是提供了⼀种分析表情的思路，相互联系，相互影响。有很多种⽅法是介于两者甚⾄是三者之间。例如说⾯部运动编码系统法是局部法的⼀种，同时也是从脸部运动上考虑的等等。

⼈脸表情识别的过程和⽅法

1、表情库的建⽴

⽬前，研究中⽐较常⽤的表情库主要有:

美国CMU机器⼈研究所和⼼理学系共同建⽴的Cohn-Kanade AU-Coded Facial Expression Image Database(简称CKACFEID)⼈脸表情数据库;

⽇本ATR建⽴的⽇本⼥性表情数据库(JAFFE)，它是研究亚洲⼈表情的重要测试库

fer2013⼈脸数据集，可以从kaggle⽹站上下载

更多库--->

2、表情识别:

（1）图像获取：通过摄像头等图像捕捉⼯具获取静态图像或动态图像序列。

（2）图像预处理：图像的⼤⼩和灰度的归⼀化，头部姿态的矫正，图像分割等。

⽬的：改善图像质量，消除噪声，统⼀图像灰度值及尺⼨，为后序特征提取和分类识别打好基础

主要⼯作：⼈脸表情识别⼦区域的分割以及表情图像的归⼀化处理(尺度归⼀和灰度归⼀)

（3）特征提取：将点阵转化成更⾼级别图像表述—如形状、运动、颜⾊、纹理、空间结构等, 在尽可能保证稳定性和识别率的前提下，对庞⼤的图像数据进⾏降维处理。

特征提取的主要⽅法有：提取⼏何特征、统计特征、频率域特征和运动特征等

1）采⽤⼏何特征进⾏特征提取主要是对⼈脸表情的显著特征，如眼睛、眉⽑、嘴巴等的位置变化进⾏定位、测量，确定其⼤⼩、距离、形状及相互⽐例等特征，进⾏表情识别

优点：减少了输⼊数据量

缺点：丢失了⼀些重要的识别和分类信息，结果的精确性不⾼

防老剂2642）基于整体统计特征的⽅法主要强调尽可能多的保留原始⼈脸表情图像中的信息，并允许分类器发现表情图像中相关特征，通过对整幅⼈脸表情图像进⾏变换，获取特征进⾏识别。

主要⽅法：PCA（主成分分析）和ICA（独⽴主元分析）

PCA⽤⼀个正交维数空间来说明数据变化的主要⽅向优点：具有较好的可重建性缺点：可分性较差

ICA可以获取数据的独⽴成份，具有很好的可分性

基于图像整体统计特征的提取⽅法缺点：外来因素的⼲扰（光照、⾓度、复杂背景等）将导致识别率下降

3）基于频率域特征提取: 是将图像从空间域转换到频率域提取其特征（较低层次的特征）

主要⽅法：Gabor⼩波变换

⼩波变换能够通过定义不同的核频率、带宽和⽅向对图像进⾏多分辨率分析，能有效提取不同⽅向不同细节程度的图像特征并相对稳定，但作为低层次的特征，不易直接⽤于匹配和识别，常与ANN 或SVM 分类器结合使⽤，提⾼表情识别的准确率。

4）基于运动特征的提取：提取动态图像序列的运动特征（今后研究的重点）

主要⽅法：光流法

光流是指亮度模式引起的表观运动，是景物中可见点的三维速度⽮量在成像平⾯上的投影，它表⽰景物表⾯上的点在图像中位置的瞬时变化，同时光流场携带了有关运动和结构的丰富信息

光流模型是处理运动图像的有效⽅法，其基本思想是将运动图像函数f(x, y,t)作为基本函数，根据图像强度守恒原理建⽴光流约束⽅程，通过求解约束⽅程，计算运动参数。

优点：反映了表情变化的实质，受光照不均性影响较⼩

缺点：计算量⼤

4）分类判别：包括设计和分类决策

在表情识别的分类器设计和选择阶段，主要有以下⽅法：⽤线性分类器、神经⽹络分类器、⽀持向量机、隐马尔可夫模型等分类识别⽅法

5.1）线性分类器：假设不同类别的模式空间线性可分，引起可分的主要原因是不同表情之间的差异。人脸识别器

5.2）神经⽹络分类器：⼈⼯神经⽹络(Artificial Neural Network,ANN)是⼀种模拟⼈脑神经元细胞的⽹络结构，它是由⼤量简单的基本元件—神经元，相互连接成的⾃适应⾮线性动态系统。将⼈脸特征的坐标位置和其相应的灰度值作为神经⽹络的输⼊，ANN可以提供很难想象的复杂的类间分界⾯。

神经⽹络分类器主要有：多层感知器、BP⽹、RBF⽹

缺点：需要⼤量的训练样本和训练时间，不能满⾜实时处理要求

5.3）⽀持向量机(SVM)分类算法：泛化能⼒很强、解决⼩样本、⾮线性及⾼维模式识别问题⽅⾯表、新的研究热点

基本思想：对于⾮线性可分样本，⾸先通过⾮线性变换将输⼊空间变换到⼀个⾼维空间，然后在这个新空间中求取最优线性分界⾯。这种⾮线性变换通过定义适当的内积函数实现，常⽤的三种内积函数为：多项式内积函数、径向基内积函数、Sigmoid内积函数

5.4）隐马尔可夫模型(Hidden Markov Models, HMM)：特点：统计模型、健壮的数学结构，适⽤于动态过程时间序列建模，具有强⼤的模式分类能⼒，理论上可处理任意长度的时序，应⽤范围⾮常⼴泛。

优点：运⽤HMM⽅法能够⽐较精确的描绘表情的变化本质和动态性能

5.5）其他⽅法：

基于⼈脸物理模型的识别⽅法，将⼈脸图像建模为可变形的3D⽹格表⾯，把空间和灰度放在⼀个3D空间中同时考虑。

基于模型图像编码的⽅法是使⽤遗传算法来编码、识别与合成各种不同的表情

四、研究展望

（1）鲁棒性有待提⾼：

外界因素（主要是头部偏转及光线变化的⼲扰）

采⽤多摄像头技术、⾊彩补偿技术予以解决，有⼀定效果，但并不理想

（2）表情识别计算量有待降低è确保实时性的要求

（3）加强多信息技术的融合

⾯部表情不是唯⼀的情感表现⽅式，综合语⾳语调、脉搏、体温等多⽅⾯信息来更准确地推测⼈的内⼼情感，将是表情识别技术需要考虑的问题

附现阶段具体的⼈脸表情识别⽅法（其实，从这⾥可以看出，基本就是handcrafted Features + 浅层分类器）

⼈脸表

情识别

⽅法

⽅法简单描述优点缺点

稀疏表⽰⽤稀疏表⽰法对样本库进⾏描述，建⽴超完备⼦空间，重

构并观察残差，最后通过稀疏系数进⾏分类

操作简单，可以做前期的基础实

验，有⼀定的鲁棒性

描述对象必须要是稀疏的，降低

了实际应⽤价值，对于样本要求

也⽐较⾼

Gabor 变换通过定义不同的核频率、带宽和⽅向对图像进⾏多分辨率

分析，能有效提取不同⽅向不同细节程度的图像特征并相

对稳定, 常与ANN 或SVM 分类器结合使⽤，提⾼表情识光纤调整架

别的准确率

在频域和空间域都有较好的分辨

能⼒，有明显的⽅向选择性和频制作糖果盒

率选择特性

作为低层次的特征，不易直接⽤

于匹配和识别，识别准确率也不是

很⾼，样本较少的条件下识别准

确率也较低

主成分分析和线性判别尽可能多的保留原始⼈脸表情图像中的信息，并允许分类

器发现表情图像中相关特征，通过对整幅⼈脸表情图像进

⾏变换，获取特征进⾏识别

具有较好的可重建性缺点：可

分性较差

外来因素的⼲扰（光照、⾓度、

复杂背景等）将导致识别率下降

⽀持向量机作为分类器做⼈脸识别，在表情识别时⼀般和Gabor滤波

器⼀起使⽤作为分类器

平板天线在⼩样本下的识别效果较为理

想，可以做实时性的表情识别

样本较⼤时，计算量和存储量都

很⼤，识别器的学习也很复杂

光流法对运动特征提取是将运动图像函数f (x,y,t)作为基本函数，根据图像强度

守恒原理建⽴光流约束⽅程，通过求解约束⽅程，计算运

动参数

反映了⼈脸表情变化的实际规

律，受外界环境的影响较⼩，⽐

如光照条件变化时，识别率不会

有太⼤变化

识别模型和算法较复杂，计算量

⼤

图像匹配法通过使⽤弹性图匹配的⽅法将标记图和输⼊⼈脸图像进⾏

匹配

允许⼈脸旋转，和能够实时处理会受到其他部位特征的影响，如

眼镜，头发等

隐马尔可夫模型由观察的⾯部表情序列及模型去计算观察⾯部表情序列的

概率，选⽤最佳准则来决定状态的转移；据观察的⾯部表

情序列计算给定的模型参数

识别准确率较⾼，平均在97%

以上

对前期的⾯部表情序列模型要求

较⾼，这对表情识别算法的准确

率影响也较⼤

其他⽅法如：矩阵分解法以NMF为例，分解后的基图像矩阵和系数矩阵中的元素

均是⾮负的。将表征⼈脸各部分的基图像进⾏线性组合从

⽽表征整个表情图像。

需要的样本较少，在⽆遮挡时识

别准确率90%以上

受外界环境影响较⼤，识别准确

率在嘴巴受到遮挡时，准确率只

有80%左右

本文发布于:2024-09-24 13:22:44，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/2/333526.html

上一篇：人脸识别要素

下一篇：人脸特征提取与识别(参考)

标签：表情识别图像特征运动信息变化分类器

留言与评论（共有 0 条评论）