智慧楼宇人员语音表情多模态情感识别方法及系统与流程



1.本发明属于智慧楼宇技术领域,更具体地,涉及一种智慧楼宇人员语音表情多模态情感识别方法及系统。


背景技术:



2.智慧楼宇通过利用计算机、人工智能、物联网、大数据、云计算等新一代信息技术,正在改变人员与楼宇系统的交互方式。随着社会的不断进步,智能化时代不断的发展,办公楼宇逐渐向智慧楼宇发展。此外,情感管理也成为当代企业不容忽视的人力资源管理利器,它是管理者以尊重人、理解人、温暖人的方式调动人员的积极性来促进企业发展的一种管理模式。
3.然而,传统的企业情感管理主要依靠管理者人工观察人员的情感状态,这难以准确的识别人员的情感状态。因此,智慧楼宇作为未来办公楼宇发展的一大趋势,如果它可以利用人工智能,大数据,6g等技术自动识别人员的情感状态,并及时向管理者反映,这将有效的调动人员的积极性来促进企业快速发展。经过近几十年的发展,情感识别形成了一套被广泛采用的分类标准。在这套标准中,情感状态被分为六类:生气、厌恶、恐惧、悲伤、惊讶和高兴。情感识别主要包括语音、表情图像、生理信号情感识别。语音情感识别通过分析人讲话时的语速、语调、语义来识别人的情感状态;表情图像情感识别通过面部表情,肌肉走势来分析识别人的情感状态;生理信号情感识别通过分析人的呼吸、心率和体温等生理信号来识别人的情感状态。然而,单模态情感识别所表达的情感信息不够完整,其识别率远不能达到人们的期望。
4.因此,为提高情感识别的识别率,情感识别的研究重点逐渐由单模态情感识别向多模态情感识别转移。其中,人员的语音和表情图像模态可以利用摄像头和语音传感器非接触提取,可以简单、方便、灵活地应用到智慧楼宇中。因此,本发明主要研究面向智慧楼宇的人员语音表情多模态情感识别方法及系统,重点通过设计一种增大类间散度矩阵的损失函数来提高语音表情图像多模态情感识别的识别率。


技术实现要素:



5.本发明的目的是提出一种智慧楼宇人员语音表情多模态情感识别方法及系统,实现提高语音表情图像多模态情感识别的识别率。
6.第一方面,本发明提出了一种智慧楼宇人员语音表情多模态情感识别方法,包括:
7.对采集的人员语音信息及表情视频进行预处理,所述预处理包括:提取所述语音信息的mfcc特征,将所述表情视频分帧为表情图像并提取所述表情图像中的表情区域;
8.将提取的所述mfcc特征输入至残差网络模型,以提取所述语音信息的高阶情感特征;
9.将分帧的所述表情图像及提取的所述表情区域输入至3d-cnn模型,以提取所述表情图像的高阶情感特征;
10.利用mlp模型对所述语音信息和所述表情图像的高阶情感特征进行多模态融合,以识别出人员的情感状态,在多模态融合过程中利用预先设计的损失函数完成语音表情图像多模态特征融合的端到端训练,并增大语音信息和表情图像的高阶情感特征之间的差异性。
11.第二方面,本发明提出一种智慧楼宇人员语音表情多模态情感识别系统,包括:现场数据采集模块、通信模块、主控模块和情感显示模块;
12.所述现场数据采集模块用于采集楼宇内人员的语音信息及表情视频数据;
13.所述通信模块用于将所述现场数据采集模块采集的数据上传至所述主控模块;
14.所述主控模块用于:
15.对采集的人员语音信息及表情视频进行预处理,所述预处理包括:提取所述语音信息的mfcc特征,将所述表情视频分帧为表情图像并提取所述表情图像中的表情区域;
16.将提取的所述mfcc特征输入至残差网络模型,以提取所述语音信息的高阶情感特征;
17.将分帧的所述表情图像及提取的所述表情区域输入至3d-cnn模型,以提取所述表情图像的高阶情感特征;
18.利用mlp模型对所述语音信息和所述表情图像的高阶情感特征进行多模态融合,以识别出人员的情感状态,在多模态融合过程中利用预先设计的损失函数完成语音表情图像多模态特征融合的端到端训练,并增大语音信息和表情图像的高阶情感特征之间的差异性;
19.所述情感显示模块用于对所述主控模块识别出的人员的情感状态进行显示。
20.本发明的有益效果在于:
21.本发明的语音表情图像多模态情感识别方法分为预处理,残差网络及3d-cnn和特征融合,其中,预处理主要提取语音信息的mfcc特征并把表情视频分帧和提取表情区域,残差网络提取语音信息的高阶情感特征,3d-cnn提取表情图像的高阶情感特征,利用mlp特征融合完成语音和表情图像高阶情感特征的融合并识别出人员的情感状态,在特征层融合的过程中设计了一个可以增大类间散度矩阵的损失函数,它不但实现语音表情图像多模态特征融合的端到端训练,而且也分别增大了语音和表情图像高阶情感特征之间的差异性,有效的提高区分相似情感类别的能力,进而有效的提高语音表情图像多模态情感识别的识别率。
22.本发明的系统具有其它的特性和优点,这些特性和优点从并入本文中的附图和随后的具体实施方式中将是显而易见的,或者将在并入本文中的附图和随后的具体实施方式中进行详细陈述,这些附图和具体实施方式共同用于解释本发明的特定原理。
附图说明
23.通过结合附图对本发明示例性实施例进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显,在本发明示例性实施例中,相同的参考标号通常代表相同部件。
24.图1示出了本发明实施例1的一种智慧楼宇人员语音表情多模态情感识别方法的步骤图。
25.图2示出了本发明实施例1的一种智慧楼宇人员语音表情多模态情感识别方法的原理图。
26.图3示出了本发明实施例1的一种智慧楼宇人员语音表情多模态情感识别方法中语音信息的频谱示意图。
27.图4示出了本发明实施例1的一种智慧楼宇人员语音表情多模态情感识别方法中语音信息的mfcc特征图。
28.图5和图6分别示出了本发明实施例1的多识别方法在rml和baum-1s数据集上的实验结果图。
29.图7示出了本发明实施例2的一种智慧楼宇人员语音表情多模态情感识别系统的结构示意图。
具体实施方式
30.下面将参照附图更详细地描述本发明。虽然附图中显示了本发明的优选实施例,然而应该理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本发明更加透彻和完整,并且能够将本发明的范围完整地传达给本领域的技术人员。
31.实施例1
32.如图1和图2所示,本实施例提供一种智慧楼宇人员语音表情多模态情感识别方法,该方法包括:
33.步骤s1:对采集的人员语音信息及表情视频进行预处理,预处理包括:提取语音信息的mfcc特征,将表情视频分帧为表情图像并提取表情图像中的表情区域;
34.具体地,语音信息的mfcc特征符合人类的听觉习惯,是一种有效的语音特征提取方法。具体地,利用预处理、fft等首先计算语音信息的频谱,然后通过梅尔三角滤波器组计算语音信息的梅尔频谱,最后通过倒谱分析提取语音信息的mfcc特征。
35.本实施例中,语音信息的一阶mfcc特征和二阶mfcc特征计算如下:
[0036][0037]
其中,d
t
表示第t个语音信息mfcc特征的一阶差分;c
t
表示第t个语音信息mfcc;q表示语音信息mfcc的阶数;k表示语音信息mfcc特征一阶差分的时间差。此外,语音信息mfcc特征的二阶差分根据式(1)和语音信息mfcc特征的一阶差分d
t
计算得到。
[0038]
语音信息的mfcc特征、一阶mfcc特征和二阶mfcc特征被压缩成梅尔倒谱图、一阶梅尔倒谱图、二阶梅尔倒谱图,并将语音信息的梅尔倒谱图、一阶梅尔倒谱图、二阶梅尔倒谱图模仿图像的rgb三通道,最终得到一个维度为64
×
64
×
3的语音mfcc特征。图3展示了一段语音信息,图4展示了语音信息的mfcc特征、一阶mfcc特征和二阶mfcc特征,以及梅尔倒谱图、一阶梅尔倒谱图、二阶梅尔倒谱图。
[0039]
对于表情图像模态,表情视频片段首先被分帧成连续的表情图像信息,然后采用
opencv自动提取表情图像的表情区域,最后每一帧表情图像的尺寸被修改为:240
×
240
×
3。
[0040]
步骤s2:将提取的mfcc特征输入至残差网络模型,以提取语音信息的高阶情感特征;
[0041]
具体地,语音高阶情感特征采用残差网络提取。如图2所示,残差网络包含5个残差块和2个全连接层(fc6-fc7),其中每一个残差块包含2个卷积层(cl1-cl2),3个relu激活函数层,2个归一化层(bn),一个加法运算。全连接层fc7的神经元个数是2048,这表示为:输入到残差网络的语音mfcc特征的维度为64
×
64
×
3,输出的语音高阶情感特征为
[0042]
步骤s3:将分帧的表情图像及提取的表情区域输入至3d-cnn模型,以提取表情图像的高阶情感特征;
[0043]
具体地,表情图像高阶情感特征采用3d-cnn模型提取。3d-cnn模型最初是为运动动作识别而开发的,后来,3d-cnn模型也被应用于视频处理中。
[0044]
如图2所示,3d-cnn模型包含:
[0045]
七个卷积层cl1-cl2-cl3-cl4a-cl4b-cl5a-cl5,五个池化层(pool1-pool2-pool3-pool4-pool5),2个全连接层(fc6-fc7)。
[0046]
表情视频首先被分帧,然后输入到图2中的3d-cnn模型中提取表情的高阶情感特征。其中3d-cnn模型的fc7层神经元个数是2048,也即是3d-cnn提取的高阶表情情感特征的维度为
[0047]
步骤s4:利用mlp模型对语音信息和表情图像的高阶情感特征进行多模态融合,以识别出人员的情感状态,在多模态融合过程中利用预先设计的损失函数完成语音表情图像多模态特征融合的端到端训练,并增大语音信息和表情图像的高阶情感特征之间的差异性。
[0048]
具体地,在分类优化中,为提高语音表情图像多模态情感识别的识别率,应该优化网络让情感状态类别之间的差异增大。类别之间的差异可以利用类间散度矩阵衡量,类间散度矩阵越大,情感状态类别之间差异越明显,越有利于多模态情感识别。
[0049]
对于增大类间散度矩阵的原理如下:
[0050]
对于语音高阶情感特征情感状态的模式类定义为{w1,

,wc,

,wc},这是一个c分类问题。首先定义一个加权矩阵k
x
表示语音高阶情感特征的情感类之间的相似性。具体定义如下:
[0051][0052]
其中,i,j∈[1,c],加权矩阵k
x
是一个c
×
c维矩阵;表示模式类wi和wj的语音高阶情感特征样本的平均矢量的余弦相似度;表示模式类wi的平均矢量,被定义为:
[0053][0054]
其中,表示模式类wi的第l个语音样本矢量。
[0055]
由式(2)中相似性的定义可知,语音高阶情感特征类别之间越相似,相应的加权矩阵k
x
越大。
[0056]
语音高阶情感特征的类间散度矩阵s
x
被定义为:
[0057][0058]
其中,t表示矩阵的转置,表示模式类为wi的样本总个数。x表示语音高阶情感特征的总体平均矢量。
[0059]
类间散度矩阵s
x
描述了模式类wi的语音高阶情感特征的平均矢量与总体的平均矢量x的离散程度。因此,类间散度矩阵也可以被用来描述任何两个模式类之间的离散程度,其被定义为:
[0060][0061]
其中,描述了模式类wi和wj之间的离散程度。越大,模式类wi和wj之间的差异越明显,越有利于多模态情感识别。
[0062]
此外,为了增加各类别之间的差异,利用加权矩阵k
x
对类间散度矩阵进行优化得到新的类间散度矩阵其被定义为:
[0063][0064]
由式(6)可知,语音高阶情感特征之间越相似,k
x
越大,越不易于区分。然而,k
x
越大,也越大。越大,类别之间的差异越明显,越有利于多模态情感识别。因此,通过将加权矩阵k
x
矩阵加入到类间散度矩阵中,可以有效的提高区分相似情感类别的能力,这有效的提高多模态情感识别的识别率。
[0065]
对于表情高阶情感特征情感状态的模式类定义为{w1,

,wc,

,wc},这也是一个c分类问题。首先定义一个加权矩阵ky表示表情图像高阶情感特征类之间的相似性。具体定义如下:
[0066][0067]
其中,i,j∈[1,c],加权矩阵ky是一个c
×
c维矩阵;表示模式类wi和wj的表情图像高阶情感特征样本的平均矢量的余弦相似度;表示模式类wi的平均矢量,被定义为:
[0068][0069]
其中,表示模式类wi的第l个表情图像样本矢量。
[0070]
基于式(5),表情图像高阶情感特征模式类wi与模式类wi的类间散度矩阵被定义为:
[0071][0072]
此外,为了增加各类别之间的差异,利用加权矩阵ky对类间散度矩阵进行优化得到新的类间散度矩阵其被定义为:
[0073][0074]
表情图像高阶情感特征之间越相似,ky越大,也越大,类别之间的差异越明显,越有利于多模态情感识别。因此,通过将加权矩阵ky矩阵加入到类间散度矩阵中,这也可以有效的提高多模态情感识别的识别率。
[0075]
如图2所示,多模态融合采用mlp实现,其中mlp第一层的神经元为4096,第二层的神经元为1024,最后一层神经元为c。前两层的激活函数选择relu激活函数,最后一层激活函数选择softmax函数。为完成c分类任务,目标函数被定义为:
[0076][0077]
其中,θ表示网络的参数,k表示训练样本个数,x,y表示语音和表情图像训练样本,yi表示标签,υ(
·
)表示mlp中输入到softmax函数的特征,softmax(
·
)表示softmax函数,l(
·
)表示交叉熵损失韩函数,被定义为:
[0078][0079]
其中,y
′i表示为式(11)中的softmax(υ((x,y);θ)),y
i,j
表示第i个样本数据的第j类的标签,y

i,j
表示第i个样本数据的第j类的softmax层的输出。
[0080]
此外,为了增大类别之间的差异,类间散度矩阵应该是较大值,这可以转化为如下优化问题:
[0081][0082]
其中,tr[
·
]表示矩阵的迹。
[0083]
式(13)越大,类间散度矩阵越大,类别之间的差异越明显。为了同时完成分类任务和增大类间散度矩阵,式(11)-(13)被合并,定义了一个可以增大类间散度矩阵的c分类目标函数,如下所示:
[0084][0085]
其中,α是一个系数。
[0086]
基于式(14),本文新定义的损失函数为:
[0087][0088]
式(15)以端到端的方式完成c分类的训练。同时,和有效的增大了语音和表情图像高阶情感特征之间的类间散度矩阵,有效的提高区分相似情感类别的能力,进而有效的提高语音表情图像多模态情感识别的识别率。
[0089]
应用示例:
[0090]
rml和baum-1s数据集是常用于语音表情图像多模态情感识别的公开数据集,故它们也被选择来评估本方法的性能。
[0091]
rml数据集是莱森多媒体实验室从8个具有不同语言、口音以及文化背景的受试者中采集的公共情感识别数据集,大小为4.2gb左右,包含720个视频片段。基本的6种情感被表达出来,分别是生气、厌恶、恐惧、悲伤、惊讶和高兴。所有视频片段都是利用数码摄像机在安静、明亮的环境中采集得到的,均为avi格式。其中,采样率:22050hz,帧率:30fps,分辨率:720
×
480
×
3,视频长度:3s~6s。每个视频片段分别提供语音、表情图像情感特征。
[0092]
baum-1s数据集是从31名受试者中采集的公共情感识别数据集,大小为1g左右,包含1222个视频片段,所有的受试者在录制视频的过程中全部采用土耳其语,在31名受试者中,女生的比例为:55%,男生的比例为:45%。6种情感被表达出来,分别是生气、厌恶、恐惧、悲伤、惊讶和高兴。仅有521个视频片段表达出6种基本的情感。所有视频片段在摄像棚中录制完成,均为mp4格式。其中,帧率:30fps,分辨率:720
×
576
×
3,视频长度:3s~4s。baum-1s数据集是受试者观看相关视频后自发的表达情感。
[0093]
本实施例的方法在rml和baum-1s数据集上的实验结果如图所示,其中在6种情感状态的识别率如图5和图6所示,与其它算法的对比结果如表1所示。
[0094]
表1对比实验结果
[0095][0096][0097]
实验结果显示:本发明的方法在rml和baum-1s数据集上的识别率分别为98.75%和76.62%,该结果高于多个现有的情感状态识别方法,原因在于:
[0098]
本发明方法在语音和表情图像高阶情感融合过程中设计了一种增大类间散度矩阵的损失函数。该损失函数不但实现语音表情图像多模态特征融合的端到端训练,而且也分别增大了语音和表情图像高阶情感特征之间的差异性,有效的提高区分相似情感类别的能力,进而能够有效的提高语音表情图像多模态情感识别的识别率。
[0099]
实施例2
[0100]
如图7所示,本实施例提供一种智慧楼宇人员语音表情多模态情感识别系统,包括:现场数据采集模块、通信模块、主控模块和情感显示模块;
[0101]
现场数据采集模块用于采集楼宇内人员的语音信息及表情视频数据;
[0102]
通信模块用于将现场数据采集模块采集的数据上传至主控模块;
[0103]
主控模块用于:
[0104]
对采集的人员语音信息及表情视频进行预处理,预处理包括:提取语音信息的mfcc特征,将表情视频分帧为表情图像并提取表情图像中的表情区域;
[0105]
将提取的mfcc特征输入至残差网络模型,以提取语音信息的高阶情感特征;
[0106]
将分帧的表情图像及提取的表情区域输入至3d-cnn模型,以提取表情图像的高阶情感特征;
[0107]
利用mlp模型对语音信息和表情图像的高阶情感特征进行多模态融合,以识别出人员的情感状态,在多模态融合过程中利用预先设计的损失函数完成语音表情图像多模态特征融合的端到端训练,并增大语音信息和表情图像的高阶情感特征之间的差异性;
[0108]
情感显示模块用于对主控模块识别出的人员的情感状态进行显示。
[0109]
本实施例中,现场数据采集模块位于系统的现场层,包括视频摄像头和音频传感器等传感器集,通信模块位于通信网络层,主要包括光纤环网、光纤交换机等通信网络设
备,主控模块和情感显示模块位于控制层,主控模块包括服务器或主机设备,主控模块用于运行实施例1的智慧楼宇人员语音表情多模态情感识别方法的软件系统,情感显示模块可以为pc、手机等终端设备。
[0110]
本实施例的智慧楼宇人员情感识别系统首先利用摄像头和语音传感器采集人员的语音和图像信息,它们被通信网络层传送到主控模块;然后,主控模块的多模态情感方法识别人员的情感状态,并把识别的情感状态通过主控模块发送到情感显示模块来帮助管理者分析人员的情感状态并调动人员的积极性来促进企业快速发展。此外,该系统的核心模块是语音表情图像多模态情感识别方法,它在语音和表情图像高阶情感融合过程中设计了一种增大类间散度矩阵的损失函数。该损失函数不但实现语音表情图像多模态特征融合的端到端训练,而且也分别增大了语音和表情图像高阶情感特征之间的差异性,有效的提高区分相似情感类别的能力,进而有效的提高语音表情图像多模态情感识别的识别率。
[0111]
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。

技术特征:


1.一种智慧楼宇人员语音表情多模态情感识别方法,其特征在于,包括:对采集的人员语音信息及表情视频进行预处理,所述预处理包括:提取所述语音信息的mfcc特征,将所述表情视频分帧为表情图像并提取所述表情图像中的表情区域;将提取的所述mfcc特征输入至残差网络模型,以提取所述语音信息的高阶情感特征;将分帧的所述表情图像及提取的所述表情区域输入至3d-cnn模型,以提取所述表情图像的高阶情感特征;利用mlp模型对所述语音信息和所述表情图像的高阶情感特征进行多模态融合,以识别出人员的情感状态,在多模态融合过程中利用预先设计的损失函数完成语音表情图像多模态特征融合的端到端训练,并增大语音信息和表情图像的高阶情感特征之间的差异性。2.根据权利要求1所述的方法,其特征在于,所述提取所述语音信息的mfcc特征,包括:计算所述语音信息的频谱,通过梅尔三角滤波器组将所述频谱转换为梅尔倒频谱,分析所述梅尔倒频谱提取语音信息的mfcc特征。3.根据权利要求2所述的方法,其特征在于,所述语音信息的一阶mfcc特征通过如下公式计算:其中,d
t
表示第t个语音信息mfcc特征的一阶差分;c
t
表示第t个语音信息mfcc;q表示语音信息mfcc的阶数;k表示语音信息mfcc特征一阶差分的时间差;所述语音信息的mfcc特征的二阶差分根据式(1)和语音信息mfcc特征的一阶差分d
t
计算得到。4.根据权利要求3所述的方法,其特征在于,所述通过梅尔三角滤波器组将所述频谱转换为梅尔倒频谱,分析所述梅尔倒频谱提取语音信息的mfcc特征,包括:通过梅尔三角滤波器组将语音信息的mfcc特征、一阶mfcc特征和二阶mfcc特征压缩成梅尔倒谱图、一阶梅尔倒谱图、二阶梅尔倒谱图;将语音信息的梅尔倒谱图、一阶梅尔倒谱图、二阶梅尔倒谱图模仿图像的rgb三通道,得到一个维度为64
×
64
×
3的语音mfcc特征。5.根据权利要求1所述的方法,其特征在于,所述将所述表情视频分帧为表情图像并提取所述表情图像中的表情区域,包括:将所述表情视频分帧成连续的表情图像,采用opencv自动提取表情图像的表情区域,将每一帧表情图像的尺寸修改为240
×
240
×
3。6.根据权利要求1所述的方法,其特征在于,所述残差网络模型包含沿输入端至输出端依次设置的5个残差块以及2个全连接层;其中,每个所述残差块包含:2个卷积层,3个relu激活函数层,2个归一化层,以及一个加法运算;最后一个全连接层的神经元个数是2048。7.根据权利要求1所述的方法,其特征在于,所述3d-cnn模型包含沿输入端至输出端依次设置的7个卷积层,5个池化层,以及2个全连接层;
其中,最后一个全连接层的神经元个数是2048。8.根据权利要求1所述的方法,其特征在于,所述损失函数的设计过程,包括:定义加权矩阵k
x
表示语音信息的高阶情感特征的情感类之间的相似性,所述加权矩阵k
x
通过如下公式定义:其中,i,j∈[1,c],加权矩阵k
x
是一个c
×
c维矩阵;表示模式类w
i
和w
j
的语音信息的高阶情感特征样本的平均矢量的余弦相似度;其中,表示模式类w
i
的平均矢量,被定义为:其中,表示模式类w
i
的第l个语音样本矢量;定义语音信息的高阶情感特征的类间散度矩阵s
x
为:其中,t表示矩阵的转置,表示模式类为w
i
的样本总个数。x表示语音信息的高阶情感特征的总体平均矢量;定义描述模式类w
i
和w
j
之间的离散程度为:利用加权矩阵k
x
对类间散度矩阵进行优化得到新的类间散度矩阵定义新的类间散度矩阵为:定义加权矩阵k
y
表示表情图像的高阶情感特征类之间的相似性,所述加权矩阵k
y
通过以下公式定义:其中,i,j∈[1,c],加权矩阵k
y
是一个c
×
c维矩阵;表示模式类w
i
和w
j
的表
情图像的高阶情感特征样本的平均矢量的余弦相似度;表示模式类w
i
的平均矢量,定义为:其中,表示模式类w
i
的第l个表情图像样本矢量;基于式(5),定义表情图像的高阶情感特征模式类w
i
与模式类w
i
的类间散度矩阵为:利用加权矩阵k
y
对类间散度矩阵进行优化得到新的类间散度矩阵定义新的类间散度矩阵为:9.根据权利要求8所述的方法,其特征在于,所述mlp模型的第一层的神经元数量为4096,第二层的神经元数量为1024,最后一层神经元数量为c;前两层的激活函数选择relu激活函数,最后一层激活函数选择softmax函数;所述损失函数的设计过程,还包括:定义c分类任务的目标函数为:其中,θ表示网络的参数,k表示训练样本个数,x,y表示语音和表情图像训练样本,y
i
表示标签,υ(
·
)表示mlp中输入到softmax函数的特征,softmax(
·
)表示softmax函数,表示交叉熵损失韩函数,被定义为:其中,y

i
表示为式(11)中的softmax(υ((x,y);θ)),y
i,j
表示第i个样本数据的第j类的标签,y
i

,j
表示第i个样本数据的第j类的softmax层的输出;定义优化公式为:其中,tr[
·
]表示矩阵的迹;合并式(11)-(13),定义能够增大类间散度矩阵的c分类目标函数:
其中,α是一个系数;基于式(14),定义新的损失函数为:利用式(15)以端到端的方式完成c分类的训练。10.一种智慧楼宇人员语音表情多模态情感识别系统,其特征在于,包括:现场数据采集模块、通信模块、主控模块和情感显示模块;所述现场数据采集模块用于采集楼宇内人员的语音信息及表情视频数据;所述通信模块用于将所述现场数据采集模块采集的数据上传至所述主控模块;所述主控模块用于:对采集的人员语音信息及表情视频进行预处理,所述预处理包括:提取所述语音信息的mfcc特征,将所述表情视频分帧为表情图像并提取所述表情图像中的表情区域;将提取的所述mfcc特征输入至残差网络模型,以提取所述语音信息的高阶情感特征;将分帧的所述表情图像及提取的所述表情区域输入至3d-cnn模型,以提取所述表情图像的高阶情感特征;利用mlp模型对所述语音信息和所述表情图像的高阶情感特征进行多模态融合,以识别出人员的情感状态,在多模态融合过程中利用预先设计的损失函数完成语音表情图像多模态特征融合的端到端训练,并增大语音信息和表情图像的高阶情感特征之间的差异性;所述情感显示模块用于对所述主控模块识别出的人员的情感状态进行显示。

技术总结


本发明公开了一种智慧楼宇人员语音表情多模态情感识别方法及系统,方法包括:对采集的人员语音信息及表情视频进行预处理,包括:提取语音信息的MFCC特征,将表情视频分帧并提取表情图像中的表情区域;将MFCC特征输入至残差网络模型提取语音信息的高阶情感特征;将分帧的表情图像及提取的表情区域输入至3D-CNN模型提取表情图像的高阶情感特征;利用MLP模型对语音信息和表情图像的高阶情感特征进行多模态融合,以识别出人员的情感状态,在融合过程中利用预先设计的损失函数完成语音表情图像多模态特征融合的端到端训练,并增大语音信息和表情图像的高阶情感特征之间的差异性。本发明能够提高语音表情图像多模态情感识别的识别率。的识别率。的识别率。


技术研发人员:

焦爽 陈光辉 杨亚飞 袁世通 李现伟 李帅飞 王宇轩 张明明 张璜 马仁婷

受保护的技术使用者:

中国大唐集团科学技术研究院有限公司中南电力试验研究院

技术研发日:

2022.07.28

技术公布日:

2022/11/1

本文发布于:2024-09-20 12:36:49,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/16976.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:表情   语音   情感   特征
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议