基于多模态特征和对比学习的语音情感识别方法及装置



1.本技术涉及信号处理与人工智能技术领域,特别是涉及一种基于多模态特征和对比学习的语音情感识别方法、装置、计算机设备和存储介质。


背景技术:



2.在日常生活中,人们传递情感的途径主要通过语音。而在人机交互的过程中,语音也是主要途径之一。此外,对语音中情感的识别可以让机器更好地理解用户的意图和想法,进而使机器更加趋于智能化和人性化。
3.然而,早期关于语音情感识别的研究仅仅局限于语音数据导致识别准确率陷入了瓶颈。其实人类在通过语音传递情感时,一般还会伴随着表情和手部动作的变化,同时语音中除了声学信息还包含着文本信息,这些信息被称为模态。于是通过包含说话时面部表情和手部动作的视频和语音转录文本来辅助语音进行基于多模态特征的语音情感识别任务就诞生了。由于语音与同步采集的视频以及语音转录的文本都包含着相同的情感信息,因此多模态特征在情感特征方面存在着一定的相似性。然而目前对于基于多模态特征的语音情感识别的研究忽略了多模态特征之间的联系,使得多模态情感特征表示不够准确,语音情感识别准确率低。


技术实现要素:



4.基于此,有必要针对上述技术问题,提供一种能够提高语音情感识别准确率的基于多模态特征和对比学习的语音情感识别方法、装置、计算机设备和存储介质。
5.一种基于多模态特征和对比学习的语音情感识别方法,所述方法包括:
6.获取待识别的语音视频数据;语音视频数据中包括语音文本和视频数据;
7.构建的语音情感识别模型;语音情感识别模型包括fast rcnn预处理模型、双向gru模型、3d卷积网络和全连阶层;
8.对语音文本进行数据预处理,得到语音向量和词向量;
9.利用fast rcnn预处理模型将视频数据中说话人的局部特征提取出来,并扩充尺寸后与视频数据的全局特征图进行融合,得到融合视频数据;局部特征包括脸部表情和手部动作;
10.根据双向gru模型分别对语音向量和词向量进行情感特征提取,得到语音情感特征和文本情感特征;利用3d卷积网络对融合视频数据进行情感特征提取,得到高级情感特征;
11.根据对比学习方法对语音情感特征、文本情感特征和高级情感特征进行增强表示,得到增强后的语音情感特征、文本情感特征和高级情感特征;
12.将增强后的语音情感特征、文本情感特征和高级情感特征进行拼接,并通过全连接层组成的解码器进行解码,输出情感类别的概率分布;
13.根据情感类别的概率分布和标注的真实情感类别标签构建交叉熵损失函数,利用
交叉熵损失函数和对比学习中的损失函数对预先构建的语音情感识别模型进行训练,得到训练好的语音情感识别模型;
14.根据训练好的语音情感识别模型对待识别的语音视频数据进行语音情感识别。
15.在其中一个实施例中,语音文本中包含语音数据和文本数据;对语音文本进行数据预处理,得到语音向量和词向量,包括:
16.将语音数据按照固定时间段长度的窗口作为一帧,向后滑动窗口,每次移动后的窗口与前一个窗口位置都存在重叠部分,得到多个单帧语音数据;
17.根据opensmile工具对单帧语音数据进行转化,得到语音向量;
18.将文本数据中包含词语最多的句子长度作为最大长度,对文本数据中不足最大长度的句子进行零填充处理,得到多个等长的句子;
19.根据bert预处理模型对等长的句子中的词语进行转化,得到词向量;词向量中包含其对应的词语的上下文的语义信息。
20.在其中一个实施例中,根据双向gru模型分别对语音向量和词向量进行情感特征提取,得到语音情感特征和文本情感特征,包括:
21.根据双向gru模型,将语音向量和词向量分别同时输入一个正向和一个反向的gru模型,将两个gru模型相同时刻输出的状态信息向量进行拼接,得到分别对应的语音情感特征和文本情感特征。
22.在其中一个实施例中,根据对比学习方法对语音情感特征、文本情感特征和高级情感特征进行增强表示,得到增强后的语音情感特征、文本情感特征和高级情感特征,包括:
23.根据对比学习方法通过训练缩小损失函数来拉近语音情感特征、文本情感特征和高级情感特征之间的距离,得到增强后的语音情感特征、文本情感特征和高级情感特征。
24.在其中一个实施例中,损失函数为loss
cons
=log(exp(d(s,t)/τ)+exp(d(s,v)/σ)),其中d为l2距离函数来测量两个情感特征表示的距离,s为语音情感特征,t为文本情感特征,v为高级情感特征,τ和σ是调节特征表示水平的参数。
25.在其中一个实施例中,将增强后的语音情感特征、文本情感特征和高级情感特征进行拼接,并通过全连接层组成的解码器进行解码,输出情感类别的概率分布,包括:
26.将增强后的语音情感特征、文本情感特征和高级情感特征进行拼接,并通过全连接层组成的解码器进行解码,输出情感类别的概率分布为
[0027][0028]
其中,fr表示拼接后的多模态特征,pj表示当前所识别情感是第j个类别的概率,为多模态特征的第j个特征参数,为多模态特征的第i个特征参数。
[0029]
在其中一个实施例中,根据情感类别的概率分布和标注的真实情感类别标签构建交叉熵损失函数,包括:
[0030]
根据情感类别的概率分布和标注的真实情感类别标签构建交叉熵损失函数为
[0031]
[0032]
其中,y表示情感类别的真实分布,x表示情感类别标签,n表示情感类别标签个数,i表示情感类别标签序号。
[0033]
一种基于多模态特征和对比学习的语音情感识别装置,所述装置包括:
[0034]
模型构建模块,用于获取待识别的语音视频数据;语音视频数据中包括语音文本和视频数据;构建的语音情感识别模型;语音情感识别模型包括fast rcnn预处理模型、双向gru模型、3d卷积网络和全连阶层;
[0035]
数据预处理模块,用于对语音文本进行数据预处理,得到语音向量和词向量;利用fast rcnn预处理模型将视频数据中说话人的局部特征提取出来,并扩充尺寸后与视频数据的全局特征图进行融合,得到融合视频数据;局部特征包括脸部表情和手部动作;
[0036]
特征提取模块,用于根据双向gru模型分别对语音向量和词向量进行情感特征提取,得到语音情感特征和文本情感特征;利用3d卷积网络对融合视频数据进行情感特征提取,得到高级情感特征;
[0037]
对比学习模块,用于根据对比学习方法对语音情感特征、文本情感特征和高级情感特征进行增强表示,得到增强后的语音情感特征、文本情感特征和高级情感特征;将增强后的语音情感特征、文本情感特征和高级情感特征进行拼接,并通过全连接层组成的解码器进行解码,输出情感类别的概率分布;
[0038]
语音情感识别模块,用于根据情感类别的概率分布和标注的真实情感类别标签构建交叉熵损失函数,利用交叉熵损失函数和对比学习中的损失函数对预先构建的语音情感识别模型进行训练,得到训练好的语音情感识别模型;根据训练好的语音情感识别模型对待识别的语音视频数据进行语音情感识别。
[0039]
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0040]
获取待识别的语音视频数据;语音视频数据中包括语音文本和视频数据;
[0041]
构建的语音情感识别模型;语音情感识别模型包括fast rcnn预处理模型、双向gru模型、3d卷积网络和全连阶层;
[0042]
对语音文本进行数据预处理,得到语音向量和词向量;
[0043]
利用fast rcnn预处理模型将视频数据中说话人的局部特征提取出来,并扩充尺寸后与视频数据的全局特征图进行融合,得到融合视频数据;局部特征包括脸部表情和手部动作;
[0044]
根据双向gru模型分别对语音向量和词向量进行情感特征提取,得到语音情感特征和文本情感特征;利用3d卷积网络对融合视频数据进行情感特征提取,得到高级情感特征;
[0045]
根据对比学习方法对语音情感特征、文本情感特征和高级情感特征进行增强表示,得到增强后的语音情感特征、文本情感特征和高级情感特征;
[0046]
将增强后的语音情感特征、文本情感特征和高级情感特征进行拼接,并通过全连接层组成的解码器进行解码,输出情感类别的概率分布;
[0047]
根据情感类别的概率分布和标注的真实情感类别标签构建交叉熵损失函数,利用交叉熵损失函数和对比学习中的损失函数对预先构建的语音情感识别模型进行训练,得到训练好的语音情感识别模型;
[0048]
根据训练好的语音情感识别模型对待识别的语音视频数据进行语音情感识别。
[0049]
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
[0050]
获取待识别的语音视频数据;语音视频数据中包括语音文本和视频数据;
[0051]
构建的语音情感识别模型;语音情感识别模型包括fast rcnn预处理模型、双向gru模型、3d卷积网络和全连阶层;
[0052]
对语音文本进行数据预处理,得到语音向量和词向量;
[0053]
利用fast rcnn预处理模型将视频数据中说话人的局部特征提取出来,并扩充尺寸后与视频数据的全局特征图进行融合,得到融合视频数据;局部特征包括脸部表情和手部动作;
[0054]
根据双向gru模型分别对语音向量和词向量进行情感特征提取,得到语音情感特征和文本情感特征;利用3d卷积网络对融合视频数据进行情感特征提取,得到高级情感特征;
[0055]
根据对比学习方法对语音情感特征、文本情感特征和高级情感特征进行增强表示,得到增强后的语音情感特征、文本情感特征和高级情感特征;
[0056]
将增强后的语音情感特征、文本情感特征和高级情感特征进行拼接,并通过全连接层组成的解码器进行解码,输出情感类别的概率分布;
[0057]
根据情感类别的概率分布和标注的真实情感类别标签构建交叉熵损失函数,利用交叉熵损失函数和对比学习中的损失函数对预先构建的语音情感识别模型进行训练,得到训练好的语音情感识别模型;
[0058]
根据训练好的语音情感识别模型对待识别的语音视频数据进行语音情感识别。
[0059]
上述基于多模态特征和对比学习的语音情感识别方法、装置、计算机设备和存储介质,本发明通过对语音视频数据利用fast rcnn预处理模型和双向gru模型分别进行特征提取,得到了可以表示语音情感的多模态特征,有效地利用了来自多模态的情感信息,并且利用对比学习方法有效地拉近了多模态情感特征之间的相似度,获得了更准确的情感特征表示,然后根据更准确的情感特征表示进行情感类别的概率分布,并与真实情感类别标签构建交叉熵损失函数,再与对比学习中的损失函数对预先构建的语音情感识别模型进行模型训练,利用该训练后的模型进行语音情感识别,提高了语音情感识别的准确率。
附图说明
[0060]
图1为一个实施例中一种基于多模态特征和对比学习的语音情感识别方法的流程示意图;
[0061]
图2为一个实施例中一种基于多模态特征和对比学习的语音情感识别方法的框图;
[0062]
图3为一个实施例中一种基于多模态特征和对比学习的语音情感识别装置的示意图;
[0063]
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
[0064]
为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
[0065]
在一个实施例中,如图1所示,提供了种基于多模态特征和对比学习的语音情感识别方法,包括以下步骤:
[0066]
步骤102,获取待识别的语音视频数据;语音视频数据中包括语音文本和视频数据;构建的语音情感识别模型;语音情感识别模型包括fast rcnn预处理模型、双向gru模型、3d卷积网络和全连阶层;
[0067]
步骤104,对语音文本进行数据预处理,得到语音向量和词向量;利用fast rcnn预处理模型将视频数据中说话人的局部特征提取出来,并扩充尺寸后与视频数据的全局特征图进行融合,得到融合视频数据;局部特征包括脸部表情和手部动作。
[0068]
语音文本中包含说话人的带有情感特征的词和情绪,通过对语音文本进行数据预处理后得到的语音向量和词向量可以更好的被用于进行特征提取,说话人发出语音时,一般会伴随着表情变化和手部动作变化,本发明将视频通过fast rcnn预处理目标检测模型按照每帧的图像将说话人的局部特征包括脸部表情和手部动作提取出来,并将每帧的局部特征图像扩充与原视频每帧图像相同尺寸后,按照通道排列的方式与原视频的全局特征图像进行组合,可以准确的将语音中的情感特征提取出来。
[0069]
步骤106,根据双向gru模型分别对语音向量和词向量进行情感特征提取,得到语音情感特征和文本情感特征;利用3d卷积网络对融合视频数据进行情感特征提取,得到高级情感特征。
[0070]
双向gru模型包含一个正向和一个反向的gru模型,gru模型是长短时记忆网络的一种效果很好的变体,比lstm网络的结构更加简单,而且效果也很好,利用双向gru模型进行特征提取,可以得到结合了当前时刻前后的状态信息的状态信息向量,使得得到的状态信息向量更加结合语境,在进行特征提取时更加准确。同时,视频数据的本质是每帧图片组成的多通道图像,本发明采用了3d卷积的方式对视频进行情感特征提取,采用3d卷积核在整个多通道三维图像上进行卷积操作,与2d卷积在每个2d通道上进行卷积相比,3d卷积能够更好地建模时间信息。本发明采用多层3dcnn和3d池化层提取出视频中的高级情感特征。
[0071]
步骤108,根据对比学习方法对所述语音情感特征、文本情感特征和高级情感特征进行增强表示,得到增强后的语音情感特征、文本情感特征和高级情感特征;将增强后的语音情感特征、文本情感特征和高级情感特征进行拼接,并通过全连接层组成的解码器进行解码,输出情感类别的概率分布。
[0072]
与语音同步采集的视频以及语音转录的文本都包含着相同的情感信息,因此提取出的多模态特征之间存在着一定的相似性,通过对比学习的方法可以拉近多模态特征之间的相似性,将情感信息更准确的学习出来,进而获得更高阶的特征表示,提高情感特征识别的准确性。然后将增强后的语音情感特征、文本情感特征和高级情感特征进行拼接,并通过全连接层组成的解码器进行解码输出的情感类别的概率分布可以与标注的真实情感类别标签构建交叉熵损失函数对预先构建的语音情感识别模型进行训练来提高语音情感识别模型是被语音情感类别的准确性。
[0073]
步骤110,根据情感类别的概率分布和标注的真实情感类别标签构建交叉熵损失函数,利用交叉熵损失函数和对比学习中的损失函数对预先构建的语音情感识别模型进行训练,得到训练好的语音情感识别模型;根据训练好的语音情感识别模型对待识别的语音视频数据进行语音情感识别。
[0074]
将情感类别的概率分布和真实情感类别标签的one-hot编码用于构建交叉熵损失函数,表达式如下:
[0075][0076]
真实情感类别标签是预先已经将情感类别标注准确的标签,通过将情感类别的概率分布和真实情感类别标签构建交叉熵损失函数对模型进行训练,使得模型在进行情感识别时可以输出更加准确的情感类别,同时将对比学习中的损失函数loss
cons
与交叉熵损失函数结合,然后通过随机梯度下降不断更新参数来使损失函数最小化,表达式如下:
[0077]
loss
θ
=loss
cons
+loss
cre
[0078][0079]
其中θ代表模型中所有可训练参数,η是模型训练时的学习率。
[0080]
利用对比学习中的损失函数对预先构建的语音情感识别模型进行训练,可以减少之前在对比学习中产生的误差,使得模型更加准确,从而根据训练好的语音情感识别模型对待识别的语音视频数据进行语音情感识别时可以得到更加准确的情感类别,语音情感识别的过程如图2所示。
[0081]
上述基于多模态特征和对比学习的语音情感识别方法中,本发明通过对语音视频数据利用fast rcnn预处理模型和双向gru模型分别进行特征提取,得到了可以表示语音情感的多模态特征,有效地利用了来自多模态的情感信息,并且利用对比学习方法有效地拉近了多模态情感特征之间的相似度,获得了更准确的情感特征表示,然后根据更准确的情感特征表示进行情感类别的概率分布,并与真实情感类别标签构建交叉熵损失函数,再与对比学习中的损失函数对预先构建的语音情感识别模型进行模型训练,利用该训练后的模型进行语音情感识别,提高了语音情感识别的准确率。
[0082]
在其中一个实施例中,语音文本中包含语音数据和文本数据;对语音文本进行数据预处理,得到语音向量和词向量,包括:
[0083]
将语音数据按照固定时间段长度的窗口作为一帧,向后滑动窗口,每次移动后的窗口与前一个窗口位置都存在重叠部分,得到多个单帧语音数据;
[0084]
根据opensmile工具对单帧语音数据进行转化,得到语音向量;
[0085]
将文本数据中包含词语最多的句子长度作为最大长度,对文本数据中不足最大长度的句子进行零填充处理,得到多个等长的句子;
[0086]
根据bert预处理模型对等长的句子中的词语进行转化,得到词向量;词向量中包含其对应的词语的上下文的语义信息。
[0087]
在具体实施例中,将语音按照一定时间段长度的窗口作为一帧,并将窗口向后移动,同时,为了使语音每帧之间过渡较为自然,每次移动后的窗口与前一个窗口位置都存在重叠部分,最后将语音的每一帧通过opensmile工具转化为梅尔倒谱系数特征参数,即语音向量化。同时,由于模型只能针对等长序列的文本向量进行处理,因此需将文本中包含词语
最多的句子长度作为最大长度,不足最大长度的句子进行零填充,实现所有句子等长化;然后将等长的句子中的词语通过bert预处理模型转化为词向量,其中每个词向量都包含的上下文的语义信息。
[0088]
在其中一个实施例中,根据双向gru模型分别对语音向量和词向量进行情感特征提取,得到语音情感特征和文本情感特征,包括:
[0089]
根据双向gru模型,将语音向量和词向量分别同时输入一个正向和一个反向的gru模型,将两个gru模型相同时刻输出的状态信息向量进行拼接,得到分别对应的语音情感特征和文本情感特征。
[0090]
gru模型是长短时记忆网络的一种效果很好的变体,比lstm网络的结构更加简单,而且效果也很好,本发明采用双向gru模型,将语音向量和词向量分别输入双向gru模型,即语音向量输入到一个正向和一个反向的gru模型,将两个gru模型相同时刻输出的状态信息向量进行拼接,最终就得到结合了当前时刻前后的状态信息的状态信息向量,即语音情感特征,同时将词向量输入到一个正向和一个反向的gru模型,得到文本情感特征,利用双向gru模型进行特征提取,可以得到结合了当前时刻前后的状态信息的状态信息向量,使得得到的状态信息向量更加结合语境,在进行特征提取时更加准确。
[0091]
在其中一个实施例中,根据对比学习方法对语音情感特征、文本情感特征和高级情感特征进行增强表示,得到增强后的语音情感特征、文本情感特征和高级情感特征,包括:
[0092]
根据对比学习方法通过训练缩小损失函数来拉近语音情感特征、文本情感特征和高级情感特征之间的距离,得到增强后的语音情感特征、文本情感特征和高级情感特征。
[0093]
在其中一个实施例中,损失函数为loss
cons
=log(exp(d(s,t)/τ)+exp(d(s,v)/σ)),其中d为l2距离函数来测量两个情感特征表示的距离,s为语音情感特征,t为文本情感特征,v为高级情感特征,τ和σ是调节特征表示水平的参数。
[0094]
在其中一个实施例中,将增强后的语音情感特征、文本情感特征和高级情感特征进行拼接,并通过全连接层组成的解码器进行解码,输出情感类别的概率分布,包括:
[0095]
将增强后的语音情感特征、文本情感特征和高级情感特征进行拼接,并通过全连接层组成的解码器进行解码,输出情感类别的概率分布为
[0096][0097]
其中,fr表示拼接后的多模态特征,pj表示当前所识别情感是第j个类别的概率,为多模态特征的第j个特征参数,为多模态特征的第i个特征参数。
[0098]
在具体实施例中,与语音同步采集的视频以及语音转录的文本都包含着相同的情感信息,因此提取出的多模态特征之间存在着一定的相似性,本发明首先对第二步情感特征提取阶段中每个模态的特征提取模型加上全连接层,将3个模态情感特征分别转变为一维向量且维度对齐。然后采用对比学习的思想,通过训练缩小损失函数来拉近语音与文本、视频的情感特征之间的距离,损失函数如下所示:
[0099]
loss
cons
=log(exp(d(s,t)/τ)+exp(d(s,v)/σ))
[0100]
其中d为l2距离函数来测量两个情感特征表示的距离,s为语音情感特征,t为文本
情感特征,v为高级情感特征,τ和σ是调节特征表示水平的参数。将经过对比学习后得到的三种模态更高阶的情感特征表示进行拼接,表达式为:
[0101]
f=concat(sc,tc,mc)
[0102]
其中sc,tc,mc分别为经过对比学习后得到的语音、文本、视频中的更高阶的情感特征表示。将拼接得到的多模态情感特征f输入全连接层及relu激活函数层,表达式如下所示:
[0103]fr
=relu(w
t
f)=max(0,w
t
f)
[0104]
其中,w表示可训练的参数矩阵。
[0105]
最终通过softmax函数输出对应情感类别的概率分布,选择最大概率对应的情感类别即为所得。表达式如下:
[0106][0107]
通过对比学习拉近多模态特征之间的相似性,可以将情感信息更准确的学习出来,从而获得更高阶的特征表示,增强情感识别的准确性。
[0108]
在其中一个实施例中,根据情感类别的概率分布和标注的真实情感类别标签构建交叉熵损失函数,包括:
[0109]
根据情感类别的概率分布和标注的真实情感类别标签构建交叉熵损失函数为
[0110][0111]
其中,y表示情感类别的真实分布,x表示情感类别标签,n表示情感类别标签个数,i表示情感类别标签序号。
[0112]
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0113]
在一个实施例中,如图3所示,提供了一种基于多模态特征和对比学习的语音情感识别装置,包括:模型构建模块302、数据预处理模块304、特征提取模块306、对比学习模块308和语音情感识别模块310,其中:
[0114]
模型构建模块302,用于获取待识别的语音视频数据;语音视频数据中包括语音文本和视频数据;构建的语音情感识别模型;语音情感识别模型包括fast rcnn预处理模型、双向gru模型、3d卷积网络和全连阶层;
[0115]
数据预处理模块304,用于对语音文本进行数据预处理,得到语音向量和词向量;利用fast rcnn预处理模型将视频数据中说话人的局部特征提取出来,并扩充尺寸后与视频数据的全局特征图进行融合,得到融合视频数据;局部特征包括脸部表情和手部动作;
[0116]
特征提取模块306,用于根据双向gru模型分别对语音向量和词向量进行情感特征提取,得到语音情感特征和文本情感特征;利用3d卷积网络对融合视频数据进行情感特征
提取,得到高级情感特征;
[0117]
对比学习模块308,用于根据对比学习方法对语音情感特征、文本情感特征和高级情感特征进行增强表示,得到增强后的语音情感特征、文本情感特征和高级情感特征;将增强后的语音情感特征、文本情感特征和高级情感特征进行拼接,并通过全连接层组成的解码器进行解码,输出情感类别的概率分布;
[0118]
语音情感识别模块310,用于根据情感类别的概率分布和标注的真实情感类别标签构建交叉熵损失函数,利用交叉熵损失函数和对比学习中的损失函数对预先构建的语音情感识别模型进行训练,得到训练好的语音情感识别模型;根据训练好的语音情感识别模型对待识别的语音视频数据进行语音情感识别。
[0119]
在其中一个实施例中,数据预处理模块304还用于语音文本中包含语音数据和文本数据;对语音文本进行数据预处理,得到语音向量和词向量,包括:
[0120]
将语音数据按照固定时间段长度的窗口作为一帧,向后滑动窗口,每次移动后的窗口与前一个窗口位置都存在重叠部分,得到多个单帧语音数据;
[0121]
根据opensmile工具对单帧语音数据进行转化,得到语音向量;
[0122]
将文本数据中包含词语最多的句子长度作为最大长度,对文本数据中不足最大长度的句子进行零填充处理,得到多个等长的句子;
[0123]
根据bert预处理模型对等长的句子中的词语进行转化,得到词向量;词向量中包含其对应的词语的上下文的语义信息。
[0124]
在其中一个实施例中,特征提取模块306还用于根据双向gru模型分别对语音向量和词向量进行情感特征提取,得到语音情感特征和文本情感特征,包括:
[0125]
根据双向gru模型,将语音向量和词向量分别同时输入一个正向和一个反向的gru模型,将两个gru模型相同时刻输出的状态信息向量进行拼接,得到分别对应的语音情感特征和文本情感特征。
[0126]
在其中一个实施例中,对比学习模块308还用于根据对比学习方法对语音情感特征、文本情感特征和高级情感特征进行增强表示,得到增强后的语音情感特征、文本情感特征和高级情感特征,包括:
[0127]
根据对比学习方法通过训练缩小损失函数来拉近语音情感特征、文本情感特征和高级情感特征之间的距离,得到增强后的语音情感特征、文本情感特征和高级情感特征。
[0128]
在其中一个实施例中,损失函数为loss
cons
=log(exp(d(s,t)/τ)+exp(d(s,v)/σ)),其中d为l2距离函数来测量两个情感特征表示的距离,s为语音情感特征,t为文本情感特征,v为高级情感特征,τ和σ是调节特征表示水平的参数。
[0129]
在其中一个实施例中,对比学习模块308还用于将增强后的语音情感特征、文本情感特征和高级情感特征进行拼接,并通过全连接层组成的解码器进行解码,输出情感类别的概率分布,包括:
[0130]
将增强后的语音情感特征、文本情感特征和高级情感特征进行拼接,并通过全连接层组成的解码器进行解码,输出情感类别的概率分布为
[0131]
[0132]
其中,fr表示拼接后的多模态特征,pj表示当前所识别情感是第j个类别的概率,为多模态特征的第j个特征参数,为多模态特征的第i个特征参数。。
[0133]
在其中一个实施例中,语音情感识别模块310还用于根据情感类别的概率分布和标注的真实情感类别标签构建交叉熵损失函数,包括:
[0134]
根据情感类别的概率分布和标注的真实情感类别标签构建交叉熵损失函数为
[0135][0136]
其中,y表示情感类别的真实分布,x表示情感类别标签,n表示情感类别标签个数,i表示情感类别标签序号。
[0137]
关于基于多模态特征和对比学习的语音情感识别装置的具体限定可以参见上文中对于基于多模态特征和对比学习的语音情感识别方法的限定,在此不再赘述。上述基于多模态特征和对比学习的语音情感识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0138]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于多模态特征和对比学习的语音情感识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0139]
本领域技术人员可以理解,图4中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0140]
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
[0141]
在一个实施例中,提供了一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
[0142]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,
诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0143]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0144]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。

技术特征:


1.一种基于多模态特征和对比学习的语音情感识别方法,其特征在于,所述方法包括:获取待识别的语音视频数据;所述语音视频数据中包括语音文本和视频数据;构建的语音情感识别模型;所述语音情感识别模型包括fast rcnn预处理模型、双向gru模型、3d卷积网络和全连阶层;对所述语音文本进行数据预处理,得到语音向量和词向量;利用fast rcnn预处理模型将所述视频数据中说话人的局部特征提取出来,并扩充尺寸后与所述视频数据的全局特征图进行融合,得到融合视频数据;所述局部特征包括脸部表情和手部动作;根据双向gru模型分别对所述语音向量和词向量进行情感特征提取,得到语音情感特征和文本情感特征;利用3d卷积网络对所述融合视频数据进行情感特征提取,得到高级情感特征;根据对比学习方法对所述语音情感特征、文本情感特征和高级情感特征进行增强表示,得到增强后的语音情感特征、文本情感特征和高级情感特征;将所述增强后的语音情感特征、文本情感特征和高级情感特征进行拼接,并通过全连接层组成的解码器进行解码,输出情感类别的概率分布;根据所述情感类别的概率分布和标注的真实情感类别标签构建交叉熵损失函数,利用所述交叉熵损失函数和对比学习中的损失函数对预先构建的语音情感识别模型进行训练,得到训练好的语音情感识别模型;根据所述训练好的语音情感识别模型对所述待识别的语音视频数据进行语音情感识别。2.根据权利要求1所述的方法,其特征在于,所述语音文本中包含语音数据和文本数据;对所述语音文本进行数据预处理,得到语音向量和词向量,包括:将所述语音数据按照固定时间段长度的窗口作为一帧,向后滑动窗口,每次移动后的窗口与前一个窗口位置都存在重叠部分,得到多个单帧语音数据;根据opensmile工具对所述单帧语音数据进行转化,得到语音向量;将所述文本数据中包含词语最多的句子长度作为最大长度,对所述文本数据中不足最大长度的句子进行零填充处理,得到多个等长的句子;根据bert预处理模型对所述等长的句子中的词语进行转化,得到词向量;所述词向量中包含其对应的词语的上下文的语义信息。3.根据权利要求1所述的方法,其特征在于,根据双向gru模型分别对所述语音向量和词向量进行情感特征提取,得到语音情感特征和文本情感特征,包括:根据双向gru模型,将所述语音向量和词向量分别同时输入一个正向和一个反向的gru模型,将两个gru模型相同时刻输出的状态信息向量进行拼接,得到分别对应的语音情感特征和文本情感特征。4.根据权利要求1至3任意一项所述的方法,其特征在于,根据对比学习方法对所述语音情感特征、文本情感特征和高级情感特征进行增强表示,得到增强后的语音情感特征、文本情感特征和高级情感特征,包括:根据对比学习方法通过训练缩小损失函数来拉近语音情感特征、文本情感特征和高级情感特征之间的距离,得到增强后的语音情感特征、文本情感特征和高级情感特征。
5.根据权利要求4所述的方法,其特征在于,所述损失函数为loss
cons
=log(exp(d(s,t)/τ)+exp(d(s,v)/σ)),其中d为l2距离函数来测量两个情感特征表示的距离,s为语音情感特征,t为文本情感特征,v为高级情感特征,τ和σ是调节特征表示水平的参数。6.根据权利要求1所述的方法,其特征在于,将所述增强后的语音情感特征、文本情感特征和高级情感特征进行拼接,并通过全连接层组成的解码器进行解码,输出情感类别的概率分布,包括:将所述增强后的语音情感特征、文本情感特征和高级情感特征进行拼接,并通过全连接层组成的解码器进行解码,输出情感类别的概率分布为其中,f
r
表示拼接后的多模态特征,p
j
表示当前所识别情感是第j个类别的概率,为多模态特征的第j个特征参数,为多模态特征的第i个特征参数。7.根据权利要求6所述的方法,其特征在于,根据所述情感类别的概率分布和标注的真实情感类别标签构建交叉熵损失函数,包括:根据所述情感类别的概率分布和标注的真实情感类别标签构建交叉熵损失函数为其中,y表示情感类别的真实分布,x表示情感类别标签,n表示情感类别标签个数,i表示情感类别标签序号。8.一种基于多模态特征和对比学习的语音情感识别装置,其特征在于,所述装置包括:模型构建模块,用于获取待识别的语音视频数据;所述语音视频数据中包括语音文本和视频数据;构建的语音情感识别模型;所述语音情感识别模型包括fast rcnn预处理模型、双向gru模型、3d卷积网络和全连阶层;数据预处理模块,用于对所述语音文本进行数据预处理,得到语音向量和词向量;利用fast rcnn预处理模型将所述视频数据中说话人的局部特征提取出来,并扩充尺寸后与所述视频数据的全局特征图进行融合,得到融合视频数据;所述局部特征包括脸部表情和手部动作;特征提取模块,用于根据双向gru模型分别对所述语音向量和词向量进行情感特征提取,得到语音情感特征和文本情感特征;利用3d卷积网络对所述融合视频数据进行情感特征提取,得到高级情感特征;对比学习模块,用于根据对比学习方法对所述语音情感特征、文本情感特征和高级情感特征进行增强表示,得到增强后的语音情感特征、文本情感特征和高级情感特征;将所述增强后的语音情感特征、文本情感特征和高级情感特征进行拼接,并通过全连接层组成的解码器进行解码,输出情感类别的概率分布;语音情感识别模块,用于根据所述情感类别的概率分布和标注的真实情感类别标签构建交叉熵损失函数,利用所述交叉熵损失函数和对比学习中的损失函数对预先构建的语音情感识别模型进行训练,得到训练好的语音情感识别模型;根据所述训练好的语音情感识
别模型对所述待识别的语音视频数据进行语音情感识别。9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

技术总结


本申请涉及一种基于多模态特征和对比学习的语音情感识别方法及装置。所述方法包括:构建的语音情感识别模型,利用Fast RCNN预处理模型、双向GRU模型以及进行3D卷积网络特征提取,得到语音情感特、文本情感特征和高级情感特征;根据对比学习方法进行情感特征增强表示,将增强后的情感特征进行拼接,然后解码输出情感类别的概率分布;根据情感类别的概率分布和标注的真实情感类别标签构建交叉熵损失函数,利用交叉熵损失函数和对比学习中的损失函数对预先构建的语音情感识别模型进行训练,根据训练好的语音情感识别模型对待识别的语音视频数据进行语音情感识别。采用本方法能够提高语音情感识别准确率。提高语音情感识别准确率。提高语音情感识别准确率。


技术研发人员:

谭真 张俊丰 赵翔 唐九阳 王俞涵 吴菲 葛斌

受保护的技术使用者:

中国人民解放军国防科技大学

技术研发日:

2022.07.14

技术公布日:

2022/10/24

本文发布于:2024-09-22 00:52:01,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/23171.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:情感   特征   语音   向量
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议