一种基于时频注意力机制的语音情感识别方法



1.本发明涉及一种基于时频注意力机制的语音情感识别方法,属于语音情感识别技术领域。


背景技术:



2.语音情感识别在人机交互中具有重要的应用价值。传统的语音情感识别方法是基于声学特征和机器学习分类模型对外界情感进行识别与分类。其中,声学特征多为从原始音频记录中所提取到的特征,包括低层描述子(llds)和高层统计特征(hsfs)。在此基础上,为了进一步对所提取到的声学特征进行情感识别,多采用包括马尔科夫模型、高斯混合模型、决策树等在内的多种机器学习分类模型进行情感分类。然而因为声学特征,并不能很好的表征语言情感信息,即在选择频域特征时往往会忽略时间维度相关情感信息,相反在选择时域特征时常忽略频域相关信息。
3.由于语音情感信息分布在时域和频域,声谱图是一种时间-频率图,能够在保留语音时序信息的同时体现语音的频域特性,因此研究者尝试利用声谱图代替声学特征进行情感分类。在时间域,情绪反映在不同的时间帧;在频域,不同的情绪信息分布在语音的高频和低频区域。例如,愤怒这类情绪语音在高频表现出丰富的声学特征,悲伤这类情绪语音在低频表现出丰富的声学特征。因此log-mel声谱图中时间帧和频率间隔对情感特征的重要性不同,因此,如何提取显著的时频特征需要进一步研究。


技术实现要素:



4.针对目前技术现有技术中存在的上述缺陷,本发明提出一种基于时频注意力机制的语音情感识别方法,其步骤简单,通过提取与情感相关的时频特征从而更准确的对语音中的情感进行识别。
5.为了实现上述技术目的,本发明的一种基于时频注意力机制的语音情感识别方法,步骤如下:
6.步骤a:提取log-mel声谱图特征,利用循环填充方法填充log-mel声谱图特征使其变长,将变长的log-mel声谱图特征输入语音情感识别模型,所述语音情感识别模型包括顺序连接的时频卷积模块、时频注意模块、多层卷积网络和全连接层;
7.步骤b:时频卷积模块对输入的log-mel声谱图捕获时域和频域的变化信息,同时提取log-mel声谱图的时频特征;
8.步骤c:利用时频注意模块对时频特征分别进行时域和频域方向的权重学习,标定情感特征,生成时频加权特征图;
9.步骤d:将时频加权特征图送入多层卷积网络学习深层情感特征;
10.步骤e:对深层情感特征分别沿着时间维度做均值池化、沿着频率做最大池化,得到一维情感特征;
11.步骤f:将一维情感特征送入全连接层投影到所需维度,并利用softmax分类器对
不同语音情感进行分类。
12.进一步,步骤a具体包括:
13.步骤a-1:通过对声音信号先后进行预加重、分帧、加窗、短时傅里叶变换最终生成log-mel声谱图;
14.步骤a-2:输入的log-mel声谱图的时间长度为wavtime,设定输入批次,将一个批次中log-mel声谱图的最小时间长度标注为min,通过max()函数计算出该批次log-mel声谱图最大时间长度标注为max;
15.步骤a-3:若该批次最大时间长度max大于等于log-mel声谱图最小时间长度min,则该批次最大时间长度为max,否则,max等于min;
16.步骤a-4:判断输入log-mel声谱图的时间长度wavtime,是否等于max,若为真,则返回时间长度为max的log-mel声谱图特征;
17.步骤a-5:若为假,用该批次最大时间长度max除以输入谱图时间长度wavtime得到待填充长度,利用repeat()函数进行循环填充;
18.步骤a-6:返回填充特征,从而保证若输入的log-mel声谱图长于wavtime就按照最大长度设定,每个log-mel谱图的最小长度为wavtime。
19.进一步,构建时频卷积模块包括两组不同形状的滤波器来学习时频信息:第一组为时域卷积滤波器tcnn,沿log-mel声谱图的时间维度获取时间变化信息r
t
,其时间维度为t,频率维度为1;第二组为频域卷积滤波器fcnn,沿log-mel声谱图的频率维度获取频率信息rf,其频率维度为f,时间维度为1,tcnn和fcnn共同组成时频卷积模块tfcnn。
20.进一步,构建时频注意模块的具体步骤包括:
21.步骤c-1:生成时域注意权重和频域注意权重:经过tcnn和fcnn输出时域特征图f
t
和频域特征图ff,每个特征图有三个维度:通道c、频率h和时间维度w,将输出的两个特征图f
t
∈rc×h×w和ff∈rc×h×w,通过平均池化方法和最大池化方法来聚合特征映射的通道信息,生成两个二维映射:f
avg
∈r1×h×w、f
max
∈r1×h×w;两个二维映射f
avg
∈r1×h×w、f
max
∈r1×h×w的特征图都表示整个通道的平均池化特征和最大池化特征,然后通过两种不同核大小的独立卷积conv1×
t
和convf×1进行学习,其中卷积核的大小表示该区域交互的覆盖范围,最后通过sigmoid激活函数,生成时域注意权重tw和频域注意权重sw,公式如下所示:
[0022][0023][0024]
公式(1)中,表示f
t
经过平均池化后的聚合特征;表示f
t
经过最大池化后的聚合特征;conv1×
t
表示卷积核大小为1
×
t的卷积,其中t表示时间区域的帧数;tw表示时间维度相关权重;为sigmoid激活函数;同理,公式(2)中,表示ff经过平均池化后的聚合特征;表示ff经过最大池化后的聚合特征;convf×1表示卷积核大小为f
×
1的卷积,其中f是频率间隔的个数;sw表示频率维度相关权重;
[0025]
步骤c-2:时域特征图f
t
和频域特征图ff利用残差连接构建时频注意模块,时频注意模块为前馈神经注意模块,分别在时域和频域两个维度推导出注意映射,然后将注意映射到时频特征上进行自适应的特征细化,即时频注意力机制tf_atten,时频注意力机制tf_
atten包括时域注意力机制t_atten和频域注意力机制f_atten;然后利用时频注意模块生成时频加权特征图:
[0026]
利用时频注意力权重(tw、sw)与对应特征图(f
t
、ff)逐元素相乘,同时为了保护语音中情感信息的完整性,在计算时频注意加权特征图(t、s)的过程中使用了残差连接,时频加权特征图(t、s)的计算方法如下:
[0027][0028][0029]
其中,表示元素相乘。
[0030]
进一步,将时频加权特征图通过concat的方式拼接起来,得到融合特征f
ts
,利用多层卷积学习深度情感特征,其中多层卷积由卷积层、池化层组成。
[0031]
有益效果:
[0032]
本发明采用时频注意模块进一步提高语音情感识别性能。利用时频注意力机制tf_atten提取了情感显著的时频特征,利用频域注意力机制能够关注情绪信息丰富的频率间隔,时域注意力机制能够定位到多个情绪区域,突出语音信息区域,两种注意力机制相互配合,能够辅助情感识别模型从变长的log-mel声谱图中提取与情感相关的时频特征,同时残差连接,促进了信息传递,从而更准确的对语音中的情感进行识别。
附图说明
[0033]
图1为本发明基于时频注意力机制的语音情感识别模型示意图。
具体实施方式
[0034]
下面结合具体实施例,并结合附图对本发明实施例做详细说明。
[0035]
如图1所示,本发明的一种基于时频注意力机制的语音情感识别方法,具体步骤为:
[0036]
步骤1、选择使用iemocap数据库中的2943条即兴会话(improvised)数据进行实验,并将语音样本中的兴奋类并入快乐类,采用愤怒、伤心、快乐、中性4类情感进行情感分类。iemocap数据库被划分成10个子集,轮流将其中9个子集作为训练数据,1个子集作为测试数据,进行十折交叉验证,每次试验都会得到相应的分类准确率,最后对十次实验结果取平均获得最终的分类准确率,本文构建了一个不独立于说话人的语音情感识别系统。使用未加权精度(ua)、加权精度(wa)。
[0037]
步骤2、对语音信号进行分帧加窗处理,帧长设置为40毫秒,帧移设置为10毫秒,对于每帧语音信号,计算长度为2048的离散傅里叶变换(dft)得到短时频谱,并对短时频谱取模的平方得到离散功率谱。将离散功率谱通过一个包含128个梅尔滤波器的梅尔滤波器组,从而可以计算出128个梅尔频谱。然后对梅尔频谱计算自然对数,即可算出log-mel声谱图。
[0038]
步骤3、利用每个批次的最大长度对log-mel声谱图进行循环填充作为模型输入。
[0039]
步骤4、log-mel声谱图特征首先通过时频卷积模块tfcnn提取时频情感特征f
t
∈rc×h×w和ff∈rc×h×w,并通过时频注意模块对情感特征分别进行时域和频域方向的权重学习,标定情感特征,提取时频加权特征图t、s。其中时频卷积模块tfcnn结构如表1所示。
[0040]
表1 tfcnn网络结构及具体参数
[0041][0042][0043]
步骤5、将时频加权特征图t、s进行特征融合,得到融合特征f
ts
,送入多层cnn学习深层情感特征。其中多层cnn结构和参数如表2所示。
[0044]
表2 cnn层网络结构参数
[0045][0046]
步骤6、对步骤5中得到的深层情感特征分别沿着时间维度和频率维度进行均值池化和最大池化操作,得到大小为512的一维情感特征。
[0047]
步骤7、将步骤6中的一维特征送入全连接层进行降维,并通过softmax进行情感分类。
[0048]
为了进一步说明本发明,本发明设计对比实验。具体实验如下:
[0049]

cnn:本实验以循环填充的log-mel谱图作为输入,利用传统cnn网络提取局部情感特征作为对比实验,cnn结构和参数如表2所示;
[0050]

tfcnn:本实验采用的tcnn和fcnn卷积核大小分别为1
×
11和11
×
1,tfcnn网络结构及具体参数如表1所示,时频特征通过concat进行拼接,然后利用多层cnn学习深层情感特征,其中cnn网络结构及具体参数如表2所示,最后通过全连接层进行情感分类;
[0051]

tf_atten:本实验在(2)的基础上使用t_atten、f_atten提取时频特征。采用t_atten和f_atten的卷积核大小分别为1*21和21*1进行后续实验;
[0052]
实验结果如表3所示。
[0053]
表3不同模型的实验结果
[0054][0055]
以cnn网络作为对比,对比tfcnn和cnn实验结果可知,tfcnn的wa为75.8%,比cnn提高了2.6%,tfcnn的ua为74.8%,比cnn提高了3.9%,实验论证了利用tfcnn提取的时频特征相对于利用传统cnn提取的局部特征具有更好的情感分类性能。对比tf_atten和tfcnn的实验结果可知,tf_atten的wa和ua比tfcnn分别提高了1.2%和1.1%。这得益于时频注意力之间的相互协作,其中,频域注意力机制能够关注情绪信息丰富的频率间隔,时域注意力机制能够定位到多个情绪区域,突出语音信息区域,关注情感信息丰富的语音帧。两种注意力机制相互配合,能够辅助情感识别模型从变长的log-mel声谱图中有效的提取与情感相关的时频特征,验证了利用时频注意力机制提取的情感显著的时频特征的有效性。
[0056]
以上实施例的说明只是用于帮助理解本发明的方法以及核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干修改和修饰,这些改进也落入本发明权利要求的保护范围内。

技术特征:


1.一种基于时频注意力机制的语音情感识别方法,其特征在于,步骤如下:步骤a:提取log-mel声谱图特征,利用循环填充方法填充log-mel声谱图特征使其变长,将变长的log-mel声谱图特征输入语音情感识别模型,所述语音情感识别模型包括顺序连接的时频卷积模块、时频注意模块、多层卷积网络和全连接层;步骤b:时频卷积模块对输入的log-mel声谱图捕获时域和频域的变化信息,同时提取log-mel声谱图的时频特征;步骤c:利用时频注意模块对时频特征分别进行时域和频域方向的权重学习,标定情感特征,生成时频加权特征图;步骤d:将时频加权特征图送入多层卷积网络学习深层情感特征;步骤e:对深层情感特征分别沿着时间维度做均值池化、沿着频率做最大池化得到一维情感特征;步骤f:将一维情感特征送入全连接层投影到所需维度,并利用softmax分类器对不同语音情感进行分类。2.根据权利要求1所述的基于时频注意力机制的语音情感识别方法,其特征在于步骤a具体包括:步骤a-1:通过对声音信号先后进行预加重、分帧、加窗、短时傅里叶变换最终生成log-mel声谱图;步骤a-2:输入的log-mel声谱图的时间长度为wavtime,设定输入批次,将一个批次中log-mel声谱图的最小时间长度标注为min,通过max()函数计算出该批次log-mel声谱图最大时间长度标注为max;步骤a-3:若该批次最大时间长度max大于等于log-mel声谱图最小时间长度min,则该批次最大时间长度为max,否则,max等于min;步骤a-4:判断输入log-mel声谱图的时间长度wavtime,是否等于max,若为真,则返回时间长度为max的log-mel声谱图特征;步骤a-5:若为假,用该批次最大时间长度max除以输入谱图时间长度wavtime得到待填充长度,利用repeat()函数进行循环填充;步骤a-6:返回填充特征,从而保证若输入的log-mel声谱图长于wavtime就按照最大长度设定,每个log-mel谱图的最小长度为wavtime。3.根据权利要求1所述的基于时频注意力机制的语音情感识别方法,其特征在于构建时频卷积模块包括两组不同形状的滤波器来学习时频信息:第一组为时域卷积滤波器tcnn,沿log-mel声谱图的时间维度获取时间变化信息r
t
,其时间维度为t,频率维度为1;第二组为频域卷积滤波器fcnn,沿log-mel声谱图的频率维度获取频率信息r
f
,其频率维度为f,时间维度为1,tcnn和fcnn共同组成时频卷积模块tfcnn。4.根据权利要求3所述的基于时频注意力机制的语音情感识别方法,其特征在于构建时频注意模块包括:步骤c-1:生成时域注意权重和频域注意权重:经过tcnn和fcnn输出时域特征图f
t
和频域特征图f
f
,每个特征图有三个维度:通道c、频率h和时间维度w,将输出的两个特征图f
t
∈r
c
×
h
×
w
和f
f
∈r
c
×
h
×
w
,通过平均池化方法和最大池化方法来聚合特征映射的通道信息,生成两个二维映射:f
avg
∈r1×
h
×
w
、f
max
∈r1×
h
×
w
;两个二维映射f
avg
∈r1×
h
×
w
、f
max
∈r1×
h
×
w
的特征图
都表示整个通道的平均池化特征和最大池化特征,通过两种不同核大小的独立卷积conv1×
t
和conv
f
×1进行学习,其中卷积核的大小表示该区域交互的覆盖范围,最后通过sigmoid激活函数,生成时域注意权重t
w
和频域注意权重s
w
,公式如下所示:,公式如下所示:公式(1)中,表示f
t
经过平均池化后的聚合特征;表示f
t
经过最大池化后的聚合特征;conv1×
t
表示卷积核大小为1
×
t的卷积,其中t表示时间区域的帧数;t
w
表示时间维度相关权重;为sigmoid激活函数;同理,公式(2)中,表示f
f
经过平均池化后的聚合特征;表示f
f
经过最大池化后的聚合特征;conv
f
×1表示卷积核大小为f
×
1的卷积,其中f是频率间隔的个数;s
w
表示频率维度相关权重;步骤c-2:时域特征图f
t
和频域特征图f
f
利用残差连接构建时频注意模块,时频注意模块为前馈神经注意模块,分别在时域和频域两个维度推导出注意映射,然后将注意映射到时频特征上进行自适应的特征细化,即时频注意力机制tf_atten,时频注意力机制tf_atten包括时域注意力机制t_atten和频域注意力机制f_atten;然后利用时频注意模块生成时频加权特征图:利用时频注意力权重(t
w
、s
w
)与对应特征图(f
t
、f
f
)逐元素相乘,同时为了保护语音中情感信息的完整性,在计算时频注意加权特征图(t、s)的过程中使用了残差连接,时频加权特征图(t、s)的计算方法如下:征图(t、s)的计算方法如下:其中,表示元素相乘。5.根据权利要求1所述的基于时频注意力机制的语音情感识别方法,其特征在于将时频加权特征图通过concat的方式拼接起来,得到融合特征f
ts
,利用多层卷积学习深度情感特征,其中多层卷积由卷积层、池化层组成。

技术总结


本发明公开一种基于时频注意力机制的语音情感识别方法,属于语音情感识别技术领域。提取log-Mel声谱图特征,利用循环填充方法填充log-Mel声谱图特征使其变长,将变长的log-Mel声谱图特征输入语音情感识别模型,包括顺序连接的时频卷积模块、时频注意模块、多层卷积网络和全连接层;时频卷积模块捕获时域、频域变化信息和时频特征,时频注意模块生成时频加权特征图;之后通过多层卷积网络学习深层情感特征;利用Softmax分类器对不同语音情感进行分类。其步骤简单,能够更准确的对语音中的情感进行识别。情感进行识别。情感进行识别。


技术研发人员:

金赟 戴妍妍 顾煜 方丛丛 马兴原

受保护的技术使用者:

江苏师范大学

技术研发日:

2022.07.13

技术公布日:

2022/10/13

本文发布于:2024-09-20 12:02:28,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/26549.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:特征   声谱   卷积   情感
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议