基于深度直推式迁移网络的跨库语音情感识别方法及装置

1.本发明涉及语音情感识别技术，尤其涉及一种基于深度直推式迁移网络的跨库语音情感识别方法及装置。

背景技术：

2.语音是人类最自然的表达方式之一。相较于日常生活中的其他常用交流方式，它也更能揭示出人类的自然情感状态。情感能帮助人们更好地相互了解，正因为如此，为了帮助人类更高效地理解和识别语音情感，利用计算机程序和人工智能算法进行自动语音情感识别成为近年来的模式识别、计算机视觉、情感计算等领域的热门研究方向。
3.近年来，研究者提出了许多基于机器学习和深度学习的有效方法来自动识别语音情感。例如，传统机器学习方法通常先提取手工特征，例如is09和is10，然后构造各种类型的分类器，例如svm、k-nn和bayesian分类器，专门用于识别语音情感的任务。与此同时，一些深度学习方法也被用于识别语音情感的任务，例如，lstm，预训练的cnn(例如，resnet，vggnet和densenet)和capsulenet。这些网络通常可以提高语音情感的表示能力，并以端到端的方式学习情感特征和分类器，对语音情感进行分类。
4.上述方法是在测试样本和训练样本来自相同数据库的理想情况下进行的。然而，在许多实际应用中，测试样本和训练样本通常来自不同的数据库，这很容易带来较大的领域差异，导致大多数语音情感识别方法在跨库时的识别效果不能令人满意。近来，有许多研究者尝试解决跨数据库语音情感识别问题，例如，zong等人提出了一种基于最小二乘回归(dalsr)的域自适应方法来处理跨数据库语音情感识别任务。hassan等人提出了一种重要加权支持向量机(iw-svm)，以消除不同样本之间的特征分布不匹配，提高不同数据库下的分类精度。long等人提出应用转移核学习(tkl)来学习域不变核，以消除来自不同数据库的样本之间的特征分布差异。gong等人提出了一种称为测地线流核(gfk)的方法，用grassmann流形上设计良好的gfk连接两个不同的数据库并缩小它们之间的特征分布差异。deng等人提出了一种通用自编码器(uae)来学习一个数据库无关的特征空间，其目的是利用uae强大的映射能力，将测试样本与训练样本映射到域无关的特征空间。fernando等人提出了一种子空间对齐(sa)的方法，用于寻映射函数，该映射函数可以将源样本所在的子空间与目标样本对齐。pan等人提出了一种基于再生核hilbert空间的转移分量分析(tca)方法，通过寻一些跨域的转移分量来消除不同域样本的分布差异。gideon等人提出了一种基于对抗判别领域泛化(addog)的方法，该方法可以从更多的数据库样本中学到更泛化的语音情感特征。以上大部分跨库语音情感识别相关研究主要基于传统机器学习方法，依靠具有领域不变性的空时描述子和机器学习分类器来处理跨库语音情感识别任务，识别率不十分理想，距离实际应用仍有一段距离；此外，随着语音情感数据集样本的扩充，基于深度学习的方法将是跨库语音情感识别在未来的主要研究方向之一，但目前相关研究较少，整体进展也较为缓慢。

技术实现要素：

5.发明目的：本发明针对现有技术存在的问题，提供一种识别准确率更高的基于深度直推式迁移网络的跨库语音情感识别方法及装置。
6.技术方案：本发明所述的基于深度直推式迁移网络的跨库语音情感识别方法包括：
7.(1)获取两个不同的语音情感数据库，分别为源数据库和目标数据库，源数据库中存储有情感语音音频和对应的情感类型标签，目标数据库中仅存储情感语音音频；
8.(2)将源数据库和目标数据库的情感语音音频处理成语谱图；
9.(3)建立深度回归神经网络；
10.(4)将源数据库的语谱图和对应的标签，目标数据库的语谱图和随机初始化的伪标签，作为样本同时输入深度回归神经网络，进行预训练；之后将获得的深度特征，再作为样本输入深度回归神经网络进行微调，完成训练；
11.(5)将待识别语音情感音频预处理成语谱图，并作为目标数据库中的样本输入训练好的深度回归神经网络，得到语音的情感类型。
12.进一步的，步骤(2)具体包括：采用python的librosa工具包将源数据库和目标数据库中的情感语音音频处理成语谱图。
13.进一步的，步骤(3)中建立的深度回归神经网络包括：从前到后依次连接的第一卷积层、第一最大值池化层、第二卷积层、第二最大值池化层、第三卷积层、第四卷积层、第三最大值池化层、第五卷积层、第六卷积层、第四最大值池化层、第七卷积层、第八卷积层、第五最大值池化层、自适应平均池化层和全连接层。
14.进一步的，所有卷积层和全连接层中每个神经元均采用直线修正单元relu作为激活函数。
15.进一步的，所述全连接层的神经元输出采用dropout＝0.5防止过拟合。
16.进一步的，步骤(4)包括：
17.(4-1)将源数据库的语谱图和对应的标签，目标数据库的语谱图和随机初始化的伪标签，作为样本同时输入深度回归神经网络，训练时采用的损失函数l为：
[0018][0019]
其中，n为源数据库样本编号，n为源数据库样本数目，m为目标数据库样本编号，m为目标数据库样本数目，j为语音情感类别编号，j为语音情感类别数目，为源数据库第n个样本的实际输出情感特征被划分为j的概率，为源数据库第n个样本的输出情感特征被划分为j的期望概率，为目标数据库第m个样本的实际输出情感特征被划分为j的概率，为目标数据库第m个样本在上一轮训练中的实际输出情感特征被划分为j的概率；
[0020]
(4-2)将源数据库和目标数据库经过深度回归神经网络得到的深度特征作为样本输入与训练好的深度回归神经网络，进行微调整训练，训练时采用的损失函数l
total
为：
[0021]
l
total
＝αl
mmd
+βl
[0022][0023]
其中，mmd(xs，y
t
)代表源数据库和目标数据库样本在深度回归神经网络上输出的情感特征的最大均值差异mmd，xs表示源数据库样本在深度回归神经网络输出的情感特征，y
t
表示目标数据库样本在深度回归神经网络输出的情感特征，代表源数据库和目标数据库样本在深度回归神经网络上输出的、类别j的情感特征的最大均值差异mmd，表示源数据库样本在深度回归神经网络输出的、类别j的情感特征分布，表示目标数据库样本在深度回归神经网络输出的、类别j的情感特征，代表源数据库和目标数据库样本在深度回归神经网络输出的、正负性情感的情感特征的最大均值差异mmd，表示源数据库样本在深度回归神经网络输出的、正负性情感的情感特征，表示目标数据库样本在深度回归神经网络输出的、正负性情感的情感特征，mmd是在再生希尔伯特空间中两组数据的均值距离，α和β是通过训练得到的结合强度系数。
[0024]
本发明所述的基于深度直推式迁移网络的跨库语音情感识别装置，包括处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法。
[0025]
有益效果：本发明与现有技术相比，其显著优点是：本发明识别准确率更高。
附图说明
[0026]
图1是本发明提供的基于深度直推式迁移网络的跨库语音情感识别方法的流程示意图；
[0027]
图2是深度直推式迁移网络dttrn的跨库语音情感识别架构示意图；
[0028]
图3是深度直推式迁移网络dttrn的主干网络的详细结构；
[0029]
图4是深度直推式迁移网络dttrn在跨库语音情感识别实验下的实验结果对比。
具体实施方式
[0030]
本实施例提供了一种基于深度直推式迁移网络的跨库语音情感识别方法，如图1所示，包括：
[0031]
(1)获取两个不同的语音情感数据库，分别为源数据库和目标数据库，源数据库中存储有情感语音音频和对应的情感类型标签，目标数据库中仅存储情感语音音频。
[0032]
本发明中训练样本(源数据库或源域)和测试样本(目标域或目标数据库)分属于不同的语音情感数据集，且两者具有明显的特征分布差异。
[0033]
(2)将源数据库和目标数据库的情感语音音频处理成语谱图。
[0034]
本实施例中，语谱图处理采用python的librosa工具包实现。
[0035]
(3)建立深度回归神经网络(cnn,dttrn)，所述网络包括cnn主干网络和连接主干网络的全连接层fc1。
[0036]
如图2所示，深度卷积神经网络的结构包括：从前到后依次连接的第一卷积层conv1、第一最大值池化层maxpool1、第二卷积层conv2、第二最大值池化层maxpool2、第三卷积层conv3、第四卷积层conv4、第三最大值池化层maxpool3、第五卷积层conv5、第六卷积
层conv6、第四最大值池化层maxpool4、第七卷积层conv7、第八卷积层conv8、第五最大值池化层maxpool5、自适应平均池化层adavepool1和全连接层fc1，卷积层和全连接层中每个神经元均采用直线修正单元relu作为激活函数，所有全连接层神经元输出均采用dropout＝0.5防止过拟合。
[0037]
如图3所示，网络中的8个卷积层的局部感受野大小均设为3
×
3，步长(stride)均设为1，并在卷积后采用边缘补零策略保持特征映射大小不变。对于第1个卷积层，设置64个卷积核；对于第2个卷积层，设置128个卷积核；对于第3、4个卷积层，设置256个卷积核；对于最后4个卷积层，设置512个卷积核；对于2种池化层，最大值池化层窗口大小均设为2
×
2，自适应平均池化层窗口大小均设为7
×
7，步长(stride)均设为2。每一次池化均使映射输出的特征维度减小为原来的一半。
[0038]
网络激活函数设置为：采用直线修正线性单元(relu)作为dttrn网络中每个神经元的激活函数，其定义如下：
[0039][0040]
(4)将源数据库的语谱图和对应的标签，目标数据库的语谱图和随机初始化的伪标签，作为样本同时输入深度回归神经网络，进行预训练；之后将获得的深度特征，再作为样本输入深度回归神经网络进行微调，完成训练。
[0041]
该步骤具体包括：
[0042]
(4-1)将源数据库的语谱图和对应的标签，目标数据库的语谱图和随机初始化的伪标签，作为样本同时输入深度回归神经网络，训练时基于交叉熵损失函数(cross entropy loss function)改进，具体损失函数l为：
[0043][0044]
(4-1)将源数据库的语谱图和对应的标签，目标数据库的语谱图和随机初始化的伪标签，作为样本同时输入深度回归神经网络，训练时采用的损失函数l为：
[0045][0046]
其中，n为源数据库样本编号，n为源数据库样本数目，m为目标数据库样本编号，m为目标数据库样本数目，j为语音情感类别编号，j为语音情感类别数目，为源数据库第n个样本的实际输出情感特征被划分为j的概率，为源数据库第n个样本的输出情感特征被划分为j的期望概率，为目标数据库第m个样本的实际输出情感特征被划分为j的概率，为目标数据库第m个样本在上一轮训练中的实际输出情感特征被划分为j的概率；
[0047]
(4-2)将源数据库和目标数据库经过深度回归神经网络得到的深度特征作为样本输入与训练好的深度回归神经网络，进行微调整训练，训练时采用的损失函数l
total
为：
[0048]
l
total
＝αl
mmd
+βl
[0049][0050]
其中，mmd(xs，y
t
)代表源数据库和目标数据库样本在深度回归神经网络上输出的情感特征的最大均值差异mmd，xs表示源数据库样本在深度回归神经网络输出的情感特征，y
t
表示目标数据库样本在深度回归神经网络输出的情感特征，代表源数据库和目标数据库样本在深度回归神经网络上输出的、类别j的情感特征的最大均值差异mmd，表示源数据库样本在深度回归神经网络输出的、类别j的情感特征分布，表示目标数据库样本在深度回归神经网络输出的、类别j的情感特征，代表源数据库和目标数据库样本在深度回归神经网络输出的、正负性情感的情感特征的最大均值差异mmd，表示源数据库样本在深度回归神经网络输出的、正负性情感的情感特征，表示目标数据库样本在深度回归神经网络输出的、正负性情感的情感特征，mmd是在再生希尔伯特空间中两组数据的均值距离，α和β是通过训练得到的结合强度系数。
[0051]
(5)将待识别语音情感音频预处理成语谱图，并作为目标数据库中的样本输入训练好的深度回归神经网络，得到语音的情感类型。
[0052]
训练优化器采用了带有校正因子动量(nesterov momentum)的随机梯度下降(stochastic gradient descent,sgd)算法，计算损失函数从而不断更新权值，nesterov momentum通过模拟物理中动量的概念，抑制梯度方向的震荡，加快收敛速度，若历史梯度与当前梯度方向一致，momentum项增大，否则减少；而nesterov项在梯度更新时加入一个校正，避免梯度更新前进太快，同时梯度更新更为灵活，迭代过程如下
[0053][0054]
θ＝θ-v
t
其中η表示学习率，实验中设置为10-3
，此外权值衰减设置为10-5
，校正因子为0.9。
[0055]
为加快训练速度，提高识别结果的可靠度，在用源数据库预训练的dttrn网络模型上冻结各层权值，然后结合目标域样本和源域样本只对dttrn最后一个全连接层的权值进行训练微调，使之能够实现符合预期的跨库语音情感识别任务。训练最大周期设置为200。
[0056]
本实施例还提供了一种基于深度直推式迁移网络的跨库语音情感识别装置，包括处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法。
[0057]
为了验证本发明，进行仿真验证，仿真进行跨库语音情感识别实验需要使用具有相同样本标签的、属于不同数据库的样本数据，选择了emodb、enterface和casia，我们分别使用b、e和c来代表对应数据库。在emodb和casia的相互迁移中，我们使用了愤怒、伤心、恐惧、快乐和平淡5种情感；在emodb和enterface的相互迁移中，我们使用了愤怒、伤心、恐惧、快乐和恶心；在casia和enterface的相互迁移中，我们使用了愤怒、伤心、恐惧、快乐和惊讶。为了验证本发明中的直推式迁移深度回归网络dttrn的有效性与必要性，我们在emodb、enterface和casia上进行了跨库语音情感实验。在实验中选取uar(unweighted average recall)作为评价指标，结果如图4所示，可以观察到本发明中的直推式迁移深度回归网络dttrn在跨库语音情感识别任务上均取得了优异的识别效果。dttrn借鉴了直推式迁移的思想，利用无标签的目标域数据来更好地进行网络预训练；另外，设计的损失函数在dttrn微
调训练过程中可以约束两个数据库在网络上的特征分布差异，对跨库识别性能的提升起到了关键作用。
[0058]
以上所揭露的仅为本发明一种较佳实施例而已，不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

技术特征：

1.一种基于深度直推式迁移网络的跨库语音情感识别方法，其特征在于该方法包括：(1)获取两个不同的语音情感数据库，分别为源数据库和目标数据库，源数据库中存储有情感语音音频和对应的情感类型标签，目标数据库中仅存储情感语音音频；(2)将源数据库和目标数据库的情感语音音频处理成语谱图；(3)建立深度回归神经网络；(4)将源数据库的语谱图和对应的标签，目标数据库的语谱图和随机初始化的伪标签，作为样本同时输入深度回归神经网络，进行预训练；之后将获得的深度特征，再作为样本输入深度回归神经网络进行微调，完成训练；(5)将待识别语音情感音频预处理成语谱图，并作为目标数据库中的样本输入训练好的深度回归神经网络，得到语音的情感类型。2.根据权利要求1所述的基于深度直推式迁移网络的跨库语音情感识别方法，其特征在于：步骤(2)具体包括：采用python的librosa工具包将源数据库和目标数据库中的情感语音音频处理成语谱图。3.根据权利要求1所述的基于深度直推式迁移网络的跨库语音情感识别方法，其特征在于：步骤(3)中建立的深度回归神经网络包括：从前到后依次连接的第一卷积层、第一最大值池化层、第二卷积层、第二最大值池化层、第三卷积层、第四卷积层、第三最大值池化层、第五卷积层、第六卷积层、第四最大值池化层、第七卷积层、第八卷积层、第五最大值池化层、自适应平均池化层和全连接层。4.根据权利要求3所述的基于深度直推式迁移网络的跨库语音情感识别方法，其特征在于：所有卷积层和全连接层中每个神经元均采用直线修正单元relu作为激活函数。5.根据权利要求3所述的基于深度直推式迁移网络的跨库语音情感识别方法，其特征在于：所述全连接层的神经元输出采用dropout＝0.5防止过拟合。6.根据权利要求1所述的基于深度直推式迁移网络的跨库语音情感识别方法，其特征在于：步骤(4)包括：(4-1)将源数据库的语谱图和对应的标签，目标数据库的语谱图和随机初始化的伪标签，作为样本同时输入深度回归神经网络，训练时采用的损失函数l为：其中，n为源数据库样本编号，n为源数据库样本数目，m为目标数据库样本编号，m为目标数据库样本数目，j为语音情感类别编号，j为语音情感类别数目，为源数据库第n个样本的实际输出情感特征被划分为j的概率，为源数据库第n个样本的输出情感特征被划分为j的期望概率，为目标数据库第m个样本的实际输出情感特征被划分为j的概率，为目标数据库第m个样本在上一轮训练中的实际输出情感特征被划分为j的概率；(4-2)将源数据库和目标数据库经过深度回归神经网络得到的深度特征作为样本输入与训练好的深度回归神经网络，进行微调整训练，训练时采用的损失函数l
total
为：l
total
＝αl
mmd
+βl
其中，mmd(x
s
，y
t
)代表源数据库和目标数据库样本在深度回归神经网络上输出的情感特征的最大均值差异mmd，x
s
表示源数据库样本在深度回归神经网络输出的情感特征，y
t
表示目标数据库样本在深度回归神经网络输出的情感特征，代表源数据库和目标数据库样本在深度回归神经网络上输出的、类别j的情感特征的最大均值差异mmd，表示源数据库样本在深度回归神经网络输出的、类别j的情感特征分布，表示目标数据库样本在深度回归神经网络输出的、类别j的情感特征，代表源数据库和目标数据库样本在深度回归神经网络输出的、正负性情感的情感特征的最大均值差异mmd，表示源数据库样本在深度回归神经网络输出的、正负性情感的情感特征，表示目标数据库样本在深度回归神经网络输出的、正负性情感的情感特征，mmd是在再生希尔伯特空间中两组数据的均值距离，α和β是通过训练得到的结合强度系数。7.一种基于深度直推式迁移网络的跨库语音情感识别装置，包括处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于：所述处理器执行所述程序时实现权利要求1-6中任意一项所述的方法。

技术总结

本发明公开了一种基于深度直推式迁移网络的跨库语音情感识别方法及装置，方法包括：(1)获取源语音情感数据库和目标语音情感数据库(2)将源数据库和目标数据库的情感音频处理成语谱图(3)建立深度回归神经网络(4)将源数据库和目标数据库的语谱图输入深度回归神经网络进行训练，将从网络得到的特征来计算源数据和目标数据的、不同尺度的最大均值差异，对神经网络进行微调(5)将待识别语音作为目标数据库中的语音数据，输入训练好的深度卷积神经网络，得到语音情感类型。本发明识别准确率更高。高。高。