一种基于短时间语音预测年龄的方法

1.本发明涉及年龄预测的技术领域，具体是一种基于短时间语音预测年龄的方法。

背景技术：

2.语音是一种独特的生理信号，它不仅包含有关语言内容的信息(如单词、口音、语言等)。同时也传达了说话者的其他信息(如身高、年龄、性别、情感等)。利用语音信息分析估计这些物理参数，比如说话者的年龄，可以为人机交互、说话者分析、刑侦取证等方面带来极大的便利，具有广泛的应用。由于年龄的变化会影响声压级、语音谐波、语音速率等语音特征。所以从语言中根据特征比对可以识别年龄信息。现有技术中有采用支持向量机技术应用于不同的语音分析问题，识别不同的说话人。对年龄进行识别是将演讲者划分为不同的年龄组，采用高斯混合模型通用背景模型获得的混合成分的平均值，使用支持向量机来分类年龄组(儿童、青年、成人和老人)。也有人提出了一种使用x向量的端到端深度神经网络进行年龄预测。
3.但是，现有技术中通过对语音完成年龄预测最短持续时间的语音输入至少于5-10秒的范围内。对于许多取证/分析场景来说往往仅有非常简短的语音数据，现有的技术无法针对这些简短的语音数据进行分析。此外，现有的深度神经网络、支持向量机的训练是数据密集型的，需要先在大数据集上训练，然后才能进行测试，对于无法采集到很多数据的场景和应用来说，无法使用或者识别率很低。

技术实现要素：

4.发明目的：针对以上缺点，本发明提供一种基于短时间语音预测年龄的方法，能够针对短时间的语音进行年龄的精准预测。
5.技术方案：为解决上述问题，本发明提供一种基于短时间语音预测年龄的方法，具体包括以下步骤；
6.(1)获取短时间音频数据并进行预处理；针对预处理后的短时间音频数据进行相应年龄的年龄标签打标并提取声学特征；将预处理后的短时间音频数据划分成训练集与测试集；所述的短时间音频是指长度范围为1s-5s内的音频；
7.(2)将训练集中短时间音频数据的声学特征输入输入双向长短期记忆网络中进行模型训练，再将双向长短期记忆网络输出的结果输入注意力机制模型生成上下文向量，再将生成上下文向量输入交叉注意力机制模型获得最终的预测结果；
8.(3)计算最终的预测结果与实际标签值的差值，若差值处于预设误差范围内，则表明训练完毕；否则，更新双向长短期记忆网络的学习参数与权重，重新步骤(2)进行迭代训练直至达到迭代次数n完成训练；
9.(4)将测试集中短时间音频数据的声学特征输入训练好的双向长短期记忆网络获取输出结果，再将获取的输出结果输入到输入注意力机制模型生成上下文向量，再将生成上下文向量输入交叉注意力机制模型获得最终的预测结果。
10.进一步的，步骤(2)中获取最终的输出结果具体为：
11.(2.1)将提取的特征x＝[x1,x2,
……
,x
t
]作为输入双向长短期记忆网络，获取隐藏层向量状态序列h＝[h1,h2,
……
,h
t
]，t为特征数量；
[0012]
(2.2)采用注意力机制生成一个上下文向量作为双向长短期记忆网络在所有时间范围内隐藏层向量状态的加权和；具体的：
[0013]
(2.2.1)利用双向长短期记忆网络中上一时刻输出隐藏层向量h
t-1
计算每个双向长短期记忆网络隐藏层向量状态h
t
的标量分数e
t
，公式为：
[0014][0015]
(2.2.2)将e
t
通过softmax函数进行归一化，获取注意力α
t
，公式为：
[0016][0017]
(2.2.3)将注意力权重α
t
与所有输入隐藏层向量状态h
t
相乘并相加，得到一个按注意力比例分配的上下文向量c，公式为：
[0018][0019]
(2.3)将上下文向量c和隐藏层向量状态h
t
进行交叉注意力编码后，融合成一个新的上下文向量c
*
，公式为：
[0020][0021]
其中，γ为自定义常数；qs、ks、vs分别为上下文向量c经过线性层映射获取的三个特征空间向量；qv、kv、vv分别为隐藏层向量状态h
t
经过线性层映射获取的三个特征空间向量；
[0022]
(2.4)获得最终的预测结果公式为：
[0023][0024]
进一步的，步骤(2.3)还包括：将获取的新的上下文向量c
*
传输至密集层进行dropout正则化。
[0025]
进一步的，步骤(1)中预处理包括：将输入的语音数据进行独热编码形成二维矩阵，并通过窗口以预设步幅进行数据提取。
[0026]
进一步的，迭代次数n取1000次。
[0027]
此外，本发明还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一所述方法的步骤。一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述方法的步骤。
[0028]
有益效果：本发明所述一种基于短时间语音预测年龄的方法相对于现有技术，其显著优点是：1、通过注意力机制模块、交叉注意力机制模块与双向长短期记忆网络对声学特征进行联合训练，引入一个修改的上下文向量对双向长短期记忆网络的隐藏向量状态进行注意力的分配，从而获取更为精准的预测结果；2、由于交叉注意力机制与深度双向长短
期记忆网络相结合，可以避免使用大量的训练数据。
附图说明
[0029]
图1所示为本发明所述方法的流程图；
[0030]
图2所示为本发明所述双向长短期记忆网络结构示意图。
具体实施方式
[0031]
下面结合附图对本发明的技术方案进一步说明。
[0032]
如图1所示，本发明采用一种基于短时间语音预测年龄的方法，具体包括以下步骤；
[0033]
步骤一、收集年龄值范围为20岁至70岁供7000个音频数据集。该音频数据中的语音的持续时间从1-5s不等，为短时间语音，平均约为2.5秒。
[0034]
(1)对于获取的短语音音频数据集进行预处理；具体的，对于获取的短语音音频数据集进行独热编码，形成一个二维矩阵，在连续的语音输入中，通过25ms的窗口以10ms的步幅进行数据提取。将预处理的后短语音音频数据集中每个音频数据打上相应年龄的年龄标签；打完标签后将数据集划分成为训练集和测试集，训练集数量为4900个，测试集的数量为2100个。
[0035]
(2)对于预处理后短语音音频数据提取声学特征。具体的，人通过声道产生声音，声道的形状可以在语音短时功率谱的包络中显示出来，采用梅尔倒谱系数获取60个声学特征，其中包含20个梅尔频率倒谱系数特征成及其一阶导数和二阶导数；然后转换为移位增量系数特征，得到最终的输入特征序列x＝[x1,x2,
……
,x
t
]，t＝60。
[0036]
步骤二、将训练集提取的声学特征输入双向长短期记忆网络(lstm)进行模型训练，再将双向长短期记忆网络输出的结果输入注意力机制模型生成上下文向量，最后将生成上下文向量输入交叉注意力机制模型获得最终的预测结果；具体包括以下步骤：
[0037]
(1)将训练集提取的声学特征输入双向长短期记忆网络，最终获取获取隐藏层向量状态序列h＝[h1,h2,
……
,h
t
]。
[0038]
具体的，双向长短期记忆网络的输入输出公式为：
[0039]ft
＝σ(wf·
[h
t-1
,x
t
]+bf)
[0040]it
＝σ(wi·
[h
t-1
,x
t
]+bi)
[0041][0042][0043]ot
＝σ(wo·
[h
t-1
,x
t
]+bo)
[0044]ht
＝o
t
*tanh(c
t
)
[0045]
其中，wf、wi、wc、wo均为权重；bf、bi、bc、bo均为偏置；h
t
为当前时刻隐藏层状态输出，h
t-1
为上一时刻隐藏层状态输出；
[0046]
(2)注意机力制主要用于帮助在神经网络处理记忆长句子时生成一个上下文向量作为双向长短期记忆网络在所有时间范围内隐藏层向量状态的加权和；
[0047]
(2.1)利用双向长短期记忆网络中上一时刻输出隐藏层向量h
t-1
计算每个双向长
短期记忆网络隐藏层向量状态h
t
的标量分数e
t
，公式为：
[0048][0049]
(2.2)将e
t
通过softmax函数进行归一化，获取注意力α
t
，公式为：
[0050][0051]
(2.3)将注意力权重α
t
与所有输入隐藏层向量状态h
t
相乘并相加，得到一个按注意力比例分配的上下文向量c，公式为：
[0052][0053]
(3)、利用交叉注意力机制，提升模型的稳定性。
[0054]
将上下文向量c和隐藏层向量状态h
t
进行交叉注意力编码后，融合成一个新的上下文向量c
*
，公式为：
[0055][0056]
其中，γ为自定义常数；qs、ks、vs分别为上下文向量c经过线性层映射获取的三个特征空间向量；qv、kv、vv分别为隐藏层向量状态h
t
经过线性层映射获取的三个特征空间向量；softmax函数和dropout函数主要进行归一化和防止过拟合处理。
[0057]
(4)、将获取的新的上下文向量c
*
传递到一个密集层中，密集层上应用dropout正则化对说话者年龄进行分类估计从而做出最终的预测，估计的年龄结果为公式为：
[0058][0059]
步骤三、计算获取的预测结果与实际标签年龄值y进行差值运算；
[0060][0061]
比较δy是否处于预设误差范围内，若处于范围内则表明训练完毕；否则，更新双向长短期记忆网络的学习参数与权重，重新步骤二进行迭代训练直至达到迭代次数n完成训练；本实施例中预设误差范围为[3,5]年，n取1000次。
[0062]
步骤四、采用步骤二中训练集获取最终预测结果相同的方式获取测试集的数据的预测结果值。
[0063]
最终通过获取的预测说话者年龄值与标签上的实际年龄的平均绝对误差来评价该方法的有效性。下表为采用本技术和现有技术方案最终获取的均方根误差和平均绝对误差的比较结果：
[0064][0065]
平均绝对误差由语音样本对应年龄值和算法预测年龄值之间差值的平均值得到，单位为年，其值越小，说明模型的性能就越好。均方根误差通过计算实际年龄值和算法预测年龄值之间平方差值的平均值的平方根得到，单位为年，其值越小，说明模型的性能就越好。从表中可以看出，本发明获得的男性和女性说话者的平均绝对误差均为3.5年左右，处于预设估计年龄的误差范围之内；且本发明最终获得的平均绝对误差相对于其他算法计算获得的平均绝对误差更小。

技术特征：

1.一种基于短时间语音预测年龄的方法，其特征在于，包括以下步骤；(1)获取短时间音频数据并进行预处理；针对预处理后的短时间音频数据进行相应年龄的年龄标签打标并提取声学特征；将预处理后的短时间音频数据划分成训练集与测试集；(2)将训练集中短时间音频数据的声学特征输入双向长短期记忆网络中进行模型训练，再将双向长短期记忆网络输出的结果输入注意力机制模型生成上下文向量，再将生成上下文向量输入交叉注意力机制模型获得最终的预测结果；(3)计算最终的预测结果与实际标签值的差值，若差值处于预设误差范围内，则表明训练完毕；否则，更新双向长短期记忆网络的学习参数与权重，重复步骤(2)进行迭代训练直至达到迭代次数n完成训练；(4)将测试集中短时间音频数据的声学特征输入训练好的双向长短期记忆网络获取输出结果，再将获取的输出结果输入到输入注意力机制模型生成上下文向量，再将生成上下文向量输入交叉注意力机制模型获得最终的预测结果。2.根据权利要求1所述的基于短时间语音预测年龄的方法，其特征在于，步骤(2)中获取最终的输出结果具体为：(2.1)将提取的特征x＝[x1,x2,
……
,x
t
]作为输入双向长短期记忆网络，获取隐藏层向量状态序列h＝[h1,h2,
……
,h
t
]，t为特征数量；(2.2)采用注意力机制生成一个上下文向量作为双向长短期记忆网络在所有时间范围内隐藏层向量状态的加权和；具体的：(2.2.1)利用双向长短期记忆网络中上一时刻输出隐藏层向量h
t-1
计算每个双向长短期记忆网络隐藏层向量状态h
t
的标量分数e
t
，公式为：(2.2.2)将e
t
通过softmax函数进行归一化，获取注意力α
t
，公式为：(2.2.3)将注意力权重α
t
与所有输入隐藏层向量状态h
t
相乘并相加，得到一个按注意力比例分配的上下文向量c，公式为：(2.3)将上下文向量c和隐藏层向量状态h
t
进行交叉注意力编码后，融合成一个新的上下文向量c
*
，公式为：其中，γ为自定义常数；q
s
、k
s
、v
s
分别为上下文向量c经过线性层映射获取的三个特征空间向量；q
v
、k
v
、v
v
分别为隐藏层向量状态h
t
经过线性层映射获取的三个特征空间向量；(2.4)获得最终的预测结果公式为：。
3.根据权利要求2所述的基于短时间语音预测年龄的方法，其特征在于，步骤(2.3)还包括：将获取的新的上下文向量c
*
传输至密集层进行dropout正则化。4.根据权利要求1所述的基于短时间语音预测年龄的方法，其特征在于，步骤(1)中预处理包括：将输入的语音数据进行独热编码形成二维矩阵，并通过窗口以预设步幅进行数据提取。5.根据权利要求1所述的基于短时间语音预测年龄的方法，其特征在于，迭代次数n取1000次。6.根据权利要求1所述的基于短时间语音预测年龄的方法，其特征在于，所述的短时间音频是指长度范围为1s-5s内的音频。7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1至权利要求6任一所述方法的步骤。8.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至权利要求6任一所述方法的步骤。

技术总结

本发明公开了一种基于短时间语音预测年龄的方法，包括步骤：(1)获取短时间音频数据并进行预处理、年龄打标以及声学特征的提取；(2)将训练集数据的声学特征输入输入双向长短期记忆网络、注意力机制模型、交叉注意力机制模型进行联合训练并获得最终的预测结果；(3)计算最终的预测结果与实际标签值的差值，若差值处于预设误差范围内，则表明训练完毕；否则，更新双向长短期记忆网络的学习参数与权重，重新步骤(2)进行迭代训练直至达到迭代次数N完成训练；(4)将测试集数据的声学特征输入训练好的双向长短期记忆网络，通过注意力机制模型生、交叉注意力机制模型获得最终的预测结果。本发明能够针对短时间的语音进行年龄的精准预测。预测。预测。