一种基于深度学习的语音识别方法和系统与流程



1.本发明涉及语音识别领域,特别是指一种基于深度学习的语音识别方法和系统。


背景技术:



2.语音情感识别是指通过语音来识别说话人的情绪状态,是语音技术领域最具挑战的任务之一。而随着语音交互技术的广泛应用,能使机器更人性化的语音情感识别技术有着广阔的应用前景和商业价值。
3.近年来随着深度学习技术的发展,语音情感识别领域也出现了许多成果。然而即便如此,现阶段的语音情感识别技术仍面临许多困难,例如高维度情感特征难以人工提取、情感语音数据量小且标注难度大、训练数据和测试数据具有不同的分布,导致模型识别准确率差。


技术实现要素:



4.本发明的主要目的在于克服现有技术中的上述缺陷,提出一种基于深度学习的语音识别方法和系统,通过将语音特征分为情感相关特征和情感无关特征,减少情感无关因素在特征学习中的影响,并进行了情感标签预测和域标签预测,解决目标域样本不足或缺乏的问题。
5.本发明技术方案:
6.一种基于深度学习的语音识别方法,包括如下步骤:
7.获取语音信号,对语音信号进行预处理得到语谱特征表示,所述预处理包括但不限于:预加重、分帧、加窗、傅里叶变化、pca降维;
8.从每个无标签训练样本的语谱特征表示提取不同尺寸的块,采用cae进行无监督预训练,得到不同尺寸的核,通过对不同尺寸的核对整个语谱输入进行卷积、池化,再把不同尺寸的池化特征堆叠,得到粗糙特征;
9.将无监督特征学习得到的粗糙特征输入半监督学习框架中,将粗糙特征设定为情感相关特征和情感无关特征,并对共同输入粗糙特征进行重构,再将情感相关特征的敏感度向量和情感无关特征的敏感度向量正交,通过sigmoid映射对情感相关特征进行类别预测,从而学习到情感相关特征和情感无关特征;
10.将情感相关特征进行层次非线性转换得到高层情感特征,并输入分类与域不变特征学习模型中,并进行情感标签预测和域标签的预测;
11.利用源域的高层情感特征以及相应情感标签训练分类器,得到训练好的分类器。
12.具体地,所述核为编码器的权重和偏置。
13.具体地,所述半监督学习框架中的损失函数包括:重构损失函数,正交损失函数,判别损失函数和认证损失函数;
14.所述重构损失函数为:
[0015][0016][0017]
其中,s是sidmoid函数,w和v是半监督学习框架权重矩阵,d是半监督学习框架中的权重,η是控制约束项强度的超参数;fe(y)为设定的情感相关特征,fo(y)为设定的情感无关特征;y是粗糙特征,是重构特征;
[0018]
正交损失函数:
[0019][0020]
其中,f
ie
(y)是第i个情感相关特征,f
jo
(y)是第j个情感无关特征;
[0021]
判别损失函数:
[0022][0023]
其中,c是样本总个数,z和分别是情感原始标签和情感预测标签,k 为类别标号;
[0024]
认证损失函数:
[0025]
l
verif
(w,y,y1,y2)=(1-y)dw+(y)1/2{max(0,m-dw)}2[0026]
其中,dw为两个样本的情感相关特征之间的距离:
[0027]dw
(y1,y2)=||fe(y1)-fe(y2)||2;
[0028]
y=0表示y1和y2来自同一情感类别,y=0表示y1和y2来自不同情感类别,m为设定的阈值。
[0029]
具体地,将情感相关特征进行层次非线性转换得到高层情感特征,并输入分类与域不变特征学习模型中,并进行情感标签预测和域标签的预测,所述分类与域不变特征学习模型目标函数:
[0030][0031]
其中h把情感相关特征通过层次非线性转换映射得到高层情感特征,gy和 gd分别表示把高层情感特征映射成情感标签和域标签,ly和ld分别表示情感标签预测和域标签预测的损失函数,θy和θd分别表示情感标签预测和域标签预测时的参数,α为衡量域标签预测项的贡献度。
[0032]
本发明实施例还提供一种基于深度学习的语音识别系统,包括:
[0033]
语音预处理单元:获取语音信号,对语音信号进行预处理得到语谱特征表示,所述预处理包括但不限于:预加重、分帧、加窗、傅里叶变化、pca降维;
[0034]
粗糙特征获取单元:从每个无标签训练样本的语谱特征表示提取不同尺寸的块,采用cae进行无监督预训练,得到不同尺寸的核,通过对不同尺寸的核对整个语谱输入进行
卷积、池化,再把不同尺寸的池化特征堆叠,得到粗糙特征;
[0035]
情感相关特征获取单元:将无监督特征学习得到的粗糙特征输入半监督学习框架中,将粗糙特征设定为情感相关特征和情感无关特征,并对共同输入粗糙特征进行重构,再将情感相关特征的敏感度向量和情感无关特征的敏感度向量正交,通过sigmoid映射对情感相关特征进行类别预测,从而学习到情感相关特征和情感无关特征;
[0036]
情感标签和域标签预测单元:将情感相关特征进行层次非线性转换得到高层情感特征,并输入分类与域不变特征学习模型中,并进行情感标签预测和域标签的预测;
[0037]
分类器训练单元:利用源域的高层情感特征以及相应情感标签训练分类器,得到训练好的分类器。
[0038]
具体地,所述粗糙特征获取单元中,核为编码器的权重和偏置。
[0039]
具体地,所述情感相关特征获取单元中,半监督学习框架中的损失函数包括:重构损失函数,正交损失函数,判别损失函数和认证损失函数;
[0040]
所述重构损失函数为:
[0041][0042][0043]
其中,s是sidmoid函数,w和v是半监督学习框架权重矩阵,d是半监督学习框架中的权重,η是控制约束项强度的超参数;fe(y)为设定的情感相关特征,fo(y)为设定的情感无关特征;y是粗糙特征,是重构特征;
[0044]
正交损失函数:
[0045][0046]
其中,f
ie
(y)是第i个情感相关特征,f
jo
(y)是第j个情感无关特征;
[0047]
判别损失函数:
[0048][0049]
其中,c是样本总个数,z和分别是情感原始标签和情感预测标签,k为类别标号;
[0050]
认证损失函数:
[0051]
l
verif
(w,y,y1,y2)=(1-y)dw+(y)1/2{max(0,m-dw)}2[0052]
其中,dw为两个样本的情感相关特征之间的距离:
[0053]dw
(y1,y2)=||fe(y1)-fe(y2)||2;
[0054]
y=0表示y1和y2来自同一情感类别,y=0表示y1和y2来自不同情感类别,m为设定的阈值。
[0055]
具体地,所述情感标签和域标签预测单元中,将情感相关特征进行层次非线性转换得到高层情感特征,并输入分类与域不变特征学习模型中,并进行情感标签预测和域标签的预测,所述分类与域不变特征学习模型目标函数:
[0056]
l(θy,θd)=∑gy(h(fe(y);θy);θd)+α∑gd(h(fe(y);θd);θy)
[0057]
=ly(θy,θd)+αld(θd,θy)
[0058]
其中h把情感相关特征通过层次非线性转换映射得到高层情感特征,gy和 gd分别表示把高层情感特征映射成情感标签和域标签,ly和ld分别表示情感标签预测和域标签预测的损失函数,θy和θd分别表示情感标签预测和域标签预测时的参数,α为衡量域标签预测项的贡献度。
[0059]
本发明再一实施例提供一种电子设备,包括:存储器,处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现上述一种基于深度学习的语音识别方法步骤。
[0060]
本发明又一实施例提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述一种基于深度学习的语音识别方法步骤。
[0061]
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
[0062]
本发明提出一种基于深度学习的语音识别方法,首先获取语音信号,对语音信号进行预处理得到语谱特征表示,所述预处理包括但不限于:预加重、分帧、加窗、傅里叶变化、pca降维;从每个无标签训练样本的语谱特征表示提取不同尺寸的块,采用cae进行无监督预训练,得到不同尺寸的核,通过对不同尺寸的核对整个语谱输入进行卷积、池化,再把不同尺寸的池化特征堆叠,得到粗糙特征;将无监督特征学习得到的粗糙特征输入半监督学习框架中,将粗糙特征设定为情感相关特征和情感无关特征,并对共同输入粗糙特征进行重构,再将情感相关特征的敏感度向量和情感无关特征的敏感度向量正交,通过 sigmoid映射对情感相关特征进行类别预测,从而学习到情感相关特征和情感无关特征;将情感相关特征进行层次非线性转换得到高层情感特征,并输入分类与域不变特征学习模型中,并进行情感标签预测和域标签的预测;利用源域的高层情感特征以及相应情感标签训练分类器,得到训练好的分类器;本发明提供的方法通过将语音特征分为情感相关特征和情感无关特征,减少情感无关因素在特征学习中的影响,并进行了情感标签预测和域标签预测,解决目标域样本不足或缺乏的问题。
附图说明
[0063]
图1本发明实施例提供的一种基于深度学习的语音识别方法流程图;
[0064]
图2本发明实施例提供的半监督特征学习框架示意图;
[0065]
图3本发明实施例提供的分类与域不变特征学习模型示意图;
[0066]
图4本发明实施例提供的一种基于深度学习的语音识别系统框架图;
[0067]
图5为本发明实施例提供的一种电子设备的实施例示意图;
[0068]
图6为本发明实施例提供的一种计算机可读存储介质的实施例示意图。
[0069]
以下结合附图和具体实施例对本发明作进一步详述。
具体实施方式
[0070]
本发明提供的一种基于深度学习的语音识别方法,通过将语音特征分为情感相关特征和情感无关特征,减少情感无关因素在特征学习中的影响,并进行了情感标签预测和
域标签预测,解决目标域样本不足或缺乏的问题。
[0071]
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。以上所述仅是本技术的具体实施方式,使本领域技术人员能够理解或实现本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
[0072]
本发明技术方案:
[0073]
一种基于深度学习的语音识别方法,包括如下步骤:
[0074]
s101:获取语音信号,对语音信号进行预处理得到语谱特征表示,所述预处理包括但不限于:预加重、分帧、加窗、傅里叶变化、pca降维;
[0075]
对于获取的音频信号,首先转换成数字信号,然后通过预加重、分帧、加窗、傅里叶变化得到语谱特征,再通过pca对频域进行降维,这样,提取到了一个音频样本的语谱特征表示。
[0076]
s102:从每个无标签训练样本的语谱特征表示提取不同尺寸的块,采用cae 进行无监督预训练,得到不同尺寸的核,通过对不同尺寸的核对整个语谱输入进行卷积、池化,再把不同尺寸的池化特征堆叠,得到粗糙特征;
[0077]
具体地,所述核为编码器的权重和偏置。
[0078]
无监督特征学习能够从无标签样本中学习得到隐层在数据中的一些特征,这是使用收缩自动编码器cae来进行无监督预训练。
[0079]
通过cae的预训练学习得到编码器的权重的偏置,称为核(u,c),对于输入x,通过核核(u,c),得到隐藏层特征f(x)∈rk,k是隐藏层特征的个数,对于褍语谱输入,将这个核应用到多个小块,可以得到这段语谱的新的特征表示,通过对输入数据中提取不同尺寸的小块进行预训练,得到不同尺寸的核,通过不同尺寸的核对整个语谱输入进行卷积、池化,最后把不同尺寸的池化特征堆叠起来,就得到粗糙特征。
[0080]
s103:将无监督特征学习得到的粗糙特征输入半监督学习框架中,将粗糙特征设定为情感相关特征和情感无关特征,并对共同输入粗糙特征进行重构,再将情感相关特征的敏感度向量和情感无关特征的敏感度向量正交,通过sigmoid 映射对情感相关特征进行类别预测,从而学习到情感相关特征和情感无关特征;
[0081]
如图2为半监督学习框架示意图,在改半监督学习框架中,想尽可能地把语音情况相关的因素和其他因素进行分离,从而获得情感相关的特征,
[0082]
具体地,所述半监督学习框架中的损失函数包括:重构损失函数,正交损失函数,判别损失函数和认证损失函数;
[0083]
所述重构损失函数为:
[0084][0085][0086]
其中,s是sidmoid函数,w和v是半监督学习框架权重矩阵,d是半监督学习框架中的权重,η是控制约束项强度的超参数;fe(y)为设定的情感相关特征,fo(y)为设定的情感无关特征;y是粗糙特征,是重构特征;
[0087]
正交损失函数:
[0088][0089]
其中,f
ie
(y)是第i个情感相关特征,f
jo
(y)是第j个情感无关特征;
[0090]
通过将第i个情感相关特征
fi
e(y)的敏感度向量和第j个情感无关特征f
jo
(y)的敏感度向量正交,来促使这两块特征能够有效的分开,通过正交损失函数,将情感相关的特征和情感无关的特征进行了初步的划分。
[0091]
判别损失函数:
[0092][0093]
其中,c是样本总个数,z和分别是情感原始标签和情感预测标签,k为类别标号;
[0094]
类别标签尝试增大不同种类情感的情感特征之间的差距,从而可以更好地进行情感分类,因此通过最小化交叉熵损失函数,可以到丰富的情感类别之间的信息。
[0095]
认证损失函数:
[0096]
l
verif
(w,y,y1,y2)=(1-y)dw+(y)1/2{max(0,m-dw)}2[0097]
其中,dw为两个样本的情感相关特征之间的距离:
[0098]dw
(y1,y2)=||fe(y1)-fe(y2)||2;
[0099]
y=0表示y1和y2来自同一情感类别,y=0表示y1和y2来自不同情感类别,m为设定的阈值。
[0100]
通过认证损失函数能够减小同一种类情感地情感特征之间的距离。
[0101]
s104:将情感相关特征进行层次非线性转换得到高层情感特征,并输入分类与域不变特征学习模型中,并进行情感标签预测和域标签的预测;
[0102]
具体地,将情感相关特征进行层次非线性转换得到高层情感特征,并输入分类与域不变特征学习模型中,并进行情感标签预测和域标签的预测,所述分类与域不变特征学习模型目标函数:
[0103][0104]
其中h把情感相关特征通过层次非线性转换映射得到高层情感特征,gy和 gd分别表示把高层情感特征映射成情感标签和域标签,ly和ld分别表示情感标签预测和域标签预测的损失函数,θy和θd分别表示情感标签预测和域标签预测时的参数,α为衡量域标签预测项的贡献度。如图3为分类与域不变特征学习模型框架图。
[0105]
s105:利用源域的高层情感特征以及相应情感标签训练分类器,得到训练好的分类器。
[0106]
如图4,本发明实施例还提供一种基于深度学习的语音识别系统,包括:
[0107]
语音预处理单元401:获取语音信号,对语音信号进行预处理得到语谱特征表示,所述预处理包括但不限于:预加重、分帧、加窗、傅里叶变化、pca降维;
[0108]
对于获取的音频信号,首先转换成数字信号,然后通过预加重、分帧、加窗、傅里叶变化得到语谱特征,再通过pca对频域进行降维,这样,提取到了一个音频样本的语谱特征表示。
[0109]
粗糙特征获取单元402:从每个无标签训练样本的语谱特征表示提取不同尺寸的块,采用cae进行无监督预训练,得到不同尺寸的核,通过对不同尺寸的核对整个语谱输入进行卷积、池化,再把不同尺寸的池化特征堆叠,得到粗糙特征;
[0110]
具体地,所述核为编码器的权重和偏置。
[0111]
无监督特征学习能够从无标签样本中学习得到隐层在数据中的一些特征,这是使用收缩自动编码器cae来进行无监督预训练。
[0112]
通过cae的预训练学习得到编码器的权重的偏置,称为核(u,c),对于输入x,通过核核(u,c),得到隐藏层特征f(x)∈rk,k是隐藏层特征的个数,对于褍语谱输入,将这个核应用到多个小块,可以得到这段语谱的新的特征表示,通过对输入数据中提取不同尺寸的小块进行预训练,得到不同尺寸的核,通过不同尺寸的核对整个语谱输入进行卷积、池化,最后把不同尺寸的池化特征堆叠起来,就得到粗糙特征。
[0113]
情感相关特征获取单元403:将无监督特征学习得到的粗糙特征输入半监督学习框架中,将粗糙特征设定为情感相关特征和情感无关特征,并对共同输入粗糙特征进行重构,再将情感相关特征的敏感度向量和情感无关特征的敏感度向量正交,通过sigmoid映射对情感相关特征进行类别预测,从而学习到情感相关特征和情感无关特征;
[0114]
如图2为半监督学习框架示意图,在改半监督学习框架中,想尽可能地把语音情况相关的因素和其他因素进行分离,从而获得情感相关的特征,
[0115]
具体地,所述半监督学习框架中的损失函数包括:重构损失函数,正交损失函数,判别损失函数和认证损失函数;
[0116]
所述重构损失函数为:
[0117][0118]
[0119]
其中,s是sidmoid函数,w和v是半监督学习框架权重矩阵,d是半监督学习框架中的权重,η是控制约束项强度的超参数;fe(y)为设定的情感相关特征,fo(y)为设定的情感无关特征;y是粗糙特征,是重构特征;
[0120]
正交损失函数:
[0121][0122]
其中,f
ie
(y)是第i个情感相关特征,f
jo
(y)是第j个情感无关特征;
[0123]
通过将第i个情感相关特征f
ie
(y)的敏感度向量和第j个情感无关特征f
jo
(y)的敏感度向量正交,来促使这两块特征能够有效的分开,通过正交损失函数,将情感相关的特征和情感无关的特征进行了初步的划分。
[0124]
判别损失函数:
[0125][0126]
其中,c是样本总个数,z和分别是情感原始标签和情感预测标签,k为类别标号;
[0127]
类别标签尝试增大不同种类情感的情感特征之间的差距,从而可以更好地进行情感分类,因此通过最小化交叉熵损失函数,可以到丰富的情感类别之间的信息。
[0128]
认证损失函数:
[0129]
l
verif
(w,y,y1,y2)=(1-y)dw+(y)1/2{max(0,m-dw)}2[0130]
其中,dw为两个样本的情感相关特征之间的距离:
[0131]dw
(y1,y2)=||fe(y1)-fe(y2)||2;
[0132]
y=0表示y1和y2来自同一情感类别,y=0表示y1和y2来自不同情感类别,m为设定的阈值。
[0133]
通过认证损失函数能够减小同一种类情感地情感特征之间的距离。
[0134]
情感标签和域标签预测单元404:将情感相关特征进行层次非线性转换得到高层情感特征,并输入分类与域不变特征学习模型中,并进行情感标签预测和域标签的预测;
[0135]
具体地,将情感相关特征进行层次非线性转换得到高层情感特征,并输入分类与域不变特征学习模型中,并进行情感标签预测和域标签的预测,所述分类与域不变特征学习模型目标函数:
[0136][0137]
其中h把情感相关特征通过层次非线性转换映射得到高层情感特征,gy和 gd分别表示把高层情感特征映射成情感标签和域标签,ly和ld分别表示情感标签预测和域标签预
测的损失函数,θy和θd分别表示情感标签预测和域标签预测时的参数,α为衡量域标签预测项的贡献度。如图3为分类与域不变特征学习模型框架图。
[0138]
分类器训练单元405:利用源域的高层情感特征以及相应情感标签训练分类器,得到训练好的分类器。
[0139]
如图5所示,本发明实施例提供了一种电子设备500,包括存储器510、处理器520及存储在存储器510上并可在处理器520上运行的计算机程序511,处理器520执行计算机程序511时实现本发明实施例提供的一种基于深度学习的语音识别方法。
[0140]
在具体实施过程中,处理器520执行计算机程序511时,可以实现图1对应的实施例中任一实施方式。
[0141]
由于本实施例所介绍的电子设备为实施本发明实施例中一种数据处理装置所采用的设备,故而基于本发明实施例中所介绍的方法,本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式,所以在此对于该电子设备如何实现本发明实施例中的方法不再详细介绍,只要本领域所属技术人员实施本发明实施例中的方法所采用的设备,都属于本发明所欲保护的范围。
[0142]
请参阅图6,图6为本发明实施例提供的一种计算机可读存储介质的实施例示意图。
[0143]
如图6所示,本实施例提供了一种计算机可读存储介质600,其上存储有计算机程序601,该计算机程序601被处理器执行时实现本发明实施例提供的一种基于深度学习的语音识别方法;
[0144]
在具体实施过程中,该计算机程序601被处理器执行时可以实现图1对应的实施例中任一实施方式。
[0145]
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
[0146]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0147]
本发明提出一种基于深度学习的语音识别方法,首先获取语音信号,对语音信号进行预处理得到语谱特征表示,所述预处理包括但不限于:预加重、分帧、加窗、傅里叶变化、pca降维;从每个无标签训练样本的语谱特征表示提取不同尺寸的块,采用cae进行无监督预训练,得到不同尺寸的核,通过对不同尺寸的核对整个语谱输入进行卷积、池化,再把不同尺寸的池化特征堆叠,得到粗糙特征;将无监督特征学习得到的粗糙特征输入半监督学习框架中,将粗糙特征设定为情感相关特征和情感无关特征,并对共同输入粗糙特征进行重构,再将情感相关特征的敏感度向量和情感无关特征的敏感度向量正交,通过 sigmoid映射对情感相关特征进行类别预测,从而学习到情感相关特征和情感无关特征;将情感相关特征进行层次非线性转换得到高层情感特征,并输入分类与域不变特征学习模型中,并进行情感标签预测和域标签的预测;利用源域的高层情感特征以及相应情感标签训练分类器,得到训练好的分类器;本发明提供的方法通过将语音特征分为情感相关特征和
情感无关特征,减少情感无关因素在特征学习中的影响,并进行了情感标签预测和域标签预测,解决目标域样本不足或缺乏的问题。
[0148]
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均属于侵犯本发明保护范围的行为。

技术特征:


其中,d
w
为两个样本的情感相关特征之间的距离:d
w
(y1,y1)=||f
e
(y1)-f
e
(y2)||2;y=0表示y1和y2来自同一情感类别,y=0表示y1和y2来自不同情感类别,m为设定的阈值。4.根据权利要求1所述的一种基于深度学习的语音识别方法,其特征在于,将情感相关特征进行层次非线性转换得到高层情感特征,并输入分类与域不变特征学习模型中,并进行情感标签预测和域标签的预测,所述分类与域不变特征学习模型目标函数:其中h把情感相关特征通过层次非线性转换映射得到高层情感特征,g
y
和g
d
分别表示把高层情感特征映射成情感标签和域标签,l
y
和l
d
分别表示情感标签预测和域标签预测的损失函数,θ
y
和θ
d
分别表示情感标签预测和域标签预测时的参数,α为衡量域标签预测项的贡献度。5.一种基于深度学习的语音识别系统,其特征在于,包括:语音预处理单元:获取语音信号,对语音信号进行预处理得到语谱特征表示,所述预处理包括但不限于:预加重、分帧、加窗、傅里叶变化、pca降维;粗糙特征获取单元:从每个无标签训练样本的语谱特征表示提取不同尺寸的块,采用cae进行无监督预训练,得到不同尺寸的核,通过对不同尺寸的核对整个语谱输入进行卷积、池化,再把不同尺寸的池化特征堆叠,得到粗糙特征;情感相关特征获取单元:将无监督特征学习得到的粗糙特征输入半监督学习框架中,将粗糙特征设定为情感相关特征和情感无关特征,并对共同输入粗糙特征进行重构,再将情感相关特征的敏感度向量和情感无关特征的敏感度向量正交,通过sigmoid映射对情感相关特征进行类别预测,从而学习到情感相关特征和情感无关特征;情感标签和域标签预测单元:将情感相关特征进行层次非线性转换得到高层情感特征,并输入分类与域不变特征学习模型中,并进行情感标签预测和域标签的预测;分类器训练单元:利用源域的高层情感特征以及相应情感标签训练分类器,得到训练好的分类器。6.根据权利要求5所述的一种基于深度学习的语音识别系统,其特征在于,所述粗糙特征获取单元中,核为编码器的权重和偏置。7.根据权利要求5所述的一种基于深度学习的语音识别系统,其特征在于,所述情感相关特征获取单元中,半监督学习框架中的损失函数包括:重构损失函数,正交损失函数,判别损失函数和认证损失函数;所述重构损失函数为:所述重构损失函数为:其中,s是sidmoid函数,w和v是半监督学习框架权重矩阵,d是半监督学习框架中的权
重,η是控制约束项强度的超参数;f
e
(y)为设定的情感相关特征,f
e
(y)为设定的情感无关特征;y是粗糙特征,是重构特征;正交损失函数:其中,f
ie
(y)是第i个情感相关特征,f
jo
(y)是第j个情感无关特征;判别损失函数:其中,c是样本总个数,z和分别是情感原始标签和情感预测标签,k为类别标号;认证损失函数:l
verif
(w,y,y1,y2)=(1-y)d
w
+(y)1/2{max(0,m-d
w
)}2其中,d
w
为两个样本的情感相关特征之间的距离:d
w
(y1,y2)=||f
e
(y1)-f
e
(y2)||2;y=0表示y1和y2来自同一情感类别,y=0表示y1和y2来自不同情感类别,m为设定的阈值。8.根据权利要求5所述的一种基于深度学习的语音识别系统,其特征在于,所述情感标签和域标签预测单元中,将情感相关特征进行层次非线性转换得到高层情感特征,并输入分类与域不变特征学习模型中,并进行情感标签预测和域标签的预测,所述分类与域不变特征学习模型目标函数:l(θ
y
,θ
d
)=∑g
y
(h(f
e
(y);θ
y
);θ
d
)+a∑g
d
(h(f
e
(y);θ
d
);θ
y
)=l
y

y
,θ
d
)+αl
d

d
,θ
y
)其中h把情感相关特征通过层次非线性转换映射得到高层情感特征,g
y
和g
d
分别表示把高层情感特征映射成情感标签和域标签,l
y
和l
d
分别表示情感标签预测和域标签预测的损失函数,θ
y
和θ
d
分别表示情感标签预测和域标签预测时的参数,α为衡量域标签预测项的贡献度。9.一种电子设备,其特征在于,包括:存储器,处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现权利要求1-4任一所述的方法步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法步骤。

技术总结


本发明提出一种基于深度学习的语音识别方法,首先获取语音信号,对语音信号进行预处理得到语谱特征表示;从每个无标签训练样本的语谱特征表示提取不同尺寸的块,采用CAE进行无监督预训练,得到不同尺寸的核,通过对不同尺寸的核对整个语谱输入进行卷积、池化,再把不同尺寸的池化特征堆叠,得到粗糙特征;将无监督特征学习得到的粗糙特征输入半监督学习框架中,学习到情感相关特征和情感无关特征;将情感相关特征进行情感标签预测和域标签的预测;利用源域的高层情感特征以及相应情感标签训练分类器,得到训练好的分类器;本发明提供的方法能够减少情感无关因素在特征学习中的影响,且能够解决目标域样本不足或缺乏的问题。题。题。


技术研发人员:

于振华

受保护的技术使用者:

于振华

技术研发日:

2022.07.19

技术公布日:

2022/10/25

本文发布于:2024-09-24 00:19:11,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/20778.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:特征   情感   标签   函数
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议