基于人工智能的语音降噪方法、装置、设备及存储介质与流程



1.本技术涉及到人工智能技术领域,特别是涉及到一种基于人工智能的语音降噪方法、装置、设备及存储介质。


背景技术:



2.语音中通常包含噪声,当包含噪声的语音应用到实际场景时,降低了语音应用的准确性,影响了用户体验。现有采用基于卷积神经网络训练得到的降噪模型对语音进行降噪,虽然取得了不错的降噪效果,但是该模型对计算资源的要求比较高和需要较长的计算时间,导致无法适用于计算资源有限和/或实时性要求较高的应用场景。


技术实现要素:



3.本技术的主要目的为提供一种基于人工智能的语音降噪方法、装置、设备及存储介质,旨在解决基于卷积神经网络训练得到的降噪模型,无法适用于计算资源有限和/或实时性要求较高的应用场景的技术问题。
4.为了实现上述发明目的,本技术提出一种基于人工智能的语音降噪方法,所述方法包括:获取待降噪语音对应的待降噪频谱图;将所述待降噪频谱图输入预设的降噪模型进行降噪处理,得到降噪后频谱图,其中,所述降噪模型依次包括:编码模块、频域降噪模块、时域降噪模块、解码模块和掩码增益与减益模块,所述频域降噪模块是利用相邻子带信息实现多头自注意力机制的模块,所述时域降噪模块包括:至少两个时域降噪子模块;对所述降噪后频谱图进行语音信号重建,得到目标干净语音。
5.进一步的,所述将所述待降噪频谱图输入预设的降噪模型进行降噪处理,得到降噪后频谱图的步骤,包括:将所述待降噪频谱图输入所述编码模块进行特征提取,得到多个单层音频编码特征和目标音频编码特征;将所述目标音频编码特征输入所述频域降噪模块进行频域降噪,得到频域降噪后音频特征;将所述目标音频编码特征和所述频域降噪后音频特征进行残差连接,得到待处理音频特征;将所述待处理音频特征输入所述时域降噪模块分别进行特征分组、分组时域降噪和特征拼接,得到时域降噪后音频特征;将所述频域降噪后音频特征和所述时域降噪后音频特征进行残差连接,得到待解码音频特征;将各个所述单层音频编码特征和所述待解码音频特征输入所述解码模块进行解码,得到待分析频谱图;
将所述待分析频谱图输入所述掩码增益与减益模块进行掩码,得到所述降噪后频谱图。
6.进一步的,所述将所述目标音频编码特征输入所述频域降噪模块进行频域降噪,得到频域降噪后音频特征的步骤,包括:采用所述频域降噪模块的降维子模块,对所述目标音频编码特征进行降维处理,得到降维后编码特征;采用所述频域降噪模块的多头自注意力子模块,对所述降维后编码特征进行频域降噪,得到待升维编码特征,其中,所述多头自注意力子模块是实现多头自注意力机制的模块,所述频域降噪子模块的所述多头自注意力机制的query的值、key的值和value的值是根据预设的依赖频段宽度和相邻子带信息确定的数据;采用所述频域降噪模块的升维子模块,对所述待升维编码特征进行升维处理,得到所述频域降噪后音频特征。
7.进一步的,所述将所述待处理音频特征输入所述时域降噪模块分别进行特征分组、分组时域降噪和特征拼接,得到时域降噪后音频特征的步骤,包括:采用所述时域降噪模块的特征分组层,对所述待处理音频特征进行划分,得到多个单组音频特征,其中,所述单组音频特征的数量与所述时域降噪子模块的数量相同;将第i个所述单组音频特征输入第i个所述时域降噪子模块进行时域降噪,得到第i个待组合音频特征,其中,i是大于0的整数;采用所述时域降噪模块的特征组合层,对各个所述待组合音频特征进行特征拼接,得到所述时域降噪后音频特征。
8.进一步的,所述将所述待降噪频谱图输入所述编码模块进行特征提取,得到多个单层音频编码特征和目标音频编码特征的步骤,包括:采用所述编码模块的第k个编码层,对第k个所述编码层的输入向量进行pointwise卷积,得到第一音频特征;获取预设的depthwise卷积时间维度;若所述depthwise卷积时间维度等于1,采用第k个所述编码层,对所述第一音频特征进行常规卷积,得到第k个所述单层音频编码特征;若所述depthwise卷积时间维度等于2,采用第k个所述编码层,对所述第一音频特征进行因果卷积,得到第k个所述单层音频编码特征;将第n个所述单层音频编码特征作为所述目标音频编码特征;其中,k是大于0的整数,k小于或等于n,n大于0,n是所述编码层的数量;当k等于1时,将所述待降噪频谱图作为第k个所述编码层的输入向量,当k大于1时,将第k-1个所述单层音频编码特征作为第k个所述编码层的输入向量。
9.进一步的,所述将各个所述单层音频编码特征和所述待解码音频特征输入所述解码模块进行解码,得到待分析频谱图的步骤,包括:将第n+1-m个所述单层音频编码特征进行降维处理,得到待处理编码特征,其中,m是大于0的整数,并且m小于或等于n;将第m-1个所述解码层的输出向量和所述待处理编码特征进行相同位置的元素值相加,得到第m个待处理特征;
对第m个所述待处理特征进行反卷积处理,得到第m个单层解码特征;将第n个所述单层解码特征作为所述待分析频谱图;其中,当m等于1时,将所述待解码音频特征作为第m-1个所述解码层的输出向量,当m大于1时,将第m-1个所述单层解码特征作为第m-1个所述解码层的输出向量。
10.进一步的,所述将所述待降噪频谱图输入预设的降噪模型进行降噪处理,得到降噪后频谱图的步骤之前,还包括:获取多个训练样本和待训练模型;根据各个所述训练样本和预设的目标函数对所述待训练模型进行训练,直至达到预设的模型训练结束条件,将达到所述模型训练结束条件的所述待训练模型作为所述降噪模型;其中,所述目标函数s表述为:s=sisnr+mse损失+感知损失+正则项,sisnr是语音的信噪比损失,mse损失是根据频谱图实部的均方误差、频谱图虚部的均方误差和频谱图幅度谱的均方误差计算的损失,感知损失是语音的感知损失。
11.本技术还提出了一种基于人工智能的语音降噪装置,所述装置包括:数据获取模块,用于获取待降噪语音对应的待降噪频谱图;降噪处理模块,用于将所述待降噪频谱图输入预设的降噪模型进行降噪处理,得到降噪后频谱图,其中,所述降噪模型依次包括:编码模块、频域降噪模块、时域降噪模块、解码模块和掩码增益与减益模块,所述频域降噪模块是利用相邻子带信息实现多头自注意力机制的模块,所述时域降噪模块包括:至少两个时域降噪子模块;语音信号重建模块,用于对所述降噪后频谱图进行语音信号重建,得到目标干净语音。
12.本技术还提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
13.本技术还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
14.本技术的基于人工智能的语音降噪方法、装置、设备及存储介质,其中方法将所述待降噪频谱图输入预设的降噪模型进行降噪处理,得到降噪后频谱图,其中,所述降噪模型依次包括:编码模块、频域降噪模块、时域降噪模块、解码模块和掩码增益与减益模块,所述频域降噪模块是利用相邻子带信息实现多头自注意力机制的模块,所述时域降噪模块包括:至少两个时域降噪子模块;对所述降噪后频谱图进行语音信号重建,得到目标干净语音。实现了采用降噪模型依次进行特征提取、频域降噪、时域降噪、解码和掩码增益与减益,通过依次进行频域降噪和时域降噪实现了有效的降噪,提高了降噪效果;频域降噪和时域降噪分开处理,实现了时域和频域的解耦合,有利于流式进行语音降噪;时域降噪模块采用至少两个时域降噪子模块,实现了分组时域降噪,减少了运算量和网络参数量,有利于适用于计算资源有限和/或实时性要求较高的应用场景;而且频域降噪模块是利用相邻子带信息实现多头自注意力机制的模块,有利于提高降噪效果。
附图说明
15.图1为本技术一实施例的基于人工智能的语音降噪方法的流程示意图;
图2 为本技术一实施例的基于人工智能的语音降噪装置的结构示意框图;图3 为本技术一实施例的计算机设备的结构示意框图。
16.本技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
17.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
18.参照图1,本技术实施例中提供一种基于人工智能的语音降噪方法,所述方法包括:s1:获取待降噪语音对应的待降噪频谱图;s2:将所述待降噪频谱图输入预设的降噪模型进行降噪处理,得到降噪后频谱图,其中,所述降噪模型依次包括:编码模块、频域降噪模块、时域降噪模块、解码模块和掩码增益与减益模块,所述频域降噪模块是利用相邻子带信息实现多头自注意力机制的模块,所述时域降噪模块包括:至少两个时域降噪子模块;s3:对所述降噪后频谱图进行语音信号重建,得到目标干净语音。
19.本实施例实现了采用降噪模型依次进行特征提取、频域降噪、时域降噪、解码和掩码增益与减益,通过依次进行频域降噪和时域降噪实现了有效的降噪,提高了降噪效果;频域降噪和时域降噪分开处理,实现了时域和频域的解耦合,有利于流式进行语音降噪;时域降噪模块采用至少两个时域降噪子模块,实现了分组时域降噪,减少了运算量和网络参数量,有利于适用于计算资源有限和/或实时性要求较高的应用场景;而且频域降噪模块是利用相邻子带信息实现多头自注意力机制的模块,有利于提高降噪效果。
20.对于s1,可以获取用户输入的待降噪语音对应的待降噪频谱图,也可以从数据库中获取待降噪语音对应的待降噪频谱图,还可以从第三方应用中获取待降噪语音对应的待降噪频谱图。
21.待降噪语音,也就是需要进行降噪的一段或多段语音。
22.待降噪频谱图,是待降噪语音的频谱图,其中,频谱图是根据傅里叶频谱生成的图。
23.待降噪频谱图包括2个通道(channel),2个通道分别是实部通道和虚部通道。实部通道是傅里叶频谱特征的实部。虚部通道是傅里叶频谱特征的虚部。
24.其中,对所述待降噪语音进行短时傅立叶变换,将短时傅立叶变换得到的频谱图作为待处理频谱图;对所述待处理频谱图进行直流分量去掉处理,将去掉了直流分量的所述待处理频谱图行为所述待降噪频谱图。因为直流分量对频谱的重构影响不大,所以对短时傅立叶变换得到的频谱图去掉直流分量后作为待降噪频谱图,不影响降噪效果,减少了运算量。
25.对于s2,将所述待降噪频谱图输入预设的降噪模型依次进行特征提取、频域降噪、时域降噪、解码和掩码增益与减益,将掩码增益与减益输出的数据作为降噪后频谱图。
26.所述编码模块,用于进行编码以实现音频特征的提取。所述编码模块中包括多个编码层,各个编码层线性连接,每个编码层输出一个单层音频编码特征。
27.可选的,为了实现流式处理,只使用在频率维度的卷积,也就是说,在时间维度的卷积核大小为1以用于减少运算量,或者,在时域采用因果卷积的方式以实现流式处理。
28.可选的,所述编码模块的编码层的数量为至少3个。
29.所述频域降噪模块,用于在频域的维度进行降噪,从而充分利用了频域的信息。所述编码模块的最后一个编码层的输出作为所述频域降噪模块的输入。所述频域降噪模块是利用相邻子带信息实现多头自注意力机制(multi-head self-attention)的模块。
30.所述时域降噪模块,用于在时域的维度进行降噪,从而充分利用了时域的信息。将所述频域降噪模块的输出和所述编码模块的最后一个编码层的输出作为所述时域降噪模块的输入。时域降噪模块包括:至少两个时域降噪子模块,从而实现分组进行时域降噪。所述时域降噪子模块是基于长短期记忆人工神经网络(lstm)和/或gru(门控循环单元)得到的模块。
31.所述解码模块,用于进行解码以得到频域降噪和时域降噪之后的频谱图。所述解码模块中包括多个解码层,各个解码层线性连接。每个解码层的输入是根据上一个解码层的输出和编码层的输出得到的数据。
32.可选的,所述解码模块的解码层的数量与所述编码模块的编码层的数量相同。
33.可选的,所述解码模块的解码层的数量为至少3个。
34.所述掩码增益与减益模块,用于在频谱图中,对想要的语音对应的数据进行增强和对不想要的语音对应的数据进行抑制。
35.可选的,所述掩码增益与减益模块采用0和1进行掩码。比如,在频谱图中,所述掩码增益与减益模块采用1进行掩码以增益想要的语音对应的数据,采用0进行掩码以减益不想要的语音对应的数据。
36.可选的,所述掩码增益与减益模块采用0到1的数值进行掩码。
37.对于s3,对所述降噪后频谱图进行短时傅立叶逆变换,得到待处理时域数据;采用overlapadd方法,对所述待处理时域数据进行语音信号重建,将重建得到的干净语音作为所述待降噪语音对应的目标干净语音。
38.overlapadd,又写为overlap-add,重叠相加。
39.采用overlapadd方法,对所述待处理时域数据进行语音信号重建的方法在此不做赘述。
40.在一个实施例中,上述将所述待降噪频谱图输入预设的降噪模型进行降噪处理,得到降噪后频谱图的步骤,包括:s21:将所述待降噪频谱图输入所述编码模块进行特征提取,得到多个单层音频编码特征和目标音频编码特征;s22:将所述目标音频编码特征输入所述频域降噪模块进行频域降噪,得到频域降噪后音频特征;s23:将所述目标音频编码特征和所述频域降噪后音频特征进行残差连接,得到待处理音频特征;s24:将所述待处理音频特征输入所述时域降噪模块分别进行特征分组、分组时域降噪和特征拼接,得到时域降噪后音频特征;s25:将所述频域降噪后音频特征和所述时域降噪后音频特征进行残差连接,得到
待解码音频特征;s26:将各个所述单层音频编码特征和所述待解码音频特征输入所述解码模块进行解码,得到待分析频谱图;s27:将所述待分析频谱图输入所述掩码增益与减益模块进行掩码,得到所述降噪后频谱图。
41.本实施例实现采用降噪模型依次进行特征提取、频域降噪、时域降噪、解码和掩码增益与减益,通过依次进行频域降噪和时域降噪实现了有效的降噪,提高了降噪效果;频域降噪和时域降噪分开处理,实现了时域和频域的解耦合,有利于流式进行语音降噪;时域降噪模块采用至少两个时域降噪子模块,实现了分组时域降噪,减少了运算量和网络参数量,有利于适用于计算资源有限和/或实时性要求较高的应用场景;而且频域降噪模块是利用相邻子带信息实现多头自注意力机制的模块,有利于提高降噪效果。
42.对于s21,将所述待降噪频谱图输入所述编码模块进行特征提取,将所述编码模块中的每个编码层提取的音频特征数据作为一个单层音频编码特征,将所述编码模块中的最后一个编码层提取的单层音频编码特征作为目标音频编码特征。
43.对于s22,将所述目标音频编码特征输入所述频域降噪模块,通过所述频域降噪模块的多头自注意力机制在频域维度进行降噪,将在频域维度进行降噪后的音频特征作为频域降噪后音频特征。
44.对于s23,将所述目标音频编码特征和所述频域降噪后音频特征进行残差连接(residual connection),将残差连接得到的音频特征作为待处理音频特征。
45.将所述目标音频编码特征和所述频域降噪后音频特征进行残差连接的实现方法在此不做赘述。
46.对于s24,将所述待处理音频特征输入所述时域降噪模块,通过所述时域降噪模块分别进行特征分组,将特征分组得到数据在时域维度进行分组时域降噪,将降噪后的特征进行特征拼接,将特征拼接得到的数据作为时域降噪后音频特征。
47.对于s25,将所述频域降噪后音频特征和所述时域降噪后音频特征进行残差连接,将残差连接得到的音频特征向量作为待解码音频特征。
48.将所述频域降噪后音频特征和所述时域降噪后音频特征进行残差连接的实现方法在此不做赘述。
49.对于s26,根据第n+1-m个所述单层音频编码特征和第m-1个所述解码层的输出向量确定第m个待解码特征,其中,m是大于0的整数,并且m小于或等于n,n是编码模块中编码层的数量,编码模块中编码层的数量和解码模块中解码层的数量相同;当m等于1时,将所述待解码音频特征作为第m-1个所述解码层的输出向量,当m大于1时,将第m-1个所述单层解码特征作为第m-1个所述解码层的输出向量。
50.将所述解码模块的最后一个解码层输出的数据作为待分析频谱图。
51.对于s27,将所述待分析频谱图输入所述掩码增益与减益模块;所述掩码增益与减益模块采用crm mask(crm掩码)方式作为降噪的过滤函数,以实现在频谱图中对想要的语音对应的数据进行增益和对不想要的语音对应的数据进行减益;将掩码后的所述待分析频谱图作为所述降噪后频谱图。
52.可选的,采用如下公式进行掩码:enhance_real +i*enhance_image = (mask_
real + i*mask_image)*(noisy_real + i*noisy_image),其中,enhance_real是增强语音的实部,enhance_image是增强后的虚部,mask_real是实部的掩码增强系数,mask_image是虚部的掩码增强系数,noisy_real是噪音的实部,noisy_image是噪音的虚部,i是虚数单位。
53.掩码增强系数是0到1的数值,可以采用0,也可以采用1。
54.在一个实施例中,上述将所述目标音频编码特征输入所述频域降噪模块进行频域降噪,得到频域降噪后音频特征的步骤,包括:s221:采用所述频域降噪模块的降维子模块,对所述目标音频编码特征进行降维处理,得到降维后编码特征;s222:采用所述频域降噪模块的多头自注意力子模块,对所述降维后编码特征进行频域降噪,得到待升维编码特征,其中,所述多头自注意力子模块是实现多头自注意力机制的模块,所述频域降噪子模块的所述多头自注意力机制的query的值、key的值和value的值是根据预设的依赖频段宽度和相邻子带信息确定的数据;s223:采用所述频域降噪模块的升维子模块,对所述待升维编码特征进行升维处理,得到所述频域降噪后音频特征。
55.本实施例依次进行降维、频域降噪、进行升维,在保证计算量可控的同时,模型的性能不会降低;所述频域降噪子模块的所述多头自注意力机制的query的值、key的值和value的值是根据预设的依赖频段宽度和相邻子带信息确定的数据,有利于提升频域降噪效果。
56.对于s221,采用所述频域降噪模块的降维子模块,对所述目标音频编码特征进行降维处理,将降维处理得到的数据作为降维后编码特征。
57.所述降维子模块采用全连接层。
58.对于s222,采用所述频域降噪模块的多头自注意力子模块,对所述降维后编码特征进行频域降噪,将频域降噪得到的数据作为待升维编码特征。
59.query、key和value是所述多头自注意力机制的元素。基本原理是:给定一个query,计算query与key的相关性,然后根据query与key的相关性去到最合适的value。
60.可选的,依赖频段宽度采用预设上下文依赖宽度。其中,所述频域降噪子模块的所述多头自注意力机制的query的值、key的值和value的值是根据预设的依赖频段宽度和相邻子带信息确定的数据,也就是将当前1帧、预设上下文依赖宽度的上文帧和预设上下文依赖宽度的下文帧确定为query的值,将当前1帧作为key的值,根据当前1帧、预设上下文依赖宽度的上文帧和预设上下文依赖宽度的下文帧生成内容向量,将生成的内容向量作为value的值。
61.可以理解的是,当前1帧、预设上下文依赖宽度的上文帧和预设上下文依赖宽度的下文帧是连续的帧。
62.比如,依赖频段宽度为4,则将当前1帧、上文4帧和下文4帧共计9帧(也就是连续的帧)确定query的值,将当前1帧作为key的值,根据当前1帧、上文4帧和下文4帧共计9帧生成内容向量,将生成的内容向量作为value的值。
63.对于s223,采用所述频域降噪模块的升维子模块,对所述待升维编码特征进行升维处理,将升维处理得到的数据作为所述频域降噪后音频特征。
64.所述升维子模块采用全连接层。
65.在一个实施例中,上述将所述待处理音频特征输入所述时域降噪模块分别进行特征分组、分组时域降噪和特征拼接,得到时域降噪后音频特征的步骤,包括:s241:采用所述时域降噪模块的特征分组层,对所述待处理音频特征进行划分,得到多个单组音频特征,其中,所述单组音频特征的数量与所述时域降噪子模块的数量相同;s242:将第i个所述单组音频特征输入第i个所述时域降噪子模块进行时域降噪,得到第i个待组合音频特征,其中,i是大于0的整数;s243:采用所述时域降噪模块的特征组合层,对各个所述待组合音频特征进行特征拼接,得到所述时域降噪后音频特征。
66.本实施例分别进行特征分组、分组时域降噪和特征拼接,在保证了所述时域降噪子模块的宽度的同时,减少了计算量和网络参数量,有利于适用于计算资源有限和/或实时性要求较高的应用场景。
67.对于s241,采用所述时域降噪模块的特征分组层,对所述待处理音频特征进行划分,将划分得到的每组特征作为一个单组音频特征。
68.其中,所述单组音频特征的数量与所述时域降噪子模块的数量相同,从而为每个所述时域降噪子模块准备好了输入数据。
69.对于s242,将第i个所述单组音频特征输入第i个所述时域降噪子模块进行时域降噪,得到第i个待组合音频特征,从而实现每个所述单组音频特征采用一个所述时域降噪子模块进行时域降噪。
70.也就是说,所述待组合音频特征的数量与所述时域降噪子模块的数量相同。
71.对于s243,采用所述时域降噪模块的特征组合层,对各个所述待组合音频特征进行特征拼接,将特征拼接得到的数据作为所述时域降噪后音频特征。
72.在一个实施例中,上述将所述待降噪频谱图输入所述编码模块进行特征提取,得到多个单层音频编码特征和目标音频编码特征的步骤,包括:s211:采用所述编码模块的第k个编码层,对第k个所述编码层的输入向量进行pointwise卷积,得到第一音频特征;s212:获取预设的depthwise卷积时间维度;s213:若所述depthwise卷积时间维度等于1,采用第k个所述编码层,对所述第一音频特征进行常规卷积,得到第k个所述单层音频编码特征;s214:若所述depthwise卷积时间维度等于2,采用第k个所述编码层,对所述第一音频特征进行因果卷积,得到第k个所述单层音频编码特征;s215:将第n个所述单层音频编码特征作为所述目标音频编码特征;其中,k是大于0的整数,k小于或等于n,n大于0,n是所述编码层的数量;当k等于1时,将所述待降噪频谱图作为第k个所述编码层的输入向量,当k大于1时,将第k-1个所述单层音频编码特征作为第k个所述编码层的输入向量。
73.本实施例现有的深度可分卷积采用先进行depthwise卷积、然后进行pointwise卷积的顺序进行特征提取,采用先进行depthwise卷积、然后进行pointwise卷积的顺序不能很好的进行信息综合,为了解决该问题,本实施例采用进行pointwise卷积、然后进行depthwise卷积的顺序进行信息综合,先采用pointwise卷积在实部通道进行信息综合,然
后采用depthwise卷积在虚部通道进行信息综合,采用信息综合得到的音频特征进行降噪,有利于提高降噪效果;相对常规卷积,pointwise卷积和depthwise卷积的参数量更小,从而提高了语音降噪效率,进一步有利于将本技术用于计算资源有限和/或实时性要求较高的应用场景;在depthwise卷积时间维度等于1时采用常规卷积,在depthwise卷积时间维度等于2时采用因果卷积,从而实现了流式处理,进一步有利于将本技术用于计算资源有限和/或实时性要求较高的应用场景。
74.常规卷积,常规卷积的卷积核大小3*3 ,输入64个通道,输出128个通道,在这种情况下,常规卷积的参数是64*128*3*3。
75.pointwise卷积,卷积核的尺寸为1
×1×
m,m为上一层的通道数。所以这里的卷积运算会将上一步的map(特征图)在深度方向上进行加权组合,生成新的feature map(特征图)。有几个卷积核就有几个输出feature map。
76.depthwise卷积,是一个卷积核负责一个通道,一个通道只被一个卷积核卷积。一个大小为64
×
64像素、三通道彩图片首先经过第一次卷积运算,不同之处在于此次的卷积完全是在二维平面内进行,且filter的数量与上一层的通道数相同。所以一个三通道的图像经过运算后生成了3个feature map。
77.在上述例子中,因常规卷积的参数是64*128*3*3,而depthwise卷积和pointwise卷积的参数是64*128 + 128*3*3,从而明显的减少了参数量,减少了运算量。
78.对于s211,采用所述编码模块的第k个编码层,对第k个所述编码层的输入向量进行pointwise卷积,将卷积得到的数据作为第一音频特征。
79.对于s212,可以从数据库中获取预设的depthwise卷积时间维度,也可以获取用户输入的预设的depthwise卷积时间维度,还可以将预设的depthwise卷积时间维度写入实现本技术的程序中。
80.对于s213,若所述depthwise卷积时间维度等于1,意味着时域卷积核为1,因此,采用第k个所述编码层,对所述第一音频特征进行常规卷积,将常规卷积得到的数据作为第k个所述单层音频编码特征。
81.对于s214,若所述depthwise卷积时间维度等于2,意味着时域卷积核为2,从而在流式推断中,对当前帧进行计算时,需要记录上一帧的信息,因此,采用第k个所述编码层,对所述第一音频特征进行因果卷积,将因果卷积得到的数据作为第k个所述单层音频编码特征。
82.因果卷积,也就是causal convolutions。
83.对于s215,将第n个所述单层音频编码特征作为所述目标音频编码特征,也就是将所述编码模块中的最后一个编码层提取的音频特征作为所述目标音频编码特征。
84.当k等于1时,将所述待降噪频谱图作为第k个所述编码层的输入向量,也就是第1个所述编码层的输入向量是所述编码模块的输入向量;当k大于1时,将第k-1个所述单层音频特征向量作为第k个所述编码层的输入向量,也就是说,第1个以后的所述编码层的输入向量是上一个所述编码层的输出向量。
85.在一个实施例中,上述将各个所述单层音频编码特征和所述待解码音频特征输入所述解码模块进行解码,得到待分析频谱图的步骤,包括:s261:将第n+1-m个所述单层音频编码特征进行降维处理,得到待处理编码特征,
其中,m是大于0的整数,并且m小于或等于n;s262:将第m-1个所述解码层的输出向量和所述待处理编码特征进行相同位置的元素值相加,得到第m个待处理特征;s263:对第m个所述待处理特征进行反卷积处理,得到第m个单层解码特征;s264:将第n个所述单层解码特征作为所述待分析频谱图;其中,当m等于1时,将所述待解码音频特征作为第m-1个所述解码层的输出向量,当m大于1时,将第m-1个所述单层解码特征作为第m-1个所述解码层的输出向量。
86.本实施例通过降维处理、与第m-1个所述解码层的输出向量进相同位置的元素值相加、反卷积处理,相对融合(concat)方法的通道数变成2倍,本实施例减少了网络参数量和计算量,进一步有利于将本技术用于计算资源有限和/或实时性要求较高的应用场景;相对直接跳连(skip)的方法,本实施例会有更好的效果。
87.对于s261,将第n+1-m个所述单层音频编码特征进行pointwise卷积,以实现降维处理,将降维处理得到的数据作为待处理编码特征。
88.将第n+1-m个所述单层音频编码特征进行pointwise卷积时,采用1*1的卷积。
89.对于s262,将第m-1个所述解码层的输出向量和所述待处理编码特征进行相同位置的元素值相加,将相加得到的数据作为第m个待处理特征。
90.比如,将第m-1个所述解码层的输出向量的第b行第c列的元素值与所述待处理编码特征的第b行第c列的元素值进行相加,将相加得到的数据作为第m个待处理特征的第b行第c列的元素值。
91.对于s263,对第m个所述待处理特征进行反卷积处理,将反卷积处理得到的数据作为第m个单层解码特征。
92.对于s265,将第n个所述单层解码特征作为所述待分析频谱图,从而实现了将所述解码模块的最后一个解码层输出的数据作为所述待分析频谱图。
93.在一个实施例中,上述将所述待降噪频谱图输入预设的降噪模型进行降噪处理,得到降噪后频谱图的步骤之前,还包括:s0211:获取多个训练样本和待训练模型;s0212:根据各个所述训练样本和预设的目标函数对所述待训练模型进行训练,直至达到预设的模型训练结束条件,将达到所述模型训练结束条件的所述待训练模型作为所述降噪模型;其中,所述目标函数s表述为:s=sisnr+mse损失+感知损失+正则项,sisnr是语音的信噪比损失,mse损失是根据频谱图实部的均方误差、频谱图虚部的均方误差和频谱图幅度谱的均方误差计算的损失,感知损失是语音的感知损失。
94.常规的方法是在幅度谱进行处理,然后结合带噪语音的相位谱重构干净语言,因带噪语音的相位谱和干净语音的相位谱并不相同,而且在信噪比(snr)时较低,相位谱的差异上界会更大,限制了降噪效果的上限,为了解决该问题,本实施例采用信噪比损失、根据频谱图实部的均方误差、频谱图虚部的均方误差和频谱图幅度谱的均方误差计算的损失、感知损失,模型训练充分考虑了频谱图实部、频谱图虚部、频谱图幅度谱的信息和感知,提高了模型的降噪能力。
95.对于s0211,可以获取用户输入的多个训练样本本,也可以从数据库中获取多个训
练样本,还可以从第三方应用中获取多个训练样本。
96.多个训练样本中每个训练样本包括:频谱样本图、频谱图标定结果、干净语音标定结果和感知数据标定结果,其中,频谱样本图是对语音样本进行短时傅立叶变换之后得到的频谱图,干净语音标定结果是频谱样本图对应的准确的干净语音,频谱图标定结果是频谱样本图对应的准确的干净语音对应的准确的频谱图,感知数据标定结果是频谱样本图对应的准确的干净语音对应准确的感知数据。
97.语音样本,是采用干净语音和噪音语音混合得到的语音。
98.对于s0212,从多个训练样本中的一个所述训练样本作为目标训练样本;将所述目标训练样本的频谱样本图输入所述待训练模型进行降噪处理,得到频谱图预测结果;根据所述频谱图预测结果进行语音信号重建,得到干净语音预测结果;将所述频谱图预测结果、所述干净语音预测结果、所述目标训练样本的干净语音标定结果及频谱图标定结果及感知数据标定结果输入所述目标函数进行损失值计算;采用计算得到的损失值更新所述待训练模型的网络参数,将更新后的所述待训练模型用于下一次计算所述频谱图预测结果;重复所述从多个训练样本中的一个所述训练样本作为目标训练样本的步骤,直至达到所述模型训练结束条件;将达到所述模型训练结束条件的所述待训练模型作为所述降噪模型。
99.模型训练结束条件包括:所述待训练模型的损失值达到第一收敛条件或者所述待训练模型的迭代次数达到第二收敛条件。
100.所述第一收敛条件是指相邻两次计算所述待训练模型的损失值的不再降低。
101.第二收敛条件是指训练指标不再提升。比如,训练指标为信噪比损失。
102.语音经过短时傅立叶变换之后,将会得到实部的分量和虚部的分量。频谱图实部是指实部的分量。频谱图虚部是指虚部的分量。
103.短时傅立叶变换,是一个用于语音信号处理的通用工具,它定义了一个非常有用的时间和频率分布类, 其指定了任意信号随时间和频率变化的复数幅度。频谱图幅度谱,是短时傅立叶变换得到的复数幅度。
104.正则项是自定义,是l2范数的正则化,是信噪比损失对应的函数和mse损失对应的函数中的各个权重值的正则项范数正则化。通过将正则项加入到目标函数中,梯度下降时模型会倾向于选择参数较小的模型,这样使得模型的弹性变小,在一定程度上可以缓解过拟合。
105.l2范数,是欧几里得范数。
106.sisnr,英文名称为scale-invariant source-to-noise ratio,是尺度不变的信噪比,意思是不受信号变化影响的信噪比。sisnr对应的损失函数在此不做赘述。
107.感知损失(perceptual loss)包括:lms(log mel spectra)和pmsqe(perceptual metric for speech quality evaluation)。
108.在本技术的另一个实施例中,所述目标函数s表述为:s=sisnr+mse损失+正则项。
109.参照图2,本技术还提出了一种基于人工智能的语音降噪装置,所述装置包括:数据获取模块100,用于获取待降噪语音对应的待降噪频谱图;降噪处理模块200,用于将所述待降噪频谱图输入预设的降噪模型进行降噪处理,得到降噪后频谱图,其中,所述降噪模型依次包括:编码模块、频域降噪模块、时域降噪模块、解码模块和掩码增益与减益模块,所述频域降噪模块是利用相邻子带信息实现多头自
注意力机制的模块,所述时域降噪模块包括:至少两个时域降噪子模块;语音信号重建模块300,用于对所述降噪后频谱图进行语音信号重建,得到目标干净语音。
110.本实施例实现了采用降噪模型依次进行特征提取、频域降噪、时域降噪、解码和掩码增益与减益,通过依次进行频域降噪和时域降噪实现了有效的降噪,提高了降噪效果;频域降噪和时域降噪分开处理,实现了时域和频域的解耦合,有利于流式进行语音降噪;时域降噪模块采用至少两个时域降噪子模块,实现了分组时域降噪,减少了运算量和网络参数量,有利于适用于计算资源有限和/或实时性要求较高的应用场景;而且频域降噪模块是利用相邻子带信息实现多头自注意力机制的模块,有利于提高降噪效果。
111.参照图3,本技术实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存基于人工智能的语音降噪方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于人工智能的语音降噪方法。所述基于人工智能的语音降噪方法,包括:获取待降噪语音对应的待降噪频谱图;将所述待降噪频谱图输入预设的降噪模型进行降噪处理,得到降噪后频谱图,其中,所述降噪模型依次包括:编码模块、频域降噪模块、时域降噪模块、解码模块和掩码增益与减益模块,所述频域降噪模块是利用相邻子带信息实现多头自注意力机制的模块,所述时域降噪模块包括:至少两个时域降噪子模块;对所述降噪后频谱图进行语音信号重建,得到目标干净语音。
112.本实施例实现了采用降噪模型依次进行特征提取、频域降噪、时域降噪、解码和掩码增益与减益,通过依次进行频域降噪和时域降噪实现了有效的降噪,提高了降噪效果;频域降噪和时域降噪分开处理,实现了时域和频域的解耦合,有利于流式进行语音降噪;时域降噪模块采用至少两个时域降噪子模块,实现了分组时域降噪,减少了运算量和网络参数量,有利于适用于计算资源有限和/或实时性要求较高的应用场景;而且频域降噪模块是利用相邻子带信息实现多头自注意力机制的模块,有利于提高降噪效果。
113.本技术一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种基于人工智能的语音降噪方法,包括步骤:获取待降噪语音对应的待降噪频谱图;将所述待降噪频谱图输入预设的降噪模型进行降噪处理,得到降噪后频谱图,其中,所述降噪模型依次包括:编码模块、频域降噪模块、时域降噪模块、解码模块和掩码增益与减益模块,所述频域降噪模块是利用相邻子带信息实现多头自注意力机制的模块,所述时域降噪模块包括:至少两个时域降噪子模块;对所述降噪后频谱图进行语音信号重建,得到目标干净语音。
114.上述执行的基于人工智能的语音降噪方法,实现了采用降噪模型依次进行特征提取、频域降噪、时域降噪、解码和掩码增益与减益,通过依次进行频域降噪和时域降噪实现了有效的降噪,提高了降噪效果;频域降噪和时域降噪分开处理,实现了时域和频域的解耦合,有利于流式进行语音降噪;时域降噪模块采用至少两个时域降噪子模块,实现了分组时
域降噪,减少了运算量和网络参数量,有利于适用于计算资源有限和/或实时性要求较高的应用场景;而且频域降噪模块是利用相邻子带信息实现多头自注意力机制的模块,有利于提高降噪效果。
115.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双速据率sdram(ssrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
116.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
117.以上所述仅为本技术的优选实施例,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。

技术特征:


1.一种基于人工智能的语音降噪方法,其特征在于,所述方法包括:获取待降噪语音对应的待降噪频谱图;将所述待降噪频谱图输入预设的降噪模型进行降噪处理,得到降噪后频谱图,其中,所述降噪模型依次包括:编码模块、频域降噪模块、时域降噪模块、解码模块和掩码增益与减益模块,所述频域降噪模块是利用相邻子带信息实现多头自注意力机制的模块,所述时域降噪模块包括:至少两个时域降噪子模块;对所述降噪后频谱图进行语音信号重建,得到目标干净语音。2.根据权利要求1所述的基于人工智能的语音降噪方法,其特征在于,所述将所述待降噪频谱图输入预设的降噪模型进行降噪处理,得到降噪后频谱图的步骤,包括:将所述待降噪频谱图输入所述编码模块进行特征提取,得到多个单层音频编码特征和目标音频编码特征;将所述目标音频编码特征输入所述频域降噪模块进行频域降噪,得到频域降噪后音频特征;将所述目标音频编码特征和所述频域降噪后音频特征进行残差连接,得到待处理音频特征;将所述待处理音频特征输入所述时域降噪模块分别进行特征分组、分组时域降噪和特征拼接,得到时域降噪后音频特征;将所述频域降噪后音频特征和所述时域降噪后音频特征进行残差连接,得到待解码音频特征;将各个所述单层音频编码特征和所述待解码音频特征输入所述解码模块进行解码,得到待分析频谱图;将所述待分析频谱图输入所述掩码增益与减益模块进行掩码,得到所述降噪后频谱图。3.根据权利要求2所述的基于人工智能的语音降噪方法,其特征在于,所述将所述目标音频编码特征输入所述频域降噪模块进行频域降噪,得到频域降噪后音频特征的步骤,包括:采用所述频域降噪模块的降维子模块,对所述目标音频编码特征进行降维处理,得到降维后编码特征;采用所述频域降噪模块的多头自注意力子模块,对所述降维后编码特征进行频域降噪,得到待升维编码特征,其中,所述多头自注意力子模块是实现多头自注意力机制的模块,所述频域降噪子模块的所述多头自注意力机制的query的值、key的值和value的值是根据预设的依赖频段宽度和相邻子带信息确定的数据;采用所述频域降噪模块的升维子模块,对所述待升维编码特征进行升维处理,得到所述频域降噪后音频特征。4.根据权利要求2所述的基于人工智能的语音降噪方法,其特征在于,所述将所述待处理音频特征输入所述时域降噪模块分别进行特征分组、分组时域降噪和特征拼接,得到时域降噪后音频特征的步骤,包括:采用所述时域降噪模块的特征分组层,对所述待处理音频特征进行划分,得到多个单组音频特征,其中,所述单组音频特征的数量与所述时域降噪子模块的数量相同;
将第i个所述单组音频特征输入第i个所述时域降噪子模块进行时域降噪,得到第i个待组合音频特征,其中,i是大于0的整数;采用所述时域降噪模块的特征组合层,对各个所述待组合音频特征进行特征拼接,得到所述时域降噪后音频特征。5.根据权利要求2所述的基于人工智能的语音降噪方法,其特征在于,所述将所述待降噪频谱图输入所述编码模块进行特征提取,得到多个单层音频编码特征和目标音频编码特征的步骤,包括:采用所述编码模块的第k个编码层,对第k个所述编码层的输入向量进行pointwise卷积,得到第一音频特征;获取预设的depthwise卷积时间维度;若所述depthwise卷积时间维度等于1,采用第k个所述编码层,对所述第一音频特征进行常规卷积,得到第k个所述单层音频编码特征;若所述depthwise卷积时间维度等于2,采用第k个所述编码层,对所述第一音频特征进行因果卷积,得到第k个所述单层音频编码特征;将第n个所述单层音频编码特征作为所述目标音频编码特征;其中,k是大于0的整数,k小于或等于n,n大于0,n是所述编码层的数量;当k等于1时,将所述待降噪频谱图作为第k个所述编码层的输入向量,当k大于1时,将第k-1个所述单层音频编码特征作为第k个所述编码层的输入向量。6.根据权利要求4所述的基于人工智能的语音降噪方法,其特征在于,所述将各个所述单层音频编码特征和所述待解码音频特征输入所述解码模块进行解码,得到待分析频谱图的步骤,包括:将第n+1-m个所述单层音频编码特征进行降维处理,得到待处理编码特征,其中,m是大于0的整数,并且m小于或等于n;将第m-1个所述解码层的输出向量和所述待处理编码特征进行相同位置的元素值相加,得到第m个待处理特征;对第m个所述待处理特征进行反卷积处理,得到第m个单层解码特征;将第n个所述单层解码特征作为所述待分析频谱图;其中,当m等于1时,将所述待解码音频特征作为第m-1个所述解码层的输出向量,当m大于1时,将第m-1个所述单层解码特征作为第m-1个所述解码层的输出向量。7.根据权利要求1所述的基于人工智能的语音降噪方法,其特征在于,所述将所述待降噪频谱图输入预设的降噪模型进行降噪处理,得到降噪后频谱图的步骤之前,还包括:获取多个训练样本和待训练模型;根据各个所述训练样本和预设的目标函数对所述待训练模型进行训练,直至达到预设的模型训练结束条件,将达到所述模型训练结束条件的所述待训练模型作为所述降噪模型;其中,所述目标函数s表述为:s=sisnr+mse损失+感知损失+正则项,sisnr是语音的信噪比损失,mse损失是根据频谱图实部的均方误差、频谱图虚部的均方误差和频谱图幅度谱的均方误差计算的损失,感知损失是语音的感知损失。8.一种基于人工智能的语音降噪装置,其特征在于,所述装置包括:
数据获取模块,用于获取待降噪语音对应的待降噪频谱图;降噪处理模块,用于将所述待降噪频谱图输入预设的降噪模型进行降噪处理,得到降噪后频谱图,其中,所述降噪模型依次包括:编码模块、频域降噪模块、时域降噪模块、解码模块和掩码增益与减益模块,所述频域降噪模块是利用相邻子带信息实现多头自注意力机制的模块,所述时域降噪模块包括:至少两个时域降噪子模块;语音信号重建模块,用于对所述降噪后频谱图进行语音信号重建,得到目标干净语音。9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

技术总结


本申请涉及揭示了一种基于人工智能的语音降噪方法、装置、设备及存储介质,其中方法包括:获取待降噪语音对应的待降噪频谱图;将所述待降噪频谱图输入预设的降噪模型进行降噪处理,得到降噪后频谱图,其中,所述降噪模型依次包括:编码模块、频域降噪模块、时域降噪模块、解码模块和掩码增益与减益模块,所述频域降噪模块是利用相邻子带信息实现多头自注意力机制的模块,所述时域降噪模块包括:至少两个时域降噪子模块;对所述降噪后频谱图进行语音信号重建,得到目标干净语音。实现了时域和频域的解耦合,有利于流式进行语音降噪,适用于计算资源有限和/或实时性要求较高的应用场景,有利于提高降噪效果。有利于提高降噪效果。有利于提高降噪效果。


技术研发人员:

李杰 王广新 杨汉丹

受保护的技术使用者:

深圳市友杰智新科技有限公司

技术研发日:

2022.03.10

技术公布日:

2022/6/30

本文发布于:2024-09-22 23:37:39,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/6919.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   降噪   时域   特征
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议