降噪模型的训练方法、语音降噪方法、装置和电子设备与流程



1.本公开涉及通信领域,尤其涉及一种降噪模型的训练方法、语音降噪方法、装置和电子设备。


背景技术:



2.随着技术的发展,人们愈加依赖于通过移动端进行视频或者音频的通话,在通话过程中,存在可能遇到嘈杂的背景噪声或者突发噪声,因此,需要在通话过程中对相关的噪声进行降噪处理,从而保证人们在通话过程中的语音清晰度。
3.相关技术中,对带噪的语音进行降噪处理的方法存在速度较慢的问题,无法保证降噪处理的效率,实时性较差。


技术实现要素:



4.本公开旨在至少在一定程度上解决相关技术中的技术问题之一。
5.为此,本公开第一方面提出一种降噪模型的训练方法。
6.本公开第二方面提出一种语音降噪方法。
7.本公开第三方面提出一种降噪模型的训练装置。
8.本公开第四方面提出一种语音降噪装置。
9.本公开第五方面提出一种电子设备。
10.本公开第六方面提出一种计算机可读存储介质。
11.本公开第一方面提出一种降噪模型的训练方法,方法包括:获取源带噪语音数据,并对源带噪语音数据进行混响处理,生成对应的训练样本,其中,训练样本包括多个样本,每个样本包括多通道混响带噪语音数据;基于训练样本包括的多通道混响带噪语音数据对待训练的语音降噪模型进行训练,以获取训练好的第一语音降噪模型。
12.另外,本公开第一方面提出的降噪模型的训练方法,还可以具有如下附加的技术特征:
13.根据本公开的一个实施例,基于训练样本包括的多通道混响带噪语音数据对待训练的语音降噪模型进行训练,以获取训练好的第一语音降噪模型,包括:按帧对训练样本包括的多通道混响带噪语音数据进行短时傅里叶变换,生成单帧多通道混响语音数据的短时频谱;根据短时频谱,对待训练的语音降噪模型进行训练,以获取训练好的第一语音降噪模型。
14.根据本公开的一个实施例,根据短时频谱,对待训练的语音降噪模型进行训练,以获取训练好的第一语音降噪模型,包括:对短时频谱进行时频掩蔽,获取短时频谱的频谱掩模;根据频谱掩模和短时频谱,获取短时频谱降噪后的降噪短时频谱;对降噪短时频谱进行短时逆傅里叶变换,生成降噪短时频谱的语音数据,作为语音降噪模型的训练输出的单帧降噪语音数据;根据单帧降噪语音数据获取语音降噪模型的训练损失函数,并根据训练损失函数对语音降噪模型进行参数调整,直至训练结束,获取训练好的第一语音降噪模型。
15.根据本公开的一个实施例,对短时频谱进行时频掩蔽,获取短时频谱的频谱掩模,包括:通过语音降噪模型的特征提取层,提取短时频谱的单帧带噪语音特征;获取单帧带噪语音特征的掩蔽参数,并根据掩蔽参数对单帧带噪语音特征进行时频掩蔽,获取频谱掩模。
16.根据本公开的一个实施例,通过语音降噪模型提取短时频谱的单帧带噪语音特征,包括:通过特征提取层,对短时频谱进行频域和时域的带噪语音特征提取,以获取短时频谱的单帧带噪语音特征。
17.根据本公开的一个实施例,通过特征提取层,对短时频率进行频域和时域的带噪语音特征提取,以获取短时频谱的单帧带噪语音特征,包括:基于特征提取层中频域因果空洞卷积层对短时频谱进行频域特征提取,以得到频域带噪语音特征;基于特征提取层中时域因果空洞卷积层对短时频谱进行时域特征提取,以得到时域带噪语音特征;根据频域带噪语音特征和时域带噪语音特征,获取短时频谱的单帧带噪语音特征。
18.根据本公开的一个实施例,频域带噪语音特征和时域带噪语音特征中的任一带噪语音特征,包括:在特征提取层的因果空洞卷积层中,提取短时频谱的初始带噪语音特征;根据初始带噪语音特征以及sigmoid激活函数,获取短时频谱的的任一带噪语音特征。
19.根据本公开的一个实施例,在特征提取层的因果卷积层中,提取短时频谱的初始带噪语音特征,包括:对输入因果卷积层的短时频谱进行第一次特征提取,提取短时频谱对应的语音帧的第一帧特征,和第一帧特征对应的带噪语音特征;根据第一帧特征和第一帧特征对应的带噪语音特征,获取短时频谱的第一带噪语音特征;对第一带噪语音特征进行部分特征丢弃,根据elu激活函数对丢弃后第一带噪语音特征中的剩余特征进行计算,并将计算得到的带噪语音特征作为初始带噪语音特征。
20.根据本公开的一个实施例,根据初始频域特征以及sigmoid激活函数,获取因果卷积层提取的短时频谱的任一带噪语音特征,包括:对初始带噪语音特征进行第二次特征提取,提取初始带噪语音特征对应的语音帧的第二帧特征,和第二帧特征对应的带噪语音特征;根据第二帧特征和第二帧特征对应的带噪语音特征,获取短时频谱的第二带噪语音特征;根据sigmoid激活函数对第二带噪语音特征进行引用计算,并将计算得到的带噪语音特征作为第三带噪语音特征;对第二带噪语音特征和第三带噪语音特征进行归一化,并将归一化获取到的带噪语音特征作为因果卷积层输出的短时频谱的任一带噪语音特征。
21.根据本公开的一个实施例,因果卷积层输出频域带噪语音特征时,因果空洞卷积层为频域因果空洞卷积层;因果卷积层输出频域带噪语音特征时,因果空洞卷积层为时域因果空洞卷积层。
22.根据本公开的一个实施例,根据单帧降噪语音数据获取语音降噪模型的训练损失函数,并根据训练损失函数对语音降噪模型进行参数调整,直至训练结束,获取训练好的第一语音降噪模型,包括:获取单帧多通道混响带噪语音数据中的单帧语音数据,并获取单帧语音数据和单帧降噪语音数据之间的尺度不变信噪比损失和短时客观可懂度损失;对尺度不变信噪比损失和短时客观可懂度损失进行加权求和,获取语音降噪模型的训练损失函数。
23.根据本公开的一个实施例,获取短时频谱的单帧带噪语音特征之后,包括:将单帧带噪语音特征作为历史单帧带噪语音特征缓存至缓存单元,用于等待下一次被调用。
24.根据本公开的一个实施例,方法还包括:对第一语音降噪模型进行蒸馏处理,以获
取轻量级的第二语音降噪模型。
25.根据本公开的一个实施例,对第一语音降噪模型进行蒸馏处理,以获取轻量级的第二语音降噪模型,包括:根据第一语音降噪模型,获取待训练的轻量语音降噪模型;根据训练样本包括的多通道混响带噪语音数据,获取轻量语音降噪模型基于第一语音降噪模型的蒸馏损失;根据蒸馏损失对轻量语音降噪模型进行参数调整,直至训练结束,获取训练好的第二语音降噪模型。
26.根据本公开的一个实施例,根据第一语音降噪模型,获取待训练的轻量语音降噪模型,包括:获取第一语音降噪模型的模型结构的轻量提取条件;构建模型结构满足轻量提取条件的待训练模型,作为轻量语音降噪模型。
27.根据本公开的一个实施例,根据训练样本包括的多通道混响带噪语音数据,获取轻量语音降噪模型基于第一语音降噪模型的蒸馏损失,包括:根据训练样本包括的多通道混响带噪语音数据,获取轻量语音降噪模型基于第一语音降噪模型的特征提取损失和降噪损失;对特征提取损失和降噪损失进行加权求和,获取轻量语音降噪模型基于第一语音降噪模型的蒸馏损失。
28.根据本公开的一个实施例,特征提取损失的获取过程,包括:获取第一语音降噪模型提取的训练样本包括的多通道混响带噪语音数据的第一带噪语音特征;获取轻量语音降噪模型提取的训练样本包括的多通道混响带噪语音数据的第二带噪语音特征;根据第一带噪语音特征和第二带噪语音特征,获取轻量语音降噪模型基于第一语音降噪模型的特征提取损失。
29.根据本公开的一个实施例,降噪损失的获取过程,包括:将训练样本包括的多通道混响带噪语音数据输入第一语音降噪模型,以获取第一语音降噪模型输出的第一降噪语音;将训练样本包括的多通道混响带噪语音数据输入轻量语音降噪模型,以获取轻量语音降噪模型输出的第二降噪语音;根据第一降噪语音和第二降噪语音,获取轻量语音降噪模型基于第一语音降噪模型的降噪损失。
30.根据本公开的一个实施例,对获取源带噪语音数据,并对源带噪语音数据进行混响处理,生成对应的训练样本,其中,训练样本包括多个样本,每个样本包括多通道混响带噪语音数据,包括:获取源带噪语音数据中的源语音数据和源噪声数据;对源语音数据进行混响处理,获取源语音数据的多通道混响语音数据;对源噪声数据进行混响处理,获取源噪声数据的多通道混响噪声数据;对多通道混响语音数据和多通道混响噪声数据进行混合,获取多通道混响带噪语音数据,并根据多通道混响带噪语音数据生成训练样本。
31.根据本公开的一个实施例,获取源带噪语音数据中的源语音数据和源噪声数据之前,包括:获取初始语音数据和初始噪声数据;对初始语音数据和初始噪声数据分别进行数据清洗和数据增强,以获取初始语音数据对应的源语音数据和初始噪声数据对应的源噪声数据;将源语音数据和源噪声数据进行拼接,生成源带噪语音数据。
32.根据本公开的一个实施例,将多通道混响语音数据和多通道混响噪声数据进行混合,获取多通道混响带噪语音数据,包括:将多通道混响噪声数据的语音长度调整至于多通道混响语音数据的语音长度相同;将语音长度相同的多通道混响噪声数据和多通道混响语音数据进行混合,获取混合后的多通道混响带噪语音数据,并根据多通道混响带噪语音数据生成训练样本。
33.根据本公开的一个实施例,方法还包括:根据多通道混响带噪语音数据,获取用于评估的评估混响带噪语音数据;根据评估混响带噪语音数据,对第一语音降噪模型和/或第二语音降噪模型进行评估。
34.根据本公开的一个实施例,根据评估混响带噪语音数据,对第一语音降噪模型和/或第二语音降噪模型进行评估,包括:获取第一语音降噪模型和/或第二语音降噪模型的评估参数,并根据评估参数,对第一语音降噪模型和/或第二语音降噪模型进行评估。
35.为达上述目的,本公开第二方面提出一种语音降噪方法,方法包括:获取待降噪多通道混响带噪语音,并按帧对待降噪多通道混响带噪语音数据进行短时傅里叶变换,生成单帧待降噪多通道混响带噪语音数据的待降噪短时频谱;基于训练好的目标语音降噪模型,逐帧的对待降噪短时频谱进行降噪处理,以获取目标语音降噪模型输出的待降噪多通道混响带噪语音数据的降噪后的目标语音数据;其中,目标语音降噪模型通过上述第一方面的降噪模型的训练方法训练得到。
36.为达上述目的,本公开第三方面提出一种降噪模型的训练装置,装置包括:混响模块,用于获取源带噪语音数据,并对源带噪语音数据进行混响处理,生成对应的训练样本,其中,训练样本包括多个样本,每个样本包括多通道混响带噪语音数据;训练模块,用于基于训练样本包括的多通道混响带噪语音数据对待训练的语音降噪模型进行训练,以获取训练好的第一语音降噪模型。
37.另外,本公开第三方面提出的降噪模型的训练装置,还可以具有如下附加的技术特征:
38.根据本公开的一个实施例,训练模块,还用于:按帧对训练样本包括的多通道混响带噪语音数据进行短时傅里叶变换,生成单帧多通道混响语音数据的短时频谱;根据短时频谱,对待训练的语音降噪模型进行训练,以获取训练好的第一语音降噪模型。
39.根据本公开的一个实施例,训练模块,还用于:对短时频谱进行时频掩蔽,获取短时频谱的频谱掩模;根据频谱掩模和短时频谱,获取短时频谱降噪后的降噪短时频谱;对降噪短时频谱进行短时逆傅里叶变换,生成降噪短时频谱的语音数据,作为语音降噪模型的训练输出的单帧降噪语音数据;根据单帧降噪语音数据获取语音降噪模型的训练损失函数,并根据训练损失函数对语音降噪模型进行参数调整,直至训练结束,获取训练好的第一语音降噪模型。
40.根据本公开的一个实施例,训练模块,还用于:通过语音降噪模型的特征提取层,提取短时频谱的单帧带噪语音特征;获取单帧带噪语音特征的掩蔽参数,并根据掩蔽参数对单帧带噪语音特征进行时频掩蔽,获取频谱掩模。
41.根据本公开的一个实施例,训练模块,还用于:通过特征提取层,对短时频谱进行频域和时域的带噪语音特征提取,以获取短时频谱的单帧带噪语音特征。
42.根据本公开的一个实施例,训练模块,还用于:基于特征提取层中频域因果空洞卷积层对短时频谱进行频域特征提取,以得到频域带噪语音特征;基于特征提取层中时域因果空洞卷积层对短时频谱进行时域特征提取,以得到时域带噪语音特征;根据频域带噪语音特征和时域带噪语音特征,获取短时频谱的单帧带噪语音特征。
43.根据本公开的一个实施例,训练模块,还用于:在特征提取层的因果空洞卷积层中,提取短时频谱的初始带噪语音特征;根据初始带噪语音特征以及sigmoid激活函数,获
取短时频谱的的任一带噪语音特征。
44.根据本公开的一个实施例,训练模块,还用于:对输入因果卷积层的短时频谱进行第一次特征提取,提取短时频谱对应的语音帧的第一帧特征,和第一帧特征对应的带噪语音特征;根据第一帧特征和第一帧特征对应的带噪语音特征,获取短时频谱的第一带噪语音特征;对第一带噪语音特征进行部分特征丢弃,根据elu激活函数对丢弃后第一带噪语音特征中的剩余特征进行计算,并将计算得到的带噪语音特征作为初始带噪语音特征。
45.根据本公开的一个实施例,训练模块,还用于:对初始带噪语音特征进行第二次特征提取,提取初始带噪语音特征对应的语音帧的第二帧特征,和第二帧特征对应的带噪语音特征;根据第二帧特征和第二帧特征对应的带噪语音特征,获取短时频谱的第二带噪语音特征;根据sigmoid激活函数对第二带噪语音特征进行引用计算,并将计算得到的带噪语音特征作为第三带噪语音特征;对第二带噪语音特征和第三带噪语音特征进行归一化,并将归一化获取到的带噪语音特征作为因果卷积层输出的短时频谱的任一带噪语音特征。
46.根据本公开的一个实施例,因果卷积层输出频域带噪语音特征时,因果空洞卷积层为频域因果空洞卷积层;因果卷积层输出频域带噪语音特征时,因果空洞卷积层为时域因果空洞卷积层。
47.根据本公开的一个实施例,训练模块,还用于:获取单帧多通道混响带噪语音数据中的单帧语音数据,并获取单帧语音数据和单帧降噪语音数据之间的尺度不变信噪比损失和短时客观可懂度损失;对尺度不变信噪比损失和短时客观可懂度损失进行加权求和,获取语音降噪模型的训练损失函数。
48.根据本公开的一个实施例,训练模块,还用于:将单帧带噪语音特征作为历史单帧带噪语音特征缓存至缓存单元,用于等待下一次被调用。
49.根据本公开的一个实施例,装置还包括:蒸馏模块,用于对第一语音降噪模型进行蒸馏处理,以获取轻量级的第二语音降噪模型。
50.根据本公开的一个实施例,蒸馏模块,还用于:根据第一语音降噪模型,获取待训练的轻量语音降噪模型;根据训练样本包括的多通道混响带噪语音数据,获取轻量语音降噪模型基于第一语音降噪模型的蒸馏损失;根据蒸馏损失对轻量语音降噪模型进行参数调整,直至训练结束,获取训练好的第二语音降噪模型。
51.根据本公开的一个实施例,蒸馏模块,还用于:获取第一语音降噪模型的模型结构的轻量提取条件;构建模型结构满足轻量提取条件的待训练模型,作为轻量语音降噪模型。
52.根据本公开的一个实施例,蒸馏模块,还用于:根据训练样本包括的多通道混响带噪语音数据,获取轻量语音降噪模型基于第一语音降噪模型的特征提取损失和降噪损失;对特征提取损失和降噪损失进行加权求和,获取轻量语音降噪模型基于第一语音降噪模型的蒸馏损失。
53.根据本公开的一个实施例,蒸馏模块,还用于:获取第一语音降噪模型提取的训练样本包括的多通道混响带噪语音数据的第一带噪语音特征;获取轻量语音降噪模型提取的训练样本包括的多通道混响带噪语音数据的第二带噪语音特征;根据第一带噪语音特征和第二带噪语音特征,获取轻量语音降噪模型基于第一语音降噪模型的特征提取损失。
54.根据本公开的一个实施例,蒸馏模块,还用于:将训练样本包括的多通道混响带噪语音数据输入第一语音降噪模型,以获取第一语音降噪模型输出的第一降噪语音;将训练
样本包括的多通道混响带噪语音数据输入轻量语音降噪模型,以获取轻量语音降噪模型输出的第二降噪语音;根据第一降噪语音和第二降噪语音,获取轻量语音降噪模型基于第一语音降噪模型的降噪损失。
55.根据本公开的一个实施例,混响模块,还用于:获取源带噪语音数据中的源语音数据和源噪声数据;对源语音数据进行混响处理,获取源语音数据的多通道混响语音数据;对源噪声数据进行混响处理,获取源噪声数据的多通道混响噪声数据;对多通道混响语音数据和多通道混响噪声数据进行混合,获取多通道混响带噪语音数据,并根据多通道混响带噪语音数据生成训练样本。
56.根据本公开的一个实施例,混响模块,还用于:获取初始语音数据和初始噪声数据;对初始语音数据和初始噪声数据分别进行数据清洗和数据增强,以获取初始语音数据对应的源语音数据和初始噪声数据对应的源噪声数据;将源语音数据和源噪声数据进行拼接,生成源带噪语音数据。
57.根据本公开的一个实施例,混响模块,还用于:将多通道混响噪声数据的语音长度调整至于多通道混响语音数据的语音长度相同;将语音长度相同的多通道混响噪声数据和多通道混响语音数据进行混合,获取混合后的多通道混响带噪语音数据。
58.根据本公开的一个实施例,装置还包括,评估模块,用于:根据多通道混响带噪语音数据,获取用于评估的评估混响带噪语音数据;根据评估混响带噪语音数据,对第一语音降噪模型和/或第二语音降噪模型进行评估。
59.根据本公开的一个实施例,评估模块,还用于:获取第一语音降噪模型和/或第二语音降噪模型的评估参数,并根据评估参数,对第一语音降噪模型和/或第二语音降噪模型进行评估。
60.为达上述目的,本公开第四方面提出一种语音降噪装置,装置包括:获取模块,用于获取待降噪多通道混响带噪语音,并按帧对待降噪多通道混响带噪语音数据进行短时傅里叶变换,生成单帧待降噪多通道混响带噪语音数据的待降噪短时频谱;降噪模块,用于基于训练好的目标语音降噪模型,逐帧的对待降噪短时频谱进行降噪处理,以获取目标语音降噪模型输出的待降噪多通道混响带噪语音数据的降噪后的目标语音数据。
61.本公开第五方面提出一种电子设备,包括:处理器;用于存储处理器的可执行指令的存储器;其中,处理器被配置为执行指令,以实现如上述第一方面提出的降噪模型的训练方法和/或上述第二方面提出的语音降噪方法。
62.本公开第六方面提出一种计算机可读存储介质,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上述第一方面提出的降噪模型的训练方法和/或上述第二方面提出的语音降噪方法。
63.本公开提出的降噪模型的训练方法及装置,获取源带噪语音数据后,对源带噪语音数据进行混响处理,获取混响后的作为样本的多通道混响带噪语音数据,并根据多个包括多通道混响带噪语音数据的样本,获取对语音降噪模型进行训练的训练样本。进一步地,通过多通道混响带噪语音数据对待训练的语音降噪模型进行模型训练,直至训练结束得到训练好的第一语音降噪模型。本公开中,通过多通道混响带噪语音数据对语音降噪模型进行训练,使得人耳对于训练好的语音降噪模型输出的降噪语音具有很好的听感,提高了语音数据中携带的信息的传播准确率,降低了噪声对于语音数据中携带的信息的传播的影响
程度,通过多通道混响带噪语音数据进行训练得到的语音降噪模型可以实现多场景适用,提高了语音降噪模型的鲁棒性,强化了语音降噪模型的适用性和实用性,优化了语音降噪模型的训练方法和训练效果。
64.应当理解,本公开所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
65.本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
66.图1为本公开一实施例的降噪模型的训练方法的流程示意图;
67.图2为本公开另一实施例的降噪模型的训练方法的流程示意图;
68.图3为本公开另一实施例的降噪模型的训练方法的流程示意图;
69.图4为本公开另一实施例的降噪模型的训练方法的流程示意图;
70.图5为本公开另一实施例的降噪模型的训练方法的流程示意图;
71.图6为本公开另一实施例的降噪模型的训练方法的流程示意图;
72.图7为本公开另一实施例的降噪模型的训练方法的流程示意图;
73.图8为本公开一实施例的模型评估的示意图;
74.图9为本公开另一实施例的模型评估的示意图;
75.图10为本公开另一实施例的模型评估的示意图;
76.图11为本公开另一实施例的模型评估的示意图;
77.图12为本公开一实施例的语音降噪方法的流程示意图;
78.图13为本公开一实施例的降噪模型的训练装置的结构示意图;
79.图14为本公开一实施例的语音降噪装置的结构示意图;
80.图15为本公开一实施例的电子设备的框图。
具体实施方式
81.下面详细描述本公开的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本公开,而不能理解为对本公开的限制。
82.下面参照附图描述本公开实施例提出的一种降噪模型的训练方法、语音降噪方法、装置和电子设备。
83.图1为本公开一实施例的降噪模型的训练方法的流程示意图,如图1所示,该方法包括:
84.s101,获取源带噪语音数据,并对源带噪语音数据进行混响处理,生成对应的训练样本,其中,训练样本包括多个样本,每个样本包括多通道混响带噪语音数据。
85.实现中,在将语音作为信息传播载体的场景下,语音中混合的噪声对于信息的准确传播会造成一定程度的影响,因此,为了提高基于语音载体进行的信息传播,对于混合有噪声的语音存在降噪需求。
86.其中,可以将混合有噪声的语音数据确定为带噪语音数据。
87.本公开实施例中,可以通过构建对应的语音降噪模型,实现对带噪语音数据的降噪处理,其中,可以通过对语音降噪模型进行模型训练,从而优化语音降噪模型的降噪效果。
88.可选地,可以基于语音降噪模型的实际使用场景,获取语音降噪模型训练所需的带噪语音数据,进一步地,可以通过实际场景中的真实带噪语音数据获取语音降噪模型训练所需的带噪语音数据。
89.其中,可以将实际场景中的真实带噪语音数据确定为源带噪语音数据。
90.在一些实现中,可以通过网络上的开放语音数据资源和开放噪声数据资源,获取所需的源带噪语音数据,比如,开放语音数据资源thchs-30,开放语音数据资源primeword,开放语音数据资源magicdata,开放语音数据资源aishell,以及开放噪声数据资源wham_noise,开放噪声数据资源musan_noise,开放噪声数据资源dns_noise,获取所需的源带噪语音数据。
91.在另一些实现中,可以通过在实际场景中进行的声音采集,获取所需的源带噪语音数据,比如,可以在消声室中进行相关的录制操作,进而获取对应的语音数据和噪声数据,从而得到所需的源带噪语音数据。
92.实现中,声音由音源产生后可以通过设定的介质进行传播,并在其传播路径上的物体上进行反射,因此,在设定的场景下,人耳听到的声音是由音源产生的源带噪声音与源带噪声音被周围物体反射的声音对应的混响声音。
93.因此,为了优化语音降噪模型的训练效果,优化人耳对于语音降噪模型输出的降噪语音的听感,可以对源带噪语音数据进行混响处理,并通过混响处理后得到的带噪语音数据对语音降噪模型进行模型训练。
94.其中,可以将源带噪语音数据进行混响处理后得到的带噪语音数据确定为多通道混响带噪语音数据。
95.由于实际场景下源带噪声音会产生多次反射,因此,可以通过设定的方法获取源带噪语音数据被物体反射后的多个反射带噪语音数据,并将其与源带噪语音数据进行混合,从而获取源带噪语音数据混响处理后的多通道混响带噪语音数据。
96.进一步地,将多通道混响带噪语音数据作为对待训练的语音降噪模型进行训练的样本,并根据多个样本生成待训练语音降噪模型对应的训练样本。
97.可以理解为,训练样本为由多个多通道混响带噪语音数据组成的样本集合。
98.s102,基于训练样本包括的多通道混响带噪语音数据对待训练的语音降噪模型进行训练,以获取训练好的第一语音降噪模型。
99.本公开实施例中,可以将练样本包括的多通道混响带噪语音数据输入待训练的语音降噪模型中进行模型训练,直至训练结束。
100.可选地,可以逐个的将训练样本中包括的多个多通道混响带噪语音数据分批次输入待训练的语音降噪模型,根据每个批次输入模型的多通道混响带噪语音数据,对语音降噪模型进行训练。
101.其中,待训练的语音降噪模型可以是时序卷积神经网络模型(trcn),也可以是其他结构的神经网络模型,此处不做限定。
102.进一步地,多通道混响带噪语音数据存+在对应的无噪声的多通道混响语音数据,
因此,可以根据无噪声的多通道混响语音数据,生成多通道混响带噪语音数据的训练标签,进而将多通道混响带噪语音数据转化为语音降噪模型的训练样本,并将其输入至待训练的语音降噪模型进行降噪模型训练。
103.可选地,可以通过模型训练的效果设定对应的训练结束条件。将多通道混响带噪语音数据作为训练样本输入待训练的语音降噪模型后获取到的模型训练结果与设定的训练结束条件进行对比,当某个训练轮次输出的训练结果满足设定的训练结束条件时,可以判断,该轮次训练结束后的模型可以满足实际应用所需,则语音降噪模型的训练结束。
104.可选地,可以通过模型训练的轮次设定对应的训练结束条件。通过设定的方法对语音降噪模型的训练轮次进行监控记录,并将监控记录到的训练轮次的数量与设定的训练结束条件进行对比,当某个轮次的训练对应的训练轮次的数量满足设定的训练结束条件时,可以判断,该轮次训练结束后的模型可以满足实际应用所需,则语音降噪模型的训练结束。
105.进一步地,模型训练结束后,将训练好的语音降噪模型确定为第一语音降噪模型。
106.本公开提出的降噪模型的训练方法,获取源带噪语音数据后,对源带噪语音数据进行混响处理,获取混响后的作为样本的多通道混响带噪语音数据,并根据多个包括多通道混响带噪语音数据的样本,获取对语音降噪模型进行训练的训练样本。进一步地,通过多通道混响带噪语音数据对待训练的语音降噪模型进行模型训练,直至训练结束得到训练好的第一语音降噪模型。本公开中,通过多通道混响带噪语音数据对语音降噪模型进行训练,使得人耳对于训练好的语音降噪模型输出的降噪语音具有很好的听感,提高了语音数据中携带的信息的传播准确率,降低了噪声对于语音数据中携带的信息的传播的影响程度,通过多通道混响带噪语音数据进行训练得到的语音降噪模型可以实现多场景适用,提高了语音降噪模型的鲁棒性,强化了语音降噪模型的适用性和实用性,优化了语音降噪模型的训练方法和训练效果。
107.上述实施例中,关于语音降噪模型的训练,可结合图2进一步理解,图2为本公开另一实施例的降噪模型的训练方法的流程示意图,如图2所示,该方法包括:
108.s201,按帧对训练样本包括的多通道混响带噪语音数据进行短时傅里叶变换,生成单帧多通道混响语音数据的短时频谱。
109.为了使得训练好的第一语音降噪模型可以实现对输入其中的带噪语音数据的实时降噪,可以对训练语音降噪模型的训练样本包括的多通道混响带噪语音数据进行切割,通过切割后的多通道混响带噪语音数据对语音降噪模型进行训练,从而使得训练好的第一语音降噪模型可以在训练过程中得到实时降噪的训练效果。
110.可选地,可以基于时间维度对多通道混响带噪语音数据进行切割,其中,可以按帧切割多通道混响带噪语音数据,并将切割后得到的每帧多通道混响带噪语音数据确定为单帧多通道混响语音数据。
111.进一步地,为了使得模型具有更好的训练效果,可以基于设定的方法将单帧多通道混响带噪语音数据转化为对应的短时频谱。
112.可选地,可以对单帧多通道混响带噪语音数据进行短时傅里叶变换,并基于短时傅里叶变换的结果,得到单帧多通道混响带噪语音数据的短时频谱。
113.如图3所示,可以通过预处理模块将多通道混响带噪语音数据按帧分段,并通过将
分段后得到的单帧多通道混响带噪语音数据进行短时傅里叶变换,将单帧多通道混响带噪语音数据映射至对应的短时频谱域,从而生成分段后的单帧多通道混响语音数据对应的短时频谱。
114.s202,根据短时频谱,对待训练的语音降噪模型进行训练,以获取训练好的第一语音降噪模型。
115.本公开实施例中,可以将预处理模块输出的短时频谱输入至待训练的语音降噪模型的输入端,通过单帧多通道混响带噪语音数据对应的短时频谱对待训练的语音降噪模型进行训练。
116.可选地,可以对短时频谱进行时频掩蔽,获取短时频谱的频谱掩模。
117.实现中,可以根据声音的掩蔽效应对单帧多通道混响带噪语音数据进行分析,将单帧多通道混响带噪语音数据中包括的单帧多通道混响语音数据、单帧多通道混响噪声数据作为掩蔽声,将单帧多通道混响带噪语音数据中包括的单帧源语音数据作为被掩蔽声。
118.进一步地,基于掩蔽声和被掩蔽声的设定参数,对单帧多通道混响带噪语音数据对应的短时频谱进行时域上和频域上的时频掩蔽,从而获取掩蔽后的频谱掩模。
119.本公开实施例中,可以基于语音降噪模型实现对短时频谱的时频掩蔽,进而从语音降噪模型的中间层输出中,获取短时频谱进行时频掩蔽后的频谱掩模。
120.为了实现基于语音降噪模型对短时频谱的时频掩蔽,可以通过语音降噪模型对输入其中的短时频谱进行特征提取,获取短时频谱包括的特征中的掩蔽特征和被掩蔽特征,进而从语音降噪模型的中间层输出中得到短时频谱对应的频谱掩模。
121.其中,可以通过语音降噪模型的特征提取层,提取短时频谱的单帧带噪语音特征。
122.进一步地,语音降噪模型存在特征提取层,可以通过特征提取层对短时频谱进行特征提取,以获取短时频谱中携带的单帧多通道混响带噪语音数据中的带噪语音特征,并将其确定为短时频谱的单帧带噪语音特征。
123.为了实现对短时频谱的时频掩蔽,可以提取单帧多通道混响带噪语音数据中的时域维度和频域维度上的带噪语音特征,并根据时域维度和频域维度上的带噪语音特征获取短时频谱被特征提取层提取的单帧带噪语音特征。
124.需要说明的是,特征提取层存在设定的缓存单元,可以将特征提取层提取的单帧带噪语音特征作为历史单帧带噪语音特征缓存至缓存单元,用于等待下一次被调用。
125.其中,缓存单元可以设置于特征提取层中的设定位置,当特征提取层提取到输入其中的短时频谱对应的单帧带噪语音特征时,可以将其缓存至设定位置的缓存单元中,并作为历史单帧带噪语音特征进行保存。
126.可选地,历史单帧带噪语音特征存在设定的调用条件,当满足该调用条件时,即可对缓存单元进行访问,并调用其中对应的历史单帧带噪语音特征。
127.其中,通过对缓存单元中的历史单帧带噪语音特征的访问和调用,使得特征提取层提取得到的单帧带噪语音特征可以实现时序信息的保持。
128.进一步地,可以将短时频谱在频域维度上的带噪语音特征确定为频域带噪语音,将短时频谱在时域维度上的带噪语音特征确定为时域带噪语音特征。
129.进一步地,可以基于因果空洞卷积构建语音降噪模型的特征提取层,基于特征提取层中频域因果空洞卷积层对短时频谱进行频域特征提取,以得到频域带噪语音特征。
130.如图3所示,可以将短时频谱输入至频域因果空洞卷积层中,通过频域因果空洞卷积层对短时频谱进行频域维度上的空洞卷积。
131.实现中,单帧多通道混响带噪语音数据的噪声可以分布在整个频率维度,也可以集中在窄带上,因此,可以通过频域维度上的空洞卷积,控制感受野以达成各个基频之间的互相关,从而对短时频谱在频域维度上的频域带噪语音特征的提取,其中,频域带噪语音特征可以包括单帧多通道混响带噪语音数据在频域维度上的基频特征。
132.需要说明的是,可以将频域因果空洞卷积层中的空洞卷积步长设置为2l,l为正整数,在语音降噪模型中可以设置至少一个频域因果空洞卷积层作为提取短时频谱对应的频域带噪语音特征的特征提取层。
133.相应地,可以基于因果空洞卷积构建语音降噪模型中提取时域维度特征的时域因果空洞卷积层,其中,基于特征提取层中时域因果空洞卷积层对短时频谱进行时域特征提取,以得到时域带噪语音特征。
134.如图3所示,可以将短时频谱输入至时域因果空洞卷积层中,通过时域因果空洞卷积层对短时频谱进行时域维度上的空洞卷积,进而获取短时频谱在时域维度上的时域带噪语音特征。
135.需要说明的是,单帧多通道混响带噪语音数据中,相较于无噪声的单帧多通道混响语音数据的持续时间,单帧多通道噪声数据的持续时间相对较短,因此,时域因果空洞卷积层设置的步长小于频域因果空洞卷积层的步长。
136.为了更好的理解频域带噪语音特征以及时域带噪语音特征的特征提取过程,获取二者之间任一带噪语音特征的过程,可结合如下示例:
137.可选地,可以在特征提取层的因果空洞卷积层中,提取短时频谱的初始带噪语音特征。
138.本公开实施例中,语音降噪模型的特征提取层对应的因果空洞卷积结构可如图4所示,可以通过图4所示的因果空洞卷积层,对短时频谱进行特征提取,从而得到对应维度上的带噪语音特征。
139.需要说明的是,当因果卷积层输出频域带噪语音特征时,因果空洞卷积层为频域因果空洞卷积层。当因果卷积层输出频域带噪语音特征时,因果空洞卷积层为时域因果空洞卷积层。
140.进一步地,对输入因果卷积层的短时频谱进行第一次特征提取,提取短时频谱对应的语音帧的第一帧特征,和第一帧特征对应的带噪语音特征。
141.如图4所示,可以通过卷积单元1对输入时域因果卷积层或者频域因果卷积层的短时频谱进行因果卷积层内部的第一次特征提取,获取短时频谱对应的语音帧的特征,以及该语音帧特征下对应的带噪语音特征。
142.其中,可以将第一次特征提取得到的语音帧的帧特征确定为第一帧特征,则语音帧特征下对应的带噪语音特征,即为第一帧特征对应的带噪语音特征。
143.进一步地,根据第一帧特征和第一帧特征对应的带噪语音特征,获取短时频谱的第一带噪语音特征。
144.如图4所示,可以在卷积单元1内将第一帧特征以及第一帧特征对应的大带噪语音特征进行设定方法下的特征融合,从而获取同时携带有第一帧特征以及第一帧特征对应的
带噪语音特征的语音特征,并将其确定为第一带噪语音特征。
145.为了优化语音降噪模型的训练效果,还可以将图4所示的卷积单元1输出的第一带噪语音特征通过随机失活单元进行部分特征丢弃,根据elu激活函数对丢弃后第一带噪语音特征中的剩余特征进行计算,并将计算得到的带噪语音特征作为初始带噪语音特征。
146.进一步地,将初始带噪语音特征分别输入至图4所示的卷积单元2以及卷积单元3,并根据初始带噪语音特征以及sigmoid激活函数,获取短时频谱的任一带噪语音特征。
147.其中,可以根据卷积单元2以及卷积单元3对初始带噪语音特征进行第二次特征提取,提取初始带噪语音特征对应的语音帧的第二帧特征,和第二帧特征对应的带噪语音特征。并根据第二帧特征和第二帧特征对应的带噪语音特征,获取短时频谱的第二带噪语音特征。
148.可选地,可以通过卷积单元2以及卷积单元3分别对初始带噪语音特征进行下采样,得到初始带噪语音特征对应的语音帧的第二帧特征,和第二帧特征对应的带噪语音特征。
149.进一步地,在卷积单元2以及卷积单元3中基于设定方法对第二帧特征,和第二帧特征对应的带噪语音特征进行特征融合,从而得到初始带噪语音进行下采样得到的带噪语音特征,并将其标识为第二带噪语音特征。
150.相应地,如图4所示,还可以根据sigmoid激活函数对卷积单元3输出的第二带噪语音特征进行引用计算,并将计算得到的带噪语音特征作为第三带噪语音特征。
151.如图4所示,可以通过归一化层对第二带噪语音特征和第三带噪语音特征进行归一化,并将归一化获取到的带噪语音特征作为归一化层的输出结果,并将其作为因果卷积层输出的短时频谱的时域带噪语音特征和频域带噪语音特征中的任一带噪语音特征。
152.进一步地,根据频域带噪语音特征和时域带噪语音特征,获取短时频谱的单帧带噪语音特征。
153.可选地,可以基于语音降噪模型的设定特征融合层,对时域带噪语音特征和频域带噪语音特征进行特征融合,从而得到同时携带有时域维度特征和频域维度特征的带噪语音特征,并将其作为语音降噪模型的全部特征提取层进行特征提取后输出的单帧多通道混响带噪语音数据对应的短时频谱的单帧带噪语音特征。
154.进一步地,通过对单帧带噪语音特征进行时频掩蔽,实现对短时频谱的视频掩蔽,进而得到短时频谱对应的频谱掩模。
155.其中,可以获取单帧带噪语音特征的掩蔽参数,并根据掩蔽参数对单帧带噪语音特征进行时频掩蔽,获取频谱掩模。如图3所示,可以将单帧带噪语音特征输入图3中的门控线性单元,通过图3中的门控线性单元对单帧带噪语音特征进行时频掩蔽,进而得到短时频谱的频谱掩模,并作为门控线性单元的输出结果。
156.可选地,可以基于单帧带噪语音特征中的无噪声的源语音的分布、无噪声的混响语音分布以及对应的噪声分布,确定单帧带噪语音特征的掩蔽参数。
157.根据得到的掩蔽参数,对单帧带噪语音特征中的无噪声混响语音对应的特征以及噪声对应的特征进行时频掩蔽,得到无噪声的源语音对应的语音特征,进而得到短时频谱对应的频谱掩模。
158.需要说明的是,语音降噪模型中可以包括设定数量的单向的门控线性单元,比如2
个,也可以包括其他数量的其他类型的门控线性单元,此处不做限定。
159.进一步地,根据频谱掩模和短时频谱,获取短时频谱降噪后的降噪短时频谱。
160.实现中,为了避免单帧混响带噪语音数据中的单帧带噪语音特征的特征丢失对模型训练效果的影响,可以基于设定的算法对短时频谱以及其对应的频谱掩模进行计算,并从计算结果中得到短时频谱对应的单帧多通道混响带噪语音数据降噪后的语音频谱,并将其确定为短时频谱降噪后的降噪短时频谱。
161.可选地,音降噪模型中存在残差连接,可以通过设置的残差连接,将短时频谱传输至设定位置,并在该设定位置上实现短时频谱和频谱掩模的计算,从而得到短时频谱降噪后的降噪短时频谱。
162.如图3所示,可以通过时域因果空洞反卷积层对短时频谱和频谱掩模进行设定算法的处理,得到短时频谱降噪后的降噪短时频谱,并将其作为时域因果空洞反卷积层的输出结果。
163.因此,可以基于图3所示设置的残差连接,将输入时域因果空洞卷积层的短时频谱传输至时域因果空洞反卷积层,进而实现时域因果空洞反卷积层中的降噪短时频谱的获取。
164.进一步地,可以对降噪短时频谱进行短时逆傅里叶变换,生成降噪短时频谱的语音数据,作为语音降噪模型的训练输出的单帧降噪语音数据。
165.由于短时频谱是根据单帧多通道混响带噪语音数据的短时傅里叶变换得到,因此,可以将短时频谱降噪后得到的降噪短时频谱进行短时傅里叶逆变换,从而得到短时频谱对应的单帧多通道混响带噪语音数据降噪后的语音数据。
166.其中,可以将单帧多通道混响带噪语音数据降噪后的语音数据确定为单帧降噪语音数据,并将其作为语音降噪模型的训练输出结果。
167.可选地,可以通过图3所示的后处理模块,对降噪短时频谱进行短时傅里叶逆变换,从而得到语音降噪模型的训练输出的单帧降噪语音数据。
168.比如,设定输入待训练的语音降噪模型m1的短时频谱为xf,将xf输入至m1后,得到对应的频谱掩模m,根据xf和m得到降噪短时频谱sf,对sf进行短时傅里叶逆变换,进而得到xf对应的单帧多通道混响带噪语音数据降噪后的单帧降噪语音数据s。
169.进一步地,根据单帧降噪语音数据获取语音降噪模型的训练损失函数,并根据训练损失函数对语音降噪模型进行参数调整,直至训练结束,获取训练好的第一语音降噪模型。
170.本公开实施例中,输入语音降噪模型进行训练的单帧多通道混响带噪语音中包括了无噪声无混响的单帧语音数据,因此,可以基于训练输出的单帧降噪语音数据与输入模型进行训练的单帧语音数据之间的损失,实现对语音降噪模型的优化训练。
171.其中,可以通过计算单帧降噪语音数据和单帧语音数据之间的损失函数,得到训练输出的单帧降噪语音数据与输入模型进行训练的单帧语音数据之间的损失。
172.可选地,可以获取单帧多通道混响带噪语音数据中的单帧语音数据,并获取单帧语音数据和单帧降噪语音数据之间的尺度不变信噪比(si-snr)损失和短时客观可懂度(stoi)损失。
173.通过获取单帧语音数据和单帧降噪语音数据之间的尺度不变信噪比损失和单帧
语音数据和单帧降噪语音数据之间的短时客观可懂度损失,对单帧降噪语音数据与单帧语音数据之间的损失进行衡量。
174.进一步地,可以对尺度不变信噪比损失和短时客观可懂度损失进行加权求和,获取语音降噪模型的训练损失函数。
175.其中,通过设定的权重占比对二者之间的尺度不变信噪比损失和短时客观可懂度损失进行加权求和。
176.比如,设定尺度不变信噪比损失的权重占比为0.3,短时客观可懂度损失的权重占比为0.7,则基于该设定的权重占比对于获取到的尺度不变信噪比损失和短时客观可懂度损失进行加权求和,进而得到单帧降噪语音数据和单帧语音数据之间的损失函数,并将其作为语音降噪模型的训练损失函数。
177.进一步地,根据每个训练轮次得到的训练损失函数,对语音降噪模型的模型参数进行调整。可选地,可以通过梯度下降法对模型参数进行调整。比如,设定通过梯度下降法基于0.003的学习率对语音降噪模型进行模型参数的调整。
178.需要说明的是,在连续两个模型训练轮次学习率不下降的场景下,可以对设定的学习率进行降低的调整处理。
179.进一步地,当语音降噪模型满足设定的训练结束条件时,即可结束对其的模型训练,并将最后一个轮次训练结束后得到的模型,作为训练好的第一语音降噪模型。
180.可选地,可以基于训练轮次的输出结果判断当前轮次训练结束的语音降噪模型是否满足设定的训练结束条件。比如,设定将连续n个训练轮次的学习率不再下降作为模型训练的结束条件,则可以对每个轮次的模型训练对应的学习率进行对比,若当前轮次的模型训练结束后,存在连续n个轮次的模型训练对应的学习率不再下降时,即可判定当前轮次训练结束的语音降噪模型满足了训练结束条件,则可以将当前轮次训练结束后的语音降噪模型,作为训练好的第一语音降噪模型。
181.可选地,可以基于训练的轮次判断当前轮次训练结束的语音降噪模型是否满足设定的训练结束条件。比如,设定将训练60个轮次作为模型的训练结束条件,则可以对模型训练的轮次进行监控记录,若当前轮次的模型训练结束后记录到的模型的训练轮次满足了60轮,则可以判定当前轮次训练结束后的模型满足了训练结束条件,则可以将当前轮次训练结束后的语音降噪模型,作为训练好的第一语音降噪模型。
182.需要说明的是,可以基于获取语音降噪模型训练过程中最后n个轮次的训练权重文件,并进行整合,从而得到训练好的第一语音降噪模型对应的权重文件。在需要调用第一语音降噪模型的场景下,可以通过搭建第一语音降噪模型的模型结构,并加载其对应的权重文件,从而实现对第一语音降噪模型的调用。
183.其中,可以将权重文件基于设定格式保持,比如.pth格式。
184.本公开提出的降噪模型的训练方法,按帧对多通道混响带噪语音数据进行切分得到单帧多通道混响带噪语音数据,并将其并进行短时傅里叶变换,得到单帧多通道混响带噪语音数据对应的短时频谱。通过短时频谱对语音降噪模型进行训练直至训练结束,其中,通过语音降噪模型的特征提取层提取短时频谱的时域带噪语音特征和频域带噪语音特征,进而得到短时频谱对应的单帧带噪语音特征。进一步地,对单帧带噪语音特征进行时频掩蔽,从而实现对短时频谱的时频掩蔽,进而得到对应的频谱掩模。根据短时频谱和其对应的
频谱掩模,得到短时频谱降噪后的降噪短时频谱,并对其进行短时傅里叶逆变换,得到降噪短时频谱对应的单帧降噪语音数据,并将其作为语音降噪模型的训练输出结果。进一步地,获取语音降噪模型的训练损失函数,并根据训练损失函数对语音降噪模型的模型参数进行调整,直至训练结束,从而得到训练好的第一语音降噪模型。本公开中,通过多通道混响带噪语音数据对语音降噪模型进行训练,使得人耳对于训练好的语音降噪模型输出的降噪语音具有很好的听感,提高了语音数据中携带的信息的传播准确率,降低了噪声对于语音数据中携带的信息的传播的影响程度,对多通道混响带噪语音数据进行分帧,通过单帧多通道混响带噪语音数据对应的短时频谱对语音降噪模型进行训练,优化了模型的训练方法,使得训练好的语音降噪模型实现了对带噪语音的实时降噪,优化了语音降噪模型的适用性和实用性。
185.为了实现对第一语音降噪模型的多场景应用,可以对第一语音降噪模型进行蒸馏处理,以获取轻量级的第二语音降噪模型,其中,可以根据第一语音降噪模型进行待训练的轻量级语音降噪模型的构建,并通过第一语音降噪模型对其进行训练,直至训练结束得到训练好的轻量级的第二语音降噪模型。
186.其中,关于第一语音降噪模型对应的轻量级的第二语音降噪模型的获取,可结合图5进一步理解,图5为本公开另一实施例的降噪模型的训练方法的流程示意图,如图5所示,该方法包括:
187.s501,根据第一语音降噪模型,获取待训练的轻量语音降噪模型。
188.实现中,承载第一语音降噪模型的硬件设备存在设定的要求,因此,为了实现第一语音降噪模型的多场景应用,尤其是在微型或者小型硬件设备上的应用,可以获取第一语音降噪模型对应的轻量级的语音降噪模型,并将其标识为轻量语音降噪模型。
189.其中,第一语音降噪模型存在设定的轻量提取条件,可以获取第一语音降噪模型的模型结构的轻量提取条件,并根据轻量提取条件,构建模型结构满足轻量提取条件的待训练模型,作为轻量语音降噪模型。
190.其中,可以根据轻量提取条件构建对应的轻量语音降噪模型。
191.比如,设定轻量提取条件为:在第一语音降噪模型的模型结构的基础上,因果空洞卷积层的数量为第一语音降噪模型中的因果空洞卷积层数量的四分之一,因果空洞反卷积层数量为第一语音降噪模型中的因果空洞反卷积层数量的四分之一。
192.则可以将时域因果空洞卷积层的数量缩减为四分之一、频域因果空洞卷积层的数量缩减为四分之一以及将时域因果空洞反卷积层的数量缩减为四分之一,并根据第一语音降噪模型的模型结构,构建对应的轻量级待训练降噪模型,并将其确定为第一语音降噪模型对应的待训练的轻量语音降噪模型。
193.s502,根据训练样本包括的多通道混响带噪语音数据,获取轻量语音降噪模型基于第一语音降噪模型的蒸馏损失。
194.本公开实施例中,可以将相同的训练样本包括的多通道混响带噪语音数据输入训练好的第一语音降噪模型,以及待训练的轻量语音降噪模型中,通过第一语音降噪模型的输出结果,以及待训练的轻量语音降噪模型的输出结果,得到轻量语音降噪模型基于第一语音降噪模型的蒸馏损失。
195.可选地,可以基于特征提取维度和语音降噪维度,根据训练样本包括的多通道混
响带噪语音数据,获取轻量语音降噪模型基于第一语音降噪模型的特征提取损失和降噪损失。
196.其中,关于轻量语音降噪模型基于第一语音降噪模型的特征提取损失的获取可结合如下示例:
197.获取第一语音降噪模型提取的训练样本包括的多通道混响带噪语音数据的第一带噪语音特征。
198.可以将训练样本包括的多通道混响带噪语音数据输入第一语音降噪模型中,并通过第一语音降噪模型的特征提取层,对输入其中的多通道混响带噪语音数据进行带噪语音特征提取。
199.其中,可以将第一语音降噪模型的特征提取层提取到的带噪语音特征标识为第一带噪语音特征。
200.相应地,获取轻量语音降噪模型提取的训练样本包括的多通道混响带噪语音数据的第二带噪语音特征。
201.进一步地,可以将输入第一语音降噪模型的训练样本包括的多通道混响带噪语音数据输入至待训练的轻量语音降噪模型中,并通过轻量语音降噪模型的特征提取层提取其中的带噪语音特征。
202.其中,可以将轻量语音降噪模型的特征提取层提取到的带噪语音特征标识为第二带噪语音特征。
203.进一步地,根据第一带噪语音特征和第二带噪语音特征,获取轻量语音降噪模型基于第一语音降噪模型的特征提取损失。
204.其中,第一带噪语音特征为训练好的第一语音降噪模型提取到的特征,第二带噪语音特征为待训练的轻量语音降噪模型提取到的特征,因此,通过获取第一带噪语音特征与第二带噪语音特征之间的损失,即可获取轻量语音降噪模型基于第一语音降噪模型在特征提取维度上的损失。
205.其中,可以将轻量语音降噪模型基于第一语音降噪模型在特征提取维度上的损失,确定为轻量语音降噪模型基于第一语音降噪模型的特征提取损失。
206.可选地,可以获取第一带噪语音特征和第二带噪语音特征之间的特征距离,通过二者之间的特征距离度量第一带噪语音特征和第二带噪语音特征之间的损失,进而获取轻量语音降噪模型基于第一语音降噪模型的特征提取损失。
207.比如,设定第一带噪语音特征为ft,第二带噪语音特征为fs,则可以通过获取ft和fs之间的损失,得到轻量语音降噪模型基于第一语音降噪模型的特征提取损失。
208.相应地,关于轻量语音降噪模型基于第一语音降噪模型的降噪损失的获取可结合如下示例:
209.将训练样本包括的多通道混响带噪语音数据输入第一语音降噪模型,以获取第一语音降噪模型输出的第一降噪语音。
210.可选地,可以将训练样本包括的多通道混响带噪语音数据输入第一语音降噪模型,通过第一语音降噪模型对多通道混响带噪语音数据中的混响语音数据和噪声语音数据进行掩蔽,从而得到多通道混响带噪语音数据降噪后的语音数据。
211.其中,可以将多通道混响带噪语音数据降噪后的语音数据标识为第一降噪语音。
212.相应地,将训练样本包括的多通道混响带噪语音数据输入轻量语音降噪模型,以获取轻量语音降噪模型输出的第二降噪语音。
213.其中,可以将输入第一语音降噪模型的训练样本包括的多通道混响带噪语音数据输入待训练的轻量语音降噪模型中,并从轻量语音降噪模型的输出结果中,得到轻量语音降噪模型对多通道混响带噪语音数据进行降噪后的语音数据,并将其标识为轻量语音降噪模型输出的第二降噪语音。
214.进一步地,根据第一降噪语音和第二降噪语音,获取轻量语音降噪模型基于第一语音降噪模型的降噪损失。
215.可选地,第一降噪语音为第一语音降噪模型对多通道混响带噪语音数据进行降噪后得到的语音数据,第二降噪语音为轻量语音降噪模型对多通道混响带噪语音数据进行降噪后得到的语音数据,因此,通过获取第一降噪语音和第二降噪语音之间的损失,即可得到取轻量语音降噪模型和第一语音降噪模型在降噪维度上的损失。
216.其中,将轻量语音降噪模型和第一语音降噪模型在降噪维度上的损失确定为轻量语音降噪模型基于第一语音降噪模型的降噪损失。
217.进一步地,对特征提取损失和降噪损失进行加权求和,获取轻量语音降噪模型基于第一语音降噪模型的蒸馏损失。
218.为了优化轻量语音降噪模型的训练效果,可以对获取到的轻量语音降噪模型基于第一语音降噪模型的特征提取损失和降噪损失进行加权求和,并根据加权求和的结果,得到轻量语音降噪模型基于第一语音降噪模型的蒸馏损失。
219.s503,根据蒸馏损失对轻量语音降噪模型进行参数调整,直至训练结束,获取训练好的第二语音降噪模型。
220.本公开实施例中,可以通过获取到的轻量语音降噪模型基于第一语音降噪模型的蒸馏损失,对轻量语音降噪模型进行模型参数的调整,直至训练结束。
221.可选地,可以基于梯度下降法对轻量语音降噪模型进行模型参数的调整优化,比如,设定通过梯度下降法基于0.001的学习率,对轻量语音降噪模型进行模型参数的调整优化。
222.进一步地,可以获取轻量语音降噪模型的训练结束条件,并对轻量语音降噪模型的训练过程进行监控,当监控到轻量语音降噪模型满足训练结束条件时,则结束训练并将最后一个轮次训练结束得到的轻量语音降噪模型确定为训练好的第一语音降噪模型的轻量级的第二语音降噪模型。
223.需要说明的是,在轻量语音降噪模型的训练过程中,可以将最后n个轮次的训练权重文件进行整合,获取第二语音降噪模型对应的权重文件。
224.可选地,在对轻量语音降噪模型训练结束得到第二语音降噪模型之后,可以对第二语音降噪模型进行设定方法的量化处理,从而进一步缩小第二语音降噪模型所需占用的存储空间。
225.可选地,还可以通过设定的量化方法对第二语音降噪模型的权重文件进行量化,比如,可以通过动态非对称量化的方法对第二语音降噪模型的权重文件进行量化,从而有效缩小第二语音降噪模型的权重文件所需占用的存储空间。
226.进一步地,在需要对第二语音降噪模型进行调用的场景,可以构建第二语音降噪
模型的模型结构,并载入其对应的权重文件,从而实现对第二语音降噪模型的调用。
227.本公开提出的降噪模型的训练方法,根据第一语音降噪模型构建轻量级的待训练轻量语音降噪模型,将第一语音降噪模型作为教师模型,通过多通道混响带噪语音数据对轻量语音降噪模型进行训练,使得轻量语音降噪模型可以实现对第一语音降噪模型的学习,从而得到第一语音降噪模型对应的轻量级的第二语音降噪模型。本公开中,通过对第一语音降噪模型的模型蒸馏得到了轻量级的第二语音降噪模型,使得语音降噪模型可以实现在小型终端以及微型终端上的部署,提高了语音降噪模型的适用性和实用性。
228.上述实施例中,关于模型训练所需的多通道混响带噪语音数据的获取,可结合图6进一步理解,图6为本公开另一实施例的降噪模型的训练方法的流程示意图,如图6所示,该方法包括:
229.s601,获取源带噪语音数据中的源语音数据和源噪声数据。
230.本公开实施例中,训练好的语音降噪模型的实际使用场景中的声音包括了多通道混响且带噪的声音,因此,在进行语音降噪模型的训练时,需要模拟实际使用场景,通过多通道混响且带噪的语音数据对模型进行训练。
231.可选地,可以从源带噪语音数据中,获取无噪声无混响的语音数据作为源语音数据,相应地,从源带噪语音数据中,获取无混响的噪声数据作为源噪声数据。
232.其中,关于源带噪语音数据的获取,可结合如下示例:
233.可选地,可以获取初始语音数据和初始噪声数据。
234.其中,可以从网络上的开源语音数据集中进行采样,获取初始语音数据。或者,可以从消音环境中进行语音模拟,并进行语音数据的采集,获取对应的语音数据。
235.相应地,可以从网络上的开源噪声数据集中进行采样,获取初始噪声数据,或者,可以通过设定的噪声模拟环境中进行噪声模拟,并进行噪声数据的采集,以获取对应的初始噪声数据。
236.进一步地,可以对初始语音数据和初始噪声数据分别进行数据清洗和数据增强,以获取初始语音数据对应的源语音数据和初始噪声数据对应的源噪声数据。
237.本公开实施例中,获取到的初始语音数据以及初始噪声数据中可能存在静音数据、时长过低的语音数据、时长过低的噪声数据等无法使用的数据,因此,可以对获取到的初始语音数据以及初始噪声数据分别进行数据清洗,将其中的静音数据、时长小于设定时长阈值的语音数据、时长小于设定时长阈值的噪声数据均进行删除处理,以获取数据清洗后的初始语音数据和初始噪声数据。
238.进一步地,还可以对数据清洗后的初始语音数据以及初始噪声数据分别进行数据增强,以实现对初始语音数据以及初始噪声数据各自对应的语音特征的强化。
239.可选地,语音数据的数据增强的方法可以包括频率域掩模、时域掩模、速度变换、幅度裁剪。
240.其中,在使用频率域掩模进行数据增强的场景下,可以通过陷波滤波去除掉语音中的部分频率带,以实现小范围破坏信号频带,从而实现对过滤后的采集语音数据的数据增强。
241.在使用时域掩模进行数据增强的场景下,可以直接丢弃过滤后的采集语音数据对应的时域中的部分采样点,从而实现对过滤后的采集语音数据的数据增强。其中,可以将部
分采样点替换为设定空值,也可以将部分采样点用服从设定噪声参数的均匀分布的噪声进行替代,此处不做限定。
242.在使用速度变换进行数据增强的场景下,可以通过重采样实现对过滤后的采集语音数据的数据增强。
243.在使用幅度剪裁进行数据增强的场景下,可以将过滤后的采集语音数据的语音强度裁剪至设定阈值对应的绝对值范围以内,从而实现对过滤后的采集语音数据的数据增强。
244.相应地,可以基于上述对数据清洗后的初始语音数据进行数据增强的方法,对数据清洗后的初始噪声数据进行数据增强,具体过程可参见上述相关内容,此处不在赘述。
245.进一步地,将源语音数据和源噪声数据进行拼接,生成源带噪语音数据。
246.本公开实施例中,可以对源语音数据和源噪声数据进行拼接,并将拼接后的数据确定为源带噪语音数据。
247.可选地,可以基于相同的频率将源语音数据和源噪声数据进行拼接整合,进而得到整合后的源带噪语音数据。
248.s602,对源语音数据进行混响处理,获取源语音数据的多通道混响语音数据。
249.本公开实施例中,可以通过设定方法模拟声音在实际场景中被物体反射得到的声音,进而实现对源语音数据的混响处理。
250.可选地,可以基于镜像法构造源语音数据对应的多通道混响语音数据。
251.其中,可以根据实际使用场景中的物体属性信息,模拟源语音在物体上的反射,以获取源语音数据反射得到的语音数据。
252.比如,可以结合实际使用场景的房间的大小、墙面的反射系数、房间t60、收声设备的位置参数以及音源的位置参数等相关物体属性信息,从房间参数分布中随机进行采样,并利用房间t60估算对应的声音衰减时间。
253.其中,根据房间的大小估算镜像法阶数,并模拟生成源语音数据冲激响应,进而根据源语音数据的冲激响应得到源语音数据在物体上反射得到的语音数据。
254.进一步地,可以将源语音数据反射得到的语音数据与源语音数据进行混合,并将混合后得到的语音数据作为源语音数据混响处理后的得到的多通道混响语音数据。
255.s603,对源噪声数据进行混响处理,获取源噪声数据的多通道混响噪声数据。
256.为了实现多通道混响带噪语音数据的获取,相应地,需要对源噪声数据进行混响处理,以得到对应的多通道混响噪声数据。
257.其中,可以通过设定方法模拟噪声在实际场景中被物体反射得到的声音,进而实现对源噪声数据的混响处理。
258.可选地,可以基于镜像法构造源噪声数据对应的多通道混响噪声数据。
259.其中,可以根据实际使用场景中的物体属性信息,模拟源噪声在物体上的反射,以获取源噪声数据反射得到的噪声数据。
260.比如,可以结合实际使用场景的房间的大小、墙面的反射系数、房间t60、收声设备的位置参数以及音源的位置参数等相关物体属性信息,从房间参数分布中随机进行采样,并利用房间t60估算对应的声音衰减时间。
261.其中,根据房间的大小估算镜像法阶数,并模拟生成源噪声数据冲激响应,进而根
据源噪声数据的冲激响应得到源噪声数据在物体上反射得到的噪声数据。
262.进一步地,可以将源噪声数据反射得到的噪声数据与源噪声数据进行混合,并将混合后得到的噪声数据作为源噪声数据混响处理后的得到的多通道混响噪声数据。
263.s604,对多通道混响语音数据和多通道混响噪声数据进行混合,获取多通道混响带噪语音数据,并根据多通道混响带噪语音数据生成训练样本。
264.本公开实施例中,可以将多通道混响语音数据以及多通道混响噪声数据进行设定方法的混合,进而获取混合后的多通道混响带噪语音数据。
265.多通道混响语音数据以及多通道混响噪声数据混合之前,存在可能待混合的多通道混响语音数据以及多通道混响噪声数据的语音长度不同,从而无法实现有效的混合,因此,需要对多通道混响语音数据以及多通道混响噪声数据的语音长度进行整理。
266.其中,可以将多通道混响噪声数据的语音长度调整至于多通道混响语音数据的语音长度相同。
267.可选地,可以获取多通道混响语音数据的语音长度,以及多通道混响噪声数据的语音长度。
268.在多通道混响语音数据的语音长度小于多通道混响噪声数据的语音长度的场景下,可以对多通道混响噪声数据的语音长度进行切割,随机截取其中语音长度与多通道混响语音数据的语音长度相同的一段,作为与多通道混响语音数据进行混合的多通道混响噪声数据。
269.在多通道混响语音数据的语音长度大于多通道混响噪声数据的语音长度的场景下,可以对多通道混响噪声数据进行至少一次的复制和拼接,直至拼接后的多通道混响噪声数据的语音长度与多通道混响语音数据的语音长度相同,并将其作为与多通道混响语音数据进行混合的多通道混响噪声数据。
270.进一步地,将语音长度相同的多通道混响噪声数据和多通道混响语音数据进行混合,获取混合后的多通道混响带噪语音数据。
271.可选地,可以基于设定的方法对语音长度相同的多通道混响噪声数据和多通道混响语音数据进行混合处理。
272.其中,可以获取语音长度相同的多通道混响噪声数据和多通道混响语音数据的幅度,并基于设定的分贝值范围随机对语音长度相同的多通道混响噪声数据和多通道混响语音数据进行信噪比的采样,根据信噪比调制语音长度相同的多通道混响噪声数据和多通道混响语音数据的幅度并进行加和,进而得到混合后的多通道混响带噪语音数据。
273.进一步地,根据多通道混响带噪语音数据生成待训练的语音降噪模型进行训练的样本,并根据多个样本生成待训练语音降噪模型对应的训练样本。
274.可选地,可以对多通道混响带噪语音数据进行标签信息的标记,并将标记标签后的多通道混响带噪语音数据,作为待训练的语音降噪模型的训练样本。
275.本公开提出的降噪模型的训练方法,对源带噪语音数据中的源语音数据进行混响处理获取对应的多通道混响语音数据,对源带噪语音数据中的源噪声数据进行混响处理获取对应的多通道混响噪声数据,进一步地,对多通道混响语音数据和多通道混响噪声数据进行混合,生成对应的多通道混响带噪语音数据,并根据多通道混响带噪语音数据生成训练样本。本公开中,通过混响处理获取对应的多通道混响带噪语音数据,并通过多通道混响
带噪语音数据对语音降噪模型进行训练,优化了语音降噪模型的训练效果,使得训练好的语音降噪模型具有更好的适用性和实用性。
276.为了获取效果更好的第一语音降噪模型和第二语音降噪模型,在模型训练结束后,可以对训练好的第一语音降噪模型和第二语音降噪模型进行评估,可结合图7进一步理解,图7为本公开另一实施例的降噪模型的训练方法的流程示意图,如图7所示,该方法包括:
277.s701,根据多通道混响带噪语音数据,获取用于评估的评估混响带噪语音数据。
278.本公开实施例中,多通道混响带噪语音数据存在对应的评估混响带噪语音数据。
279.其中,可以将与多通道混响带噪语音数据对应的数据分布类似的评估混响带噪语音数据,作为评估混响带噪语音数据中的验证混响带噪语音数据,可以将与多通道混响带噪语音数据对应的数据分布不同的评估混响带噪语音数据,作为评估混响带噪语音数据中的测试混响带噪语音数据。
280.可选地,可以基于设定的比例对源带噪语音数据切分,并从切分后的语音数据中得到用于模型训练的多通道混响带噪语音数据,用于评估的包括验证混响带噪语音数据和测试混响带噪语音数据的评估混响带噪语音数据。
281.其中,可以将切分比例设置为7:2:1,或者设置成其他比例,此处不做限定。
282.s702,根据评估混响带噪语音数据,对第一语音降噪模型和/或第二语音降噪模型进行评估。
283.本公开实施例中,根据评估混响带噪语音数据中包括的验证混响带噪语音数据和测试混响带噪语音数据,可以实现对第一语音降噪模型以及第二语音降噪模型的训练效果评估。
284.其中,可以将评估混响带噪语音数据输入第一语音降噪模型和/或第二语音降噪模型中,以获取第一语音降噪模型和/或第二语音降噪模型的评估参数,并根据评估参数,对第一语音降噪模型和/或第二语音降噪模型进行评估。
285.需要说明的是,在模型评估的过程中,存在可能出现评估效果不满足设定标准的情况,在该场景下,可以基于设定的多通道混响带噪语音数据重新对第一语音降噪模型和/或第二语音降噪模型进行模型训练,直至重新训练后得到的第一语音降噪模型和/或第二语音降噪模型的评估效果满足设定标准。
286.在一些实现中,可以将损失函数作为对应的评估参数,其中,可以将验证混响带噪语音数据输入第一语音降噪模型和第二语音降噪模型中,从验证混响带噪语音数据中获取无噪声无混响的语音数据,并获取第一语音降噪模型和第二语音降噪模型输出的降噪语音与验证混响带噪语音数据中的无噪声无混响的语音数据之间的损失函数。
287.进一步地,将该损失函数与模型训练过程中最后n个轮次的损失函数进行对比,从而实现对第一语音降噪模型和第二语音降噪模型的评估。
288.如图8所示,图8为第一语音降噪模型对应的不同模型参数配置下的损失函数曲线。
289.图8由上至下分为两行,其中,图8的第一行图为第一语音降噪模型在多通道混响带噪语音数据上的损失函数曲线,图8的第二行图为第一语音降噪模型在验证混响带噪语音数据上的损失函数曲线。
290.图8的第一行图从左到右依次为短时客观可懂度损失对应的损失曲线,加权总损失对应的损失曲线和尺度不变信噪比损失对应的损失曲线,图8的第二行图从左到右依次为短时客观可懂度损失对应的损失曲线,加权总损失对应的损失曲线和尺度不变信噪比损失对应的损失曲线。
291.由图8可知,第一语音降噪模型在120k个训练样本后收敛于比较好的性能指标,且在验证混响带噪语音数据上的指标可以达到设定标准,因此,第一语音降噪模型在多通道混响带噪语音数据的降噪处理上具有良好的泛化性。
292.如图9所示,图9为第二语音降噪模型对应的不同模型参数配置下的损失函数曲线。
293.图9由上至下分为两行,其中,图9的第一行图为第二语音降噪模型在多通道混响带噪语音数据上的损失函数曲线,图9的第二行图为第二语音降噪模型在验证混响带噪语音数据上的损失函数曲线。
294.图9的第一行图从左到右依次为蒸馏损失对应的损失曲线,加权总损失对应的损失曲线和降噪损失对应的损失曲线,图9的第二行图从左到右依次为蒸馏损失对应的损失曲线,加权总损失对应的损失曲线和降噪损失对应的损失曲线。
295.由图9可知,第二语音降噪模型的性能优于第一语音降噪模型的性能且蒸馏损失收敛,可以判定第二语音降噪模型的特征提取层提取到的中间特征与第一语音降噪模型的特征提取层提取到的中间特征相近。
296.在另一些实现中,可以通过测试混响带噪语音数据对第二语音降噪模型的降噪效果进行评估。
297.可选地,可以将测试混响带噪语音数据输入第二语音降噪模型,并获取第二语音降噪模型在测试混响带噪语音数据上的尺度不变信噪比(si-snr),短时客观可懂度(stoi),宽带语音质量评价指标(wb-pesq),窄带语音质量评价指标(nb-pesq)和纯噪声抑制指标。
298.进一步地,对第二语音降噪模型的降噪效果进行评分,并对其时延和实时性进行测算。
299.在另一些实现中,可以基于梅尔频谱图作为评估参数,对第一语音降噪模型进行评估。
300.如图10所示,图10为第一语音降噪模型对多通道混响带噪语音数据进行降噪处理前以及降噪处理后的梅尔频谱图,以及多通道混响带噪语音数据中无噪声无混响的语音数据的梅尔频谱图。
301.图10从左到右分为两列,每一列由上至下分为三行,其中,左侧列的第一行的图为降噪处理前的梅尔频谱图,左侧列的第二行的图为降噪处理后的梅尔频谱图,左侧列的第三行的图为无噪声无混响的语音数据的梅尔频谱图。
302.其中,左侧列对应的多通道混响带噪语音数据中的噪声为宽带噪声。
303.图10的右侧列的第一行的图为降噪处理前的梅尔频谱图,右侧列的第二行的图为降噪处理后的梅尔频谱图,右侧列的第三行的图为无噪声无混响的语音数据的梅尔频谱图。
304.其中,右侧列对应的多通道混响带噪语音数据中的噪声为窄带噪声。
305.由图10可知,第一语音降噪模型对于宽带噪声和窄带噪声具有满足设定标准的降噪效果,且对降噪处理中对应的干净语音的保护满足设定标准。
306.在另一些实现中,可以将第一语音降噪模型和第二语音降噪模型与其他现有算法进行比较,如下表所示,表中包括了四个评价指标:尺度不变信噪比(si-snr),短时客观可懂度(stoi),语音质量评价指标(pesq)以及模型的参数量。
307.其中,fullsubnet算法,tcn算法包括原始版本以及对应的轻量化版本,tcrn算法对应本公开实施例中第一语音降噪模型,同样存在对应的轻量化版本,即为第一语音降噪模型对应的第二语音降噪模型。t-gsa算法,hifi-gan算法和generalbeamformer算法只有原始版本。
[0308][0309]
由上表可知,表中最后两行是tcrn算法对应的第一语音降噪模型和第二语音降噪模型的相关性能指标,是本公开实施例中的第一语音降噪模型和第二语音降噪模型在对应的多通道混响带噪语音数据上实现的评价指标下的参数取值。
[0310]
其中,第一语音降噪模型在尺度不变信噪比,短时客观可懂度和语音质量评价指标上优于表中的其他算法。而经过模型蒸馏后得到的第二语音降噪模型,相较于第一语音降噪模型,其性能指标存在一定程度的提升,由此可知,对于第一语音降噪模型的模型蒸馏是有效的,且对于模型性能的影响程度满足设定标准,有效说明了第一语音降噪模型和第二语音降噪模型具有满足设定标准的鲁棒性。
[0311]
由上表可知,轻量化的tcn参数量比tcrn算法的参数量略低,但性能相较于tcrn算法之间差异较大,因此,可以判定,本公开实施例中的第一语音降噪模型和第二语音降噪模型实现了性能与参数量之间的有效权衡。
[0312]
从存储空间维度上,第二语音降噪模型所占用的存储空间降为第一语音降噪模型的所占用的存储空间的0.05倍,模型存储空间的压缩比率满足设定标记。其中,第二语音降噪模型在处理器上的实时率显著提高小于设定值0.5。在输入的多通道混响带噪语音数据的语音帧长为100毫秒,且第一语音降噪模型对多通道混响带噪语音数据进行处理对应的实时率小于0.5的场景下,降噪时延小于设定值100毫秒。
[0313]
本公开提出的降噪模型的训练方法,通过多通道混响带噪语音数据对应的评估混响带噪语音数据对第一语音降噪模型和/或第二语音降噪模型进行评估。有效地体现了第一语音降噪模型以及第二语音降噪模型的训练效果。
[0314]
为更好理解上述实施例,可结合图11,图11为本公开另一实施例的降噪模型的训练方法的流程示意图,如图11所示,该方法包括:
[0315]
获取源带噪语音数据后,对源带噪语音数据中的源语音数据进行混响处理获取对应的多通道混响语音数据,对源带噪语音数据中的源噪声数据进行混响处理获取对应的多
通道混响噪声数据,进一步地,对多通道混响语音数据和多通道混响噪声数据进行混合,生成对应的多通道混响带噪语音数据。进一步地,按帧对多通道混响带噪语音数据进行切分得到单帧多通道混响带噪语音数据,并将其并进行短时傅里叶变换,得到单帧多通道混响带噪语音数据对应的短时频谱。通过短时频谱对语音降噪模型进行训练直至训练结束,其中,通过语音降噪模型的特征提取层提取短时频谱的时域带噪语音特征和频域带噪语音特征,进而得到短时频谱对应的单帧带噪语音特征。进一步地,对单帧带噪语音特征进行时频掩蔽,从而实现对短时频谱的时频掩蔽,进而得到对应的频谱掩模。根据短时频谱和其对应的频谱掩模,得到短时频谱降噪后的降噪短时频谱,并对其进行短时傅里叶逆变换,得到降噪短时频谱对应的单帧降噪语音数据,并将其作为语音降噪模型的训练输出结果。进一步地,获取语音降噪模型的训练损失函数,并根据训练损失函数对语音降噪模型的模型参数进行调整,直至训练结束,从而得到训练好的第一语音降噪模型。根据第一语音降噪模型构建轻量级的待训练轻量语音降噪模型,将第一语音降噪模型作为教师模型,通过多通道混响带噪语音数据对轻量语音降噪模型进行训练,使得轻量语音降噪模型可以实现对第一语音降噪模型的学习,从而得到第一语音降噪模型对应的轻量级的第二语音降噪模型。进一步地,通过多通道混响带噪语音数据对应的评估混响带噪语音数据对第一语音降噪模型和/或第二语音降噪模型进行评估。
[0316]
本公开提出的降噪模型的训练方法,通过混响处理获取对应的多通道混响带噪语音数据,并通过多通道混响带噪语音数据对语音降噪模型进行训练,使得人耳对于训练好的语音降噪模型输出的降噪语音具有很好的听感,提高了语音数据中携带的信息的传播准确率,降低了噪声对于语音数据中携带的信息的传播的影响程度,对多通道混响带噪语音数据进行分帧,通过单帧多通道混响带噪语音数据对应的短时频谱对语音降噪模型进行训练,优化了模型的训练方法,使得训练好的语音降噪模型实现了对带噪语音的实时降噪,通过对第一语音降噪模型的模型蒸馏得到了轻量级的第二语音降噪模型,使得语音降噪模型可以实现在小型终端以及微型终端上的部署,提高了语音降噪模型的适用性和实用性。
[0317]
本公开还提出一种语音降噪方法,可结合图12进一步理解,图12为本公开一实施例的语音降噪方法的流程示意图,如图12所示,该方法包括:
[0318]
s1201,获取待降噪多通道混响带噪语音,并按帧对待降噪多通道混响带噪语音数据进行短时傅里叶变换,生成单帧待降噪多通道混响带噪语音数据的待降噪短时频谱。
[0319]
本公开实施例中,可以通过训练好的目标语音降噪模型,对待降噪多通道混响带噪语音进行降噪处理,其中,目标语音降噪模型对于输入其中的待降噪多通道混响带噪语音数据存在设定标准。
[0320]
其中,可以将待降噪的待降噪多通道混响带噪语音进行数据处理,并将数据处理后的待降噪多通道混响带噪语音输入训练好的目标语音降噪模型中。
[0321]
可选地,可以基于时间维度对待降噪多通道混响带噪语音数据进行切割,按帧将待降噪多通道混响带噪语音数据进行切割划分,生成对应的单帧待降噪多通道混响带噪语音数据。
[0322]
进一步地,对单帧待降噪多通道混响带噪语音数据进行短时傅里叶变换,并基于短时傅里叶变换的结果,得到单帧待降噪多通道混响带噪语音数据对应的待降噪短时频谱。
[0323]
s1202,基于训练好的目标语音降噪模型,逐帧的对待降噪短时频谱进行降噪处理,以获取目标语音降噪模型输出的待降噪多通道混响带噪语音数据的降噪后的目标语音数据。
[0324]
其中,目标语音降噪模型通过上述图1至图11所示的降噪模型的训练方法训练得到。
[0325]
本公开实施例中,可以逐帧地将待降噪多通道混响带噪语音数据中包括的单帧待降噪多通道混响带噪语音数据对应的待降噪短时频谱输入训练好的目标语音降噪模型。
[0326]
通过训练好的目标语音降噪模型,对待降噪短时频谱进行时频掩蔽,得到待降噪短时频谱对应的频谱掩模,进一步地,根据待降噪短时频谱以及其对应的频谱淹没,获取待降噪短时频谱降噪处理后对应的短时频谱。
[0327]
将该短时频谱进行短时逆傅里叶变换,得到输入目标语音降噪模型的单帧待降噪多通道混响带噪语音数据对应的降噪后的单帧语音数据。
[0328]
进一步地,将待降噪多通道混响带噪语音数据中包括的全部的单帧待降噪多通道混响带噪语音数据输入到目标语音降噪模型后,得到待降噪多通道混响带噪语音数据进行降噪处理后的目标语音数据。
[0329]
需要说明的是,本公开实施例中的训练好的目标语音降噪模型,可以通过上述图1至图11所示的实施例中提出的降噪模型的训练方法训练得到。
[0330]
本公开提出的语音降噪方法,按帧对待降噪多通道混响带噪语音数据进行短时傅里叶变换,生成单帧待降噪多通道混响带噪语音数据的待降噪短时频谱,根据训练好的目标语音降噪模型,逐帧的对待降噪短时频谱进行降噪处理,以获取目标语音降噪模型输出的待降噪多通道混响带噪语音数据的降噪后的目标语音数据。本公开中,通过训练好的目标语音降噪模型,逐帧的对待降噪多通道混响带噪语音数据进行降噪处理,优化了带噪语音降噪的即时性,提高了语音数据中携带的信息的传播准确率,降低了噪声对于语音数据中携带的信息的传播的影响程度,优化了带噪语音的降噪方法和降噪效果。
[0331]
与上述几种实施例提出的降噪模型的训练方法相对应,本公开的一个实施例还提出了一种降噪模型的训练装置,由于本公开实施例提出的降噪模型的训练装置与上述几种实施例提出的降噪模型的训练方法相对应,因此上述降噪模型的训练方法的实施方式也适用于本公开实施例提出的降噪模型的训练装置,在下述实施例中不再详细描述。
[0332]
图13为本公开一实施例的降噪模型的训练装置的结构示意图,如图13所示,降噪模型的训练装置1300,包括混响模块131、训练模块132、蒸馏模块133、评估模块134,其中:
[0333]
混响模块131,用于获取源带噪语音数据,并对所述源带噪语音数据进行混响处理,生成对应的训练样本,其中,所述训练样本包括多个样本,每个所述样本包括多通道混响带噪语音数据;
[0334]
训练模块132,用于基于所述训练样本包括的所述多通道混响带噪语音数据对待训练的语音降噪模型进行训练,以获取训练好的第一语音降噪模型。
[0335]
本公开实施例中,训练模块132,还用于:按帧对所述训练样本包括的多通道混响带噪语音数据进行短时傅里叶变换,生成单帧多通道混响语音数据的短时频谱;根据短时频谱,对待训练的语音降噪模型进行训练,以获取训练好的第一语音降噪模型。
[0336]
本公开实施例中,训练模块132,还用于:对短时频谱进行时频掩蔽,获取短时频谱
的频谱掩模;根据频谱掩模和短时频谱,获取短时频谱降噪后的降噪短时频谱;对降噪短时频谱进行短时逆傅里叶变换,生成降噪短时频谱的语音数据,作为语音降噪模型的训练输出的单帧降噪语音数据;根据单帧降噪语音数据获取语音降噪模型的训练损失函数,并根据训练损失函数对语音降噪模型进行参数调整,直至训练结束,获取训练好的第一语音降噪模型。
[0337]
本公开实施例中,训练模块132,还用于:通过语音降噪模型的特征提取层,提取短时频谱的单帧带噪语音特征;获取单帧带噪语音特征的掩蔽参数,并根据掩蔽参数对单帧带噪语音特征进行时频掩蔽,获取频谱掩模。
[0338]
本公开实施例中,训练模块132,还用于:通过特征提取层,对短时频谱进行频域和时域的带噪语音特征提取,以获取短时频谱的单帧带噪语音特征。
[0339]
本公开实施例中,训练模块132,还用于:基于特征提取层中频域因果空洞卷积层对短时频谱进行频域特征提取,以得到频域带噪语音特征;基于特征提取层中时域因果空洞卷积层对短时频谱进行时域特征提取,以得到时域带噪语音特征;根据频域带噪语音特征和时域带噪语音特征,获取短时频谱的单帧带噪语音特征。
[0340]
本公开实施例中,训练模块132,还用于:在特征提取层的因果空洞卷积层中,提取短时频谱的初始带噪语音特征;根据初始带噪语音特征以及sigmoid激活函数,获取短时频谱的的任一带噪语音特征。
[0341]
本公开实施例中,训练模块132,还用于:对输入因果卷积层的短时频谱进行第一次特征提取,提取短时频谱对应的语音帧的第一帧特征,和第一帧特征对应的带噪语音特征;根据第一帧特征和第一帧特征对应的带噪语音特征,获取短时频谱的第一带噪语音特征;对第一带噪语音特征进行部分特征丢弃,根据elu激活函数对丢弃后第一带噪语音特征中的剩余特征进行计算,并将计算得到的带噪语音特征作为初始带噪语音特征。
[0342]
本公开实施例中,训练模块132,还用于:对初始带噪语音特征进行第二次特征提取,提取初始带噪语音特征对应的语音帧的第二帧特征,和第二帧特征对应的带噪语音特征;根据第二帧特征和第二帧特征对应的带噪语音特征,获取短时频谱的第二带噪语音特征;根据sigmoid激活函数对第二带噪语音特征进行引用计算,并将计算得到的带噪语音特征作为第三带噪语音特征;对第二带噪语音特征和第三带噪语音特征进行归一化,并将归一化获取到的带噪语音特征作为因果卷积层输出的短时频谱的任一带噪语音特征。
[0343]
本公开实施例中,因果卷积层输出频域带噪语音特征时,因果空洞卷积层为频域因果空洞卷积层;因果卷积层输出频域带噪语音特征时,因果空洞卷积层为时域因果空洞卷积层。
[0344]
本公开实施例中,训练模块132,还用于:获取单帧多通道混响带噪语音数据中的单帧语音数据,并获取单帧语音数据和单帧降噪语音数据之间的尺度不变信噪比损失和短时客观可懂度损失;对尺度不变信噪比损失和短时客观可懂度损失进行加权求和,获取语音降噪模型的训练损失函数。
[0345]
本公开实施例中,训练模块132,还用于:将单帧带噪语音特征作为历史单帧带噪语音特征缓存至缓存单元,用于等待下一次被调用。
[0346]
本公开实施例中,装置还包括:蒸馏模块133,用于对第一语音降噪模型进行蒸馏处理,以获取轻量级的第二语音降噪模型。
[0347]
本公开实施例中,蒸馏模块133,还用于:根据第一语音降噪模型,获取待训练的轻量语音降噪模型;根据所述训练样本包括的多通道混响带噪语音数据,获取轻量语音降噪模型基于第一语音降噪模型的蒸馏损失;根据蒸馏损失对轻量语音降噪模型进行参数调整,直至训练结束,获取训练好的第二语音降噪模型。
[0348]
本公开实施例中,蒸馏模块133,还用于:获取第一语音降噪模型的模型结构的轻量提取条件;构建模型结构满足轻量提取条件的待训练模型,作为轻量语音降噪模型。
[0349]
本公开实施例中,蒸馏模块133,还用于:根据所述训练样本包括的多通道混响带噪语音数据,获取轻量语音降噪模型基于第一语音降噪模型的特征提取损失和降噪损失;对特征提取损失和降噪损失进行加权求和,获取轻量语音降噪模型基于第一语音降噪模型的蒸馏损失。
[0350]
本公开实施例中,蒸馏模块133,还用于:获取第一语音降噪模型提取的所述训练样本包括的多通道混响带噪语音数据的第一带噪语音特征;获取轻量语音降噪模型提取的所述训练样本包括的多通道混响带噪语音数据的第二带噪语音特征;根据第一带噪语音特征和第二带噪语音特征,获取轻量语音降噪模型基于第一语音降噪模型的特征提取损失。
[0351]
本公开实施例中,蒸馏模块133,还用于:将所述训练样本包括的多通道混响带噪语音数据输入第一语音降噪模型,以获取第一语音降噪模型输出的第一降噪语音;将所述训练样本包括的多通道混响带噪语音数据输入轻量语音降噪模型,以获取轻量语音降噪模型输出的第二降噪语音;根据第一降噪语音和第二降噪语音,获取轻量语音降噪模型基于第一语音降噪模型的降噪损失。
[0352]
本公开实施例中,混响模块131,还用于:获取源带噪语音数据中的源语音数据和源噪声数据;对源语音数据进行混响处理,获取源语音数据的多通道混响语音数据;对源噪声数据进行混响处理,获取源噪声数据的多通道混响噪声数据;对多通道混响语音数据和多通道混响噪声数据进行混合,获取多通道混响带噪语音数据,并根据所述多通道混响带噪语音数据生成所述训练样本。
[0353]
本公开实施例中,混响模块131,还用于:获取初始语音数据和初始噪声数据;对所述初始语音数据和所述初始噪声数据分别进行数据清洗和数据增强,以获取所述初始语音数据对应的源语音数据和所述初始噪声数据对应的源噪声数据;将所述源语音数据和所述源噪声数据进行拼接,生成所述源带噪语音数据。
[0354]
本公开实施例中,混响模块131,还用于:将多通道混响噪声数据的语音长度调整至于多通道混响语音数据的语音长度相同;将语音长度相同的多通道混响噪声数据和多通道混响语音数据进行混合,获取混合后的多通道混响带噪语音数据。
[0355]
本公开实施例中,评估模块134,用于:根据多通道混响带噪语音数据,获取用于评估的评估混响带噪语音数据;根据评估混响带噪语音数据,对第一语音降噪模型和/或第二语音降噪模型进行评估。
[0356]
本公开实施例中,评估模块134,还用于:获取第一语音降噪模型和/或第二语音降噪模型的评估参数,并根据评估参数,对第一语音降噪模型和/或第二语音降噪模型进行评估。
[0357]
本公开提出的降噪模型的训练装置,通过混响处理获取对应的作为样本的多通道混响带噪语音数据,并通过多通道混响带噪语音数据对语音降噪模型进行训练,使得人耳
对于训练好的语音降噪模型输出的降噪语音具有很好的听感,提高了语音数据中携带的信息的传播准确率,降低了噪声对于语音数据中携带的信息的传播的影响程度,对多通道混响带噪语音数据进行分帧,通过单帧多通道混响带噪语音数据对应的短时频谱对语音降噪模型进行训练,优化了模型的训练方法,使得训练好的语音降噪模型实现了对带噪语音的实时降噪,通过对第一语音降噪模型的模型蒸馏得到了轻量级的第二语音降噪模型,使得语音降噪模型可以实现在小型终端以及微型终端上的部署,提高了语音降噪模型的适用性和实用性。
[0358]
与上述几种实施例提出的语音降噪方法相对应,本公开的一个实施例还提出了一种语音降噪装置,由于本公开实施例提出的语音降噪装置与上述几种实施例提出的语音降噪方法相对应,因此上述语音降噪方法的实施方式也适用于本公开实施例提出的语音降噪装置,在下述实施例中不再详细描述。
[0359]
图14为本公开一实施例的语音降噪装置的结构示意图,如图14所示,语音降噪装置1400,包括获取模块141、降噪模块142,其中:
[0360]
获取模块141,用于获取待降噪多通道混响带噪语音,并按帧对待降噪多通道混响带噪语音数据进行短时傅里叶变换,生成单帧待降噪多通道混响带噪语音数据的待降噪短时频谱;
[0361]
降噪模块142,用于基于训练好的目标语音降噪模型,逐帧的对待降噪短时频谱进行降噪处理,以获取目标语音降噪模型输出的待降噪多通道混响带噪语音数据的降噪后的目标语音数据。
[0362]
本公开提出语音降噪装置,按帧对待降噪多通道混响带噪语音数据进行短时傅里叶变换,生成单帧待降噪多通道混响带噪语音数据的待降噪短时频谱,根据训练好的目标语音降噪模型,逐帧的对待降噪短时频谱进行降噪处理,以获取目标语音降噪模型输出的待降噪多通道混响带噪语音数据的降噪后的目标语音数据。本公开中,通过训练好的目标语音降噪模型,逐帧的对待降噪多通道混响带噪语音数据进行降噪处理,优化了带噪语音降噪的即时性,提高了语音数据中携带的信息的传播准确率,降低了噪声对于语音数据中携带的信息的传播的影响程度,优化了带噪语音的降噪方法和降噪效果。
[0363]
为达到上述实施例,本公开还提供了一种电子设备、一种计算机可读存储介质和一种计算机程序产品。
[0364]
图15示出了可以用来实施本公开的实施例的示例电子设备1500的示意性框图。如图15所示,设备1500包括存储器151、处理器152及存储在存储151上并可在处理器152上运行的计算机程序,处理器152执行程序指令时,实现上述实施例提供的降噪模型的训练方法和/或语音降噪方法。
[0365]
获取源带噪语音数据后,对源带噪语音数据中的源语音数据进行混响处理获取对应的多通道混响语音数据,对源带噪语音数据中的源噪声数据进行混响处理获取对应的多通道混响噪声数据,进一步地,对多通道混响语音数据和多通道混响噪声数据进行混合,生成对应的多通道混响带噪语音数据。进一步地,按帧对多通道混响带噪语音数据进行切分得到单帧多通道混响带噪语音数据,并将其并进行短时傅里叶变换,得到单帧多通道混响带噪语音数据对应的短时频谱。通过短时频谱对语音降噪模型进行训练直至训练结束,其中,通过语音降噪模型的特征提取层提取短时频谱的时域带噪语音特征和频域带噪语音特
征,进而得到短时频谱对应的单帧带噪语音特征。进一步地,对单帧带噪语音特征进行时频掩蔽,从而实现对短时频谱的时频掩蔽,进而得到对应的频谱掩模。根据短时频谱和其对应的频谱掩模,得到短时频谱降噪后的降噪短时频谱,并对其进行短时傅里叶逆变换,得到降噪短时频谱对应的单帧降噪语音数据,并将其作为语音降噪模型的训练输出结果。进一步地,获取语音降噪模型的训练损失函数,并根据训练损失函数对语音降噪模型的模型参数进行调整,直至训练结束,从而得到训练好的第一语音降噪模型。根据第一语音降噪模型构建轻量级的待训练轻量语音降噪模型,将第一语音降噪模型作为教师模型,通过多通道混响带噪语音数据对轻量语音降噪模型进行训练,使得轻量语音降噪模型可以实现对第一语音降噪模型的学习,从而得到第一语音降噪模型对应的轻量级的第二语音降噪模型。进一步地,通过多通道混响带噪语音数据对应的评估混响带噪语音数据对第一语音降噪模型和/或第二语音降噪模型进行评估。本公开中,通过混响处理获取对应的多通道混响带噪语音数据,并通过多通道混响带噪语音数据对语音降噪模型进行训练,使得人耳对于训练好的语音降噪模型输出的降噪语音具有很好的听感,提高了语音数据中携带的信息的传播准确率,降低了噪声对于语音数据中携带的信息的传播的影响程度,对多通道混响带噪语音数据进行分帧,通过单帧多通道混响带噪语音数据对应的短时频谱对语音降噪模型进行训练,优化了模型的训练方法,使得训练好的语音降噪模型实现了对带噪语音的实时降噪,通过对第一语音降噪模型的模型蒸馏得到了轻量级的第二语音降噪模型,使得语音降噪模型可以实现在小型终端以及微型终端上的部署,提高了语音降噪模型的适用性和实用性。
[0366]
按帧对待降噪多通道混响带噪语音数据进行短时傅里叶变换,生成单帧待降噪多通道混响带噪语音数据的待降噪短时频谱,根据训练好的目标语音降噪模型,逐帧的对待降噪短时频谱进行降噪处理,以获取目标语音降噪模型输出的待降噪多通道混响带噪语音数据的降噪后的目标语音数据。本公开中,通过训练好的目标语音降噪模型,逐帧的对待降噪多通道混响带噪语音数据进行降噪处理,优化了带噪语音降噪的即时性,提高了语音数据中携带的信息的传播准确率,降低了噪声对于语音数据中携带的信息的传播的影响程度,优化了带噪语音的降噪方法和降噪效果。
[0367]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0368]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出
装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0369]
用于实施本身的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0370]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0371]
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0372]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网格浏览器的用户计算机,用户可以通过该图形用户界面或者该网格浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网格)来将系统的部件相互连接。通信网格的示例包括:局域网(lan)、广域网(wan)、互联网和区块链网格。
[0373]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网格进行交互。通过在相应的计算机上运行并且彼此具有客户端服务器关系的计算机程序来产生客户端和服务器的关系。服务端可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务(“virtual private server”,或简称“vps”)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合区块链的服务器。
[0374]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技
术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0375]
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
[0376]
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本公开的实施例所属技术领域的技术人员所理解。
[0377]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
[0378]
应当理解,本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0379]
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
[0380]
此外,在本公开各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
[0381]
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本公开的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本公开的限
制,本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改、替换和变型。
[0382]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
[0383]
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

技术特征:


1.一种降噪模型的训练方法,其特征在于,所述方法包括:获取源带噪语音数据,并对所述源带噪语音数据进行混响处理,生成对应的训练样本,其中,所述训练样本包括多个样本,每个所述样本包括多通道混响带噪语音数据;基于所述训练样本包括的所述多通道混响带噪语音数据对待训练的语音降噪模型进行训练,以获取训练好的第一语音降噪模型。2.根据权利要求1所述的方法,其特征在于,所述基于所述训练样本包括的所述多通道混响带噪语音数据对待训练的语音降噪模型进行训练,以获取训练好的第一语音降噪模型,包括:按帧对所述训练样本包括的所述多通道混响带噪语音数据进行短时傅里叶变换,生成单帧多通道混响语音数据的短时频谱;根据所述短时频谱,对待训练的所述语音降噪模型进行训练,以获取训练好的第一语音降噪模型。3.根据权利要求2所述的方法,其特征在于,所述根据所述短时频谱,对待训练的所述语音降噪模型进行训练,以获取训练好的第一语音降噪模型,包括:对所述短时频谱进行时频掩蔽,获取所述短时频谱的频谱掩模;根据所述频谱掩模和所述短时频谱,获取所述短时频谱降噪后的降噪短时频谱;对所述降噪短时频谱进行短时逆傅里叶变换,生成所述降噪短时频谱的语音数据,作为所述语音降噪模型的训练输出的单帧降噪语音数据;根据所述单帧降噪语音数据获取所述语音降噪模型的训练损失函数,并根据所述训练损失函数对所述语音降噪模型进行参数调整,直至训练结束,获取训练好的所述第一语音降噪模型。4.根据权利要求3所述的方法,其特征在于,所述对所述短时频谱进行时频掩蔽,获取所述短时频谱的频谱掩模,包括:通过所述语音降噪模型的特征提取层,提取所述短时频谱的单帧带噪语音特征;获取所述单帧带噪语音特征的掩蔽参数,并根据所述掩蔽参数对所述单帧带噪语音特征进行时频掩蔽,获取所述频谱掩模。5.根据权利要求4所述的方法,其特征在于,所述通过所述语音降噪模型提取所述短时频谱的单帧带噪语音特征,包括:通过所述特征提取层,对所述短时频谱进行频域和时域的带噪语音特征提取,以获取所述短时频谱的所述单帧带噪语音特征。6.根据权利要求5所述的方法,其特征在于,所述通过所述特征提取层,对所述短时频率进行频域和时域的带噪语音特征提取,以获取所述短时频谱的所述单帧带噪语音特征,包括:基于所述特征提取层中频域因果空洞卷积层对所述短时频谱进行频域特征提取,以得到频域带噪语音特征;基于所述特征提取层中时域因果空洞卷积层对所述短时频谱进行时域特征提取,以得到时域带噪语音特征;根据所述频域带噪语音特征和所述时域带噪语音特征,获取所述短时频谱的所述单帧带噪语音特征。
7.根据权利要求6所述的方法,其特征在于,所述频域带噪语音特征和时域带噪语音特征中的任一带噪语音特征,包括:在所述特征提取层的因果空洞卷积层中,提取所述短时频谱的初始带噪语音特征;根据所述初始带噪语音特征以及sigmoid激活函数,获取所述短时频谱的的所述任一带噪语音特征。8.根据权利要求7所述的方法,其特征在于,所述在所述特征提取层的因果卷积层中,提取所述短时频谱的初始带噪语音特征,包括:对输入所述因果卷积层的短时频谱进行第一次特征提取,提取所述短时频谱对应的语音帧的第一帧特征,和所述第一帧特征对应的带噪语音特征;根据所述第一帧特征和所述第一帧特征对应的带噪语音特征,获取所述短时频谱的第一带噪语音特征;对所述第一带噪语音特征进行部分特征丢弃,根据elu激活函数对丢弃后第一带噪语音特征中的剩余特征进行计算,并将计算得到的带噪语音特征作为所述初始带噪语音特征。9.根据权利要求8所述的方法,其特征在于,所述根据所述初始频域特征以及sigmoid激活函数,获取所述因果卷积层提取的所述短时频谱的所述任一带噪语音特征,包括:对所述初始带噪语音特征进行第二次特征提取,提取所述初始带噪语音特征对应的语音帧的第二帧特征,和所述第二帧特征对应的带噪语音特征;根据所述第二帧特征和所述第二帧特征对应的带噪语音特征,获取所述短时频谱的第二带噪语音特征;根据所述sigmoid激活函数对第二带噪语音特征进行引用计算,并将计算得到的带噪语音特征作为第三带噪语音特征;对所述第二带噪语音特征和所述第三带噪语音特征进行归一化,并将归一化获取到的带噪语音特征作为所述因果卷积层输出的所述短时频谱的所述任一带噪语音特征。10.根据权利要求7-9任一项所述的方法,其特征在于,所述因果卷积层输出所述频域带噪语音特征时,所述因果空洞卷积层为所述频域因果空洞卷积层;所述因果卷积层输出所述频域带噪语音特征时,所述因果空洞卷积层为所述时域因果空洞卷积层。11.根据权利要求3所述的方法,其特征在于,所述根据所述单帧降噪语音数据获取所述语音降噪模型的训练损失函数,并根据所述训练损失函数对所述语音降噪模型进行参数调整,直至训练结束,获取训练好的所述第一语音降噪模型,包括:获取所述单帧多通道混响带噪语音数据中的单帧语音数据,并获取所述单帧语音数据和所述单帧降噪语音数据之间的尺度不变信噪比损失和短时客观可懂度损失;对所述尺度不变信噪比损失和所述短时客观可懂度损失进行加权求和,获取所述语音降噪模型的所述训练损失函数。12.根据权利要求3所述的方法,其特征在于,所述获取所述短时频谱的所述单帧带噪语音特征之后,包括:将所述单帧带噪语音特征作为历史单帧带噪语音特征缓存至缓存单元,用于等待下一
次被调用。13.根据权利要求1所述的方法,其特征在于,所述方法还包括:对所述第一语音降噪模型进行蒸馏处理,以获取轻量级的第二语音降噪模型。14.根据权利要求13所述的方法,其特征在于,所述对所述第一语音降噪模型进行蒸馏处理,以获取轻量级的第二语音降噪模型,包括:根据所述第一语音降噪模型,获取待训练的轻量语音降噪模型;根据所述训练样本包括的所述多通道混响带噪语音数据,获取所述轻量语音降噪模型基于所述第一语音降噪模型的蒸馏损失;根据所述蒸馏损失对所述轻量语音降噪模型进行参数调整,直至训练结束,获取训练好的所述第二语音降噪模型。15.根据权利要求14所述的方法,其特征在于,所述根据所述第一语音降噪模型,获取待训练的轻量语音降噪模型,包括:获取所述第一语音降噪模型的模型结构的轻量提取条件;构建模型结构满足所述轻量提取条件的待训练模型,作为所述轻量语音降噪模型。16.根据权利要求15所述的方法,其特征在于,所述根据所述训练样本包括的所述多通道混响带噪语音数据,获取所述轻量语音降噪模型基于所述第一语音降噪模型的蒸馏损失,包括:根据所述训练样本包括的所述多通道混响带噪语音数据,获取所述轻量语音降噪模型基于所述第一语音降噪模型的特征提取损失和降噪损失;对所述特征提取损失和所述降噪损失进行加权求和,获取所述轻量语音降噪模型基于所述第一语音降噪模型的所述蒸馏损失。17.根据权利要求16所述的方法,其特征在于,所述特征提取损失的获取过程,包括:获取所述第一语音降噪模型提取的所述训练样本包括的所述多通道混响带噪语音数据的第一带噪语音特征;获取所述轻量语音降噪模型提取的所述训练样本包括的所述多通道混响带噪语音数据的第二带噪语音特征;根据所述第一带噪语音特征和所述第二带噪语音特征,获取所述轻量语音降噪模型基于所述第一语音降噪模型的所述特征提取损失。18.根据权利要求16所述的方法,其特征在于,所述降噪损失的获取过程,包括:将所述训练样本包括的所述多通道混响带噪语音数据输入所述第一语音降噪模型,以获取所述第一语音降噪模型输出的第一降噪语音;将所述训练样本包括的所述多通道混响带噪语音数据输入所述轻量语音降噪模型,以获取所述轻量语音降噪模型输出的第二降噪语音;根据所述第一降噪语音和所述第二降噪语音,获取所述轻量语音降噪模型基于所述第一语音降噪模型的所述降噪损失。19.根据权利要求1所述的方法,其特征在于,所述获取源带噪语音数据,并对所述源带噪语音数据进行混响处理,生成对应的训练样本,其中,所述训练样本包括多个样本,每个所述样本包括多通道混响带噪语音数据,包括:获取所述源带噪语音数据中的源语音数据和源噪声数据;
对所述源语音数据进行混响处理,获取所述源语音数据的多通道混响语音数据;对所述源噪声数据进行混响处理,获取所述源噪声数据的多通道混响噪声数据;对所述多通道混响语音数据和所述多通道混响噪声数据进行混合,获取所述多通道混响带噪语音数据,并根据所述多通道混响带噪语音数据生成所述训练样本。20.根据权利要求19所述的方法,其特征在于,所述获取所述源带噪语音数据中的源语音数据和源噪声数据之前,包括:获取初始语音数据和初始噪声数据;对所述初始语音数据和所述初始噪声数据分别进行数据清洗和数据增强,以获取所述初始语音数据对应的源语音数据和所述初始噪声数据对应的源噪声数据;将所述源语音数据和所述源噪声数据进行拼接,生成所述源带噪语音数据。21.根据权利要求19所述的方法,其特征在于,所述将所述多通道混响语音数据和所述多通道混响噪声数据进行混合,获取所述多通道混响带噪语音数据,包括:将所述多通道混响噪声数据的语音长度调整至于所述多通道混响语音数据的语音长度相同;将语音长度相同的多通道混响噪声数据和多通道混响语音数据进行混合,获取混合后的所述多通道混响带噪语音数据。22.根据权利要求13-21任一项所述的方法,其特征在于,所述方法还包括:根据所述多通道混响带噪语音数据,获取用于评估的评估混响带噪语音数据;根据所述评估混响带噪语音数据,对所述第一语音降噪模型和/或所述第二语音降噪模型进行评估。23.根据权利要求22所述的方法,其特征在于,所述根据所述评估混响带噪语音数据,对所述第一语音降噪模型和/或所述第二语音降噪模型进行评估,包括:获取所述第一语音降噪模型和/或所述第二语音降噪模型的评估参数,并根据所述评估参数,对所述第一语音降噪模型和/或所述第二语音降噪模型进行评估。24.一种语音降噪方法,其特征在于,所述方法包括:获取待降噪多通道混响带噪语音,并按帧对所述待降噪多通道混响带噪语音数据进行短时傅里叶变换,生成单帧待降噪多通道混响带噪语音数据的待降噪短时频谱;基于训练好的目标语音降噪模型,逐帧的对所述待降噪短时频谱进行降噪处理,以获取所述目标语音降噪模型输出的所述待降噪多通道混响带噪语音数据的降噪后的目标语音数据;其中,所述目标语音降噪模型通过上述权利要求1到权利要求22中任一项所述的降噪模型的训练方法训练得到。25.一种降噪模型的训练装置,其特征在于,所述装置包括:混响模块,用于获取源带噪语音数据,并对所述源带噪语音数据进行混响处理,生成对应的训练样本,其中,所述训练样本包括多个样本,每个所述样本包括多通道混响带噪语音数据;训练模块,用于基于所述训练样本包括的所述多通道混响带噪语音数据对待训练的语音降噪模型进行训练,以获取训练好的第一语音降噪模型。26.一种语音降噪装置,其特征在于,所述装置包括:
获取模块,用于获取待降噪多通道混响带噪语音,并按帧对所述待降噪多通道混响带噪语音数据进行短时傅里叶变换,生成单帧待降噪多通道混响带噪语音数据的待降噪短时频谱;降噪模块,用于基于训练好的目标语音降噪模型,逐帧的对所述待降噪短时频谱进行降噪处理,以获取所述目标语音降噪模型输出的所述待降噪多通道混响带噪语音数据的降噪后的目标语音数据。27.一种电子设备,其特征在于,包括:处理器;用于存储所述处理器的可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如权利要求1-23和/或权利要求24中任一项所述的方法。28.一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1-23和/或权利要求24中任一项所述的方法。

技术总结


本公开提出了一种降噪模型的训练方法、语音降噪方法、装置和电子设备,其中,方法包括:获取源带噪语音数据,并对源带噪语音数据进行混响处理,生成对应的训练样本,其中,训练样本包括多个样本,每个样本包括多通道混响带噪语音数据;基于训练样本包括的多通道混响带噪语音数据对待训练的语音降噪模型进行训练,以获取训练好的第一语音降噪模型。本公开中,人耳对于训练好的语音降噪模型输出的降噪语音具有很好的听感,提高了语音数据中携带的信息的传播准确率,降低了噪声对于语音数据中携带的信息的传播的影响程度,提高了语音降噪模型的鲁棒性,强化了语音降噪模型的适用性和实用性,优化了语音降噪模型的训练方法和训练效果。果。果。


技术研发人员:

鲍晨晨

受保护的技术使用者:

北京小米移动软件有限公司

技术研发日:

2022.07.13

技术公布日:

2022/10/25

本文发布于:2024-09-21 19:42:25,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/23169.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语音   降噪   混响   模型
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议