适用不同噪音环境的语音降噪方法和系统、设备、介质与流程

1.本发明涉及语音降噪技术领域，具体地，涉及一种适用不同噪音环境的语音降噪方法和系统、设备、介质。

背景技术：

2.目前，基于深度学习ai语音降噪方式有如下缺点，性能的决定因素来自于训练集的大小、训练集的代表性。训练集会覆盖生活中的一些噪音，但如果ai语音降噪类的产品使用场景发生了变化，会导致降噪收敛慢或无法有效抑制环境中的噪音。
3.经过检索，专利文献cn111524530a公开了一种基于膨胀因果卷积的语音降噪方法，包括构建网络训练的音频训练集；基于膨胀因果卷积，构建语音降噪网络模型并训练网络模型；使用训练后的模型进行降噪。该现有技术利用膨胀因果卷积来处理音频时序信息，将感受范围增大。但是不足之处在于仍然无法解决当使用场景发生变化时，无法适应新场景的降噪要求。
4.因此，亟需研发设计一种能够兼容不同噪音环境下的语音降噪方法和系统。

技术实现要素：

5.针对现有技术中的缺陷，本发明的目的是提供一种适用不同噪音环境的语音降噪方法和系统、设备、介质，能够适应不同新场景的降噪要求。
6.根据本发明提供的一种适用不同噪音环境的语音降噪方法，包括如下步骤：
7.步骤s1：对带噪语音信号进行预处理；
8.步骤s2：使用语音端点检测技术对预处理过的语音信号进行端点检测，根据语音信号的短时能量和过零率，确定语音信号的有效起点和终点；
9.步骤s3：检测到语音信号的有效起点和终点后，剪裁语音信号；
10.步骤s4：将裁剪后的语音信号转换为预定格式的带噪语音信号；
11.步骤s5：将预定格式的带噪语音信号进行分帧，切片成固定长度；
12.步骤s6：将每帧带噪语音信号作为深度降噪模型的输入，通过深度降噪模型去噪解码计算，得到去噪语音信号。
13.优选地，步骤s1中对输入的带噪语音信号进行加窗处理，将连续的语音信号拆分成语音帧。
14.优选地，对每一帧语音信号进行快速傅里叶变换，将时域信号转换到频域信号，使用频域信号处理方法对每一帧频域信号进去噪处理。
15.优选地，将去噪处理结果进行反傅里叶变换，将频域信号转换为时域信号得到预处理后的语音帧，对预处理后的语音帧进行合成，得到预处理过的语音信号。
16.优选地，针对深度降噪模型的训练包括，采集带噪语音样本，将带噪语音样本依次执行步骤s1-s3后得到去噪语音样本，根据带噪语音样本的结果剪裁对应的去噪语音样本。
17.优选地，针对深度降噪模型的训练还包括，将去噪语音样本和带噪语音样本都执
行步骤s4-s5得到去噪语音样本切片和带噪语音样本切片。
18.优选地，将带噪语音样本切片作为输入，将对应去噪语音样本切片作为输出，采用随机梯度下降法训练神经网络，得到深度降噪模型。
19.根据本发明提供的一种适用不同噪音环境的语音降噪系统，包括：
20.模块m1：对带噪语音信号进行预处理；
21.模块m2：使用语音端点检测技术对预处理过的语音信号进行端点检测，根据语音信号的短时能量和过零率，确定语音信号的有效起点和终点；
22.模块m3：检测到语音信号的有效起点和终点后，剪裁语音信号；
23.模块m4：将裁剪后的语音信号转换为预定格式的带噪语音信号；
24.模块m5：将预定格式的带噪语音信号进行分帧，切片成固定长度；
25.模块m6：将每帧带噪语音信号作为深度降噪模型的输入，通过深度降噪模型去噪解码计算，得到去噪语音信号。
26.根据本发明提供的一种存储有计算机程序的计算机可读存储介质，计算机程序被处理器执行时实现上述的方法的步骤。
27.根据本发明提供的一种适用不同噪音环境的语音降噪设备，包括上述的适用不同噪音环境的语音降噪系统或上述的存储有计算机程序的计算机可读存储介质。
28.与现有技术相比，本发明具有如下的有益效果：
29.1、本发明提出一种兼容不同噪音环境下的语音降噪方法，使用场景发生变化时，把新场景的噪音自学习到神经网络里，从而可以适应新场景的降噪要求。
30.2、本发明尤其适用于船舶、机场等不规律强噪音通话的设备上，以适应不同噪音下，通过降噪能够保持清晰通话。
31.3、本发明通过通用降噪模型能够进行解码计算，最终输出去噪语音。
32.4、本发明在自动去噪效果不理想的情况下，能够人为选择送到自训练降噪模型做解码计算，以得到最好的降噪效果。
附图说明
33.通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：
34.图1为本发明中适用不同噪音环境的语音降噪系统的整体框架图。
具体实施方式
35.下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。
36.如图1所示，本发明中自训练降噪模型的建立，体现在用户录制一定时长的噪音，训练一个独立的噪音模型。通用降噪模型的建立，为了适应不同噪声环境的应用环境，采集大量不同环境的噪音来训练通用降噪模型。降噪模型的建模方法包括但不限于dnn(深度神经网络)、cnn(卷积神经网络)。语音降噪，从录音设备录取带噪音的人声后，送到通用降噪
模型去做解码计算，最终输出去噪语音，如果去噪效果不理想，可以人为选择送到自训练降噪模型去做解码计算，以得到最好的降噪效果。
37.本发明提供了一种适用不同噪音环境的语音降噪方法，包括如下步骤：
38.步骤s1：对带噪语音信号进行预处理。
39.步骤s1.1：对输入的带噪语音信号进行加窗处理，将连续的语音信号拆分成语音帧。
40.步骤s1.2：对每一帧语音信号进行快速傅里叶变换，将时域信号转换到频域信号。
41.步骤s1.3：使用频域信号处理方法对每一帧频域信号进去噪处理。
42.步骤s1.4：将去噪处理结果进行反傅里叶变换，将频域信号转换为时域信号得到预处理后的语音帧。
43.步骤s1.5：对预处理后的语音帧进行合成，得到预处理过的语音信号。
44.步骤s2：使用语音端点检测技术对预处理过的语音信号进行端点检测，根据语音信号的短时能量和过零率，确定语音信号的有效起点和终点；
45.步骤s3：检测到语音信号的有效起点和终点后，剪裁语音信号；
46.步骤s4：将裁剪后的语音信号转换为预定格式的带噪语音信号；
47.步骤s5：将预定格式的带噪语音信号进行分帧，切片成固定长度；
48.步骤s6：将每帧带噪语音信号作为深度降噪模型的输入，通过深度降噪模型去噪解码计算，得到去噪语音信号。
49.基于神经网络的深度降噪模型设计包含编码网络和解码网络。在编码网络，采用全卷积网络实现信号卷积处理，采用pooling层实现信号缩放。在解码网络，采用反pooling层和卷积层，实现信号的解码，其中反pooling层用到解码网络中对应层的pooling信息，最终输出增强或去噪语音。
50.针对深度降噪模型的训练包括如下步骤：
51.1、采集带噪语音样本，将带噪语音样本依次执行步骤s1-s3后得到去噪语音样本，根据带噪语音样本的结果剪裁对应的去噪语音样本。
52.2、针对深度降噪模型的训练还包括，将去噪语音样本和带噪语音样本都执行步骤s4-s5得到去噪语音样本切片和带噪语音样本切片。
53.3、将带噪语音样本切片作为输入，将对应去噪语音样本切片作为输出，采用随机梯度下降法训练神经网络，得到深度降噪模型。
54.通用噪音模型会把日常生活中的噪音训练进去，比如地铁、机场、飞机、公交车、马路噪音等等。
55.自训练降噪模型，会把用户所在特殊环境里噪音训练进去，比如轮船、军舰噪音等。
56.本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实
现方法的软件模块又可以是硬件部件内的结构。
57.以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本技术的实施例和实施例中的特征可以任意相互组合。

技术特征：

1.一种适用不同噪音环境的语音降噪方法，其特征在于，包括如下步骤：步骤s1：对带噪语音信号进行预处理；步骤s2：使用语音端点检测技术对预处理过的语音信号进行端点检测，根据语音信号的短时能量和过零率，确定语音信号的有效起点和终点；步骤s3：检测到语音信号的有效起点和终点后，剪裁语音信号；步骤s4：将裁剪后的语音信号转换为预定格式的带噪语音信号；步骤s5：将预定格式的带噪语音信号进行分帧，切片成固定长度；步骤s6：将每帧带噪语音信号作为深度降噪模型的输入，通过深度降噪模型去噪解码计算，得到去噪语音信号。2.根据权利要求1所述的适用不同噪音环境的语音降噪方法，其特征在于，所述步骤s1中对输入的带噪语音信号进行加窗处理，将连续的语音信号拆分成语音帧。3.根据权利要求2所述的适用不同噪音环境的语音降噪方法，其特征在于，对每一帧语音信号进行快速傅里叶变换，将时域信号转换到频域信号，使用频域信号处理方法对每一帧频域信号进去噪处理。4.根据权利要求3所述的适用不同噪音环境的语音降噪方法，其特征在于，将去噪处理结果进行反傅里叶变换，将频域信号转换为时域信号得到预处理后的语音帧，对预处理后的语音帧进行合成，得到预处理过的语音信号。5.根据权利要求1所述的适用不同噪音环境的语音降噪方法，其特征在于，针对深度降噪模型的训练包括，采集带噪语音样本，将带噪语音样本依次执行步骤s1-s3后得到去噪语音样本，根据带噪语音样本的结果剪裁对应的去噪语音样本。6.根据权利要求5所述的适用不同噪音环境的语音降噪方法，其特征在于，针对深度降噪模型的训练还包括，将去噪语音样本和带噪语音样本都执行步骤s4-s5得到去噪语音样本切片和带噪语音样本切片。7.根据权利要求6所述的适用不同噪音环境的语音降噪方法，其特征在于，将带噪语音样本切片作为输入，将对应去噪语音样本切片作为输出，采用随机梯度下降法训练神经网络，得到深度降噪模型。8.一种适用不同噪音环境的语音降噪系统，其特征在于，包括：模块m1：对带噪语音信号进行预处理；模块m2：使用语音端点检测技术对预处理过的语音信号进行端点检测，根据语音信号的短时能量和过零率，确定语音信号的有效起点和终点；模块m3：检测到语音信号的有效起点和终点后，剪裁语音信号；模块m4：将裁剪后的语音信号转换为预定格式的带噪语音信号；模块m5：将预定格式的带噪语音信号进行分帧，切片成固定长度；模块m6：将每帧带噪语音信号作为深度降噪模型的输入，通过深度降噪模型去噪解码计算，得到去噪语音信号。9.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。10.一种适用不同噪音环境的语音降噪设备，其特征在于，包括权利要求8所述的适用不同噪音环境的语音降噪系统或权利要求9所述的存储有计算机程序的计算机可读存储介质。

技术总结

本发明提供了一种适用不同噪音环境的语音降噪方法，包括如下：步骤S1：对带噪语音信号进行预处理；步骤S2：使用语音端点检测技术对预处理过的语音信号进行端点检测，根据语音信号的短时能量和过零率，确定语音信号的有效起点和终点；步骤S3：检测到语音信号的有效起点和终点后，剪裁语音信号；步骤S4：将裁剪后的语音信号转换为预定格式的带噪语音信号；步骤S5：将预定格式的带噪语音信号进行分帧，切片成固定长度；步骤S6：将每帧带噪语音信号作为深度降噪模型的输入，通过深度降噪模型去噪解码计算，得到去噪语音信号。本发明还提供了一种适用不同噪音环境的语音降噪系统、设备和介质。本发明通过自学习能够兼容不同噪音环境下的语音降噪处理。的语音降噪处理。的语音降噪处理。