一种基于双重变换的语音实时降噪方法及系统与流程



1.本发明涉及软件开发技术领域,特别涉及一种基于双重变换的语音实时降噪方法及系统。


背景技术:



2.随着互联网技术的不断发展,人们能通过手机随时随地进行直播,会议或者通话,在此过程中语音信号往往会受到周围环境的噪声干扰,降低语音信号的质量,让音频的可懂度变差,影响人们日常交流。为了提高语音信号的质量,一般使用单通道语音增强技术对语音进行降噪,现有的降噪技术无法处理非平稳的噪声信号;单通道降噪方法往往只处理信号中的幅度谱,保留原有带噪相位,其生成降噪信号质量不佳。


技术实现要素:



3.基于此,有必要提供一种降噪效果更好的基于双重变换的语音实时降噪方法及系统。
4.本发明实施例供一种基于双重变换的语音实时降噪方法,其特征在于,包括以下步骤:s1:将语音信号进行分帧处理,经过短时傅里叶变换得到时频信号;s2:对时频信号进行掩蔽处理,使所述时频信号增强和净化;s3:对增强后的时频信号进行逆傅里叶变换得到时域信号;s4:对时域信号进行掩蔽处理,使所述时域信号增强和净化;s5:对增强后的时域信号进行一维卷积操作;s6:经过重叠相加重建波形信号。
5.优选地,步骤s1中,将语音信号进行分帧处理时,25-35ms长度一帧和5-10ms帧移进行分帧处理。
6.优选地,步骤s1中,将语音信号进行分帧处理时,32ms长度一帧和8ms帧移进行分帧处理。
7.优选地,所述短时傅里叶变换采用以下公式:其中|y|代表混合语音信号y进行短时傅里叶变换后的幅度部分,m是应用在y上得遮蔽,其值为0-1,代表短时傅里叶变换后的相位部分,通过保留混合语音的相位来对干净音频进行预测。
8.优选地,步骤s2中,通过第一部分编码器对时频信号进行掩蔽处理,包括以下步骤:混合幅度谱|y|经过全连接层和sigmoid层两层gru网络得到掩蔽m,将其与|y|相乘,得到预估幅度谱;其表达式为:

9.优选地,在步骤s3中,对预估幅度谱和原有相位进行逆傅里叶变换得到时域信号,且不合成为波形信号。
10.优选地,在步骤s3之后,步骤s4之前,还需要进行以下步骤:经过通道归一化,时域信号经过全连接层和sigmoid层两层gru网络得到时域上的遮蔽m,将其乘以分帧的时域信号,得到预估的时域信号;其表达式如下:号,得到预估的时域信号;其表达式如下:。
11.优选地,步骤s5中,使用一维卷积将通道数转变为一帧的长度,之后使用重叠相加技术对波形进行重建;其表达式如下:。
12.本发明还提供一种语音实时降噪系统,包括:分帧模块,用于对语音信号进行分帧处理;短时傅里叶模块,用于得到时频信号;第一部分编码器,用于对时频信号进行掩蔽处理,使所述时频信号增强和净化;逆傅里叶变换模块,对增强后的时频信号进行逆傅里叶变换得到时域信号;第二部分编码器,所述时域信号经过第二部分编码器得到掩模,对时域信号进行掩蔽处理,使所述时域信号增强和净化;一维卷积模块,对增强后的时域信号进行一维卷积操作;重叠相加模块,对信号进行重叠相加重建波形信号。
13.优选地,所述第一部分编码器至少包括两个门控循环单元和两层gru网络,所述两层gru网络分别为全连接层和sigmoid层两层gru网络;所述第二部分编码器也至少包括两个门控循环单元和两层gru网络,所述两层gru网络分别为全连接层和sigmoid层两层gru网络。
14.本发明通过级联的两重变换,首先对语音信号做短时傅里叶变换得到时频域信号,做掩蔽处理得到干净的幅度谱信号,第二次变换到时域信号,再做掩蔽处理得到最终干净的语音信号,这种方法在保持较低计算复杂度同时,对信号相位进行处理,得到更高质量的语音信号。
附图说明
15.通过附图中所示的本发明优选实施例更具体说明,本发明上述及其它目的、特征和优势将变得更加清晰。在全部附图中相同的附图标记指示相同的部分,且并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本的主旨。
16.图1为本发明的基于双重变换的语音实时降噪方法流程图。
具体实施方式
17.下面结合附图和具体实施例对本发明技术方案作进一步的详细描述,以使本领域
的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
18.如图1所示,本发明实施例提供一种基于双重变换的语音实时降噪方法,其特征在于,包括以下步骤:s1:将语音信号进行分帧处理,经过短时傅里叶变换得到时频信号;s2:对时频信号进行掩蔽处理,使所述时频信号增强和净化;s3:对增强后的时频信号进行逆傅里叶变换得到时域信号;s4:对时域信号进行掩蔽处理,使所述时域信号增强和净化;s5:对增强后的时域信号进行一维卷积操作;s6:经过重叠相加重建波形信号。
19.通过两次变换,先处理时频域的信号,再处理时域信号,递进式的处理带噪一品信号。在二次变换中,模型按帧对信号进行处理,在不损失模型性能的情况下,对音频信号实时地进行流式处理。先处理幅度谱,再在时域上处理,来达到同时对相位处理的效果,使经过处理后的语音信号更好清晰。
20.在优选实施例中,步骤s1中,将语音信号进行分帧处理时,25-35ms长度一帧和5-10ms帧移进行分帧处理。
21.在优选实施例中,步骤s1中,将语音信号进行分帧处理时,32ms长度一帧和8ms帧移进行分帧处理。
22.在优选实施例中,所述短时傅里叶变换采用以下公式:其中|y|代表混合语音信号y进行短时傅里叶变换后的幅度部分,m是应用在y上得遮蔽,其值为0-1,代表短时傅里叶变换后的相位部分,通过保留混合语音的相位来对干净音频进行预测。
23.在优选实施例中,步骤s2中,通过第一部分编码器对时频信号进行掩蔽处理,包括以下步骤:混合幅度谱|y|经过全连接层和sigmoid层两层gru网络得到掩蔽m,将其与|y|相乘,得到预估幅度谱;其表达式为:;其表达式为:。
24.在优选实施例中,在步骤s3中,对预估幅度谱和原有相位进行逆傅里叶变换得到时域信号,且不合成为波形信号。
25.在优选实施例中,在步骤s3之后,步骤s4之前,还需要进行以下步骤:经过通道归一化,时域信号经过全连接层和sigmoid层两层gru网络得到时域上的遮蔽m,将其乘以分帧的时域信号,得到预估的时域信号;其表达式如下:的时域信号,得到预估的时域信号;其表达式如下:。
26.在优选实施例中,步骤s5中,使用一维卷积将通道数转变为一帧的长度,之后使用重叠相加技术对波形进行重建;其表达式如下:

27.本发明还提供一种语音实时降噪系统,包括:分帧模块,用于对语音信号进行分帧处理;短时傅里叶模块,用于得到时频信号;第一部分编码器,用于对时频信号进行掩蔽处理,使所述时频信号增强和净化;逆傅里叶变换模块,对增强后的时频信号进行逆傅里叶变换得到时域信号;第二部分编码器,所述时域信号经过第二部分编码器得到掩模,对时域信号进行掩蔽处理,使所述时域信号增强和净化;一维卷积模块,对增强后的时域信号进行一维卷积操作;重叠相加模块,对信号进行重叠相加重建波形信号。
28.所述第一部分编码器至少包括两个门控循环单元和两层gru网络,所述两层gru网络分别为全连接层和sigmoid层两层gru网络;所述第二部分编码器也至少包括两个门控循环单元和两层gru网络,所述两层gru网络分别为全连接层和sigmoid层两层gru网络。
29.实施例1:如图1所示, 为了在保持较低计算复杂度的同时,进一步提高降噪的语音质量,本发明提供了一种双重变换降噪技术,在实时的情况下,不仅可以在时频域上得到干净的幅度谱,还在通过二次变换后降噪得到干净的时域信号,这种方法进一步对相位信号建模,得到更高质量的语音信号。
30.一种基于双重变换的实时降噪方法,包括以下步骤:将语音信号以32ms长度一帧和8ms帧移进行分帧处理,经过短时傅里叶变换得到时频信号,再通过第一部分编码器进行掩蔽处理,之后进行逆傅里叶变换得到时域信号;对时域信号经过第二部分编码器得到掩模,对时域信号进行掩蔽处理;对增强后的时域信号进行一维卷积操作,再经过重叠相加重建波形信号;作为一种具体的实时方案,通过第一部分编码器进行掩蔽处理包括以下步骤:s11:将音频信号以32ms为帧长,帧移8ms进行分帧,做短时傅里叶变换:其中|y|代表混合语音信号y进行短时傅里叶变换后的幅度部分,m是应用在y上得遮蔽,其值为0-1,代表短时傅里叶变换后的相位部分,通过保留混合语音的相位来对干净音频进行预测;s12:混合幅度谱|y|后续经过两层gru网络,全连接层和sigmoid层,得到掩蔽m,将其与|y|相乘,得到预估幅度谱;;;s13:预估幅度谱和原有相位进行逆傅里叶变换得到时域信号,但不合成为波形信号。
31.s21:第二阶段变换处理为对时域信号的处理,首先将s1中输出的分帧时域信号通
过一维卷积转变为256通道数的信号;s22:为了利于实时处理,深度学习训练的收敛,首先经过通道归一化,之后时域信号经过与s1中同样结构的两层gru网络,全连接层和sigmoid层得到时域上的遮蔽m,将其乘以分帧的时域信号,得到预估的时域信号;以分帧的时域信号,得到预估的时域信号;s31:s3首先使用一维卷积将通道数转变为一帧的长度,之后使用重叠相加技术对波形进行重建。
32.本发明通过级联的两重变换,首先对语音信号做短时傅里叶变换得到时频域信号,做掩蔽处理得到干净的幅度谱信号,第二次变换到时域信号,再做掩蔽处理得到最终干净的语音信号,这种方法在保持较低计算复杂度同时,对信号相位进行处理,得到更高质量的语音信号。
33.以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

技术特征:


1.一种基于双重变换的语音实时降噪方法,其特征在于,包括以下步骤:s1:将语音信号进行分帧处理,经过短时傅里叶变换得到时频信号;s2:对时频信号进行掩蔽处理,使所述时频信号增强和净化;s3:对增强后的时频信号进行逆傅里叶变换得到时域信号;s4:对时域信号进行掩蔽处理,使所述时域信号增强和净化;s5:对增强后的时域信号进行一维卷积操作;s6:经过重叠相加重建波形信号。2.如权利要求1所述的基于双重变换的语音实时降噪方法,其特征在于,步骤s1中,将语音信号进行分帧处理时,25-35ms长度一帧和5-10ms帧移进行分帧处理。3.如权利要求2所述的基于双重变换的语音实时降噪方法,其特征在于,步骤s1中,将语音信号进行分帧处理时,32ms长度一帧和8ms帧移进行分帧处理。4.如权利要求1所述的基于双重变换的语音实时降噪方法,其特征在于,所述短时傅里叶变换采用以下公式:其中|y|代表混合语音信号y进行短时傅里叶变换后的幅度部分,m是应用在y上得遮蔽,其值为0-1,代表短时傅里叶变换后的相位部分,通过保留混合语音的相位来对干净音频进行预测。5.如权利要求1所述的基于双重变换的语音实时降噪方法,其特征在于,步骤s2中,通过第一部分编码器对时频信号进行掩蔽处理,包括以下步骤:混合幅度谱|y|经过全连接层和sigmoid层两层gru网络得到掩蔽m,将其与|y|相乘,得到预估幅度谱;其表达式为:;其表达式为:。6.如权利要求5所述的基于双重变换的语音实时降噪方法,其特征在于,在步骤s3中,对预估幅度谱和原有相位进行逆傅里叶变换得到时域信号,且不合成为波形信号。7.如权利要求6所述的基于双重变换的语音实时降噪方法,其特征在于,在步骤s3之后,步骤s4之前,还需要进行以下步骤:经过通道归一化,时域信号经过全连接层和sigmoid层两层gru网络得到时域上的遮蔽m,将其乘以分帧的时域信号,得到预估的时域信号;其表达式如下:达式如下:。8.如权利要求1所述的基于双重变换的语音实时降噪方法,其特征在于,步骤s5中,使用一维卷积将通道数转变为一帧的长度,之后使用重叠相加技术对波形进行重建;其表达式如下:。
9.一种语音实时降噪系统,其特征在于,包括分帧模块,用于对语音信号进行分帧处理;短时傅里叶模块,用于得到时频信号;第一部分编码器,用于对时频信号进行掩蔽处理,使所述时频信号增强和净化;逆傅里叶变换模块,对增强后的时频信号进行逆傅里叶变换得到时域信号;第二部分编码器,所述时域信号经过第二部分编码器得到掩模,对时域信号进行掩蔽处理,使所述时域信号增强和净化;一维卷积模块,对增强后的时域信号进行一维卷积操作;重叠相加模块,对信号进行重叠相加重建波形信号。10.如权利要求9所述的语音实时降噪系统,其特征在于,所述第一部分编码器至少包括两个门控循环单元和两层gru网络,所述两层gru网络分别为全连接层和sigmoid层两层gru网络;所述第二部分编码器也至少包括两个门控循环单元和两层gru网络,所述两层gru网络分别为全连接层和sigmoid层两层gru网络。

技术总结


本发明涉及一种基于双重变换的语音实时降噪方法及系统,该方法包括以下步骤:将语音信号进行分帧处理,经过短时傅里叶变换得到时频信号;对时频信号进行掩蔽处理使所述时频信号增强;然后,进行逆傅里叶变换得到时域信号;对时域信号进行掩蔽处理,使所述时域信号增强;然后,进行一维卷积操作;经过重叠相加重建波形信号;通过级联的两重变换,首先对语音信号做短时傅里叶变换得到时频域信号,做掩蔽处理得到干净的幅度谱信号,第二次变换到时域信号,再做掩蔽处理得到最终干净的语音信号,这种方法在保持较低计算复杂度同时,对信号相位进行处理,得到更高质量的语音信号。得到更高质量的语音信号。得到更高质量的语音信号。


技术研发人员:

唐镇坤 潘伟 吴庆耀 钟佳 王琅

受保护的技术使用者:

中邮消费金融有限公司

技术研发日:

2022.07.18

技术公布日:

2022/9/2

本文发布于:2024-09-22 21:36:27,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/64159.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:信号   时域   语音   掩蔽
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议