语音降噪方法、装置、设备及计算机可读存储介质与流程



1.本发明涉及语音处理技术领域,尤其涉及一种语音降噪方法、装置、设备及计算机可读存储介质。


背景技术:



2.语音降噪是指当语音信号被各种各样的背景噪声干扰、甚至淹没后,尽可能地从带噪语音信号中提取有用语音信号(或干净语音信号),抑制或降低噪声干扰的技术。语音降噪技术被应用于很多场景,例如用于通话语音降噪。目前的语音降噪技术中,有基于单麦克风或多麦克风采集的语音数据进行降噪的方案,但是麦克风采集的语音数据虽然涵盖的频域区间广,但是抗噪能力几乎没有,所以导致基于麦克风采集的语音数据进行语音降噪的方案整体上降噪效果无法得到进一步突破。


技术实现要素:



3.本发明的主要目的在于提供一种语音降噪方法、装置、设备及计算机可读存储介质,旨在提供一种基于骨传导传感器采集的语音数据和麦克风采集的语音数据进行语音降噪的方案,以提高语音降噪效果。
4.为实现上述目的,本发明提供一种语音降噪方法,所述语音降噪方法包括以下步骤:
5.获取通过麦克风采集的第一语音数据,获取通过骨传导传感器采集的第二语音数据;
6.将所述第一语音数据中第一频段的语音数据和所述第二语音数据中第二频段的语音数据输入语音融合降噪网络进行预测得到目标降噪语音数据;
7.其中,所述第一频段大于所述第二频段;所述语音融合降噪网络是预先通过将麦克风带噪语音数据和骨传导带噪语音数据作为输入数据,将与所述麦克风带噪语音数据对应的麦克风干净语音数据作为训练标签进行训练得到的。
8.可选地,所述将所述第一语音数据中第一频段的语音数据和所述第二语音数据中第二频段的语音数据输入语音融合降噪网络进行预测得到目标降噪语音数据的步骤包括:
9.对单帧所述第一语音数据进行时域到频域的转换得到各频点的第一幅值和第一相位角度值;
10.对单帧所述第二语音数据进行时域到频域的转换得到各频点的第二幅值和第二相位角度值;
11.根据所述第一频段内各频点对应的所述第一幅值和所述第一相位角度值,以及所述第二频段内各频点对应的所述第二幅值和所述第二相位角度值,生成目标输入数据;
12.将所述目标输入数据输入所述语音融合降噪网络进行预测得到各频点的第三幅值和第三相位角度值;
13.基于各频点的所述第三幅值和所述第三相位角度值进行频域到时域的转换得到
单帧目标降噪语音数据。
14.可选地,所述根据所述第一频段内各频点对应的所述第一幅值和所述第一相位角度值,以及所述第二频段内各频点对应的所述第二幅值和所述第二相位角度值,生成目标输入数据的步骤包括:
15.将所述第一频段内各频点的所述第一幅值和所述第二频段内各频点的所述第二幅值分别进行归一化处理后进行拼接得到第一通道数据;
16.将所述第一频段内各频点的所述第一相位角度值和所述第二频段内各频点的所述第二相位角度值分别进行归一化处理后进行拼接得到第二通道数据;
17.将所述第一通道数据和所述第二通道数据作为两通道的目标输入数据。
18.可选地,所述将所述第一语音数据中第一频段的语音数据和所述第二语音数据中第二频段的语音数据输入语音融合降噪网络进行预测得到目标降噪语音数据的步骤包括:
19.将所述第一语音数据中第一频段的语音数据和所述第二语音数据中第二频段的语音数据输入语音融合降噪网络中的卷积层进行卷积处理,得到卷积输出数据;
20.将所述卷积输出数据输入所述语音融合降噪网络中的循环神经网络层进行处理得到循环网络输出数据;
21.将所述卷积输出数据和所述循环网络输出数据输入所述语音融合降噪网络中的上采样卷积层进行上采样卷积处理,基于上采样卷积处理的结果得到目标降噪语音数据。
22.可选地,所述将所述第一语音数据中第一频段的语音数据和所述第二语音数据中第二频段的语音数据输入语音融合降噪网络进行预测得到目标降噪语音数据的步骤之前,还包括:
23.在一轮训练中,将所述麦克风带噪语音数据中所述第一频段的语音数据和所述骨传导带噪语音数据中所述第二频段的语音数据输入待训练的所述语音融合降噪网络,进行预测得到预测降噪语音数据;
24.基于所述预测降噪语音数据中所述第一频段内的语音数据和所述麦克风干净语音数据中所述第一频段内的语音数据计算第一损失;
25.基于所述预测降噪语音数据中所述第二频段内的语音数据和所述麦克风干净语音数据中所述第二频段内的语音数据计算第二损失;
26.对所述第一损失和所述第二损失进行加权求和得到目标损失,根据所述目标损失更新待训练的所述语音融合降噪网络,以将更新后的所述语音融合降噪网络作为下一轮训练的基础;
27.经过多轮训练后,将更新后的所述语音融合降噪网络作为训练完成的所述语音融合降噪网络。
28.可选地,所述对所述第一损失和所述第二损失进行加权求和得到目标损失的步骤包括:
29.确定与本轮训练的训练轮次对应的本轮加权权重,其中,训练轮次越大时所述第二损失对应的加权权重越大;
30.根据所述本轮加权权重对所述第一损失和所述第二损失进行加权求和得到目标损失。
31.可选地,所述将所述第一语音数据中第一频段的语音数据和所述第二语音数据中
第二频段的语音数据输入语音融合降噪网络进行预测得到目标降噪语音数据的步骤之前,还包括:
32.获取通过麦克风在背景噪声环境下采集的第一背景噪声数据和在噪声隔绝环境下采集的第一干净语音数据,以及获取通过骨传导传感器在所述背景噪声环境下采集的第二背景噪声数据和在所述噪声隔绝环境下采集的第二干净语音数据;
33.将所述第一噪声数据按照预设信噪比添加至所述第一干净语音数据得到所述麦克风带噪语音数据;
34.按照所述麦克风带噪语音数据中的噪声权重将所述第二噪声数据添加至所述第二干净语音数据得到所述骨传导带噪语音数据。
35.为实现上述目的,本发明还提供一种语音降噪装置,所述语音降噪装置包括:
36.获取模块,用于获取通过麦克风采集的第一语音数据,获取通过骨传导传感器采集的第二语音数据;
37.预测模块,用于将所述第一语音数据中第一频段的语音数据和所述第二语音数据中第二频段的语音数据输入语音融合降噪网络进行预测得到目标降噪语音数据;
38.其中,所述第一频段大于所述第二频段;所述语音融合降噪网络是预先通过将麦克风带噪语音数据和骨传导带噪语音数据作为输入数据,将与所述麦克风带噪语音数据对应的麦克风干净语音数据作为训练标签进行训练得到的。
39.为实现上述目的,本发明还提供一种语音降噪设备,所述语音降噪设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音降噪程序,所述语音降噪程序被所述处理器执行时实现如上所述的语音降噪方法的步骤。
40.此外,为实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有语音降噪程序,所述语音降噪程序被处理器执行时实现如上所述的语音降噪方法的步骤。
41.本发明中,通过预先采用麦克风带噪语音数据和骨传导带噪语音数据作为输入数据,采用与该麦克风带噪语音数据对应的麦克风干净语音数据作为训练标签,训练得到语音融合降噪网络,再通过获取到麦克风采集的第一语音数据和骨传导传感器采集的第二语音数据后,将第一语音数据中第一频段的语音数据和第二语音数据中第二频段的语音数据输入训练好的语音融合降噪网络进行预测得到目标降噪语音数据。由于语音融合降噪网络通过训练学习到基于骨传导带噪语音数据中噪声少的低频部分和麦克风带噪语音数据中的语音效果好的高频部分预测得到语音效果好且干净的语音数据,使得预测得到的目标降噪语音数据在听上去自然的同时,也表现出更加良好的降噪效果,也即,相比于仅依据麦克风采集的语音数据进行降噪,本发明语音降噪方案进一步提高了语音降噪效果。
附图说明
42.图1为本发明实施例方案涉及的硬件运行环境的结构示意图;
43.图2为本发明语音降噪方法第一实施例的流程示意图;
44.图3为本发明实施例涉及的一种语音融合降噪网络结构示意图
45.图4为本发明语音降噪装置较佳实施例的功能模块示意图。
46.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
47.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
48.如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
49.需要说明的是,本发明实施例语音降噪设备,语音降噪设备可以是耳机、智能手机、个人计算机、服务器等设备,在此不做具体限制。
50.如图1所示,该语音降噪设备可以包括:处理器1001,例如cpu,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
51.本领域技术人员可以理解,图1中示出的设备结构并不构成对语音降噪设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
52.如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音降噪程序。操作系统是管理和控制设备硬件和软件资源的程序,支持语音降噪程序以及其它软件或程序的运行。在图1所示的设备中,用户接口1003主要用于与客户端进行数据通信;网络接口1004主要用于与服务器建立通信连接;而处理器1001可以用于调用存储器1005中存储的语音降噪程序,并执行以下操作:
53.获取通过麦克风采集的第一语音数据,获取通过骨传导传感器采集的第二语音数据;
54.将第一语音数据中第一频段的语音数据和第二语音数据中第二频段的语音数据输入语音融合降噪网络进行预测得到目标降噪语音数据;
55.其中,第一频段大于第二频段;语音融合降噪网络是预先通过将麦克风带噪语音数据和骨传导带噪语音数据作为输入数据,将与麦克风带噪语音数据对应的麦克风干净语音数据作为训练标签进行训练得到的。
56.进一步地,将第一语音数据中第一频段的语音数据和第二语音数据中第二频段的语音数据输入语音融合降噪网络进行预测得到目标降噪语音数据的操作包括:
57.对单帧第一语音数据进行时域到频域的转换得到各频点的第一幅值和第一相位角度值;
58.对单帧第二语音数据进行频域到时域的转换得到各频点的第二幅值和第二相位角度值;
59.根据第一频段内各频点对应的第一幅值和第一相位角度值,以及第二频段内各频点对应的第二幅值和第二相位角度值,生成目标输入数据;
60.将目标输入数据输入语音融合降噪网络进行预测得到各频点的第三幅值和第三相位角度值;
61.基于各频点的第三幅值和第三相位角度值进行频域到时域的转换得到单帧目标降噪语音数据。
62.进一步地,根据第一频段内各频点对应的第一幅值和第一相位角度值,以及第二
频段内各频点对应的第二幅值和第二相位角度值,生成目标输入数据的操作包括:
63.将第一频段内各频点的第一幅值和第二频段内各频点的第二幅值分别进行归一化处理后进行拼接得到第一通道数据;
64.将第一频段内各频点的第一相位角度值和第二频段内各频点的第二相位角度值分别进行归一化处理后进行拼接得到第二通道数据;
65.将第一通道数据和第二通道数据作为两通道的目标输入数据。
66.进一步地,将第一语音数据中第一频段的语音数据和第二语音数据中第二频段的语音数据输入语音融合降噪网络进行预测得到目标降噪语音数据的操作包括:
67.将第一语音数据中第一频段的语音数据和第二语音数据中第二频段的语音数据输入语音融合降噪网络中的卷积层进行卷积处理,得到卷积输出数据;
68.将卷积输出数据输入语音融合降噪网络中的循环神经网络层进行处理得到循环网络输出数据;
69.将卷积输出数据和循环网络输出数据输入语音融合降噪网络中的上采样卷积层进行上采样卷积处理,基于上采样卷积处理的结果得到目标降噪语音数据。
70.进一步地,将第一语音数据中第一频段的语音数据和第二语音数据中第二频段的语音数据输入语音融合降噪网络进行预测得到目标降噪语音数据的操作之前,处理器1001还可以用于调用存储器1005中存储的语音降噪程序,执行以下操作:
71.在一轮训练中,将麦克风带噪语音数据中第一频段的语音数据和骨传导带噪语音数据中第二频段的语音数据输入待训练的语音融合降噪网络,进行预测得到预测降噪语音数据;
72.基于预测降噪语音数据中第一频段内的语音数据和麦克风干净语音数据中第一频段内的语音数据计算第一损失;
73.基于预测降噪语音数据中第二频段内的语音数据和麦克风干净语音数据中第二频段内的语音数据计算第二损失;
74.对第一损失和第二损失进行加权求和得到目标损失,根据目标损失更新待训练的语音融合降噪网络,以将更新后的语音融合降噪网络作为下一轮训练的基础;
75.经过多轮训练后,将更新后的语音融合降噪网络作为训练完成的语音融合降噪网络。
76.进一步地,对第一损失和第二损失进行加权求和得到目标损失的操作包括:
77.确定与本轮训练的训练轮次对应的本轮加权权重,其中,训练轮次越大时第二损失对应的加权权重越大;
78.根据本轮加权权重对第一损失和第二损失进行加权求和得到目标损失。
79.进一步地,将第一语音数据中第一频段的语音数据和第二语音数据中第二频段的语音数据输入语音融合降噪网络进行预测得到目标降噪语音数据的操作之前,处理器1001还可以用于调用存储器1005中存储的语音降噪程序,执行以下操作:
80.获取通过麦克风在背景噪声环境下采集的第一背景噪声数据和在噪声隔绝环境下采集的第一干净语音数据,以及获取通过骨传导传感器在背景噪声环境下采集的第二背景噪声数据和在噪声隔绝环境下采集的第二干净语音数据;
81.将第一噪声数据按照预设信噪比添加至第一干净语音数据得到麦克风带噪语音
数据;
82.按照麦克风带噪语音数据中的噪声权重将第二噪声数据添加至第二干净语音数据得到骨传导带噪语音数据。
83.基于上述的结构,提出语音降噪方法的各个实施例。
84.参照图2,图2为本发明语音降噪方法第一实施例的流程示意图。
85.本发明实施例提供了语音降噪方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。在本实施例中,语音降噪方法的执行主体可以是耳机、个人电脑、智能手机等设备,在本实施例中并不做限制,以下为便于描述,省略执行主体进行各实施例的阐述。在本实施例中,语音降噪方法包括:
86.步骤s10,获取通过麦克风采集的第一语音数据,获取通过骨传导传感器采集的第二语音数据;
87.在本实施例中,借助骨传导传感器采集的语音数据来辅助对麦克风采集的语音数据进行语音降噪。以下为示区分,将麦克风采集的语音数据称为第一语音数据,将骨传导传感器采集的语音数据称为第二语音数据。可以理解的是,第一语音数据和第二语音数据是在同种环境中同步采集的。在具体应用场景中,麦克风和骨传导传感器可以设置在产品用于采集语音数据中,例如设置于耳机中,具体设置位置根据需要设计,例如骨传导传感器一般设置在与人头骨有接触的地方。在具体实施方式中,第一语音数据和第二语音数据可以是实时采集的语音数据,也可以是非实时的语音数据,具体可以根据应用场景中对语音降噪的实时性需求不同而选取不同的实施方式。例如在通话语音降噪过程中,可以将麦克风和骨传导传感器采集的语音数据分别进行实时分帧,以单帧第一语音数据和单帧第二语音数据为对象基于本实施例中的语音降噪方案进行实时降噪处理。
88.步骤s20,将第一语音数据中第一频段的语音数据和第二语音数据中第二频段的语音数据输入语音融合降噪网络进行预测得到目标降噪语音数据;
89.在本实施例中,预先训练得到一个语音融合降噪网络。训练过程是采用麦克风带噪语音数据和骨传导带噪语音数据作为该语音融合降噪网络的输入数据,基于该语音融合降噪网络对输入数据进行处理得到预测(或称估计)的语音数据,并采用该麦克风带噪语音数据对应的麦克风干净语音数据作为训练标签,采用有监督训练方法进行训练。也即采用训练标签对语音融合降噪网络所预测的语音数据进行监督,以不断更新语音融合降噪网络中的网络参数,使得更新参数后的语音融合降噪网络所预测的语音数据越接近于麦克风干净语音数据,进而训练得到能够基于麦克风采集的带噪声的语音数据和骨传导传感器采集的带噪声的语音数据进行预测得到降噪后的语音数据的语音融合降噪网络。
90.其中,本实施例中对语音融合降噪网络的具体网络层结构并不做限制,例如可以采用卷积神经网络或循环神经网络等网络结构来实现。在具体实施方式中,训练所采用的麦克风带噪语音数据、骨传导带噪语音数据以及麦克风干净语音数据可以是在实验环境中播放相同的语音,再通过麦克风和骨传导传感器进行采集得到的,而麦克风干净语音数据则可以在噪声隔离环境下采集得到。训练所使用的样本数量可以根据需要进行设置,在本实施例中并不做限制;可以理解的是,一个训练样本包括一条麦克风带噪语音数据、一条骨传导带噪语音数据和一条麦克风干净语音数据。
91.需要说明的是,麦克风采集的数据频域相对完整,但抗噪能力几乎没有;而骨传导传感器采集到的语音数据主要集中在低频部分,虽然会丧失数据的高频信息而导致语音听上去的感受不太好,但是其抗噪能力优越,可以阻隔住很多种类的噪声。因此,本实施例中,利用麦克风与骨传导传感器的优势,在将麦克风带噪语音数据和骨传导带噪语音数据输入语音融合降噪网络时,可以将麦克风带噪语音数据中第一频段的语音数据和骨传导带噪语音数据中第二频段的语音数据输入语音融合降噪网络,而第一频段设置得大于第二频段,以通过训练,使得语音融合降噪网络能够学习到如何利用骨传导带噪语音数据中噪声少的低频部分和麦克风带噪语音数据中的语音效果好的高频部分预测得到语音效果好且干净的语音数据。其中语音效果好是指用户听上去更加自然。
92.其中,频段是指一个频率范围,一个频率范围内包括多个频点,第一频段大于第二频段是指第一频段的最小频点大于第二频段的最大频点。第一频段和第二频段的分界频点可以根据需要进行设置,在本实施例中并不做限制,例如可以设置为1khz,那么第一频段就包括1khz以上的各个频点,第二频段就包括1khz以下(包含1khz在内)的各个频点。
93.在获取到需要进行降噪处理的第一语音数据和用于辅助降噪的第二语音数据后,提取出第一语音数据中第一频段的语音数据,以及提取出第二语音数据中第二频段的语音数据,将提取出的两类语音数据输入训练好的语音融合降噪网络,通过语音融合降噪网络中的各个网络层对输入的语音数据进行处理,得到降噪后的语音数据(以下称为目标降噪语音数据以示区分)。可以理解的是,由于是将第一语音数据中第一频段的语音数据和第二语音数据中第二频段的语音数据输入到已经训练好的语音融合降噪网络中进行预测得到目标降噪语音数据,所以得到的目标降噪语音数据是语音效果好且干净的语音数据。
94.在本实施例中,通过预先采用麦克风带噪语音数据和骨传导带噪语音数据作为输入数据,采用与该麦克风带噪语音数据对应的麦克风干净语音数据作为训练标签,训练得到语音融合降噪网络,再通过获取到麦克风采集的第一语音数据和骨传导传感器采集的第二语音数据后,将第一语音数据中第一频段的语音数据和第二语音数据中第二频段的语音数据输入训练好的语音融合降噪网络进行预测得到目标降噪语音数据。由于语音融合降噪网络通过训练学习到基于骨传导带噪语音数据中噪声少的低频部分和麦克风带噪语音数据中的语音效果好的高频部分预测得到语音效果好且干净的语音数据,使得预测得到的目标降噪语音数据在听上去自然的同时,也表现出更加良好的降噪效果,也即,相比于仅依据麦克风采集的语音数据进行降噪,本实施例语音降噪方案进一步提高了语音降噪效果。
95.进一步地,在一实施方式中,步骤s20之前,还包括:
96.步骤a,获取通过麦克风在背景噪声环境下采集的第一背景噪声数据和在噪声隔绝环境下采集的第一干净语音数据,以及获取通过骨传导传感器在背景噪声环境下采集的第二背景噪声数据和在噪声隔绝环境下采集的第二干净语音数据;
97.在本实施方式中,为提高语音融合降噪网络基于不同信噪比的语音数据进行预测得到的降噪语音数据的降噪效果,通过采集干净语音数据与噪声数据按照不同的信噪比进行混合得到用于训练的带噪语音数据。
98.具体地,可以通过麦克风在背景噪声环境下采集的背景噪声数据(以下称为第一背景噪声数据),以及通过麦克风在噪声隔绝环境下采集干净语音数据(以下称为第一干净语音数据)。其中,背景噪声环境可以是通过播放装置播放噪声的环境,所播放的噪声可以
是根据需要选取的噪声,以用于模拟真实场景下可能出现的各种噪声;噪声隔绝环境可以是在没有噪声或噪声很小的环境,故在隔绝噪声环境下采集的语音数据可认为是没有噪声的语音数据,因此可以称为干净语音数据。通过麦克风在背景噪声环境下采集第一背景噪声数据时,可以通过骨传导传感器同时采集背景噪声数据(以下称为第二背景噪声数据),通过麦克风在隔绝噪声环境下采集第一干净语音数据时,可以通过骨传导传感器同时采集语音数据(以下称为第二干净语音数据)。
99.在具体实施方式中,通过播放不同的噪声,可以采集得到多组噪声数据,每组噪声数据中包括一条第一背景噪声数据和一条第二背景噪声数据,通过播放不同的语音,可以采集得到多组干净语音数据,每组干净语音数据包括一条第一干净语音数据和一条第二干净语音数据。
100.步骤b,将第一噪声数据按照预设信噪比添加至第一干净语音数据得到麦克风带噪语音数据;
101.步骤c,按照麦克风带噪语音数据中的噪声权重将第二噪声数据添加至第二干净语音数据得到骨传导带噪语音数据。
102.将一组噪声数据中的第一噪声数据按照预设信噪比添加至一组干净语音数据中的第一干净语音数据中,可以得到一个样本中的麦克风带噪语音数据,而该第一干净语音数据则可以作为该样本中的麦克风干净语音数据,也即作为该样本中的训练标签。其中,预设信噪比可以根据需要进行设置。
103.按照该样本中麦克风带噪语音数据中的噪声权重,将该组噪声数据中的第二噪声数据按照该噪声权重添加至该组干净语音数据中的第二干净语音数据中,可以得到该样本中的骨传导带噪语音数据。其中,噪声权重可以是同一时刻噪声信号的幅值占语音信号的幅值的占比。
104.可以理解的是,将一组噪声数据按照不同的信噪比添加到一组干净语音数据中,就可得到多个不同信噪比的样本。本实施方式中,通过将采集的干净语音数据与噪声数据按照不同的信噪比进行混合得到用于训练语音融合降噪网络的带噪语音数据,可以提高语音融合降噪网络基于不同信噪比的语音数据进行预测得到的降噪语音数据的降噪效果,并且,也可以扩展训练样本的数量,降低采集训练样本的人工成本。
105.进一步地,基于上述第一实施例,提出本发明语音降噪方法第二实施例,在本实施例中,步骤s20包括:
106.步骤s201,对单帧第一语音数据进行时域到频域的转换得到各频点的第一幅值和第一相位角度值;
107.在本实施例中,可以对单帧第一语音数据进行时域到频域的转换得到各频点的幅值(以下称为第一幅值以示区分)和相位角度值(以下称为第一相位角度值以示区分)。其中,从时域到频域的转换可以通过傅里叶变换实现。可以先转换得到各频点的复数,再根据复数计算得到幅值和相位角度值。
108.步骤s202,对单帧第二语音数据进行时域到频域的转换得到各频点的第二幅值和第二相位角度值;
109.对单帧第二语音数据进行时域到频域的转换得到各频点的幅值(以下称为第二幅值以示区分)和相位角度值(以下称为第二相位角度值以示区分)。其中,从时域到频域的转
换可以通过傅里叶变换实现。可以先转换得到各频点的复数,再根据复数计算得到幅值和相位角度值。
110.步骤s203,根据第一频段内各频点对应的第一幅值和第一相位角度值,以及第二频段内各频点对应的第二幅值和第二相位角度值,生成目标输入数据;
111.在对第一语音数据转换得到各频点的第一幅值和第一相位角度值后,可以从中提取第一频段内各频点的第一幅值和第一相位角度值。例如,对第一语音数据转换得到120个频点的第一幅值和第一相位角度值,第一频段包含了该120个频点中的后113个频点,故将后113个频点的第一幅值和第一相位角度值提取出来。
112.在对第二语音数据转换得到各频点的第二幅值和第二相位角度值后,可以从中提取第二频段内各频点的第二幅值和第二相位角度值。例如,对第二语音数据转换得到120个频点的第二幅值和第二相位角度值,第二频段包含了该120个频点中的前7个频点,故将前7个频点的第二幅值和第二相位角度值提取出来。
113.根据第一频段内各频点对应的第一幅值和第一相位角度值,以及第二频段内各频点对应的第二幅值和第二相位角度值,生成用于输入语音融合降噪网络的输入数据(以下称为目标输入数据)。其中,根据所设计的语音融合降噪网络输入数据的数据结构不同,生成目标输入数据的方法也不同,也即,需要生成符合语音融合降噪网络输入数据结构的目标输入数据。
114.步骤s204,将目标输入数据输入语音融合降噪网络进行预测得到各频点的第三幅值和第三相位角度值;
115.将目标输入数据输入语音融合降噪网络进行预测,可以得到各频点的幅值(以下称为第三幅值以示区分)和相位角度值(以下称为第三相位角度值以示区分)。例如可以得到120个频点的第三幅值和第三相位角度值。
116.步骤s205,基于各频点的第三幅值和第三相位角度值进行频域到时域的转换得到单帧目标降噪语音数据。
117.将各个频点的第三幅值和第三相位角度值进行频域到时域的转换,可以得到单帧目标降噪语音数据。其中,频域到时域的转换可以通过反傅里叶变换实现。在具体实施方式中,当语音融合降噪网络设计为输出0-1范围内数值时,可以第一频段内各频点的第三幅值进行反归一化处理以及将第二频段内各频点的第三幅值进行反归一化处理,得到各频点的第四幅值,将第一频段内各频点的第三相位角度值进行反归一化处理以及将第二频段内各频点的第三相位角度值进行反归一化处理,得到各频点的第四相位角度值,再基于各频点的第四幅值和第四相位角度值进行频域到时域的转换得到单帧目标降噪语音数据。具体地,在基于各频点的幅值和相位角度值进行频域到时域的转换得到降噪语音数据时,可以先根据单个频点的幅值和相位角度值计算得到该频点的复数,再基于各频点的复数进行反傅里叶变换得到单帧降噪语音数据。
118.在本实施例中,通过将第一语音数据中第一频段的各频点的幅值和相位角度值,以及第二语音数据中第二频段的各频点的幅值和相位角度值输入语音融合降噪网络中进行预测,使得语音融合降噪网络既能够依据各频点的幅值来预测得到准确的语音数据,又能够依据各频点的相位角度值来预测得到使得用户听上去更自然的语音数据,从而进一步提高了语音降噪效果。
119.进一步地,在一实施方式中,步骤s203包括:
120.步骤s2031,将第一频段内各频点的第一幅值和第二频段内各频点的第二幅值分别进行归一化处理后进行拼接得到第一通道数据;
121.在本实施方式中,可以将第一频段内各频点的第一幅值进行归一化处理,将第二频段内各频点的第二幅值进行归一化处理,再将归一化处理后的第一频段内各个频点的第一幅值与归一化处理后的第二频段内各个频点的第二幅值进行拼接,得到一个通道的输入数据(以下称为第一通道数据)。其中,进行拼接具体可以是进行向量拼接。例如,第一频段内包括113个频点,第二频段内包括7个频点,则将第二频段内7个频点的幅值与第一频段内113个频点的幅值进行向量拼接,得到包括120个幅值的向量。
122.步骤s2032,将第一频段内各频点的第一相位角度值和第二频段内各频点的第二相位角度值分别进行归一化处理后进行拼接得到第二通道数据;
123.可以将第一频段内各频点的第一相位角度值进行归一化处理,将第二频段内各频点的第二相位角度值进行归一化处理,再将归一化处理后的第一频段内各个频点的第一相位角度值与归一化处理后的第二频段内各个频点的第二相位角度值进行拼接,得到一个通道的输入数据(以下称为第二通道数据)。其中,进行拼接具体可以是进行向量拼接。例如,第一频段内包括113个频点,第二频段内包括7个频点,则将第二频段内7个频点的相位角度值与第一频段内113个频点的相位角度值进行向量拼接,得到包括120个相位角度值的向量。
124.步骤s2033,将第一通道数据和第二通道数据作为两通道的目标输入数据。
125.将第一通道数据和第二通道数据作为两通道的目标输入数据。
126.进一步地,在一实施方式中,在对语音融合降噪网络进行训练的过程中,也可以将对单帧麦克风带噪语音数据进行时域到频域的转换得到各频点的第五幅值和第五相位角度值;对单帧骨传导带噪语音数据进行时域到频域的转换得到各频点的第六幅值和第六相位角度值;根据第一频段内各频点对应的第五幅值和第五相位角度值,以及第二频段内各频点对应的第六幅值和第六相位角度值,生成预测输入数据;将预测输入数据输入语音融合降噪网络进行预测得到各频点的第七幅值和第七相位角度值;基于各频点的第七幅值和第七相位角度值进行频域到时域的转换得到单帧预测降噪语音数据。进一步地,在一实施方式中,在对语音融合降噪网络进行训练的过程中,也可以将第一频段内各频点的第五幅值和第二频段内各频点的第六幅值分别进行归一化处理后进行拼接得到第一通道数据;将第一频段内各频点的第五相位角度值和第二频段内各频点的第六相位角度值分别进行归一化处理后进行拼接得到第二通道数据;将第一通道数据和第二通道数据作为两通道的目标输入数据。
127.进一步地,基于上述第一和/或第二实施例,提出本发明语音降噪方法第三实施例,在本实施例中,步骤s20包括:
128.步骤s206,将第一语音数据中第一频段的语音数据和第二语音数据中第二频段的语音数据输入语音融合降噪网络中的卷积层进行卷积处理,得到卷积输出数据;
129.在本实施例中,设置语音融合降噪网络包括卷积层、循环神经网络层和上采样卷积层。其中,卷积层用于对输入的语音数据进行空间范围内噪声和语音特征的区分,主要解决不同频点间分布关系的学习,循环神经网络层主要用于对输入语音数据进行时间范围内
的关联性记忆,主要保留语音特征在时间连续性方面的信息,上采样卷积层主要用于对输入语音数据进行空间范围内的恢复,以便输出与输入尺寸相同的理想干净语音数据。卷积层和上采样卷积层中的卷积核个数和大小可以根据需要进行设置,在本实施例中并不做限制。循环神经网络可以采用gru(gated recurrent neural network,门控循环神经网络)、lstm(long short-term memory,长短期记忆网络)等实现,在本实施例中并不做限制。
130.在获取到第一语音数据和第二语音数据后,将第一语音数据中第一频段的语音数据和第二语音数据中第二频段的语音数据先输入卷积层进行卷积处理,将处理得到的数据称为卷积输出数据以示区分。
131.步骤s207,将卷积输出数据输入语音融合降噪网络中的循环神经网络层进行处理得到循环网络输出数据;
132.再将卷积输出数据输入循环神经网络层进行处理,将处理得到的数据称为循环网络输出数据以示区分。
133.步骤s208,将卷积输出数据和循环网络输出数据输入语音融合降噪网络中的上采样卷积层进行上采样卷积处理,基于上采样卷积处理的结果得到目标降噪语音数据。
134.再将卷积输出数据和训练网络输出数据输入上采样卷积层进行上采样卷积处理,根据处理得到的结果可以得到目标降噪语音数据。在具体实施方式中,当上采样卷积层设计为输出各频点的幅值和相位角度值时,可以基于各频点的幅值和相位角度值进行频域到时域的转换得到目标降噪语音数据。在其他实施方式中,当上采样卷积层设计为输出其他形式的数据时,可以基于其他形式的数据进行相应的计算或转换后得到目标降噪语音数据。
135.进一步地,在一实施方式中,为了简化语音融合降噪网络的网络大小,使得语音融合降噪网络可以部署于低计算资源的产品端,可以设置语音融合降噪网络中包括2层卷积、2层gru和2层上采样卷积。进一步地,在一实施方式中,语音融合降噪网络可以设置为如图3所示的网络结构,其中,各网络层的激活函数选用了relu。
136.进一步地,基于上述第一、第二和/或第三实施例,提出本发明语音降噪方法第四实施例,在本实施例中,步骤s20之前,还包括:
137.步骤s30,在一轮训练中,将麦克风带噪语音数据中第一频段的语音数据和骨传导带噪语音数据中第二频段的语音数据输入待训练的语音融合降噪网络,进行预测得到预测降噪语音数据;
138.在本实施例中,可以对语音融合降噪网络进行多轮迭代训练,第一轮训练时对初始化的语音融合降噪网络进行更新,后续各轮训练以上一轮训练更新后的语音融合降噪网络进行基础进行更新。
139.在一轮训练中,将麦克风带噪语音数据中第一频段的语音数据和骨传导带噪语音数据中第二频段的语音数据输入待训练的语音融合降噪网络进行预测,将预测得到的语音数据称为预测降噪语音数据以示区分。本步骤的具体实施方式可以参照上述第一实施例中步骤s20的具体实施方式,在此不做赘述。
140.步骤s40,基于预测降噪语音数据中第一频段内的语音数据和麦克风干净语音数据中第一频段内的语音数据计算第一损失;
141.在得到预测降噪语音数据后,可以基于预测降噪语音数据中第一频段内的语音数
据和麦克风干净语音数据中第一频段内的语音数据计算损失(以下称为第一损失以示区分)。
142.在具体实施方式中,当预测降噪语音数据是各频点的幅值和相位角度值时,可以将麦克风干净语音数据也进行时域到频域的转换得到各频点的幅值和相位角度值,再将预测降噪语音数据中第一频段内各频点的幅值与麦克风干净语音数据中第一频段内各频点的幅值计算损失,将预测降噪语音数据中第一频段内各频点的相位角度值与麦克风干净语音数据中第一频段内各频点的相位角度值计算损失,两个损失统称为第一损失。
143.步骤s50,基于预测降噪语音数据中第二频段内的语音数据和麦克风干净语音数据中第二频段内的语音数据计算第二损失;
144.可以基于预测降噪语音数据中第二频段内的语音数据和麦克风干净语音数据中第二频段内的语音数据计算损失(以下称为第二损失以示区分)。
145.在具体实施方式中,当预测降噪语音数据是各频点的幅值和相位角度值时,可以将麦克风干净语音数据也进行时域到频域的转换得到各频点的幅值和相位角度值,再将预测降噪语音数据中第二频段内各频点的幅值与麦克风干净语音数据中第二频段内各频点的幅值计算损失,将预测降噪语音数据中第二频段内各频点的相位角度值与麦克风干净语音数据中第二频段内各频点的相位角度值计算损失,两个损失统称为第二损失。
146.步骤s60,对第一损失和第二损失进行加权求和得到目标损失,根据目标损失更新待训练的语音融合降噪网络,以将更新后的语音融合降噪网络作为下一轮训练的基础;
147.在得到第一损失和第二损失后,可以对第一损失和第二损失进行加权求和得到目标损失。其中,加权求和所采用的加权权重可以预先根据需要进行设置,在本实施例中并不做限制。根据目标损失更新待训练的语音融合降噪网络,也即,更新语音融合降噪网络中的各个网络参数。
148.步骤s70,经过多轮训练后,将更新后的语音融合降噪网络作为训练完成的语音融合降噪网络。
149.将本轮训练更新后的语音融合降噪网络作为下一轮训练的基础,进行下一轮训练。如此循环迭代多次后,将最后一轮更新后的语音融合降噪网络作为训练完成的语音融合降噪网络。其中,训练的轮数在本实施例中并不做限制,例如可以设置达到一定轮数后停止训练,又如可以设置为达到一定训练时长后停止训练,还可以设置为语音融合降噪网络收敛后的停止训练。
150.在本实施例中,通过针对第一频段和第二频段的语音数据损失设置进行加权求和计算目标损失,可以控制骨传导带噪语音数据在语音融合降噪网络训练过程中的对语音降噪的主导作用大小,从而增强骨传导带噪语音数据中低频区间在语音降噪过程中的可信度,进而提高语音融合降噪网络的降噪效果。
151.进一步地,在一实施方式中,步骤s60中对第一损失和第二损失进行加权求和得到目标损失的步骤包括:
152.步骤s601,确定与本轮训练的训练轮次对应的本轮加权权重,其中,训练轮次越大时第二损失对应的加权权重越大;
153.在本实施方式中,可以设置在训练过程中动态调整第一损失和第二损失所对应的权重。
154.具体地,在一轮训练过程中,可以与确定本轮训练的训练轮次对应的加权权重(以下称为本轮加权权重以示区分)。在本实施方式中,对于确定本轮加权权重的方法并不做限制,例如可以将本轮训练的训练轮次代入一个计算公式进行计算得到或者是代入映射表中进行查表得到,但根据该方法确定的加权权重符合当训练轮次越大时第二损失所对应的加权权重越大的规则。这样设置的目的是使得在训练之初,使得麦克风带噪语音数据在训练中占主导地位,避免语音融合降噪网络的训练方向走偏,而在训练到一定程度训练的大致方向确定后,再使得骨传导带噪语音数据在训练中占主导地位,使得语音融合降噪网络学习到如何基于骨传导带噪语音数据来辅助麦克风带噪语音数据进行语音降噪,从而增强骨传导带噪语音数据中低频区间在语音降噪过程中的可信度,进而提高语音融合降噪网络的降噪效果。
155.步骤s602,根据本轮加权权重对第一损失和第二损失进行加权求和得到目标损失。
156.在确定本轮加权权重后,采用本轮加权权重对第一损失和第二损失进行加权求和得到目标损失。
157.进一步地,在一实施方式中,当将麦克风干净语音数据和预测降噪语音数据中的幅值和相位角度值分别计算损失时,可以对基于幅值和相位角度值分别计算得到的损失进行加权求和,加权的权重可以是幅值对应的权重大于相位角度值对应的权重,以使得在语音融合降噪网络能够重点学习到基于频点的幅值所携带的语音信息来预测降噪语音数据的同时,也能够学习到基于频点的相位角度值来预测降噪语音数据,从而使得最终预测得到的降噪语音数据听上去更加的自然。
158.进一步地,在一实施方式中,假设通过语音融合降噪网络预测得到的预测降噪语音数据包括120个频点的幅值和相位角度值,麦克风干净语音数据也包括120个频点的幅值和相位角度值。基于幅值计算的损失可以表示为:
[0159][0160]
其中,l
amp
为频点的幅值所构建的损失函数,preamp
im
为预测降噪语音数据中第m个频点的幅值,i表示的是样本序号,cleanamp
im
为麦克风干净语音数据中第m个频点的幅值;u表示第二频段对应的加权权重,τ表示第一频段对应的加权权重。
[0161]
基于相位角度值计算的损失可以表示为:
[0162][0163]
其中,l
ang
为频点的相位角度值所构建的损失函数,preang
im
为预测降噪语音数据中第m个频点的相位角度值,i表示的是样本序号,cleanang
im
为麦克风干净语音数据中第m个频点的相位角度值;u表示第二频段对应的加权权重,τ表示第一频段对应的加权权重。
[0164]
目标损失可以表示为:
[0165]
l
tatal
=α*l
amp
+β*l
ang
[0166]
其中α表示幅值对应的加权权重,β表示相位角度值对应的加权权重。
[0167]
本发明实施例语音降噪方案可以在蓝牙芯片端完成骨传导语音数据帧与单麦克
风语音数据帧的实时融合处理,即通过输入骨传导语音数据帧与单麦克语音数据帧的频点幅值和相位角度值到语音融合降噪网络,通过语音融合降噪网络可以推理出麦克风干净语音数据帧频点的幅值和相位角度值,再经过复数计算以及反傅里叶变换便可以输出麦克风干净语音数据帧采样点的数据;本发明实施例基于骨传导语音数据的特点,实现了骨传导语音数据帧与单麦克风语音数据帧的频点融合方法,对语音融合降噪网络的结构及其损失函数等进行了精细设计,一定程度上提高了蓝牙芯片端对骨传导语音数据与单麦克风语音数据的实时降噪表现。
[0168]
此外,本发明实施例还提出一种语音降噪装置,参照图4,语音降噪装置包括:
[0169]
获取模块10,用于获取通过麦克风采集的第一语音数据,获取通过骨传导传感器采集的第二语音数据;
[0170]
预测模块20,用于将第一语音数据中第一频段的语音数据和第二语音数据中第二频段的语音数据输入语音融合降噪网络进行预测得到目标降噪语音数据;
[0171]
其中,第一频段大于第二频段;语音融合降噪网络是预先通过将麦克风带噪语音数据和骨传导带噪语音数据作为输入数据,将与麦克风带噪语音数据对应的麦克风干净语音数据作为训练标签进行训练得到的。
[0172]
进一步地,预测模块20还用于:
[0173]
对单帧第一语音数据进行时域到频域的转换得到各频点的第一幅值和第一相位角度值;
[0174]
对单帧第二语音数据进行时域到频域的转换得到各频点的第二幅值和第二相位角度值;
[0175]
根据第一频段内各频点对应的第一幅值和第一相位角度值,以及第二频段内各频点对应的第二幅值和第二相位角度值,生成目标输入数据;
[0176]
将目标输入数据输入语音融合降噪网络进行预测得到各频点的第三幅值和第三相位角度值;
[0177]
基于各频点的第三幅值和第三相位角度值进行频域到时域的转换得到单帧目标降噪语音数据。
[0178]
进一步地,预测模块20还用于:
[0179]
将第一频段内各频点的第一幅值和第二频段内各频点的第二幅值分别进行归一化处理后进行拼接得到第一通道数据;
[0180]
将第一频段内各频点的第一相位角度值和第二频段内各频点的第二相位角度值分别进行归一化处理后进行拼接得到第二通道数据;
[0181]
将第一通道数据和第二通道数据作为两通道的目标输入数据。
[0182]
进一步地,预测模块20还用于:
[0183]
将第一语音数据中第一频段的语音数据和第二语音数据中第二频段的语音数据输入语音融合降噪网络中的卷积层进行卷积处理,得到卷积输出数据;
[0184]
将卷积输出数据输入语音融合降噪网络中的循环神经网络层进行处理得到循环网络输出数据;
[0185]
将卷积输出数据和循环网络输出数据输入语音融合降噪网络中的上采样卷积层进行上采样卷积处理,基于上采样卷积处理的结果得到目标降噪语音数据。
[0186]
进一步地,语音降噪装置还包括:
[0187]
训练模块,训练模块用于在一轮训练中,将麦克风带噪语音数据中第一频段的语音数据和骨传导带噪语音数据中第二频段的语音数据输入待训练的语音融合降噪网络,进行预测得到预测降噪语音数据;
[0188]
基于预测降噪语音数据中第一频段内的语音数据和麦克风干净语音数据中第一频段内的语音数据计算第一损失;
[0189]
基于预测降噪语音数据中第二频段内的语音数据和麦克风干净语音数据中第二频段内的语音数据计算第二损失;
[0190]
对第一损失和第二损失进行加权求和得到目标损失,根据目标损失更新待训练的语音融合降噪网络,以将更新后的语音融合降噪网络作为下一轮训练的基础;
[0191]
经过多轮训练后,将更新后的语音融合降噪网络作为训练完成的语音融合降噪网络。
[0192]
进一步地,训练模块还用于:
[0193]
确定与本轮训练的训练轮次对应的本轮加权权重,其中,训练轮次越大时第二损失对应的加权权重越大;
[0194]
根据本轮加权权重对第一损失和第二损失进行加权求和得到目标损失。
[0195]
进一步地,获取模块10还用于:
[0196]
获取通过麦克风在背景噪声环境下采集的第一背景噪声数据和在噪声隔绝环境下采集的第一干净语音数据,以及获取通过骨传导传感器在背景噪声环境下采集的第二背景噪声数据和在噪声隔绝环境下采集的第二干净语音数据;
[0197]
将第一噪声数据按照预设信噪比添加至第一干净语音数据得到麦克风带噪语音数据;
[0198]
按照麦克风带噪语音数据中的噪声权重将第二噪声数据添加至第二干净语音数据得到骨传导带噪语音数据。
[0199]
本发明语音降噪装置各实施例,均可参照本发明语音降噪方法各个实施例,此处不再赘述。
[0200]
此外,本发明实施例还提出一种计算机可读存储介质,存储介质上存储有语音降噪程序,语音降噪程序被处理器执行时实现如上的语音降噪方法的步骤。
[0201]
本发明语音降噪设备和计算机可读存储介质各实施例,均可参照本发明语音降噪方法各个实施例,此处不再赘述。
[0202]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0203]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0204]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做
出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
[0205]
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

技术特征:


1.一种语音降噪方法,其特征在于,所述语音降噪方法包括以下步骤:获取通过麦克风采集的第一语音数据,获取通过骨传导传感器采集的第二语音数据;将所述第一语音数据中第一频段的语音数据和所述第二语音数据中第二频段的语音数据输入语音融合降噪网络进行预测得到目标降噪语音数据;其中,所述第一频段大于所述第二频段;所述语音融合降噪网络是预先通过将麦克风带噪语音数据和骨传导带噪语音数据作为输入数据,将与所述麦克风带噪语音数据对应的麦克风干净语音数据作为训练标签进行训练得到的。2.如权利要求1所述的语音降噪方法,其特征在于,所述将所述第一语音数据中第一频段的语音数据和所述第二语音数据中第二频段的语音数据输入语音融合降噪网络进行预测得到目标降噪语音数据的步骤包括:对单帧所述第一语音数据进行时域到频域的转换得到各频点的第一幅值和第一相位角度值;对单帧所述第二语音数据进行时域到频域的转换得到各频点的第二幅值和第二相位角度值;根据所述第一频段内各频点对应的所述第一幅值和所述第一相位角度值,以及所述第二频段内各频点对应的所述第二幅值和所述第二相位角度值,生成目标输入数据;将所述目标输入数据输入所述语音融合降噪网络进行预测得到各频点的第三幅值和第三相位角度值;基于各频点的所述第三幅值和所述第三相位角度值进行频域到时域的转换得到单帧目标降噪语音数据。3.如权利要求2所述的语音降噪方法,其特征在于,所述根据所述第一频段内各频点对应的所述第一幅值和所述第一相位角度值,以及所述第二频段内各频点对应的所述第二幅值和所述第二相位角度值,生成目标输入数据的步骤包括:将所述第一频段内各频点的所述第一幅值和所述第二频段内各频点的所述第二幅值分别进行归一化处理后进行拼接得到第一通道数据;将所述第一频段内各频点的所述第一相位角度值和所述第二频段内各频点的所述第二相位角度值分别进行归一化处理后进行拼接得到第二通道数据;将所述第一通道数据和所述第二通道数据作为两通道的目标输入数据。4.如权利要求1所述的语音降噪方法,其特征在于,所述将所述第一语音数据中第一频段的语音数据和所述第二语音数据中第二频段的语音数据输入语音融合降噪网络进行预测得到目标降噪语音数据的步骤包括:将所述第一语音数据中第一频段的语音数据和所述第二语音数据中第二频段的语音数据输入语音融合降噪网络中的卷积层进行卷积处理,得到卷积输出数据;将所述卷积输出数据输入所述语音融合降噪网络中的循环神经网络层进行处理得到循环网络输出数据;将所述卷积输出数据和所述循环网络输出数据输入所述语音融合降噪网络中的上采样卷积层进行上采样卷积处理,基于上采样卷积处理的结果得到目标降噪语音数据。5.如权利要求1所述的语音降噪方法,其特征在于,所述将所述第一语音数据中第一频段的语音数据和所述第二语音数据中第二频段的语音数据输入语音融合降噪网络进行预
测得到目标降噪语音数据的步骤之前,还包括:在一轮训练中,将所述麦克风带噪语音数据中所述第一频段的语音数据和所述骨传导带噪语音数据中所述第二频段的语音数据输入待训练的所述语音融合降噪网络,进行预测得到预测降噪语音数据;基于所述预测降噪语音数据中所述第一频段内的语音数据和所述麦克风干净语音数据中所述第一频段内的语音数据计算第一损失;基于所述预测降噪语音数据中所述第二频段内的语音数据和所述麦克风干净语音数据中所述第二频段内的语音数据计算第二损失;对所述第一损失和所述第二损失进行加权求和得到目标损失,根据所述目标损失更新待训练的所述语音融合降噪网络,以将更新后的所述语音融合降噪网络作为下一轮训练的基础;经过多轮训练后,将更新后的所述语音融合降噪网络作为训练完成的所述语音融合降噪网络。6.如权利要求5所述的语音降噪方法,其特征在于,所述对所述第一损失和所述第二损失进行加权求和得到目标损失的步骤包括:确定与本轮训练的训练轮次对应的本轮加权权重,其中,训练轮次越大时所述第二损失对应的加权权重越大;根据所述本轮加权权重对所述第一损失和所述第二损失进行加权求和得到目标损失。7.如权利要求1至6中任一项所述的语音降噪方法,其特征在于,所述将所述第一语音数据中第一频段的语音数据和所述第二语音数据中第二频段的语音数据输入语音融合降噪网络进行预测得到目标降噪语音数据的步骤之前,还包括:获取通过麦克风在背景噪声环境下采集的第一背景噪声数据和在噪声隔绝环境下采集的第一干净语音数据,以及获取通过骨传导传感器在所述背景噪声环境下采集的第二背景噪声数据和在所述噪声隔绝环境下采集的第二干净语音数据;将所述第一噪声数据按照预设信噪比添加至所述第一干净语音数据得到所述麦克风带噪语音数据;按照所述麦克风带噪语音数据中的噪声权重将所述第二噪声数据添加至所述第二干净语音数据得到所述骨传导带噪语音数据。8.一种语音降噪装置,其特征在于,所述语音降噪装置包括:获取模块,用于获取通过麦克风采集的第一语音数据,获取通过骨传导传感器采集的第二语音数据;预测模块,用于将所述第一语音数据中第一频段的语音数据和所述第二语音数据中第二频段的语音数据输入语音融合降噪网络进行预测得到目标降噪语音数据;其中,所述第一频段大于所述第二频段;所述语音融合降噪网络是预先通过将麦克风带噪语音数据和骨传导带噪语音数据作为输入数据,将与所述麦克风带噪语音数据对应的麦克风干净语音数据作为训练标签进行训练得到的。9.一种语音降噪设备,其特征在于,所述语音降噪设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音降噪程序,所述语音降噪程序被所述处理器执行时实现如权利要求1至7中任一项所述的语音降噪方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有语音降噪程序,所述语音降噪程序被处理器执行时实现如权利要求1至7中任一项所述的语音降噪方法的步骤。

技术总结


本发明公开了一种语音降噪方法、装置、设备及计算机可读存储介质,语音降噪方法包括:获取通过麦克风采集的第一语音数据,获取通过骨传导传感器采集的第二语音数据;将第一语音数据中第一频段的语音数据和第二语音数据中第二频段的语音数据输入语音融合降噪网络进行预测得到目标降噪语音数据;其中,第一频段大于第二频段;语音融合降噪网络是预先通过将麦克风带噪语音数据和骨传导带噪语音数据作为输入数据,将与麦克风带噪语音数据对应的麦克风干净语音数据作为训练标签进行训练得到的。本发明语音降噪方案提高了语音降噪效果。本发明语音降噪方案提高了语音降噪效果。本发明语音降噪方案提高了语音降噪效果。


技术研发人员:

李晶晶

受保护的技术使用者:

歌尔科技有限公司

技术研发日:

2022.06.30

技术公布日:

2022/10/11

本文发布于:2024-09-23 03:31:02,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/27650.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语音   数据   降噪   频段
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议