语音降噪方法及装置与流程



1.本发明语音信号处理技术领域,尤其涉及一种语音降噪方法及装置。


背景技术:



2.目前,在进行语音通话时,由于噪声的存在,语音的质量会下降。相关技术中,采用气传导声音信号,存在在外部噪声较强的环境中,人的声音信号难以从噪声中分离出来的问题;采用骨传导声音信号,存在容易受到其他高频信号干扰的问题。


技术实现要素:



3.本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
4.为此,本发明的第一个目的在于提出一种语音降噪方法,以通过将骨传导声音信号和气传导声音信号进行有效融合,从而实现语音信号的降噪,提高电子设备的语音质量。
5.本发明的第二个目的在于提出一种语音降噪装置。
6.本发明的第三个目的在于提出一种语音降噪设备。
7.本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
8.本发明的第五个目的在于提出一种计算机程序产品。
9.为达上述目的,本发明第一方面实施例提出了一种语音降噪方法,应用于电子设备,包括:获取气传导麦克风采集的气传导声音信号;获取骨传导麦克风采集的骨传导声音信号;通过预设的声学事件监测算法和预设的目标事件对所述骨传导声音信号进行检测,得到目标事件的开始时刻和结束时刻,其中,所述目标事件为持有所述电子设备的用户发出语音;根据所述开始时刻和所述结束时刻,分别对所述骨传导声音信号和所述气传导声音信号进行分段处理,得到骨传导目标事件信号段、骨传导无目标事件信号段、气传导目标事件信号段和气传导无目标事件信号段;对于所述骨传导目标事件信号段、所述气传导目标事件信号段中的至少部分频段内的信号进行融合计算,得到融合信号,对所述融合信号进行降噪后输出;对所述骨传导无目标事件信号段和所述气传导无目标事件信号段分别进行降噪后输出。
10.本发明实施例的语音降噪方法,通过获取气传导声音信号和骨传导声音信号,以及骨传导目标事件信号段、骨传导无目标事件信号段、气传导目标事件信号段和气传导无目标事件信号段,对骨传导目标事件信号段、气传导目标事件信号段中的至少部分频段内的信号进行融合,从而生成融合信号,对融合信号和无目标事件信号段分别进行降噪处理后输出。由此,通过将骨传导声音信号和气传导声音信号进行有效融合,从而实现语音信号的降噪,提高电子设备的语音质量。
11.为达上述目的,本发明第二方面实施例提出了一种语音降噪装置,应用于电子设备,包括:第一获取模块,用于获取气传导麦克风采集的气传导声音信号;第二获取模块,用于获取骨传导麦克风采集的骨传导声音信号;检测模块,用于通过预设的声学事件监测算法和预设的目标事件对所述骨传导声音信号进行检测,得到目标事件的开始时刻和结束时
刻,其中,所述目标事件为持有所述电子设备的用户发出语音;处理模块,用于根据所述开始时刻和所述结束时刻,分别对所述骨传导声音信号和所述气传导声音信号进行分段处理,得到骨传导目标事件信号段、骨传导无目标事件信号段、气传导目标事件信号段和气传导无目标事件信号段;融合模块,用于对于所述骨传导目标事件信号段、所述气传导目标事件信号段中的至少部分频段内的信号进行融合计算,得到融合信号,对所述融合信号进行降噪后输出;降噪模块,用于对所述骨传导无目标事件信号段和所述气传导无目标事件信号段分别进行降噪后输出。
12.本发明实施例的语音降噪装置,通过获取气传导声音信号和骨传导声音信号,以及骨传导目标事件信号段、骨传导无目标事件信号段、气传导目标事件信号段和气传导无目标事件信号段,对骨传导目标事件信号段、气传导目标事件信号段中的至少部分频段内的信号进行融合,从而生成融合信号,对融合信号和无目标事件信号段分别进行降噪处理后输出。由此,通过将骨传导声音信号和气传导声音信号进行有效融合,从而实现语音信号的降噪,提高电子设备的语音质量。
13.为达上述目的,本发明第三方面实施例提出了语音降噪设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明第一方面实施例所述的方法。
14.为了实现上述目的,本发明第四方面实施例提出了一种存储有计算机指令的非临时性计算机可读存储介质,所述计算机指令用于使所述计算机执行本发明第一方面实施例所述的方法。
15.为了实现上述目的,本发明第五方面实施例提出了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本发明第一方面实施例所述的方法。
16.本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
17.本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
18.图1为本发明实施例所提供的一种语音降噪方法的流程示意图;
19.图2为本发明实施例所提供的另一种语音降噪方法的流程示意图;
20.图3为本发明实施例提供的另一种语音降噪方法的示意图;
21.图4为本发明实施例提供的一种信号融合模块的结构示意图;
22.图5为本发明实施例提供的一种语音降噪装置的结构示意图;
23.图6为本发明实施例所提供的一种用于实现语音降噪功能的语音降噪设备的框图。
具体实施方式
24.下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附
图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
25.下面参考附图描述本发明实施例的语音降噪方法及装置。
26.图1为本发明实施例所提供的一种语音降噪方法的流程示意图。
27.目前,在进行语音通话时,由于噪声的存在,语音的质量会下降。相关技术中,采用气传导声音信号,存在在外部噪声较强的环境中,人的声音信号难以从噪声中分离出来的问题;采用骨传导声音信号,存在容易受到其他高频信号干扰的问题。
28.针对这一问题,本发明实施例提供了一种语音降噪方法及装置,以通过将骨传导声音信号和气传导声音信号进行有效融合,从而实现语音信号的降噪,提高电子设备的语音质量。如图1所示,需要说明的是,本发明的语音降噪方法的执行主体为语音降噪装置。本发明实施例的语音降噪方法可以由本发明实施例的语音降噪装置执行,本发明实施例的语音降噪装置可以配置在任意语音降噪设备中,或者任意语音降噪设备上的任意软件中,以执行本发明实施例的语音降噪方法。
29.其中,语音降噪设备可以为信号融合模块,下面实施例以语音降噪设备为信号融合模块为例进行介绍。该语音降噪方法包括以下步骤:
30.步骤101,获取气传导麦克风采集的气传导声音信号。
31.本实施例中,语音降噪方法可应用于电子设备,电子设备可以为手机,或者耳机等具有收集声波信号能力的可穿戴设备。
32.步骤102,获取骨传导麦克风采集的骨传导声音信号。
33.其中,气传导声音信号和骨传导声音信号都为声波信号(振动信号),气传导声音信号是声波信号通过空气传播至电子设备,语音降噪设备对气传导声音信号进行收集;骨传导声音信号是声波信号通过骨头传播至电子设备,语音降噪设备对骨传导声音信号进行收集。
34.步骤103,通过预设的声学事件监测算法和预设的目标事件对骨传导声音信号进行检测,得到目标事件的开始时刻和结束时刻,其中,目标事件为持有电子设备的用户发出语音。
35.作为一种可能的实现方式,语音降噪设备执行步骤103的过程可以为,对骨传导声音信号进行预处理,检测骨传导声音信号中的目标事件,确定目标事件在骨传导声音信号中的开始时刻和结束时刻。其中,开始时刻为骨传导声音信号中出现人声的开始时刻,结束时刻为骨传导声音信号中人声结束的时刻。其中,开始时刻和结束时刻可以为多个。
36.步骤104,根据开始时刻和结束时刻,分别对骨传导声音信号和气传导声音信号进行分段处理,得到骨传导目标事件信号段、骨传导无目标事件信号段、气传导目标事件信号段和气传导无目标事件信号段。
37.作为一种可能的实现方式,由于骨传导声音信号和气传导声音信号存在多个开始时刻和多个结束时刻,分别对骨传导声音信号和气传导声音信号的多个开始时刻和多个结束时刻进行定位,根据多个开始时刻和多个结束时刻的位置,对骨传导声音信号和气传导声音信号进行分割,可以得到多段骨传导目标事件信号段、多段骨传导无目标事件信号段、多段气传导目标事件信号段和多段气传导无目标事件信号段。
38.步骤105,对于骨传导目标事件信号段、气传导目标事件信号段中的至少部分频段内的信号进行融合计算,得到融合信号,对融合信号进行降噪后输出。
39.作为一种可能的实现方式,得到骨传导目标事件信号段、气传导目标事件信号段之后,对骨传导目标事件信号段、气传导目标事件信号段进行分段,得到多个频段,对多个频段中的至少一个频段,将骨传导目标事件信号段、气传导目标事件信号段进行融合计算,将融合后的至少一个频段信号进行拼接等处理得到融合信号。
40.步骤106,对骨传导无目标事件信号段和气传导无目标事件信号段分别进行降噪后输出。
41.在本发明实施例中,得到融合信号之后,还可以对融合信号、骨传导无目标事件信号段和气传导无目标事件信号段进行降噪。可选地,可以采用基于神经网络模型的降噪方法,使用训练好的神经网络模型对融合信号、骨传导无目标事件信号段和气传导无目标事件信号段进行降噪处理,进一步提高语音的质量。
42.本发明实施例的语音降噪方法,通过获取气传导麦克风采集的气传导声音信号;获取骨传导麦克风采集的骨传导声音信号;通过预设的声学事件监测算法和预设的目标事件对骨传导声音信号进行检测,得到目标事件的开始时刻和结束时刻,其中,目标事件为持有电子设备的用户发出语音;根据开始时刻和结束时刻,分别对骨传导声音信号和气传导声音信号进行分段处理,得到骨传导目标事件信号段、骨传导无目标事件信号段、气传导目标事件信号段和气传导无目标事件信号段;对于骨传导目标事件信号段、气传导目标事件信号段中的至少部分频段内的信号进行融合计算,得到融合信号,对融合信号进行降噪后输出;对骨传导无目标事件信号段和气传导无目标事件信号段分别进行降噪后输出。由此,通过将骨传导声音信号和气传导声音信号进行有效融合,从而实现语音信号的降噪,提高电子设备的语音质量。
43.为了清楚说明本发明提供的语音降噪方法,本实施例提供了另一种语音降噪方法,图2为本发明实施例所提供的另一种语音降噪方法的流程示意图。
44.如图2所示,该语音降噪方法可以包括以下步骤:
45.步骤201,获取气传导麦克风采集的气传导声音信号。
46.步骤202,获取骨传导麦克风采集的骨传导声音信号。
47.步骤203,通过预设的声学事件监测算法和预设的目标事件对骨传导声音信号进行检测,得到目标事件的开始时刻和结束时刻,其中,目标事件为持有电子设备的用户发出语音。
48.步骤204,根据开始时刻和结束时刻,分别对骨传导声音信号和气传导声音信号进行分段处理,得到骨传导目标事件信号段、骨传导无目标事件信号段、气传导目标事件信号段和气传导无目标事件信号段。
49.步骤205,根据预设的窗函数,分别对骨传导目标事件信号段、气传导目标事件信号段在频带内进行分段,得到多个频段。
50.在本发明实施例中,由于气传导声音信号和骨传导声音信号不是频域平稳信号,因此,在不同的频段,将电子设备的骨传导目标事件信号段和气传导目标事件信号做分段平滑互相关,可以更有效地判断各个频段的相关性,从而实现气传导声音信号和骨传导声音信号更好的融合。
51.其中,窗函数可以根据被骨传导目标事件信号段、气传导目标事件信号段的性质与分段要求进行预设。
52.步骤206,对于每个频段,确定对应的平滑互相关系数,其中,平滑互相关系数用于表示在该频段骨传导目标事件信号段和气传导目标事件信号段二者的相似性。
53.作为一种可能的实现方式,通过以下算式(1)计算气传导目标事件信号段和骨传导目标事件信号段之间的在各个频段的平滑互相关系数:
54.seg_coff=f-1
(f(mic_air)
×f*
(mic_bone)
×
wind)(1),其中,seg_coff表示平滑互相关系数,f-1
表示逆傅里叶变换函数,f表示傅里叶变换函数,f
*
表示傅里叶变换的共轭函数,wind表示预设的窗函数,mic_air为气传导目标事件信号段,mic_bone为骨传导目标事件信号段。
55.步骤207,根据平滑互相关系数,确定融合频段和非融合频段,其中,融合频段指的是需要进行融合的频段,非融合频段指的是不需要进行融合的频段。
56.作为一种可能的实现方式,如果多个频段之中任一频段的平滑互相关系数大于或等于预设阈值,则判断频段为融合频段;如果多个频段之中任一频段的平滑互相关系数小于预设阈值,则判断频段为非融合频段。
57.可选地,平滑互相关系数seg_coff大于或等于预设阈值β,相关性函数f_seg为1,表示当前频段有效,可以进行融合;平滑互相关系数seg_coff小于预设阈值β,相关性函数f_seg为0,表示当前频段无效,不可以进行融合。其中,预设阈值β可以根据电子设备的实际使用情况进行修改。
58.作为一种可能的实现方式,对于各个频段上不需要融合的频段,从气传导声音信号和骨传导声音信号之中选择在当前频段内信噪比更高的信号作为增强语音信号。
59.步骤208,根据预设的融合算法,对融合频段进行融合计算,得到融合信号。
60.作为一种可能的实现方式,分别对骨传导事件信号段、气传导事件信号段进行噪声估计,得到骨传导信噪比和气传导信噪比;根据骨传导信噪比和气传导信噪比,确定融合系数;根据融合系数和预设的融合算法,进行融合计算,得到融合信号。
61.可选地,根据骨传导信噪比和气传导信噪比,确定融合系数的过程可以为,根据气传导声音信号和骨传导声音信号在多个频段的信噪比以及确定融合系数的函数,分别计算气传导声音信号和骨传导声音信号的融合系数。
62.作为一种可能的实现方式,对气传导目标事件信号段和骨传导目标事件信号段在各个频段上分别进行噪声估计,以生成气传导目标事件信号段和骨传导目标事件信号段在各个频段的信噪比。
63.可选地,对气传导目标事件信号段进行噪声估计,估计气传导目标事件信号段的功率为p
air
;对vad(voice activity detection,语音活动检测)分离出的骨传导目标事件信号段进行噪声估计,估计骨传导目标事件信号段的功率为p
bone

64.假设估计噪声功率为p
noise
,那么p
noise
(t,f)=|x(t,f)|2ꢀꢀ
(2),其中,x表示信号的傅里叶变换,|x(t,f)|2表示周期图法估计出的功率谱,x(t,f)表示在第t帧、第f个频点的数值,p
noise
(t,f)是第t帧、第f个频点的噪声的估计值。
65.那么在语音活动期间,有p
noise
(t,f)=γ(t,f)
·
p
noise
(t,f)+[1-γ(t,f)]|x(t,
f)|2(3),即其中,h1表示存在语音活动,h0表示不存在语音活动,γ(t,f)是语音活动期间估计噪声功率的平滑因子,是时间和频率的函数,可以根据每一帧信号的每一个频点的snr(signal-to-noise ratio,信噪比)σ(t,f)计算得到。
[0066]
在本发明实施例中,γ(t,f)可由下列算式(5)递归平均算法计算得到:利用sigmoid函数(激活函数)将γ(t,f)的取值范围映射在在0~1之间,α调整sigmoid函数的坡度,通常α小于1,用于降低γ(t,f)对信噪比的敏感度,防止p
noise
(t,f)变为阶跃函数,导致噪声低估。
[0067]
当噪声被低估时,p
noise
(t,f)曲线比较平滑,方差较小(例如小于5),此时通过减小α的值进行调节;当噪声被高估时,p
noise
(t,f)变化剧烈,方差较大(例如大于10),此时通过增大α的值进行调节。α的取值,例如,可以为0.5。
[0068]
σ(t,f)可由下列算式(6)计算得到其中,q表示过去q帧,一般取10~20之间的数值;q表示帧数变量,从1开始取值。
[0069]
在本发明实施例中,根据上述的算式(2)到(6),将噪声替换为气传导目标事件信号段和骨传导目标事件信号段,分别计算得到估计气传导目标事件信号段的功率为p
air
、估计骨传导目标事件信号段的功率为p
bone
、气传导信噪比σ
air
、骨传导信噪比σ
bone

[0070]
通过以下算式分别计算气传导目标事件信号和骨传导目标事件信号的融合系数,
[0071]
λ
air
=g(σ
air

bone
)(7),λ
bone
=g(σ
bone

air
)(8),其中λ
air
为气传导目标事件信号的融合系数,λ
bone
为骨传导目标事件信号的融合系数,g(
·
)是确定融合系数的函数,σ
air
为气传导信噪比,σ
bone
为骨传导信噪比。其中,g(
·
)函数的具体算式可以为
[0072]
步骤209,对骨传导无目标事件信号段和气传导无目标事件信号段分别进行降噪后输出。
[0073]
其中,需要说明的是,步骤201、202、203、204和209的具体说明可以参考本发明的其他实施例,在此不再详细解释。
[0074]
综上,通过获取气传导麦克风采集的气传导声音信号;获取骨传导麦克风采集的骨传导声音信号;通过预设的声学事件监测算法和预设的目标事件对骨传导声音信号进行检测,得到目标事件的开始时刻和结束时刻,其中,目标事件为持有电子设备的用户发出语音;根据开始时刻和结束时刻,分别对骨传导声音信号和气传导声音信号进行分段处理,得到骨传导目标事件信号段、骨传导无目标事件信号段、气传导目标事件信号段和气传导无目标事件信号段;根据预设的窗函数,分别对骨传导目标事件信号段、气传导目标事件信号段在频带内进行分段,得到多个频段;对于每个频段,确定对应的平滑互相关系数,其中,平
滑互相关系数用于表示在该频段骨传导目标事件信号段和气传导目标事件信号段二者的相似性;根据平滑互相关系数,确定融合频段和非融合频段,其中,融合频段指的是需要进行融合的频段,非融合频段指的是不需要进行融合的频段;根据预设的融合算法,对融合频段进行融合计算,得到融合信号;对骨传导无目标事件信号段和气传导无目标事件信号段分别进行降噪后输出。由此,通过将骨传导声音信号和气传导声音信号进行有效融合,从而实现语音信号的降噪,提高电子设备的语音质量。
[0075]
举例说明,图3为本发明实施例提供的另一种语音降噪方法的示意图。
[0076]
如图3所示,步骤s1,接收气传导声音信号。
[0077]
步骤s2,接收骨传导声音信号。
[0078]
步骤s3,频域分段平滑互相关(获取气传导目标事件信号段和骨传导目标事件信号段之间的在各个频段的平滑互相关系数)。
[0079]
步骤s4,环境噪声估计(对气传导目标事件信号段和骨传导目标事件信号段在各个频段上分别进行噪声估计)。
[0080]
步骤s5,根据骨传导声音信号,进行vad(voice activity detection,语音活动检测)检测。
[0081]
步骤s6,根据分段相关性,估计有效频段,确定需要进行融合的频段(根据在各个频段的平滑互相关系数确定骨传导目标事件信号段和气传导目标事件信号段之中需要融合的频段)。
[0082]
步骤s7,分别计算气传导目标事件信号段和骨传导目标事件信号段的当前频段的信噪比。
[0083]
步骤s8,根据气传导目标事件信号段和骨传导目标事件信号段在各个频段的信噪比,分别确定对应的融合系数。
[0084]
步骤s9,对融合信号进行降噪。
[0085]
综上,通过接收气传导声音信号;接收骨传导声音信号;获取气传导目标事件信号段和骨传导目标事件信号段之间的在各个频段的平滑互相关系数;对气传导目标事件信号段和骨传导目标事件信号段在各个频段上分别进行噪声估计;根据骨传导声音信号,进行vad(voice activity detection,语音活动检测)检测;根据在各个频段的平滑互相关系数确定骨传导目标事件信号段之中需要融合的频段;分别计算气传导目标事件信号段和骨传导目标事件信号段的当前频段的信噪比;根据气传导目标事件信号段和骨传导目标事件信号段在各个频段的信噪比,分别确定对应的融合系数;对融合信号进行降噪。由此,通过确定气传导目标事件信号段和骨传导目标事件信号段的平滑互相关系数和融合系数,进而将气传导目标事件信号段和骨传导目标事件信号段进行融合,生成融合信号,从而实现语音信号的降噪,提高电子设备的语音质量。
[0086]
图4为本发明实施例提供的一种信号融合模块的结构示意图。
[0087]
如图4所示,信号融合模块包括:第一模块410、第二模块420、第三模块430和第四模块440。
[0088]
其中,第一模块410用于接收气传导声音信号和骨传导声音信号;第二模块420用于获取气传导目标事件信号段和骨传导目标事件信号段之间的在各个频段的平滑互相关系数以及对气传导目标事件信号段和骨传导目标事件信号段在各个频段上分别进行噪声
估计;第三模块430用于根据气传导目标事件信号段和骨传导目标事件信号段在各个频段的信噪比,分别确定对应的融合系数;第四模块440用于对融合信号进行降噪。
[0089]
综上,通过接收气传导声音信号;接收骨传导声音信号;获取气传导目标事件信号段和骨传导目标事件信号段之间的在各个频段的平滑互相关系数;对气传导目标事件信号段和骨传导目标事件信号段在各个频段上分别进行噪声估计;根据骨传导声音信号,进行vad(voice activity detection,语音活动检测)检测;根据在各个频段的平滑互相关系数确定骨传导目标事件信号段之中需要融合的频段;分别计算气传导目标事件信号段和骨传导目标事件信号段的当前频段的信噪比;根据气传导目标事件信号段和骨传导目标事件信号段在各个频段的信噪比,分别确定对应的融合系数;对融合信号进行降噪。由此,通过确定气传导目标事件信号段和骨传导目标事件信号段的平滑互相关系数和融合系数,进而将气传导目标事件信号段和骨传导目标事件信号段进行融合,生成融合信号,从而实现语音信号的降噪,提高电子设备的语音质量。
[0090]
为了实现上述实施例,本发明还提出一种语音降噪装置。
[0091]
图5为本发明实施例提供的一种语音降噪装置的结构示意图。
[0092]
如图5所示,该语音降噪装置500包括:第一获取模块510、第二获取模块520、检测模块530、处理模块540、融合模块550和降噪模块560。
[0093]
其中,第一获取模块510,用于,用于获取气传导麦克风采集的气传导声音信号;
[0094]
第二获取模块520,用于获取骨传导麦克风采集的骨传导声音信号;
[0095]
检测模块530,用于通过预设的声学事件监测算法和预设的目标事件对所述骨传导声音信号进行检测,得到目标事件的开始时刻和结束时刻,其中,所述目标事件为持有所述电子设备的用户发出语音;
[0096]
处理模块540,用于根据所述开始时刻和所述结束时刻,分别对所述骨传导声音信号和所述气传导声音信号进行分段处理,得到骨传导目标事件信号段、骨传导无目标事件信号段、气传导目标事件信号段和气传导无目标事件信号段;
[0097]
融合模块550,用于对于所述骨传导目标事件信号段、所述气传导目标事件信号段中的至少部分频段内的信号进行融合计算,得到融合信号,对所述融合信号进行降噪后输出;
[0098]
降噪模块560,用于对所述骨传导无目标事件信号段和所述气传导无目标事件信号段分别进行降噪后输出。
[0099]
进一步地,在本发明实施例的一种可能的实现方式中,所述融合模块550,包括:第一确定单元、第二确定单元、第三确定单元和融合单元;其中,所述第一确定单元,用于根据预设的窗函数,分别对所述骨传导目标事件信号段、气传导目标事件信号段在频带内进行分段,得到多个频段;所述第二确定单元,用于对于每个频段,确定对应的平滑互相关系数,其中,所述平滑互相关系数用于表示在该频段所述骨传导目标事件信号段和所述气传导目标事件信号段二者的相似性;所述第三确定单元,用于根据所述平滑互相关系数,确定融合频段和非融合频段,其中,所述融合频段指的是需要进行融合的频段,所述非融合频段指的是不需要进行融合的频段;所述融合单元,用于根据预设的融合算法,对所述融合频段进行融合计算,得到所述融合信号。
[0100]
在本发明实施例的一种可能的实现方式中,所述融合单元,具体用于,分别对所述
骨传导目标事件信号段、所述气传导目标事件信号段进行噪声估计,得到骨传导信噪比和气传导信噪比;根据所述骨传导信噪比和所述气传导信噪比,确定融合系数;根据所述融合系数和预设的融合算法,进行融合计算,得到所述融合信号。
[0101]
在本发明实施例的一种可能的实现方式中,所述第二确定单元,具体用于,分别确定每个频段对应的所述骨传导目标事件信号段和所述气传导目标事件信号段;确定所述每个频段对应的傅里叶变换函数、逆傅里叶变换函数以及傅里叶变换的共轭函数;根据所述预设的窗函数、所述傅里叶变换函数、所述逆傅里叶变换函数以及所述傅里叶变换的共轭函数,计算所述每个频段对应的所述骨传导目标事件信号段和所述气传导目标事件信号段之间的所述平滑互相关系数。
[0102]
在本发明实施例的一种可能的实现方式中,所述第三确定单元,具体用于,如果所述多个频段之中任一频段的所述平滑互相关系数大于或等于预设阈值,则判断所述频段为融合频段;如果所述多个频段之中任一频段的所述平滑互相关系数小于所述预设阈值,则判断所述频段为非融合频段。
[0103]
在本发明实施例的一种可能的实现方式中,所述融合单元,具体用于,根据所述气传导目标事件信号段和所述骨传导目标事件信号段在所述多个频段的信噪比以及确定融合系数的函数,分别计算所述气传导目标事件信号段和所述骨传导目标事件信号段的融合系数。
[0104]
在本发明实施例的一种可能的实现方式中,通过以下算式分别计算所述气传导目标事件信号和所述骨传导目标事件信号段的融合系数,λ
air
=g(σ
air

bone
),λ
bone
=g(σ
bone

air
),其中λ
air
为所述气传导目标事件信号段的融合系数,λ
bone
为所述骨传导目标事件信号段的融合系数,g(
·
)是所述确定融合系数的函数,σ
air
为所述气传导信噪比,σ
bone
为所述骨传导信噪比。
[0105]
在本发明实施例的一种可能的实现方式中,通过以下算式计算所述平滑互相关系数:seg_coff=f-1
(f(mic_air)
×
f*(mic_bone)
×
wind),其中,seg_coff表示平滑互相关系数,f-1
表示所述逆傅里叶变换函数,f表示所述傅里叶变换函数,f
*
表示所述傅里叶变换的共轭函数,wind表示所述预设的窗函数,mic_air为所述气传导目标事件信号段,mic_bone为所述骨传导目标事件信号段。
[0106]
需要说明的是,前述对语音降噪方法实施例的解释说明也适用于该实施例的语音降噪装置,此处不再赘述。
[0107]
本发明实施例的语音降噪装置,通过获取气传导麦克风采集的气传导声音信号;获取骨传导麦克风采集的骨传导声音信号;通过预设的声学事件监测算法和预设的目标事件对骨传导声音信号进行检测,得到目标事件的开始时刻和结束时刻,其中,目标事件为持有电子设备的用户发出语音;根据开始时刻和结束时刻,分别对骨传导声音信号和气传导声音信号进行分段处理,得到骨传导目标事件信号段、骨传导无目标事件信号段、气传导目标事件信号段和气传导无目标事件信号段;对于骨传导目标事件信号段、气传导目标事件信号段中的至少部分频段内的信号进行融合计算,得到融合信号,对融合信号进行降噪后输出;对骨传导无目标事件信号段和气传导无目标事件信号段分别进行降噪后输出。由此,通过将骨传导声音信号和气传导声音信号进行有效融合,从而实现语音信号的降噪,提高电子设备的语音质量。
[0108]
为了实现上述实施例,本发明还提供了一种语音降噪设备和一种非临时性计算机可读存储介质和一种计算机程序产品。
[0109]
其中,语音降噪设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如前所述的本发明第一方面实施例提出的语音降噪方法。
[0110]
作为一种示例,图6为本发明实施例所提供的一种用于实现语音降噪功能的语音降噪设备的框图,如图6所示,上述语音降噪设备600,还可以包括:
[0111]
存储器610及处理器620,连接不同组件(包括存储器610和处理器620)的总线630,存储器610存储有计算机程序,当处理器620执行所述程序时实现如前所述的本发明第一方面实施例提出的语音降噪方法。
[0112]
总线630表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(isa)总线,微通道体系结构(mac)总线,增强型isa总线、视频电子标准协会(vesa)局域总线以及外围组件互连(pci)总线。
[0113]
语音降噪设备600典型地包括多种计算机可读介质。这些介质可以是任何能够被语音降噪设备600访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
[0114]
存储器610还可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(ram)640和/或高速缓存存储器650。语音降噪设备600可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统660可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如cd-rom,dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线630相连。存储器610可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
[0115]
具有一组(至少一个)程序模块670的程序/实用工具680,可以存储在例如存储器610中,这样的程序模块670包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块670通常执行本发明所描述的实施例中的功能和/或方法。
[0116]
语音降噪设备600也可以与一个或多个外部设备690(例如键盘、指向设备、显示器691等)通信,还可与一个或者多个使得用户能与该语音降噪设备600交互的设备通信,和/或与使得该语音降噪设备600能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口692进行。并且,语音降噪设备600还可以通过网络适配器693与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图6所示,网络适配器693通过总线630与语音降噪设备600的其它模块通信。应当明白,尽管图6中未示出,可以结合语音降噪设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱
动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
[0117]
处理器620通过运行存储在存储器610中的程序,从而执行各种功能应用以及数据处理。
[0118]
需要说明的是,本实施例的语音降噪设备的实施过程和技术原理参见前述对本发明实施例的语音降噪方法的解释说明,此处不再赘述。
[0119]
本发明实施例提供的语音降噪设备,通过获取气传导麦克风采集的气传导声音信号;获取骨传导麦克风采集的骨传导声音信号;通过预设的声学事件监测算法和预设的目标事件对骨传导声音信号进行检测,得到目标事件的开始时刻和结束时刻,其中,目标事件为持有电子设备的用户发出语音;根据开始时刻和结束时刻,分别对骨传导声音信号和气传导声音信号进行分段处理,得到骨传导目标事件信号段、骨传导无目标事件信号段、气传导目标事件信号段和气传导无目标事件信号段;对于骨传导目标事件信号段、气传导目标事件信号段中的至少部分频段内的信号进行融合计算,得到融合信号,对融合信号进行降噪后输出;对骨传导无目标事件信号段和气传导无目标事件信号段分别进行降噪后输出。由此,通过将骨传导声音信号和气传导声音信号进行有效融合,从而实现语音信号的降噪,提高电子设备的语音质量。
[0120]
为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,其中,当计算机可读存储介质中的指令由语音降噪设备的处理器执行时,使得语音降噪设备能够执行如前所述的本发明第一方面实施例提出的语音降噪方法。
[0121]
为了实现上述实施例,本发明还提供一种计算机程序产品,该计算机程序由语音降噪设备的处理器执行时,使得语音降噪设备能够执行如前所述的本发明第一方面实施例提出的语音降噪方法。
[0122]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0123]
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
[0124]
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
[0125]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供
指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
[0126]
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0127]
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
[0128]
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
[0129]
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

技术特征:


1.一种语音降噪方法,其特征在于,应用于电子设备,包括:获取气传导麦克风采集的气传导声音信号;获取骨传导麦克风采集的骨传导声音信号;通过预设的声学事件监测算法和预设的目标事件对所述骨传导声音信号进行检测,得到目标事件的开始时刻和结束时刻,其中,所述目标事件为持有所述电子设备的用户发出语音;根据所述开始时刻和所述结束时刻,分别对所述骨传导声音信号和所述气传导声音信号进行分段处理,得到骨传导目标事件信号段、骨传导无目标事件信号段、气传导目标事件信号段和气传导无目标事件信号段;对于所述骨传导目标事件信号段、所述气传导目标事件信号段中的至少部分频段内的信号进行融合计算,得到融合信号,对所述融合信号进行降噪后输出;对所述骨传导无目标事件信号段和所述气传导无目标事件信号段分别进行降噪后输出。2.如权利要求1所述的方法,其特征在于,所述对于所述骨传导目标事件信号段、所述气传导目标事件信号段中的至少部分频段内的信号进行融合计算,得到融合信号,包括:根据预设的窗函数,分别对所述骨传导目标事件信号段、气传导目标事件信号段在频带内进行分段,得到多个频段;对于每个频段,确定对应的平滑互相关系数,其中,所述平滑互相关系数用于表示在该频段所述骨传导目标事件信号段和所述气传导目标事件信号段二者的相似性;根据所述平滑互相关系数,确定融合频段和非融合频段,其中,所述融合频段指的是需要进行融合的频段,所述非融合频段指的是不需要进行融合的频段;根据预设的融合算法,对所述融合频段进行融合计算,得到所述融合信号。3.如权利要求2所述的方法,其特征在于,所述根据预设的融合算法,对所述融合频段进行融合计算,得到所述融合信号,包括:分别对所述骨传导目标事件信号段、所述气传导目标事件信号段进行噪声估计,得到骨传导信噪比和气传导信噪比;根据所述骨传导信噪比和所述气传导信噪比,确定融合系数;根据所述融合系数和预设的融合算法,进行融合计算,得到所述融合信号。4.如权利要求2所述的方法,其特征在于,所述对于每个频段,确定对应的平滑互相关系数,包括:分别确定每个频段对应的所述骨传导目标事件信号段和所述气传导目标事件信号段;确定所述每个频段对应的傅里叶变换函数、逆傅里叶变换函数以及傅里叶变换的共轭函数;根据所述预设的窗函数、所述傅里叶变换函数、所述逆傅里叶变换函数以及所述傅里叶变换的共轭函数,计算所述每个频段对应的所述骨传导目标事件信号段和所述气传导目标事件信号段之间的所述平滑互相关系数。5.如权利要求2所述的方法,其特征在于,所述根据所述平滑互相关系数,确定融合频段和非融合频段,包括:如果所述多个频段之中任一频段的所述平滑互相关系数大于或等于预设阈值,则判断
所述频段为融合频段;如果所述多个频段之中任一频段的所述平滑互相关系数小于所述预设阈值,则判断所述频段为非融合频段。6.如权利要求3所述的方法,其特征在于,所述根据所述骨传导信噪比和气传导信噪比,确定融合系数,包括:根据所述气传导目标事件信号段和所述骨传导目标事件信号段在所述多个频段的信噪比以及确定融合系数的函数,分别计算所述气传导目标事件信号段和所述骨传导目标事件信号段的融合系数。7.如权利要求6所述的方法,其特征在于,通过以下算式分别计算所述气传导目标事件信号和所述骨传导目标事件信号段的融合系数,λ
air
=g(σ
air

bone
),λ
bone
=g(σ
bone

air
),其中λ
air
为所述气传导目标事件信号段的融合系数,λ
bone
为所述骨传导目标事件信号段的融合系数,g(
·
)是所述确定融合系数的函数,σ
air
为所述气传导信噪比,σ
bone
为所述骨传导信噪比。8.如权利要求4所述的方法,其特征在于,通过以下算式计算所述平滑互相关系数:seg_coff=f-1
(f(mic_air)
×
f
*
(mic_bone)
×
wind),其中,seg_coff表示所述平滑互相关系数,f-1
表示所述逆傅里叶变换函数,f表示所述傅里叶变换函数,f
*
表示所述傅里叶变换的共轭函数,wind表示所述预设的窗函数,mic_air为所述气传导目标事件信号段,mic_bone为所述骨传导目标事件信号段。9.一种语音降噪装置,其特征在于,应用于电子设备,包括:第一获取模块,用于获取气传导麦克风采集的气传导声音信号;第二获取模块,用于获取骨传导麦克风采集的骨传导声音信号;检测模块,用于通过预设的声学事件监测算法和预设的目标事件对所述骨传导声音信号进行检测,得到目标事件的开始时刻和结束时刻,其中,所述目标事件为持有所述电子设备的用户发出语音;处理模块,用于根据所述开始时刻和所述结束时刻,分别对所述骨传导声音信号和所述气传导声音信号进行分段处理,得到骨传导目标事件信号段、骨传导无目标事件信号段、气传导目标事件信号段和气传导无目标事件信号段;融合模块,用于对于所述骨传导目标事件信号段、所述气传导目标事件信号段中的至少部分频段内的信号进行融合计算,得到融合信号,对所述融合信号进行降噪后输出;降噪模块,用于对所述骨传导无目标事件信号段和所述气传导无目标事件信号段分别进行降噪后输出。10.如权利要求9所述的装置,其特征在于,所述融合模块,包括:第一确定单元、第二确定单元、第三确定单元和融合单元;其中,所述第一确定单元,用于根据预设的窗函数,分别对所述骨传导目标事件信号段、气传导目标事件信号段在频带内进行分段,得到多个频段;所述第二确定单元,用于对于每个频段,确定对应的平滑互相关系数,其中,所述平滑互相关系数用于表示在该频段所述骨传导目标事件信号段和所述气传导目标事件信号段二者的相似性;所述第三确定单元,用于根据所述平滑互相关系数,确定融合频段和非融合频段,其
中,所述融合频段指的是需要进行融合的频段,所述非融合频段指的是不需要进行融合的频段;所述融合单元,用于根据预设的融合算法,对所述融合频段进行融合计算,得到所述融合信号。11.如权利要求10所述的装置,其特征在于,所述融合单元,具体用于,分别对所述骨传导目标事件信号段、所述气传导目标事件信号段进行噪声估计,得到骨传导信噪比和气传导信噪比;根据所述骨传导信噪比和气传导信噪比,确定融合系数;根据所述融合系数和预设的融合算法,进行融合计算,得到所述融合信号。12.如权利要求10所述的装置,其特征在于,所述第二确定单元,具体用于,分别确定每个频段对应的所述骨传导目标事件信号段和所述气传导目标事件信号段;确定所述每个频段对应的傅里叶变换函数、逆傅里叶变换函数以及傅里叶变换的共轭函数;根据所述预设的窗函数、所述傅里叶变换函数、所述逆傅里叶变换函数以及所述傅里叶变换的共轭函数,计算所述每个频段对应的所述骨传导目标事件信号段和所述气传导目标事件信号段之间的所述平滑互相关系数。13.如权利要求10所述的装置,其特征在于,所述第三确定单元,具体用于,如果所述多个频段之中任一频段的所述平滑互相关系数大于或等于预设阈值,则判断所述频段为融合频段;如果所述多个频段之中任一频段的所述平滑互相关系数小于所述预设阈值,则判断所述频段为非融合频段。14.如权利要求11所述的装置,其特征在于,所述融合单元,具体用于,根据所述气传导目标事件信号段和所述骨传导目标事件信号段在所述多个频段的信噪比以及确定融合系数的函数,分别计算所述气传导目标事件信号段和所述骨传导目标事件信号段的融合系数。15.如权利要求14所述的装置,其特征在于,通过以下算式分别计算所述气传导目标事件信号和所述骨传导目标事件信号段的融合系数,λ
air
=g(σ
air

bone
),λ
bone
=g(σ
bone

air
),其中λ
air
为所述气传导目标事件信号段的融合系数,λ
bone
为所述骨传导目标事件信号段的融合系数,g(
·
)是所述确定融合系数的函数,σ
air
为所述气传导信噪比,σ
bone
为所述骨传导信噪比。16.如权利要求12所述的装置,其特征在于,通过以下算式计算所述平滑互相关系数:seg_coff=f-1
(f(mic_air)
×
f
*
(mic_bone)
×
wind),其中,seg_coff表示平滑互相关系数,f-1
表示所述逆傅里叶变换函数,f表示所述傅里叶变换函数,f
*
表示所述傅里叶变换的共轭函数,wind表示所述预设的窗函数,mic_air为所述气传导目标事件信号段,mic_bone为所述骨传导目标事件信号段。17.一种语音降噪设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处
理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。18.一种存储有计算机指令的非临时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现权利要求1-8中任一项所述的方法。

技术总结


本发明提出一种语音降噪方法及装置,其中,该方法包括:通过获取气传导声音信号和骨传导声音信号,以及骨传导目标事件信号段、骨传导无目标事件信号段、气传导目标事件信号段和气传导无目标事件信号段,对骨传导目标事件信号段、气传导目标事件信号段中的至少部分频段内的信号进行融合,从而生成融合信号,对融合信号和无目标事件信号段分别进行降噪处理后输出。由此,通过将骨传导声音信号和气传导声音信号进行有效融合,从而实现语音信号的降噪,提高电子设备的语音质量。提高电子设备的语音质量。提高电子设备的语音质量。


技术研发人员:

宋其岩 王林章 郝鹏 王伟伟 刘力 马凯池

受保护的技术使用者:

北京小米松果电子有限公司

技术研发日:

2022.11.29

技术公布日:

2023/3/28

本文发布于:2024-09-23 14:29:58,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/82450.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:信号   所述   事件   目标
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议