通过消除重叠来改善语音分离的方法和系统与流程



1.本发明总体上涉及语音分离。更具体地,本发明涉及一种通过消除重叠来改善语音分离的方法。本发明还涉及一种通过消除重叠来改善语音分离的系统。


背景技术:



2.如今,语音分离在很多场合被普通用户广泛使用,场景之一就是例如在带有语音识别的汽车中。当多于一个人在说话时或当车内有噪音时,汽车的主机无法识别来自驾驶员的语音。因此,在这种情况下,需要语音分离来改善语音识别。主要有两种众所周知的语音分离方法。一种是创建麦克风阵列来实现语音增强。另一种是使用语音分离算法,诸如频域独立分量分析(fdica)、退化分离估计技术(duet)或其他扩展算法。由于用于分离语音的fdica算法更复杂,因此通常选择duet算法来实现语音分离。
3.然而,在传统的duet算法中,一些重叠的时频点可被分离成任何语音。在这种情况下,分离的语音中的一个可能包含另一个人的语音,这可导致分离的语音不够纯净。
4.因此,可能需要将这些重叠的时频点划分为单个簇,以避免其出现在分离的语音中,使得可提高分离的语音的质量。


技术实现要素:



5.本发明通过提供一种通过消除重叠来提高语音分离性能的方法和系统来克服一些缺点。
6.一方面,本发明提供了一种通过消除重叠来提高语音分离性能的方法。该方法包括以下步骤:分别由至少两个麦克风拾取包括混合的第一声音和第二声音的至少两种混音;将来自至少两个麦克风的至少两种混音记录并存储在声音记录模块中;在算法模块中分析两种混音以分离时频点。具体地,算法模块被配置为应用退化分离估计技术(duet)算法,并且算法模块进一步执行从时频点中消除重叠点的步骤。因此,第一声音和第二声音分别从消除了重叠点的时频点恢复到时域。所述重叠点包括既不是所述第一声音又不是所述第二声音的所述时频点。这样,通过使用本文提供的方法,分别从仅属于该第一声音的时频点恢复第一声音,并从仅属于该第二声音的时频点恢复第二声音。
7.具体地,在本文提供的方法中,消除重叠点包括根据|d1-d2|《d0/4的规则确定重叠点,其中d1是重叠点与第一峰值中心之间的距离,d2是重叠点与第二峰值中心之间的距离,并且d0是第一峰值中心与第二峰值中心之间的距离。
8.另一方面,本发明还提供了一种用于实现该方法以通过消除重叠来提高语音分离性能的系统。该系统包括:至少两个麦克风,用于拾取包括混合的第一声音和第二声音的至少两种混音;声音记录模块,用于记录和存储来自至少两个麦克风的至少两种混音;算法模块,被配置为分析两种混音以分离时频点。具体地,算法模块被配置为应用退化分离估计技术(duet)算法,并且算法模块进一步执行从时频点中消除重叠点的步骤。因此,第一声音和第二声音分别从分别仅属于该第一声音或该第二声音的时频点恢复到时域中。
9.具体地,在本文提供的系统中,消除重叠点包括根据|d1-d2|《d0/4的规则确定重叠点,其中d1是重叠点与第一峰值中心之间的距离,d2是重叠点与第二峰值中心之间的距离,并且d0是第一峰值中心与第二峰值中心之间的距离。
附图说明
10.通过参考附图阅读以下对非限制性实施方案的描述,可以更好地理解本发明。在附图中,相同的附图标记指代对应的部分,其中:
11.图1是示出根据本发明的实施方案的用以改善语音分离的系统的示意图。
12.图2是示出根据本发明的所述实施方案的用以改善语音分离的方法的流程图。
13.图3是示出根据本发明的所述实施方案的duet算法的平滑加权直方图的示意图。
具体实施方式
14.下文公开了本发明的实施方案的详细描述;然而,应理解,所公开的实施方案仅是可体现为各种和替代形式的本发明的示例。附图不一定按比例绘制;一些特征可能被放大或最小化以示出特定部件的细节。因此,本文公开的具体结构和功能细节不应被解释为限制性的,而是仅作为教导本领域的技术人员以各种方式采用本发明的代表性基础。
15.本发明的一个目的是提供一种通过消除重叠来提高语音分离性能的方法。
16.在一个实施方案中,图1示出了语音分离的系统设计图。例如,有两个麦克风(麦克风1、麦克风2)同时打开,并且所述两个麦克风(麦克风1、麦克风2)正在录音,然后两个人(人1、人2)开始说话。如图1所示,声音1属于人1,并且声音2属于人2。然而,在这种情况下,两个麦克风(麦克风1、麦克风2)中的每一者都拾取包括声音1和声音2中的两者的混音。图1所示的声音记录模块负责记录和存储从两个麦克风(麦克风1、麦克风2)传入的混合语音。该算法模块分析记录并存储在声音记录模块中的混音并消除来自它们的重叠,并且最后,我们可以从混合语音中分别得到分离声音1和分离声音2。
17.图2示出了流程图,其示出根据本发明的实施方案的用以改善语音分离的本文提供的方法。该方法从步骤201开始。在步骤201中,如参照图1的描述,例如两个麦克风(麦克风1、麦克风2)正在拾取来自两个人(人1、人2)的混合的两个声音(声音1、声音2)。
18.在步骤202中,将两个麦克风(麦克风1、麦克风2)所拾取的混音声音记录并存储在声音记录模块中。
19.接下来,在步骤203中,算法模块对记录和存储的混音进行分析。在该算法模块中,提出了duet作为本实施方案的语音分离算法。duet算法是盲信号分离(bss)方法中的一种,其是在没有关于源信号和混合过程的先验信息的情况下从它们的混音中检索源信号。
20.duet盲源分离方法在源为w-分离正交时有效,即当混音中的信号的窗口傅里叶变换的支持分离时。这种duet算法仅使用两种混音就可以粗略地分离任意数量的源。对于衰减源和延迟源的消声混音,duet算法允许通过对从混音的时频表示的比率中提取的相对衰减延迟对进行聚类来估计混合参数。然后使用混合参数的估计值来划分一种混音的时频表示,以恢复原始源。
21.duet语音分离算法分为以下步骤:
22.·
从混音x1(t)和x2(t)构造时频表示和其中x1(t)和x2(t)是混合语音信号。
23.·
计算相对衰减延迟对:
[0024][0025]
·
构造2d平滑加权直方图h(α,δ)。到达方向(doa)和距离两者的直方图由使用两个麦克风观察到的混音形成。并且然后,可以使用基于直方图的时频掩蔽来实现信号分离。直方图的示例在图3中示出。
[0026]
直方图构建如下:
[0027][0028]
其中x轴为其是指相对延迟;
[0029]
y轴为其指示对称衰减,并且
[0030]
z轴为h(α,δ),其表示权重。
[0031]
·
在直方图中定位峰值和峰值中心(pc_1,pc_2),其确定混合参数估计值。例如,我们使用k均值聚类算法来逼近直方图中的点。
[0032]
·
为每个峰值中心构造时频二进制掩码,如下所示:
[0033][0034]
并将每个掩码分别应用于适当对齐的混音,如下所示:
[0035][0036]
如从图3所示的直方图可以看出,在本实施方案中,分别针对两个峰值中心(pc_1,pc_2)中的每一个进行两次应用处理。
[0037]
到目前为止,每个估计的源时频表示已被划分为两个峰值中心(pc_1,pc_2)中的每一个,可以将其转换回时域以获得分离的声音1和声音2。
[0038]
然而,记录的源混音通常不是w分离正交。在该实施方案中,假设例如只有两个人同时说话。由于根据duet算法中的时频二进制掩码构造的规则,时频点被非零或一分为两部分。如果两个峰值之间的一些时频点不是w分离正交的,并且这些时频点混合来自两个人(人1、人2)的语音。在本发明中,这些时频点被定义为重叠点。在这种情况下,由于存在这些重叠的时频点,其中一个分离的语音可能包含另一个人的语音,这意味着分离的声音1也可能包含声音2,并导致分离的语音不够纯净。事实上,混合
的两人语音的重叠时频点不属于所述人中的任何人。重叠点应归类入待消除的第三类别。
[0039]
为了解决上述技术问题,本发明提供了一种通过消除重叠来提高语音分离性能的方法,其中重叠的时频点被出并被划分为单个簇,并且它们不会出现在分离的语音中。因此,可以提高分离的语音的质量。
[0040]
具体地,如图2的步骤204所示,以出这些重叠的时频点的方式为例。参考图3,我们计算时频点pt_r与第一峰值中心pc_1之间的第一距离d1,然后计算时频点pt_r与第二峰值中心pc_2之间的第二距离d2,并最后计算第一峰值中心pc_1与第二峰值中心pc_2之间的距离d0,即,计算|d1-d2|,当|d1-d2|小于阈值时,可以将时频点pt_r确定为重叠点。也就是说,当第一距离d1和第二距离d2的差值小于阈值时,可以确定重叠点。在该实施方案中,阈值可以设置为两个峰值中心(pc_1,pc_2)之间的距离d0的四分之一。换句话说,当时频点满足该要求时:
[0041][0042]
可以确定时频点(pt_r)不属于图3中的两个峰值中的任何一个,并且可以识别为重叠的时频点。这些重叠的时频表示不会转换回时域。通过遍历所有的时频点可以到重叠点,如图3所示。
[0043]
最后,在图2的步骤205中,消除从时频点中选择的重叠点,并将分离到两个人中的每个人的其余时频点转换为时域,以用分离的声音1和声音2恢复原始源。该方法在步骤206处完成。
[0044]
本发明的另一个目的是提供一种通过消除重叠来提高语音分离性能的系统。
[0045]
在如图1所示的实施方案中,用于改善语音分离的系统包括两个麦克风(麦克风1、麦克风2),它们被同时开启并记录两个人(人1、人2)混合的语音信号。参考图1,声音1属于人1,并且声音2属于人2。然而,在图1的这种情况下,两个麦克风(麦克风1、麦克风2)中的每一者都拾取包括声音1和声音2中的两者的混音。图1所示的声音记录模块负责记录和存储从两个麦克风(麦克风1、麦克风2)传入的混合语音。为了从混合语音中分别得到分离的声音1和声音2,所述系统还包括算法模块,该算法模块使用duet算法来分析记录并存储在声音记录模块中的混音并消除来自它们的重叠,并且最后,我们可以从混合语音中分别得到分离声音1和分离声音2。
[0046]
如上所述,本文提供的方法和系统消除了分离的语音信号中存在的重叠,因此提高了语音分离的质量。本领域技术人员可以理解,本发明的麦克风所拾取的信号不限于两个,而是可以扩展到任意数量的混合信号。在本文的方法和系统中处理的算法可以迭代地执行。
[0047]
如本技术案中所使用,通过单数形式并且继以词语“一个(a或an)”叙述的元件或步骤应理解为不排除多个所述元件或步骤,除非规定此类排除。此外,对本公开的“一个实施方案”或“一个示例”的引用不旨在被解释为排除也包含所述特征的额外实施方案的存在。术语“第一”、“第二”及“第三”等仅用作标签,并且无意对其对象强加数值要求或特定位置次序。
[0048]
虽然上文描述了示例性实施方案,但这些实施方案不旨在描述本发明的所有可能形式。实际上,在说明书中使用的措词是用于描述而非限制,并且应理解,可在不脱离本发
明的精神和范围的情况下做出各种改变。另外,可组合各种实现的实施方案的特征以形成本发明的另外的实施方案。

技术特征:


1.一种用于通过消除重叠来提高语音分离性能的方法,其包括以下步骤:分别由至少两个麦克风拾取包括混合的第一声音和第二声音的至少两种混音;将来自所述至少两个麦克风的所述至少两种混音记录并存储在声音记录模块中;在算法模块中分析用于分别恢复所述第一声音和所述第二声音的所述至少两种混音,其中所述算法模块还包括以下步骤:从时频点中消除重叠点;以及分离分别与所述第一声音和所述第二声音相关的消除了所述重叠点的所述时频点。2.如权利要求1所述的方法,其中所述重叠点包括既不是所述第一声音又不是所述第二声音的所述时频点。3.如权利要求2所述的方法,其中在所述时频点中到所述重叠点,并且当第一距离与第二距离之间的差值小于阈值时,确定所述重叠点中的每一个,其中所述第一距离是从待确定的所述时频点中的一个时频点到第一峰值中心的距离,并且所述第二距离是从所述待确定的同一时频点到第二峰值中心的距离。4.如权利要求3所述的方法,其中所述阈值被设置为所述第一峰值中心与所述第二峰值中心之间的距离的四分之一。5.如权利要求2所述的方法,其中所述重叠点通过遍历分别与所述第一声音和所述第二声音相关的所有所述时频点来确定。6.如权利要求1所述的方法,其中分析所述至少两种混音包括执行退化分离估计技术(duet)算法。7.如权利要求1所述的方法,其中恢复所述第一声音和所述第二声音包括将消除了所述重叠点的所述时频点转换回时域。8.如权利要求1所述的方法,其中所述方法能够在多于一个人同时说话的任何场合下实施。9.一种用于通过消除重叠来提高语音分离性能的系统,其包括:至少两个麦克风,所述至少两个麦克风适于分别拾取包括混合的第一声音和第二声音的至少两种混音;声音记录模块,所述声音记录模块适于记录并存储来自所述至少两个麦克风的所述至少两种混音;算法模块,所述算法模块适于分析用于分别恢复所述第一声音和所述第二声音的所述至少两种混音,其中所述算法模块还被配置为:从时频点中消除重叠点;以及分离分别与所述第一声音和所述第二声音相关的消除了所述重叠点的所述时频点。10.如权利要求9所述的系统,其中所述重叠点包括既不是所述第一声音又不是所述第二声音的所述时频点。11.如权利要求10所述的系统,其中在所述时频点中到所述重叠点,并且当第一距离与第二距离之间的差值小于阈值时,确定所述重叠点中的每一个,其中所述第一距离是从待确定的所述时频点中的一个时频点到第一峰值中心的距离,并且所述第二距离是从所述待确定的同一时频点到第二峰值中心的距离。
12.如权利要求11所述的系统,其中所述阈值被设置为所述第一峰值中心与所述第二峰值中心之间的距离的四分之一。13.如权利要求10所述的系统,其中所述重叠点通过遍历分别与所述第一声音和所述第二声音相关的所有所述时频点来到。14.如权利要求9所述的系统,其中用于分析所述至少两种混音的所述算法模块执行退化分离估计技术(duet)算法。15.如权利要求9所述的系统,其中通过将消除了所述重叠点的所述时频点转换回时域来恢复所述第一声音和所述第二声音。16.如权利要求9所述的系统,其中所述系统能够在多于一个人同时说话的任何场合下使用。17.一种非暂时性计算机可读存储介质,所述非暂时性计算机可读存储介质包括指令,所述指令在由处理器执行时将所述处理器配置为执行如权利要求1至8中任一项所述的方法的所述步骤。

技术总结


本发明涉及一种通过消除重叠或重叠点来改善语音分离的方法和系统,其中通过使用DUET(203)算法来分离来自两个记录的混音的时频点。所述方法或系统进一步消除不属于原始声音资源中的任一者的重叠(204)时频点。资源中的任一者的重叠(204)时频点。资源中的任一者的重叠(204)时频点。


技术研发人员:

毕相如 刘志磊 张国霞

受保护的技术使用者:

哈曼国际工业有限公司

技术研发日:

2020.02.21

技术公布日:

2022/9/30

本文发布于:2024-09-24 10:15:07,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/82074.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   声音   语音   麦克风
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议