回声消除模型的训练方法和装置及回声消除方法和装置与流程



1.本公开涉及信号处理领域,尤其涉及一种回声消除模型的训练方法和装置及回声消除方法和装置。


背景技术:



2.在室内与远端用户进行实时通讯时,从远端传来的声音可在近端的扬声器播放,并经过室内空间的反射与传播,重新被近端麦克风采集,从而形成声学回声。声学回声消除系统(acoustic echo cancellation,aec)能够识别并抑制回声信号,使得远端通讯的用户听不到自己的回声,极大提高了音频体验。相关技术中,可通过融合了深度学习方法的aec进行回声消除,但是,其对于回声的消除量有限,容易出现漏回声的现象。


技术实现要素:



3.本公开提供一种回声消除模型的训练方法和装置及回声消除方法和装置,以至少解决上述相关技术中的问题,也可不解决任何上述问题。本公开的技术方案如下:
4.根据本公开实施例的第一方面,提供一种回声消除模型的训练方法,包括:根据近端信号,得到第一信号;将所述第一信号输入回声消除模型,并基于回声消除模型的输出得到第二信号,其中,所述第二信号是第一信号经过回声消除后的预测信号;根据所述第一信号和所述第二信号,确定回声消除模型的预测损失,其中,所述预测损失包括第一预测损失,所述第一预测损失是基于从所述第二信号分离出的残留回声分量和语音信号分量计算得到;根据所述预测损失调整所述回声消除模型的参数。
5.可选地,所述回声消除模型的输出包括第一掩蔽矩阵;所述基于回声消除模型的输出得到第二信号,包括:对所述近端信号进行时频变换,得到第二近端信号;根据所述第一掩蔽矩阵和所述第二近端信号的乘积,得到所述第二信号。
6.可选地,所述根据近端信号,得到第一信号,包括:对所述近端信号进行线性回声消除,得到第一近端信号;对所述第一近端信号进行时频变换,得到第一信号;其中,所述近端信号包括语音信号和回声信号;所述第一近端信号包括所述语音信号和残留回声信号;所述第一信号包括频域语音信号和频域残留回声信号。
7.可选地,所述第一预测损失通过下述步骤确定:将所述第二信号向所述频域残留回声信号方向做映射,得到频域残留回声信号映射向量,将所述频域残留回声信号映射向量作为从所述第二信号分离出的残留回声分量;将所述第二信号向所述频域语音信号方向做映射,得到频域语音信号映射向量,将所述频域语音信号映射向量作为从所述第二信号分离出的语音信号分量;根据所述频域残留回声信号映射向量和所述频域语音信号映射向量,确定所述第一预测损失。
8.可选地,所述根据所述频域残留回声信号映射向量和所述频域语音信号映射向量,确定所述第一预测损失,包括:根据所述频域残留回声信号映射向量和所述频域语音信号映射向量,得到所述第二信号的平均信回比;根据所述第二信号的平均信回比的相反数,
确定所述第一预测损失。
9.可选地,所述第一预测损失,被表示为:
[0010][0011]
其中,loss
res
表示所述第一预测损失,c
proj
(n,k)表示时频点(n,k)处的频域语音信号映射向量,r
proj
(n,k)表示时频点(n,k)处的频域残留回声信号映射向量,时频点(n,k)表示第n帧的第k个频率点,n表示帧数,k表示频率点数,1≤n≤n,1≤k≤k,表示所述第二信号的平均信回比。
[0012]
可选地,所述预测损失还包括第二预测损失,所述第二预测损失包括至少一种与回声消除有关的损失值,其中,所述预测损失根据所述第一预测损失和所述第二预测损失得到。
[0013]
根据本公开实施例的第二方面,提供一种回声消除方法,包括:根据获取到的近端采集信号,得到第三信号;将所述第三信号输入本公开的回声消除模型的训练方法训练好的回声消除模型中,并基于训练好的回声消除模型的输出得到第四信号,其中,所述第四信号是第三信号经过回声消除后的预测信号;根据所述第四信号得到回声消除后的近端采集信号。
[0014]
可选地,所述根据获取到的近端采集信号,得到第三信号,包括:对所述近端采集信号进行线性回声消除,得到第一近端采集信号;对所述第一近端采集信号进行时频变换,得到第三信号。
[0015]
可选地,所述训练好的回声消除模型的输出包括第二掩蔽矩阵;所述基于训练好的回声消除模型的输出得到第四信号,包括:对所述近端采集信号进行时频变换,得到第二近端采集信号;根据所述第二掩蔽矩阵和所述第二近端采集信号的乘积,得到所述第四信号。
[0016]
可选地,所述根据所述第四信号得到回声消除后的近端采集信号,包括:对所述第四信号进行时频逆变换,得到回声消除后的近端采集信号。
[0017]
根据本公开实施例的第三方面,提供一种回声消除模型的训练装置,包括:第一信号确定单元,被配置为:根据近端信号,得到第一信号;第一模型预测单元,被配置为:将所述第一信号输入回声消除模型,并基于回声消除模型的输出得到第二信号,其中,所述第二信号是第一信号经过回声消除后的预测信号;损失确定单元,被配置为:根据所述第一信号和所述第二信号,确定回声消除模型的预测损失,其中,所述预测损失包括第一预测损失,所述第一预测损失是基于从所述第二信号分离出的残留回声分量和语音信号分量计算得到;参数调整单元,被配置为:根据所述预测损失调整所述回声消除模型的参数。
[0018]
可选地,所述回声消除模型的输出包括第一掩蔽矩阵;第一模型预测单元被配置为:对所述近端信号进行时频变换,得到第二近端信号;根据所述第一掩蔽矩阵和所述第二近端信号的乘积,得到所述第二信号。
[0019]
可选地,第一信号确定单元被配置为:对所述近端信号进行线性回声消除,得到第一近端信号;对所述第一近端信号进行时频变换,得到第一信号;其中,所述近端信号包括
语音信号和回声信号;所述第一近端信号包括所述语音信号和残留回声信号;所述第一信号包括频域语音信号和频域残留回声信号。
[0020]
可选地,损失确定单元被配置为:将所述第二信号向所述频域残留回声信号方向做映射,得到频域残留回声信号映射向量,将所述频域残留回声信号映射向量作为从所述第二信号分离出的残留回声分量;将所述第二信号向所述频域语音信号方向做映射,得到频域语音信号映射向量,将所述频域语音信号映射向量作为从所述第二信号分离出的语音信号分量;根据所述频域残留回声信号映射向量和所述频域语音信号映射向量,确定所述第一预测损失。
[0021]
可选地,损失确定单元被配置为:根据所述频域残留回声信号映射向量和所述频域语音信号映射向量,得到所述第二信号的平均信回比;根据所述第二信号的平均信回比的相反数,确定所述第一预测损失。
[0022]
可选地,所述第一预测损失,被表示为:
[0023][0024]
其中,loss
res
表示所述第一预测损失,c
proj
(n,k)表示时频点(n,k)处的频域语音信号映射向量,r
proj
(n,k)表示时频点(n,k)处的频域残留回声信号映射向量,时频点(n,k)表示第n帧的第k个频率点,n表示帧数,k表示频率点数,1≤n≤n,1≤k≤k,表示所述第二信号的平均信回比。
[0025]
可选地,所述预测损失还包括第二预测损失,所述第二预测损失包括至少一种与回声消除有关的损失值,其中,所述预测损失根据所述第一预测损失和所述第二预测损失得到。
[0026]
根据本公开实施例的第四方面,提供一种回声消除装置,包括:第三信号确定单元,被配置为:根据获取到的近端采集信号,得到第三信号;第二模型预测单元,被配置为:将所述第三信号输入本公开的回声消除模型的训练方法训练好的回声消除模型中,并基于训练好的回声消除模型的输出得到第四信号,其中,所述第四信号是第三信号经过回声消除后的预测信号;回声消除信号单元,被配置为:根据所述第四信号得到回声消除后的近端采集信号。
[0027]
可选地,第三信号确定单元被配置为:对所述近端采集信号进行线性回声消除,得到第一近端采集信号;对所述第一近端采集信号进行时频变换,得到第三信号。
[0028]
可选地,所述训练好的回声消除模型的输出包括第二掩蔽矩阵;第二模型预测单元被配置为:对所述近端采集信号进行时频变换,得到第二近端采集信号;根据所述第二掩蔽矩阵和所述第二近端采集信号的乘积,得到所述第四信号。
[0029]
可选地,回声消除信号单元被配置为:对所述第四信号进行时频逆变换,得到回声消除后的近端采集信号。
[0030]
根据本公开实施例的第五方面,提供一种电子设备,包括:至少一个处理器;至少一个存储计算机可执行指令的存储器,其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处理器执行根据本公开的回声消除模型的训练方法或回声
消除方法。
[0031]
根据本公开实施例的第六方面,提供一种存储指令的计算机可读存储介质,当所述指令被至少一个处理器运行时,促使所述至少一个处理器执行根据本公开的回声消除模型的训练方法或回声消除方法。
[0032]
根据本公开实施例的第七方面,提供一种计算机程序产品,包括计算机指令,所述计算机指令被至少一个处理器执行时实现根据本公开的回声消除模型的训练方法或回声消除方法。
[0033]
根据本公开实施例的第八方面,提供一种智能音箱,包括本公开的回声消除装置。
[0034]
根据本公开实施例的第九方面,提供一种智能音箱,包括:至少一个音频信号处理器;至少一个存储指令的存储器;至少一个音频信号采集器;至少一个音频信号输出器,其中,所述指令在被所述至少一个音频信号处理器运行时,促使所述至少一个音频信号处理器执行根据本公开的回声消除方法。
[0035]
本公开的实施例提供的技术方案至少带来以下有益效果:
[0036]
根据本公开的回声消除模型的训练方法和装置及回声消除方法和装置,可基于从回声消除模型预测的第二信号分离出的残留回声分量和语音信号分量计算出的第一预测损失,对回声消除模型的参数进行调整,从而对回声消除模型进行训练,能够帮助指导回声消除模型的训练过程,在不引入语音剪切且保证语音音质的前提下,对残留回声进行额外的抑制,提高回声的消除量,解决现有方案中存在的回声消除量不够且双讲漏回声的问题,实现更高的信回比和回声回波损耗增强(echo return loss enhancement,erle)。
[0037]
另外,根据本公开的回声消除模型的训练方法和装置及回声消除方法和装置,可利用映射原理来分离第二信号中预测正确的语音信号分量和残留回声分量,并计算信回比来对残留回声提供更多的惩罚。
[0038]
另外,根据本公开的回声消除模型的训练方法和装置及回声消除方法和装置,第一预测损失具有尺度不变性,不会由于信号幅度大小而影响预测损失的大小,从而迫使模型的学习是从抑制残留回声的角度而不是抑制整体的信号幅度的角度来优化该预测损失。即使对于幅度较小的语音音频信号,为保证高信回比,不会对语音造成剪切,从而可保证其音质不受损伤,对于现有方案中双讲场景下存在的漏回声的现象,不会导致双讲部分的语音被过分抑制。
[0039]
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
[0040]
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
[0041]
图1是根据一示例性实施例示出的一种回声消除模型的结构示意图。
[0042]
图2是根据一示例性实施例示出的一种回声消除模型的训练方法的流程图。
[0043]
图3是根据一示例性实施例示出的一种回声消除方法的流程图。
[0044]
图4是根据一示例性实施例示出的一种回声消除模型的训练装置的框图。
[0045]
图5是根据一示例性实施例示出的一种回声消除装置的框图。
[0046]
图6是根据一示例性实施例的电子设备600的框图。
[0047]
图7是根据本公开的示例性实施例的智能音箱700的框图。
[0048]
图8是根据本公开的示例性实施例的智能音箱800的框图。
具体实施方式
[0049]
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
[0050]
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
[0051]
在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括a和b之中的至少一个”即包括如下三种并列的情况:(1)包括a;(2)包括b;(3)包括a和b。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。
[0052]
在室内与远端用户进行实时通讯时,从远端传来的声音可在近端的扬声器播放,并经过室内空间的反射与传播,重新被近端麦克风采集,从而形成声学回声。声学回声消除系统(acoustic echo cancellation,aec)能够识别并抑制回声信号,使得远端通讯的用户听不到自己的回声,极大提高了音频体验。
[0053]
近年来,深度学习方法开始应用于信号处理领域,比如用于aec,相较于基于信号相关性的传统aec,融合了深度学习方法的deep aec在语音保留和音质提升等方面表现出更优异的性能。在使用deep aec进行回声消除的过程中,损失函数的选取至关重要,其为模型的优化和迭代提供了指导方向,在很大程度上影响了模型的性能。相关技术中,常使用从声源分离、噪声抑制等领域引申而来的损失函数来训练deep aec,例如,相关技术中的损失函数可分成两种,一种是基于信噪比的损失函数,如尺度不变的信噪比损失函数si-snr loss(scale-invariant source-to-noise ratio);另一种是基于均方误差(mean squared error,mse)的损失函数,如spectral mse loss。但是,上述的损失函数并没有区分回声和噪声,而是对所有干扰信号采取相同的优化策略,所以上述损失函数并没有对回声进行额外的惩罚,这使得训练好的模型会对回声的关注度不够,导致在实际应用中,尤其在双讲场景下,对于回声的消除量有限,容易出现漏回声的现象。
[0054]
为了解决上述相关技术中存在的问题,本公开提出一种回声消除模型的训练方法和装置及回声消除方法和装置,可基于从回声消除模型预测的第二信号分离出的残留回声分量和语音信号分量计算出的第一预测损失,对回声消除模型的参数进行调整,从而对回声消除模型进行训练,能够帮助指导回声消除模型的训练过程,在不引入语音剪切且保证语音音质的前提下,对残留回声进行额外的抑制,提高回声的消除量,解决现有方案中存在的回声消除量不够且双讲漏回声的问题,实现更高的信回比和erle。
[0055]
下面,将参照图1至图8来详细描述根据本公开的回声消除模型的训练方法和装置及回声消除方法和装置。
[0056]
图1是根据一示例性实施例示出的一种回声消除模型的结构示意图。参考图1,回声消除模型可以是deep aec网络结构,该网络结构可以采用深度神经网络(deep neural networks,dnn)来构造。
[0057]
首先,可得到近端麦克风信号d(t)和远端参考信号f(t),该近端麦克风信号可以是采集的近端麦克风信号,也可以是合成的近端麦克风信号。在此需要说明的是,本公开的示例性实施例中的信号可以是音频信号。
[0058]
在这里,采集的近端麦克风信号可包括,但不限于,近端麦克风采集到的近端的用户声音信号和近端麦克风采集到的远端通过网络链路传输过来并经过近端扬声器播放的音频信号。远端参考音频信号可以为未经近端扬声器播放的远端传送的音频信号。
[0059]
然后,可基于远端参考信号f(t)对近端麦克风信号d(t)进行线性回声消除,得到线性回声消除后的第一近端麦克风信号l(t)。
[0060]
接下来,可对第一近端麦克风信号l(t)和远端参考信号f(t)进行时频变换提取复数频谱特征,并将时频变换后的两种信号输入回声消除模型中,对残留回声(线性和非线性)和噪声进行进一步的抑制。
[0061]
最后,可输出一个基于频谱的掩蔽矩阵mask
speech
,将其作用于时频变换后的近端麦克风信号d(n,k)上,即可得到消除回声后的近端麦克风信号s(n,k)。
[0062]
接下来,结合如图1所示的模型结构,将从回声消除模型的训练阶段和应用推理阶段来分别描述本公开的回声消除模型的训练方法及回声消除方法。
[0063]
图2是根据一示例性实施例示出的一种回声消除模型的训练方法的流程图。参照图2,在步骤201,可根据近端信号,得到第一信号。
[0064]
根据本公开的示例性实施例,近端信号可以是近端麦克风信号。本公开的示例性实施例可对近端信号进行回声消除,得到第一信号。例如,这里的第一信号可以由下述两个步骤得到:首先可对近端信号进行线性回声消除,得到第一近端信号。然后可对第一近端信号进行时频变换,得到第一信号。需要说明的是,这里仅仅以设置首先进行线性回声消除然后进行时频变换为例,本公开还保护首先进行时频变换然后进行线性回声消除的方案。还需说明的是,对近端信号进行线性回声消除可以是基于第一远端参考信号对近端信号进行线性回声消除。本公开的示例性实施例中的时频变换可以是短时傅里叶变换(stft)。
[0065]
本公开的示例性实施例中的近端信号可采用合成的近端麦克风信号,根据近端麦克风信号的特点,可设置近端信号中包括语音信号和回声信号,那么,经过线性回声消除后的第一近端信号可包括上述语音信号和残留回声信号,该残留回声信号可以是对上述近端信号进行线性回声消除后的残留的回声信号,本公开的示例性实施例中的残留回声信号可通过计算得到,并且由于线性回声消除对语音等信号的影响不大,本公开的示例性实施例假设通过线性回声消除之后的语音信号不发生改变,即残留回声信号可以通过第一近端信号和上述语音信号的差得到。接下来,第一近端信号可通过时频变换得到第一信号,第一信号可包括频域语音信号和频域残留回声信号。
[0066]
进一步地,本公开的示例性实施例中的近端信号还可包括噪声信号,即近端信号中包括语音信号、回声信号和噪声信号,那么,近端信号d(t)可被表示为下式(1):
[0067]
d(t)=c(t)+n(t)+e(t)
ꢀꢀꢀ
(1)
[0068]
其中,d(t)表示近端信号,c(t)表示语音信号,n(t)表示噪声信号,e(t)表示回声信号,t表征时间。
[0069]
经过线性回声消除后的第一近端信号可包括上述语音信号、上述噪声信号和残留回声信号,该残留回声信号可以是对上述近端信号进行线性回声消除后的残留的回声信号,本公开的示例性实施例中的残留回声信号可通过计算得到,并且由于线性回声消除对语音、噪声等信号的影响不大,本公开的示例性实施例假设通过线性回声消除之后的语音信号和噪声信号不发生改变,即残留回声信号r(t)可被表示为下式(2):
[0070]
r(t)=l(t)-c(t)-n(t)
ꢀꢀꢀ
(2)
[0071]
其中,r(t)表示残留回声信号,l(t)表示第一近端信号,c(t)表示语音信号,n(t)表示噪声信号,t表征时间。
[0072]
第一近端信号可通过时频变换得到第一信号,第一信号可包括频域语音信号c(n,k)、频域噪声信号和频域残留回声信号r(n,k)。
[0073]
在得到了第一信号之后,本公开的示例性实施例可将第一信号输入回声消除模型中,进行后续的模型训练步骤。那么具体为:在步骤202,可将第一信号输入回声消除模型,并基于回声消除模型的输出得到第二信号,其中,第二信号是第一信号经过回声消除后的预测信号。
[0074]
在这里,除将第一信号输入回声消除模型之外,还将时频变换后的第一远端参考信号输入回声消除模型,也就是说,回声消除模型的输入包括第一信号和时频变换后的第一远端参考信号。
[0075]
基于上述关于图1的描述可知,回声消除模型的输出可包括第一掩蔽矩阵,那么第二信号可通过将第一掩蔽矩阵作用于时频变换后的近端信号上得到,例如,第二信号可通过下述步骤得到:首先可对近端信号进行时频变换,得到第二近端信号。然后可根据第一掩蔽矩阵和第二近端信号的乘积,得到第二信号。例如,第二信号可被表示为下式(3):
[0076]
s(n,k)=d(n,k)
·
mask
speech
ꢀꢀꢀ
(3)
[0077]
其中,s(n,k)表示时频点(n,k)处的第二信号,d(n,k)表示第二近端信号,mask
speech
表示第一掩蔽矩阵,时频点(n,k)表示第n帧的第k个频率点,n表示帧数,k表示频率点数,1≤n≤n,1≤k≤k。
[0078]
下面,可确定回声消除模型在此次训练中的预测损失,为解决现有技术中的损失函数存在的不足,本公开的示例性实施例可选取更加合适的目标设计损失函数,通过第一预测损失增加对回声的抑制,对上述的第二信号中残留的回声信号给予惩罚,具体可以是:在步骤203,可根据第一信号和第二信号,确定回声消除模型的预测损失,其中,预测损失包括第一预测损失,第一预测损失是基于从第二信号分离出的残留回声分量和语音信号分量计算得到。
[0079]
本公开的示例性实施例可选取上述频域语音信号c(n,k)和频域残留回声信号r(n,k)作为目标,将二者与第二信号进行比较,得到从第二信号分离出的残留回声分量和语音信号分量,再基于这两个分量得到第一预测损失。具体来说,第一预测损失可通过下述步骤确定:
[0080]
首先,可将第二信号向频域残留回声信号方向做映射,得到频域残留回声信号映
射向量,将频域残留回声信号映射向量作为从第二信号分离出的残留回声分量。
[0081]
例如,频域残留回声信号映射向量可被表示为下式(4):
[0082][0083]
其中,r
proj
(n,k)表示时频点(n,k)处的频域残留回声信号映射向量,时频点(n,k)表示第n帧的第k个频率点,n表示帧数,k表示频率点数,1≤n≤n,1≤k≤k,s(n,k)表示时频点(n,k)处的第二信号,r(n,k)表示时频点(n,k)处的频域残留回声信号,<s(n,k),r(n,k)>表示s(n,k)和r(n,k)的点积,表示r(n,k)的l2范数的平方。
[0084]
然后,可将第二信号向频域语音信号方向做映射,得到频域语音信号映射向量,将频域语音信号映射向量作为从第二信号分离出的语音信号分量。
[0085]
例如,频域语音信号映射向量可被表示为下式(5):
[0086][0087]
其中,c
proj
(n,k)表示时频点(n,k)处的频域语音信号映射向量,时频点(n,k)表示第n帧的第k个频率点,n表示帧数,k表示频率点数,1≤n≤n,1≤k≤k,s(n,k)表示时频点(n,k)处的第二信号,c(n,k)表示时频点(n,k)处的频域语音信号,<s(n,k),c(n,k)>表示s(n,k)和c(n,k)的点积,表示c(n,k)的l2范数的平方。
[0088]
最后,可根据频域残留回声信号映射向量和频域语音信号映射向量,确定第一预测损失。
[0089]
这里,首先可根据频域残留回声信号映射向量和频域语音信号映射向量,得到第二信号的平均信回比。例如,可根据频域残留回声信号映射向量和频域语音信号映射向量得到第二信号每一帧的信回比,并对每一帧的信回比求均值,得到第二信号的平均信回比。
[0090]
然后可根据第二信号的平均信回比,确定第一预测损失。例如,可根据第二信号的平均信回比的相反数,确定第一预测损失。需要说明的是,本公开的示例性实施例要求第二信号的平均信回比最大,从而对残留回声给予更多的惩罚,所以设置第一预测损失是第二信号的平均信回比的相反数。
[0091]
例如,第一预测损失可被表示为下式(6):
[0092][0093]
其中,loss
res
表示第一预测损失,c
proj
(n,k)表示时频点(n,k)处的频域语音信号映射向量,r
proj
(n,k)表示时频点(n,k)处的频域残留回声信号映射向量,时频点(n,k)表示第n帧的第k个频率点,n表示帧数,k表示频率点数,1≤n≤n,1≤k≤k,表示第二信号的平均信回比。
[0094]
在这里需要说明的是,上述对于(4)至(6)的计算之前,可设置r(n,k)、c(n,k)和s(n,k)均做均值标准化处理。上述(6)表示的第一预测损失具有尺度不变性(scale invariance)。
[0095]
根据本公开的示例性实施例,预测损失还可包括第二预测损失,第二预测损失包括至少一种与回声消除有关的损失值。这里,与回声消除有关的损失值可包括,但不限于,
si-snr loss和spectral mse loss。基于此,预测损失可根据第一预测损失和第二预测损失得到,例如,可根据第一预测损失和第二预测损失的和值,得到预测损失。
[0096]
例如,预测损失可被表示为下式(7):
[0097]
loss=loss
si_snr

·
loss
res
ꢀꢀꢀ
(7)
[0098]
其中,loss表示预测损失,loss
si_snr
表示第二预测损失(si-snr loss),α表示用于调整第一预测损失和第二预测损失的配比的参数,loss
res
表示第一预测损失。第一预测损失和第二预测损失可调整到同一数量级。
[0099]
回到图2,在步骤204,可根据预测损失调整回声消除模型的参数。
[0100]
上述图2描述的是回声消除模型的训练方法的流程,下面结合图3,对回声消除模型的应用推理过程做出展开。图3是根据一示例性实施例示出的一种回声消除方法的流程图。参照图3,在步骤301,可根据获取到的近端采集信号,得到第三信号。
[0101]
根据本公开的示例性实施例,近端采集信号可以是采集的近端麦克风信号。本公开的示例性实施例可对近端采集信号进行回声消除,得到第三信号。例如,这里的第三信号可以由下述两个步骤得到:首先可对近端采集信号进行线性回声消除,得到第一近端采集信号。然后可对第一近端采集信号进行时频变换,得到第三信号。需要说明的是,这里仅仅以设置首先进行线性回声消除然后进行时频变换为例,本公开还保护首先进行时频变换然后进行线性回声消除的方案。还需说明的是,对近端采集信号进行线性回声消除可以是基于采集到的第二远端参考信号对近端采集信号进行线性回声消除。本公开的示例性实施例中的时频变换可以是短时傅里叶变换(stft)。
[0102]
在步骤302,可将第三信号输入训练好的回声消除模型中,并基于训练好的回声消除模型的输出得到第四信号,其中,第四信号是第三信号经过回声消除后的预测信号。
[0103]
在这里,除将第三信号输入训练好的回声消除模型之外,还将时频变换后的第二远端参考信号输入训练好的回声消除模型,也就是说,训练好的回声消除模型的输入包括第三信号和时频变换后的第二远端参考信号。
[0104]
基于上述关于图1的描述可知,训练好的回声消除模型的输出可包括第二掩蔽矩阵,那么第四信号可通过将第二掩蔽矩阵作用于时频变换后的近端采集信号上得到,例如,第四信号可通过下述步骤得到:首先可对近端采集信号进行时频变换,得到第二近端采集信号。然后可根据第二掩蔽矩阵和第二近端采集信号的乘积,得到第四信号。
[0105]
在步骤303,可根据第四信号得到回声消除后的近端采集信号。
[0106]
根据本公开的示例性实施例,可得到时域上的第四信号,作为回声消除后的近端采集信号,例如,可对第四信号进行时频逆变换,得到回声消除后的近端采集信号。本公开的示例性实施例中的时频逆变换可以是短时反傅里叶变换(istft)。
[0107]
图4是根据一示例性实施例示出的一种回声消除模型的训练装置的框图。参考图4,训练装置400包括第一信号确定单元401、第一模型预测单元402、损失确定单元403和参数调整单元404。
[0108]
第一信号确定单元401,可根据近端信号,得到第一信号。
[0109]
根据本公开的示例性实施例,近端信号可以是近端麦克风信号。第一信号确定单元401可对近端信号进行回声消除,得到第一信号。例如,这里的第一信号可以通过第一信号确定单元401的如下配置得到:首先第一信号确定单元401可对近端信号进行线性回声消
除,得到第一近端信号。然后第一信号确定单元401可对第一近端信号进行时频变换,得到第一信号。需要说明的是,这里仅仅以第一信号确定单元401首先进行线性回声消除然后进行时频变换为例,本公开还保护第一信号确定单元401首先进行时频变换然后进行线性回声消除的方案。需要说明的是,对近端信号进行线性回声消除可以是基于第一远端参考信号对近端信号进行线性回声消除。本公开的示例性实施例中的时频变换可以是短时傅里叶变换(stft)。
[0110]
本公开的示例性实施例中的近端信号可采用合成的近端麦克风信号,根据近端麦克风信号的特点,可设置近端信号中包括语音信号和回声信号,那么,经过线性回声消除后的第一近端信号可包括上述语音信号和残留回声信号,该残留回声信号可以是对上述近端信号进行线性回声消除后的残留的回声信号,本公开的示例性实施例中的残留回声信号可通过计算得到,并且由于线性回声消除对语音等信号的影响不大,本公开的示例性实施例假设通过线性回声消除之后的语音信号不发生改变,即残留回声信号可以通过第一近端信号和上述语音信号的差得到。接下来,第一近端信号可通过时频变换得到第一信号,第一信号可包括频域语音信号和频域残留回声信号。
[0111]
进一步地,本公开的示例性实施例中的近端信号还可包括噪声信号,即近端信号中包括语音信号、回声信号和噪声信号,那么,近端信号d(t)可被表示为上式(1)。
[0112]
经过线性回声消除后的第一近端信号可包括上述语音信号、上述噪声信号和残留回声信号,该残留回声信号可以是对上述近端信号进行线性回声消除后的残留的回声信号,本公开的示例性实施例中的残留回声信号可通过计算得到,并且由于线性回声消除对语音、噪声等信号的影响不大,本公开的示例性实施例假设通过线性回声消除之后的语音信号和噪声信号不发生改变,即残留回声信号r(t)可被表示为上式(2)。
[0113]
第一近端信号可通过时频变换得到第一信号,第一信号可包括频域语音信号c(n,k)、频域噪声信号和频域残留回声信号r(n,k)。
[0114]
第一模型预测单元402,可将第一信号输入回声消除模型,并基于回声消除模型的输出得到第二信号,其中,第二信号是第一信号经过回声消除后的预测信号。
[0115]
在这里,除将第一信号输入回声消除模型之外,还将时频变换后的第一远端参考信号输入回声消除模型,也就是说,回声消除模型的输入包括第一信号和时频变换后的第一远端参考信号。
[0116]
基于上述关于图1的描述可知,回声消除模型的输出可包括第一掩蔽矩阵,那么第二信号可通过第一模型预测单元402将第一掩蔽矩阵作用于时频变换后的近端信号上得到,例如,第一模型预测单元402首先可对近端信号进行时频变换,得到第二近端信号;然后可根据第一掩蔽矩阵和第二近端信号的乘积,得到第二信号。
[0117]
例如,第二信号可被表示为上式(3)。
[0118]
损失确定单元403,可根据第一信号和第二信号,确定回声消除模型的预测损失,其中,预测损失包括第一预测损失,第一预测损失是基于从第二信号分离出的残留回声分量和语音信号分量计算得到。
[0119]
本公开的示例性实施例可选取上述频域语音信号c(n,k)和频域残留回声信号r(n,k)作为目标,将二者与第二信号进行比较,得到从第二信号分离出的残留回声分量和语音信号分量,再基于这两个分量得到第一预测损失。具体来说,损失确定单元403可通过下
述配置确定第一预测损失:
[0120]
首先,损失确定单元403可将第二信号向频域残留回声信号方向做映射,得到频域残留回声信号映射向量,将频域残留回声信号映射向量作为从第二信号分离出的残留回声分量。
[0121]
例如,频域残留回声信号映射向量可被表示为上式(4)。
[0122]
然后,损失确定单元403可将第二信号向频域语音信号方向做映射,得到频域语音信号映射向量,将频域语音信号映射向量作为从第二信号分离出的语音信号分量。
[0123]
例如,频域语音信号映射向量可被表示为上式(5)。
[0124]
最后,损失确定单元403可根据频域残留回声信号映射向量和频域语音信号映射向量,确定第一预测损失。
[0125]
这里,首先损失确定单元403可根据频域残留回声信号映射向量和频域语音信号映射向量,得到第二信号的平均信回比。例如,损失确定单元403可根据频域残留回声信号映射向量和频域语音信号映射向量得到第二信号每一帧的信回比,并对每一帧的信回比求均值,得到第二信号的平均信回比。
[0126]
然后损失确定单元403可根据第二信号的平均信回比,确定第一预测损失。例如,损失确定单元403可根据第二信号的平均信回比的相反数,确定第一预测损失。需要说明的是,本公开的示例性实施例要求第二信号的平均信回比最大,从而对残留回声给予更多的惩罚,所以设置第一预测损失是第二信号的平均信回比的相反数。
[0127]
例如,第一预测损失可被表示为上式(6)。
[0128]
在这里需要说明的是,上述对于(4)至(6)的计算之前,可设置r(n,k)、c(n,k)和s(n,k)均做均值标准化处理。上述(6)表示的第一预测损失具有尺度不变性(scale invariance)。
[0129]
根据本公开的示例性实施例,预测损失还可包括第二预测损失,第二预测损失包括至少一种与回声消除有关的损失值。这里,与回声消除有关的损失值可包括,但不限于,si-snr loss和spectral mse loss。基于此,预测损失可根据第一预测损失和第二预测损失得到,例如,损失确定单元403可根据第一预测损失和第二预测损失的和值,得到预测损失。
[0130]
例如,预测损失可被表示为上式(7)。
[0131]
参数调整单元404,可根据预测损失调整回声消除模型的参数。
[0132]
图5是根据一示例性实施例示出的一种回声消除装置的框图。参考图5,回声消除装置500包括第三信号确定单元501、第二模型预测单元502和回声消除信号单元503。
[0133]
第三信号确定单元501,可根据获取到的近端采集信号,得到第三信号。
[0134]
根据本公开的示例性实施例,近端采集信号可以是采集的近端麦克风信号。第三信号确定单元501可对近端采集信号进行回声消除,得到第三信号。例如,首先第三信号确定单元501可对近端采集信号进行线性回声消除,得到第一近端采集信号。然后第三信号确定单元501可对第一近端采集信号进行时频变换,得到第三信号。需要说明的是,这里仅仅以第三信号确定单元501首先进行线性回声消除然后进行时频变换为例,本公开还保护第三信号确定单元501首先进行时频变换然后进行线性回声消除的方案。还需说明的是,对近端采集信号进行线性回声消除可以是基于采集到的第二远端参考信号对近端采集信号进
行线性回声消除。本公开的示例性实施例中的时频变换可以是短时傅里叶变换(stft)。
[0135]
第二模型预测单元502,可将第三信号输入训练好的回声消除模型中,并基于训练好的回声消除模型的输出得到第四信号,其中,第四信号是第三信号经过回声消除后的预测信号。
[0136]
在这里,除将第三信号输入训练好的回声消除模型之外,还将时频变换后的第二远端参考信号输入训练好的回声消除模型,也就是说,训练好的回声消除模型的输入包括第三信号和时频变换后的第二远端参考信号。
[0137]
基于上述关于图1的描述可知,训练好的回声消除模型的输出可包括第二掩蔽矩阵,那么第四信号可通过第二模型预测单元502将第二掩蔽矩阵作用于时频变换后的近端采集信号上得到,例如,首先第二模型预测单元502可对近端采集信号进行时频变换,得到第二近端采集信号。然后第二模型预测单元502可根据第二掩蔽矩阵和第二近端采集信号的乘积,得到第四信号。
[0138]
回声消除信号单元503,可根据第四信号得到回声消除后的近端采集信号。
[0139]
根据本公开的示例性实施例,回声消除信号单元503可得到时域上的第四信号,作为回声消除后的近端采集信号,例如,回声消除信号单元503可对第四信号进行时频逆变换,得到回声消除后的近端采集信号。本公开的示例性实施例中的时频逆变换可以是短时反傅里叶变换(istft)。
[0140]
图6是根据一示例性实施例的电子设备600的框图。
[0141]
参照图6,电子设备600包括至少一个存储器601和至少一个处理器602,所述至少一个存储器601中存储有计算机可执行指令集合,当计算机可执行指令集合被至少一个处理器602执行时,执行根据本公开的回声消除模型的训练方法或回声消除方法。
[0142]
作为示例,电子设备600可以是pc计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里,电子设备600并非必须是单个的电子设备,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备600还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子设备。
[0143]
在电子设备600中,处理器602可包括中央处理器(cpu)、图形处理器(gpu)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
[0144]
处理器602可运行存储在存储器601中的指令或代码,其中,存储器601还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,网络接口装置可采用任何已知的传输协议。
[0145]
存储器601可与处理器602集成为一体,例如,将ram或闪存布置在集成电路微处理器等之内。此外,存储器601可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器601和处理器602可在操作上进行耦合,或者可例如通过i/o端口、网络连接等互相通信,使得处理器602能够读取存储在存储器中的文件。
[0146]
此外,电子设备600还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。电子设备600的所有组件可经由总线和/或网络而彼此连接。
[0147]
根据本公开的示例性实施例,还可提供一种存储指令的计算机可读存储介质,其中,当指令被至少一个处理器运行时,促使至少一个处理器执行根据本公开的回声消除模型的训练方法或回声消除方法。这里的计算机可读存储介质的示例包括:只读存储器(rom)、随机存取可编程只读存储器(prom)、电可擦除可编程只读存储器(eeprom)、随机存取存储器(ram)、动态随机存取存储器(dram)、静态随机存取存储器(sram)、闪存、非易失性存储器、cd-rom、cd-r、cd+r、cd-rw、cd+rw、dvd-rom、dvd-r、dvd+r、dvd-rw、dvd+rw、dvd-ram、bd-rom、bd-r、bd-r lth、bd-re、蓝光或光盘存储器、硬盘驱动器(hdd)、固态硬盘(ssd)、卡式存储器(诸如,多媒体卡、安全数字(sd)卡或极速数字(xd)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,此外,在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。
[0148]
根据本公开的示例性实施例,还可提供一种计算机程序产品,该计算机程序产品中的指令可由计算机设备的处理器执行以完成根据本公开的回声消除模型的训练方法或回声消除方法。
[0149]
图7是根据本公开的示例性实施例的智能音箱700的框图。
[0150]
参照图7,根据本公开的示例性实施例的智能音箱700包括根据本公开示出的回声消除装置500。在具体的实施过程中,智能音箱700例如可应用于视频会议,在该场景中,智能音箱700可包括信号采集模块、信号处理模块和信号输出模块,其中,信号采集模块可采集环境中的音频信号(例如,信号采集模块可采集,但不限于,麦克风信号,该麦克风信号可包括近端麦克风采集到的近端的用户声音信号和近端麦克风采集到的远端通过网络链路传输过来并经过近端扬声器播放的音频信号),信号采集模块可包括,但不限于,麦克风,信号处理模块可对信号采集模块采集的音频信号进行处理(例如,包括采用根据本公开的示例性实施例的回声消除方法对采集到的音频信号进行回声消除),信号处理模块可包括,但不限于,可处理音频信号的处理器如cpu,信号输出模块可将经过信号处理模块进行处理之后的音频信号在环境中进行输出(例如,信号输出模块可将经过信号处理模块进行处理之后的音频信号通过扬声器输出展示在环境中),当然,智能音箱700还可应用于其他的场景,例如,居家环境等,对此不作限制,在不同的使用环境中,智能音箱700的组成结构可能有所不同,需要明确的是,只要是采用根据本公开示出的回声消除方法进行回声消除的智能音箱,都属于本公开所欲保护的范围。
[0151]
图8是根据本公开的示例性实施例的智能音箱800的框图。
[0152]
参照图8,根据本公开的示例性实施例的智能音箱800包括至少一个存储指令的存储器801、至少一个音频信号处理器802、至少一个音频信号采集器803和至少一个音频信号输出器804,其中,所述指令在被至少一个音频信号处理器802运行时,促使所述至少一个音频信号处理器802执行根据本公开的回声消除方法。
[0153]
根据本公开的回声消除模型的训练方法和装置及回声消除方法和装置,可基于从回声消除模型预测的第二信号分离出的残留回声分量和语音信号分量计算出的第一预测损失,对回声消除模型的参数进行调整,从而对回声消除模型进行训练,能够帮助指导回声消除模型的训练过程,在不引入语音剪切且保证语音音质的前提下,对残留回声进行额外的抑制,提高回声的消除量,解决现有方案中存在的回声消除量不够且双讲漏回声的问题,实现更高的信回比和erle。
[0154]
另外,根据本公开的回声消除模型的训练方法和装置及回声消除方法和装置,可利用映射原理来分离第二信号中预测正确的语音信号分量和残留回声分量,并计算信回比来对残留回声提供更多的惩罚。
[0155]
另外,根据本公开的回声消除模型的训练方法和装置及回声消除方法和装置,第一预测损失具有尺度不变性,不会由于信号幅度大小而影响预测损失的大小,从而迫使模型的学习是从抑制残留回声的角度而不是抑制整体的信号幅度的角度来优化该预测损失。即使对于幅度较小的语音音频信号,为保证高信回比,不会对语音造成剪切,从而可保证其音质不受损伤,对于现有方案中双讲场景下存在的漏回声的现象,不会导致双讲部分的语音被过分抑制。
[0156]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
[0157]
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

技术特征:


1.一种回声消除模型的训练方法,其特征在于,包括:根据近端信号,得到第一信号;将所述第一信号输入回声消除模型,并基于回声消除模型的输出得到第二信号,其中,所述第二信号是第一信号经过回声消除后的预测信号;根据所述第一信号和所述第二信号,确定回声消除模型的预测损失,其中,所述预测损失包括第一预测损失,所述第一预测损失是基于从所述第二信号分离出的残留回声分量和语音信号分量计算得到;根据所述预测损失调整所述回声消除模型的参数。2.如权利要求1所述的训练方法,其特征在于,所述回声消除模型的输出包括第一掩蔽矩阵;所述基于回声消除模型的输出得到第二信号,包括:对所述近端信号进行时频变换,得到第二近端信号;根据所述第一掩蔽矩阵和所述第二近端信号的乘积,得到所述第二信号。3.一种回声消除方法,其特征在于,包括:根据获取到的近端采集信号,得到第三信号;将所述第三信号输入经由如权利要求1或2所述的回声消除模型的训练方法训练好的回声消除模型中,并基于训练好的回声消除模型的输出得到第四信号,其中,所述第四信号是第三信号经过回声消除后的预测信号;根据所述第四信号得到回声消除后的近端采集信号。4.一种回声消除模型的训练装置,其特征在于,包括:第一信号确定单元,被配置为:根据近端信号,得到第一信号;第一模型预测单元,被配置为:将所述第一信号输入回声消除模型,并基于回声消除模型的输出得到第二信号,其中,所述第二信号是第一信号经过回声消除后的预测信号;损失确定单元,被配置为:根据所述第一信号和所述第二信号,确定回声消除模型的预测损失,其中,所述预测损失包括第一预测损失,所述第一预测损失是基于从所述第二信号分离出的残留回声分量和语音信号分量计算得到;参数调整单元,被配置为:根据所述预测损失调整所述回声消除模型的参数。5.一种回声消除装置,其特征在于,包括:第三信号确定单元,被配置为:根据获取到的近端采集信号,得到第三信号;第二模型预测单元,被配置为:将所述第三信号输入经由如权利要求1或2所述的回声消除模型的训练方法训练好的回声消除模型中,并基于训练好的回声消除模型的输出得到第四信号,其中,所述第四信号是第三信号经过回声消除后的预测信号;回声消除信号单元,被配置为:根据所述第四信号得到回声消除后的近端采集信号。6.一种电子设备,其特征在于,包括:至少一个处理器;至少一个存储计算机可执行指令的存储器,其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处理器执行如权利要求1或2所述的回声消除模型的训练方法或如权利要求3所述的回声消除方法。
7.一种存储指令的计算机可读存储介质,其特征在于,当所述指令被至少一个处理器运行时,促使所述至少一个处理器执行如权利要求1或2所述的回声消除模型的训练方法或如权利要求3所述的回声消除方法。8.一种计算机程序产品,包括计算机指令,其特征在于,所述计算机指令被至少一个处理器执行时实现如权利要求1或2所述的回声消除模型的训练方法或如权利要求3所述的回声消除方法。9.一种智能音箱,其特征在于,包括如权利要求5所述的回声消除装置。10.一种智能音箱,其特征在于,包括:至少一个音频信号处理器;至少一个存储指令的存储器;至少一个音频信号采集器;至少一个音频信号输出器,其中,所述指令在被所述至少一个音频信号处理器运行时,促使所述至少一个音频信号处理器执行如权利要求3所述的回声消除方法。

技术总结


本公开关于一种回声消除模型的训练方法和装置及回声消除方法和装置,训练方法包括:根据近端信号,得到第一信号;将第一信号输入回声消除模型,并基于回声消除模型的输出得到第二信号,其中,第二信号是第一信号经过回声消除后的预测信号;根据第一信号和第二信号,确定回声消除模型的预测损失,其中,预测损失包括第一预测损失,第一预测损失是基于从第二信号分离出的残留回声分量和语音信号分量计算得到;根据预测损失调整回声消除模型的参数。根据本公开的回声消除模型的训练方法和装置及回声消除方法和装置,能够对残留回声进行额外的抑制,提高回声的消除量。提高回声的消除量。提高回声的消除量。


技术研发人员:

赵昊然 韩润强 刘溪 张晨

受保护的技术使用者:

北京达佳互联信息技术有限公司

技术研发日:

2022.04.29

技术公布日:

2022/7/11

本文发布于:2024-09-21 19:34:58,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/12976.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:信号   回声   所述   近端
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议