一种采用级联掩蔽估计的语音分离方法



1.本发明属于信号处理领域,具体涉及一种采用级联掩蔽估计的语音分离方法。


背景技术:



2.实际场景中,目标语音信号常伴随着环境噪声、背景音乐、话音等干扰。这些干扰不仅降低了目标信号的听感质量和语音可懂度,也严重影响了后续语音应用系统的效果。
3.为了应对这个问题,声源分离和语音增强成为提高应用系统鲁棒性的重要环节。单通道声源分离主要面对背景为话音、音乐、噪声等通用音频干扰时,如何从单一通道混合信号中提取出有效目标语音信号。
4.传统上,独立成分分析(independent component analysis,ica)、非负矩阵分解(nonnegative matrix factorization,nmf)被广泛应用于声源分离。ica通过假定目标信号与干扰信号之间统计独立,达到分离源信号的目的nmf利用学习到的待分离源的先验信息字典,用以指导后续分离。对于ica,当目标和干扰信号的统计独立假设不强时,分离效果通常很差;对于nmf,当待分离的源之间高度相似时(如,同类音混叠),先验字典通常存在混叠,导致无法完成分离目标。
5.随着深度学习技术的发展,各种深度神经网络架构的模型广泛应用于单通道语音分离。如基于一维时域和空洞卷积的模型、基于conv-lstm的分离模型。这些模型通常采用编码器-解码器、声源分离器的结构,其中,编码器负责对输入信号进行特征提取和变换,解码器负责将分理出的目标信号特征进行综合,产生出目标信号估计。声源分离器则根据编码器输出的隐藏空间表示,估计出目标信号的掩蔽值
6.以上方法在实验环境下取得了成功,但存在一些问题。不同粒度的特征具有不同的分布特性。大粒度的特征具有丰富的长时信息,能够反映信号的全局特性,但缺乏细节信息。而细粒度的特征具有细节信息,但容易受噪声影响,缺乏鲁棒性。为了产生准确的掩蔽估计,需要结合多个粒度的特征。但是,缺乏对不同粒度信息流的控制,将可能使得特征产生冗余,导致粗粒度特征中混入细粒度特征的噪声,或者细粒度特征的边界信息被高粒度特征所模糊,进而影响估计器的性能。


技术实现要素:



7.本发明的目的在于克服上述技术缺陷,提出了一种采用级联掩蔽估计的语音分离方法,所述方法包括:
8.将混合声源信号输入编码器,输出隐藏空间矩阵;
9.将隐藏空间矩阵输入声源分离器,输出待分离声源信号的掩蔽矩阵;所述声源分离器采用级联掩蔽估计分离器;
10.将隐藏空间矩阵和掩蔽矩阵进行点乘,得到待分离声源信号在隐藏空间的估计值;
11.将估计值输入解码器,输出分离后的目标信号波形。
12.作为上述方法的一种改进,所述声源分离器包括:特征提取模块、跨粒度特征级联融合模块和加法器;
13.所述特征提取模块,用于对编码器输出的隐藏空间矩阵进行变换,产生不同时间粒度的特征,并输出至跨粒度特征级联融合模块;
14.所述跨粒度特征级联融合模块,用于通过多级处理,逐步细化融合特征的质量;每一级处理包括“自底向上”和“自顶向下”两种操作;“自底向上”从粗粒度特征开始,逐渐融合不同尺度的细粒度特征,产生该级对目标信号的掩蔽估计;“自顶向下”将上一级的多粒度融合结果分别与本级的各粒度特征进行融合,并将此作为本级的输入;
15.所述加法器,用于对每一级和各粒度的掩蔽估计进行加权平均,产生最终的掩蔽矩阵。
16.作为上述方法的一种改进,所述特征提取模块包括依次连接的第一特征提取单元fem_1、第二特征提取单元fem_2和第三特征提取单元fem_3;
17.每个特征提取单元由m个1维因果卷积块堆叠而成;这些卷积块分别具有独立的空洞因子,这m个1维卷积块的空洞因子分别为d=20,d=21,

d=2
m-1
;这些空洞因子决定了时域卷积所利用的时间上下文宽度,即:时间粒度;不同时间粒度是由空洞卷积操作的特征所产生;
18.每个1维因果卷积块包括:1
×
1卷积、非线性激活函数prelu、归一化函数、d卷积、非线性激活函数、归一化函数、并联的两个1
×
1卷积以及加法运算器;其中,1
×
1卷积、非线性激活函数prelu、归一化函数、d卷积、非线性激活函数、归一化函数、一个1
×
1卷积以及加法运算器组成残差路径;1
×
1卷积、非线性激活函数prelu、归一化函数、d卷积、非线性激活函数、归一化函数以及另一个1
×
1卷积组成跳转路径;残差路径的输出作为传入与其连接的上一个1维因果卷积块的输入;而跳转路径的输出为该时间粒度的特征;
19.非线性激活函数prelu具有如下形式:
[0020][0021]
其中,是一个可训练实数,x为函数变量;
[0022]
归一化函数采用全局层归一化,其具有如下形式gln(f):
[0023][0024][0025][0026]
其中,是待归一化的输入特征,n和t分别表示通道数和时间维;γ和β是可训练参数,∈是一个固定常数;e[f]为f的期望,var[f]为f的方差,

为点乘运算,gln(f)为f的归一化值。
[0027]
作为上述方法的一种改进,所述跨粒度特征级联融合模块的结构为:
[0028][0029]
其中,cfm表示一个跨粒度特征融合单元,用于对不同时间粒度的特征进行融合,以补偿不同粒度特征的缺失信息;0表示此处无跨粒度特征融合处理单元,softmax表示softmax激活函数;上述矩阵的行向量表示同一时间粒度特征路径,列向量组成跨时间粒度特征路径;每个softmax将处理结果输出至加法器;每个cfm将融合结果分别输出至右侧的cfm和上层的cfm。
[0030]
作为上述方法的一种改进,所述跨粒度特征融合单元的处理过程为:
[0031]
假定和分别表示细粒度和粗粒度特征,首先通过计算两者之间的内积抽取f
l
和fh的公共部分;然后,该共有部分分别与原f
l
和fh相加,得到融合后的两个粒度特征和
[0032]fl
和fh先分别进行非线性变换;然后,变换后的两个粒度特征进行按元素乘积操作;乘积之后的特征再次进行非线性变换,得到最终的共有特征;这些共有特征再与原特征求和,得到和其数学表示为:
[0033][0034][0035]
其中,ω
l
(
·
),ωh(
·
),φ(
·
),分别表示细粒度和粗粒度特征路径上的非线性变换操作;这些非线性变换具有相同的结构:包含一个2维的3
×
3卷积、批归一化操作以及prelu非线性函数;
[0036]
最终,沿横向传播传入下一级cfm进行处理,而则沿纵向自底向上传播,输入下一个cfm进行处理。
[0037]
作为上述方法的一种改进,所述方法还包括:编码器、声源分离器和解码器联合训练的步骤,其代价函数使用si-sdr:
[0038][0039]
其中,t表示转置运算;是声源分离器输出的第i个源的估计;si是第i个干净源信号。
[0040]
本发明的优势在于:
[0041]
1、本发明的方法采用跨粒度特征融合,综合粗细两个不同粒度的互补特征,提升了多粒度特征的融合性能;
[0042]
2、本发明的方法为了进一步提高多粒度特征融合的质量和效率,以跨粒度特征融合单元为基础,通过多级细化和逐粒度融合,逐步优化多时间粒度的融合特征。
附图说明
[0043]
图1为编码器-源分离器-解码器结构的声源分离算法流程;
[0044]
图2为本发明的采用级联掩蔽估计的语音分离方法的流程示意图;
[0045]
图3为本发明的特征提取单元结构示意图;
[0046]
图4为本发明的因果空洞卷积示意图;
[0047]
图5为本发明的跨粒度特征融合单元结构示意图。
具体实施方式
[0048]
下面结合附图对本发明的技术方案进行详细说明。
[0049]
如图1所示,本发明采用端到端优化的编码器-源分离器-解码器结构。编码器和解码器是两个配对层,编码器用于将混合信号转换到隐藏空间,便于后续的分离操作;解码器则将处理后的隐藏空间信号进行反变换,重建出目标信号估计。源分离器则在变换域中进行目标信号信息的抽取。
[0050]
如图2所示,本发明提出了一种采用级联掩蔽估计的语音分离方法,包括以下具体过程:
[0051]
1.1问题定义
[0052]
单通道时域语音分离问题可表示为:给定混合信号估计c个源信号且满足m(t)=∑isi(t)。为了简化表示,下面将m(t)表示为同理,s1(t),

,sc(t)可以表示为
[0053]
1.2编码器-解码器
[0054]
输入混合信号被切分为t0个时间长度为l、重叠为l/2的帧个时间长度为l、重叠为l/2的帧mk经过1维时域卷积(即:编码器),变换为n维表示该变换可以写成矩阵操作:
[0055]
w=h(mku)
ꢀꢀꢀ
(1)
[0056]
其中,包含n个维度为l的基向量;h(
·
)是非线性函数,此处选为relu(x)=max(0,x)。
[0057]
解码器采用1维转置卷积从w重建原始波形,此操作同样可以表示为矩阵形式:
[0058][0059]
其中,是mk的重建信号;与编码器u相对应,解码器的每一行对应一个长度为l的解码基向量。最终,混合信号采用叠接相加方法根据应一个长度为l的解码基向量。最终,混合信号采用叠接相加方法根据进行重建。
[0060]
1.3级联掩蔽估计分离器
[0061]
单帧信号的分离操作通过估计c个掩蔽向量来实现。其中c是混合信号中的说话人数量;mi是各元素值介于0和1之间的n维向量。
[0062]
则每一个待分离源可以估计为:
[0063]hi
=mi⊙wꢀꢀꢀ
(3)
[0064]
其中,

表示对应元素相乘的操作。每个源信号的波形可以表示为:
[0065]
[0066]
其中,∑imi=1。
[0067]
从以上讨论可以看出,源分离器的目标就是估计mi,然后根据式(4)就能得到分离出的目标信号。本发明中,源分离器采用图2所示的级联结构估计掩蔽向量出的目标信号。本发明中,源分离器采用图2所示的级联结构估计掩蔽向量
[0068]
该分离器采用1维时域卷积及其空洞卷积作为特征提取模块,以产生不同时间粒度的特征,特征提取模块包括三个特征提取单元fem。
[0069]
不同粒度的特征通过跨粒度特征级联融合模块进行整合,以补偿不同粒度的缺失信息,并抑制/减弱单个粒度特征中的干扰。跨粒度特征级联融合模块通过多个跨粒度特征融合单元构建多级处理,不断细化融合结果,最终产生待分离源的掩蔽估计。每一级处理中,包括“自底向上”和“自顶向下”两种操作。“自底向上”从粗粒度特征开始,逐渐融合不同尺度的细粒度特征,产生该级模块对目标信号的掩蔽估计。“自顶向下”将上一级的多粒度融合结果分别与本级的各粒度特征进行融合,并将此作为本级处理模块的输入。
[0070]
最后,通过加法器,对每一级和各粒度的掩蔽估计进行加权平均,产生最终的掩蔽值。
[0071]
1.3.1特征提取单元fem
[0072]
fem的结构如图3的(a)所示,每个fem由m个1维因果卷积块堆叠而成。这些卷积块分别具有独立的空洞因子(dilation factors)。如图所示,这m个卷积块的空洞因子分别为d=20,d=21,

d=2
m-1
。这些空洞因子决定了时域卷积所利用的时间上下文宽度,因此决定了分析的时间粒度。为了理解这一点,图4为因果空洞卷积运算的示意图。图中,整个网络包含三个隐藏层,激活的神经元用深表示。从图中可以看出,空洞卷积等价于使用一个卷积核更大的滤波器,但这个滤波器通过在原滤波器的相邻节点之间“补零”来实现。相较于标准卷积,空洞卷积允许网络以一个更粗的粒度分析输入信号。具体来说,对于第一隐藏层,其空洞因子d=20=1,这时空洞卷积等价于标准卷积,假定卷积核大小为2,则如图4所示,该层t时刻的神经元的激活需要依据时刻t和t-1的输入。对于第二隐藏层,其空洞因子d=21=2,该层t时刻神经元的激活依赖时刻t和t-2的输入。对于第三隐藏层,其空洞因子d=22=4,该层t时刻神经元的激活依赖时刻t和t-4的输入。从以上计算过程可以看出,越接近输出层,单个神经元激活所依赖的输入之间的时间间隔更宽,即时间粒度变大。这等效于对输入首先进行降采样,再利用原卷积核进行标准卷积运算。
[0073]
在单个fem里,每一个1-d卷积块都具有不同的时间粒度,fem中的加法运算单元将具有不同空洞因子的1-d卷积的输出进行累加,实现一种fem单元内的多粒度特征融合(见图3的(a))。另外,注意到,三个fem以串接形式进行连接(见图2),前一个fem的输出作为下一个fem的输入,因而在时间尺度上,串接在后面的fem总是具有更大的时间粒度,即只能看到更长时的全局信息。
[0074]
图3的(b)给出了1维卷积块的详细结构。每个1维卷积块包含一个“残差”路径和一个“跳转”路径,“残差”路径的输出作为下一个1-d卷积模块的输入(见图3的(a));而“跳转”路径的输出作为该时间粒度的特征,它与其他1-d空洞卷积的“跳转”输出特征进行累加,产生该fem的输出(见图3的(a))。为了进一步降低模型参数,使用depthwise可分离卷积(s-conv)替代标准卷积。该卷积通过解耦标准卷积为depthwise卷积(d-conv)和pointwise卷积(1
×
1卷积),极大降低了参数量和运算成本。
[0075]
d-conv(y,k)=concat(yj*kj),j=1,

,g
[0076]
s-conv(y,k,l)=d-conv(y,k)*l
ꢀꢀꢀ
(5)
[0077]
其中,是s-conv(
·
)的输入,是长度为p的卷积核,和分别是矩阵y和k的第j行,是尺度为1的卷积核,即:l表示g
×
h个1
×
1的卷积,concat(
·
)是将向量按行拼接的操作,*表示卷积运算。
[0078]
可以看出,depthwise可分离卷积只包含g
×
p+g
×
h个参数,而相应的标准卷积需要采用核其包含g
×
p
×
h个参数。
[0079]
在每个卷积运算之后,会附加非线性激活和归一化操作。非线性激活函数prelu具有如下形式:
[0080][0081]
其中,是一个可训练实数。
[0082]
归一化操作采用全局层归一化(global layer normalization),其具有如下形式:
[0083][0084][0085][0086]
其中,是待归一化的输入特征,n和t分别表示通道数和时间维。γ和β是可训练参数,∈是一个固定常数。
[0087]
1.3.2跨粒度特征融合单元cfm
[0088]
cfm完成不同粒度特征的融合,它通过跨特征的相关运算,减少特征之间的不一致性。图5给出了跨粒度特征融合单元的示意图。cfm包含粗粒度特征路径和细粒度特征路径。细粒度特征包含丰富的细节信息、背景噪声;而对于粗粒度特征,由于感受野逐渐增加的空洞卷积操作,使得其在类别边界处的分辨比较模糊。
[0089]
假定和分别表示细粒度和粗粒度特征,cfm首先通过计算两者之间的内积抽取f
l
和fh的公共部分;然后,该共有部分分别与原f
l
和fh相加,得到融合后的两个粒度特征和具体而言,f
l
和fh先分别进行非线性变换;然后,变换后的两个粒度特征进行按元素乘积操作。乘积之后的特征再次进行非线性变换,得到最终的共有特征。这些共有特征再与原特征进行求和,得到和其数学表示为:
[0090][0091][0092]
其中,ω
l
(
·
),ωh(
·
),φ(
·
),分别表示细粒度和粗粒度特征路径
上的非线性变换函数;非线性变换操作包含一个2维的3
×
3卷积、批归一化操作以及prelu非线性函数。最终,沿横向传播传入下一级cfm进行处理(见图2横向流动方向),而则沿纵向自底向上传播,输入下一个cfm进行处理(见图2纵向流动方向)。
[0093]
1.3.3代价函数
[0094]
模型训练采用端到端的方式进行优化。代价函数使用si-sdr:
[0095][0096]
其中,t表示转置运算;是模型得到的第i个源的估计;si是第i个干净源信号。
[0097]
2、实施过程如下:
[0098]
训练过程
[0099]
输入:混合信号x={x0,

,x
l
},干净源信号和
[0100]
参数:编码器ε(θi;
·
),解码器源分离器
[0101]
输出:训练好的ε(θi;
·
),
[0102]
repeat:
[0103]
1.wsj0-2mix被用于训练整个端到端(end-to-end)的声源分离系统;其中,30小时数据用于训练和10小时数据用于验证;
[0104]
2.网络在4秒长的语音分段,采用200个epoch进行训练;
[0105]
3.验证集上连续3个epoch未改进,则学习率减半;
[0106]
4.选择adam作为优化器,梯度截断用于保证训练收敛,权重衰减设置为0.0005;
[0107]
5.用式(9)计算作为训练代价函数;
[0108]
5.利用反向传播算法更新参数
[0109]
until收敛
[0110]
测试过程
[0111]
输入:混合信号x={x0,

,x
l
},编码器ε(θi;
·
),解码器源分离器
[0112]
输出:分离后的信号和
[0113]
repeat
[0114]
1.x输入由{编码器ε(θi;
·
),解码器源分离器所组成的声源分离系统产生干净信号的估计和
[0115]
until所有音频处理完毕。
[0116]
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

技术特征:


1.一种采用级联掩蔽估计的语音分离方法,所述方法包括:将混合声源信号输入编码器,输出隐藏空间矩阵;将隐藏空间矩阵输入声源分离器,输出待分离声源信号的掩蔽矩阵;所述声源分离器采用级联掩蔽估计分离器;将隐藏空间矩阵和掩蔽矩阵进行点乘,得到待分离声源信号在隐藏空间的估计值;将估计值输入解码器,输出分离后的目标信号波形。2.根据权利要求1所述的采用级联掩蔽估计的语音分离方法,其特征在于,所述声源分离器包括:特征提取模块、跨粒度特征级联融合模块和加法器;所述特征提取模块,用于对编码器输出的隐藏空间矩阵进行变换,产生不同时间粒度的特征,并输出至跨粒度特征级联融合模块;所述跨粒度特征级联融合模块,用于通过多级处理,逐步细化融合特征的质量;每一级处理包括“自底向上”和“自顶向下”两种操作;“自底向上”从粗粒度特征开始,逐渐融合不同尺度的细粒度特征,产生该级对目标信号的掩蔽估计;“自顶向下”将上一级的多粒度融合结果分别与本级的各粒度特征进行融合,并将此作为本级的输入;所述加法器,用于对每一级和各粒度的掩蔽估计进行加权平均,产生最终的掩蔽矩阵。3.根据权利要求2所述的采用级联掩蔽估计的语音分离方法,其特征在于,所述特征提取模块包括依次连接的第一特征提取单元fem_1、第二特征提取单元fem_2和第三特征提取单元fem_3;每个特征提取单元由m个1维因果卷积块堆叠而成;这些卷积块分别具有独立的空洞因子,这m个1维卷积块的空洞因子分别为d=20,d=21,

d=2
m-1
;这些空洞因子决定了时域卷积所利用的时间上下文宽度,即:时间粒度;不同时间粒度是由空洞卷积操作的特征所产生;每个1维因果卷积块包括:1
×
1卷积、非线性激活函数prelu、归一化函数、d卷积、非线性激活函数、归一化函数、并联的两个1
×
1卷积以及加法运算器;其中,1
×
1卷积、非线性激活函数prelu、归一化函数、d卷积、非线性激活函数、归一化函数、一个1
×
1卷积以及加法运算器组成残差路径;1
×
1卷积、非线性激活函数prelu、归一化函数、d卷积、非线性激活函数、归一化函数以及另一个1
×
1卷积组成跳转路径;残差路径的输出作为传入与其连接的上一个1维因果卷积块的输入;而跳转路径的输出为该时间粒度的特征;非线性激活函数prelu具有如下形式:其中,是一个可训练实数,x为函数变量;归一化函数采用全局层归一化,其具有如下形式gln(f):归一化函数采用全局层归一化,其具有如下形式gln(f):
其中,是待归一化的输入特征,n和t分别表示通道数和时间维;γ和β是可训练参数,∈是一个固定常数;e[f]为f的期望,var[f]为f的方差,

为点乘运算,gln(f)为f的归一化值。4.根据权利要求3所述的采用级联掩蔽估计的语音分离方法,其特征在于,所述跨粒度特征级联融合模块的结构为:其中,cfm表示一个跨粒度特征融合单元,用于对不同时间粒度的特征进行融合,以补偿不同粒度特征的缺失信息;0表示此处无跨粒度特征融合处理单元,softmax表示softmax激活函数;上述矩阵的行向量表示同一时间粒度特征路径,列向量组成跨时间粒度特征路径;每个softmax将处理结果输出至加法器;每个cfm将融合结果分别输出至右侧的cfm和上层的cfm。5.根据权利要求4所述的采用级联掩蔽估计的语音分离方法,其特征在于,所述跨粒度特征融合单元的处理过程为:假定和分别表示细粒度和粗粒度特征,首先通过计算两者之间的内积抽取f
l
和f
h
的公共部分;然后,该共有部分分别与原f
l
和f
h
相加,得到融合后的两个粒度特征和f
l
和f
h
先分别进行非线性变换;然后,变换后的两个粒度特征进行按元素乘积操作;乘积之后的特征再次进行非线性变换,得到最终的共有特征;这些共有特征再与原特征求和,得到和其数学表示为:其数学表示为:其中,ω
l
(
·
),ω
h
(
·
),φ(
·
),分别表示细粒度和粗粒度特征路径上的非线性变换操作;这些非线性变换具有相同的结构:包含一个2维的3
×
3卷积、批归一化操作以及prelu非线性函数;最终,沿横向传播传入下一级cfm进行处理,而则沿纵向自底向上传播,输入下一个cfm进行处理。6.根据权利要求5所述的采用级联掩蔽估计的语音分离方法,其特征在于,所述方法还包括:编码器、声源分离器和解码器联合训练的步骤,其代价函数使用si-sdr:其中,t表示转置运算;是声源分离器输出的第i个源的估计;s
i
是第
i个干净源信号。

技术总结


本发明公开了一种采用级联掩蔽估计的语音分离方法,所述方法包括:将混合声源信号输入编码器,输出隐藏空间矩阵;将隐藏空间矩阵输入声源分离器,输出待分离声源信号的掩蔽矩阵;所述声源分离器采用级联掩蔽估计分离器;将隐藏空间矩阵和掩蔽矩阵进行点乘,得到待分离声源信号在隐藏空间的估计值;将估计值输入解码器,输出分离后的目标信号波形。本发明的方法为了进一步提高多粒度特征融合的质量和效率,以跨粒度特征融合单元为基础,通过多级细化和逐粒度融合,逐步优化多时间粒度的融合特征,从而提高了分离出的目标信号的质量。从而提高了分离出的目标信号的质量。从而提高了分离出的目标信号的质量。


技术研发人员:

胡琦 国雁萌 颜永红

受保护的技术使用者:

中国科学院声学研究所

技术研发日:

2021.01.28

技术公布日:

2022/7/29

本文发布于:2024-09-24 09:22:08,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/18252.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:卷积   粒度   特征   声源
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议