DCCRN详读-翻译-概括

DCCRN: Deep Complex Convolution Recurrent Network for Phase-Aware Speech Enhancement

DCCRN：⽤于相位感知的语⾳增强的深度复数卷积递归⽹络

摘要

随着深度学习的成功语⾳增强在可理解性和可感知质量⽅⾯都有了提升。传统上，在时频(TF)上的⽅法主要是通过简单的卷积神经⽹络(CNN)或循环神经⽹(RNN)预测时频的遮罩矩阵或语⾳频谱。最近的⼀些研究使⽤复数频谱图作为训练⽬标，但训练是在实数⽹络中完成，其分别预测幅值和相位分量或实部和虚部。值得注意的是, 卷积递归⽹络(CRN)集成了卷积编码器-解码器(CED)结构和 LSTM，这已被证明对复杂⽬标有帮助。为了更有效地训练复杂⽬标，在本⽂中，我们设计了⼀个新的⽹络模拟复值的操作称为深度复杂卷积递归⽹络(DCCRN)，其中CNN和RNN结构都可以处理复值操作。我们所提出的DCCRN模型在客观或主观指标上都⽐以前的其他⽹络⾮常有竞争⼒。在只有370万个参数的情况下，我们提交给Interspeech 2020DNS 挑战赛的DCCRN模型，在平均意见得分（MOS）⽅⾯，在实时轨道上排名第⼀，在⾮实时轨道上排名第⼆。

受到CRN的启发，想使⽤复数的频谱做CRN

简介

噪声⼲扰可能会严重降低语⾳通信的感知质量和可懂度。同样地，相关的任务，如⾃动语⾳识别（ASR），也会受到噪声⼲扰的严重影响。因此，语⾳增强是⼀项⾮常需要的任务，即把有噪声的语⾳作为输⼊，并产⽣⼀个增强的语⾳输出，以获得更好的语⾳质量、可懂度，有时还能在下游任务中获得更好的评判（例如，在⾃动语⾳识别中降低错误率）。最近，深度学习（DL）⽅法在语⾳增强⽅⾯取得了可喜的成果，特别是在处理挑战性条件下的⾮平稳噪声⽅⾯。根据具体的应⽤，DL可以使单声道（单声道）和多声道语⾳增强受益。在本⽂中，我们专注于基于DL的单通道语⾳增强，以获得更好的感知质量和可理解性，特别是针对低复杂性的模型的实时处理。Interspeech 2020 DNS挑战为这种⽬的提供了⼀个共同的测试平台[1]。

语⾳增强，单声道信号

相关

作为⼀个有监督的学习问题，嘈杂的语⾳可以通过神经⽹络在时频(TF)或直接在时域进⾏增强。时域⽅法可以进⼀步分为两类--直接回归[2,3]和适应性前端⽅法[4-6]。前者直接从语⾳-噪声混合物的波形中学习回归函数，⽽不需要明确说明。语⾳-噪声混合物到⽬标语⾳的回归函数，没有明确的信号前端，通常是通过涉及某种形式的⼀维卷积神经⽹络（Conv1d）。以时域的后者的⾃适应前端⽅法采

⽤时域信号的输⼊和输出。通常采⽤卷积编码器-解码器（CED）或u-net 框架，它类似于短时傅⾥叶变换（STFT）及其反演。(STFT)和它的反转(iSTFT)。

直接回归：通过某种形式的⼀维卷积神经⽹络(1-D CNN)来学习混合语⾳到⼲净语⾳的映射关系，⽽⽆需明确的短时傅⾥叶变换⾃适应前端：通过构建可学习的前端来代替短时傅⾥叶变换(STFT)。然后将⽣成的类似于频谱图的内容做为分离模块的输⼊进⾏分离。这个⽅法的好处是可以在窗⼝⼤⼩和前端基频数量⽅⾯有更多灵活的选择该类型的⽅法类似Conv-TasNet，Furcanext

然后在编码器和解码器之间插⼊增强⽹络，通常使⽤具有时间建模能⼒的⽹络，如 temporal convolutional network（TCN）[4, 7]和long shortterm memory（LSTM）[8]。作为另⼀个主流，TF的⽅法[9-13]在频谱图上⼯作，认为在STFT之后，语⾳和噪声的细微结构可以通过TF表⽰更容易分离。

卷积递归⽹络（CRN）[14]是⼀种最新的⽅法，它也采⽤了与时域⽅法类似的CED结构，但通过⼆维CNN（Conv2d）从嘈杂的语⾳频谱中提取⾼级特征以实现更好的分离。具体来说，CED可以将复值或实值的频谱图作为输⼊。复数频谱可以分解为极坐标中的幅值和相位，或者笛卡尔坐标中的实部和虚部。长期以来，⼈们⼀直认为相位是难以估计的。因此，早期的研究只关注与幅度有关的训练⽬标，⽽忽略了相位[15-17]，通过简单地应⽤估计的幅度与噪声语⾳相位来重新合成估计的语⾳。这就限制了性能的上限。⽽估计的语⾳的相位会在严重的⼲扰下出现明显的偏差严重的⼲扰。尽管最近有许多⽅法虽然最近提出了许多相位重建的⽅法来解决这个问题 18, 19]，但神经⽹络仍然是实值的。

传统CRN⽹络做编解码CED结构，但没有引⼊相位信息

通常，在TF域定义的训练⽬标主要分为两类，即以掩蔽的⽬标和以映射的⽬标，前者描述了⼲净语⾳和背景噪声之间的时频关系，后者对应于⼲净语⾳的频谱表现。在掩蔽系列中，ideal binary mask (IBM) [20], ideal ratio mask (IRM) [10] and spectral magnitude mask (SMM) [21]只使⽤⼲净语⾳和混合语⾳之间的幅度，忽略了相位信息。相⽐之下，phase-sensitive mask (PSM) [22]是第⼀个利⽤相位信息的掩码，显⽰了相位估计的可⾏性。随后，complex ratio mask（CRM）[23]被提出，它可以通过同时增强⼲净语⾳的实部和虚部的分割来完美重建语⾳和混合语⾳频谱图的实部和虚部同时增强，可以完美地重建语⾳。和混合语⾳频谱图的实部和虚部同时增强，可以完美地重建语⾳。后来，Tan等⼈[24]提出了⼀个具有⼀个编码器和两个解码器的complex spectral mapping (CSM) 的CRN，以同时估计混合语⾳的实部和虚部谱图。值得注意的是，CRM和CSM拥有语⾳信号的全部信息，因此它们在理论上可以达到最佳的语⾳增强性能。

TF下⼀般的操作可以分为遮罩（遮罩矩阵，加强语谱图的⽬标声⾳）和映射（通过编解码直接完成输⼊到输出的映射）

之前的模型虽然考虑到了相位信息，但⽹络还是只包含实数

上述⽅法都是在实数⽹络下学习的，不过已经考虑到了相位信息。最近，deep complex u-net [25]结

合了deep complex network[26]和u-net[27]的优点来处理复数频谱图。特别是，DCUNET被训练来估计CRM，并在通过iSTFT将输出的TF域频谱图转换为时间域波形后，优化了标度不变的源噪⽐（SI-SNR）损失[4]。虽然在时间建模能⼒⽅⾯取得了最先进的性能，但采⽤了许多层卷积来提取重要的上下⽂信息，导致模型的⼤⼩和复杂性很⼤，这限制了其在效率敏感型应⽤中的实际应⽤。

卷积编码根据DCUNET的启发，采⽤复数卷积层，以处理复数频谱

搭建

在本⽂中，我们在以前的⽹络架构基础上，设计了⼀个新的复值语⾳增强⽹络，称为deep complex convolution recurrent network (DCCRN)[ 深度复数卷积递归⽹络]，其以SI-SNR作为损失函数来优化模型。该⽹络有效地结合了DCUNET和CRN的优点，使⽤LSTM对时间背景进⾏建模，可训练的参数和计算成本⼤⼤降低。在提出的DCCRN框架下，我们还⽐较了各种训练⽬标，复杂的⽹络与复杂的⽬标可以获得最好的性能。在我们的实验中，我们发现提出的DCCRN在很⼤程度上优于CRN[24]。DCCRN只有1/6的计算复杂度，在类似的模型参数配置下，DCCRN达到了与DCUNET[25]竞争的性能。针对实时语⾳增强，我们的模型只有3.7M的参数，根据DNS挑战中的

P.808主观评价，我们的模型取得了在实时轨道中最好的MOS得分，并且在⾮实时轨道中取得了第⼆好的成绩。

数据参数⼩，在3.7M，结合CRN和LSTM

DCCRN模型

CRN结构

最初在[14]中描述的卷积递归⽹络（CRN）是⼀个本质上的因果CED结构，在编码器和解码器之间有两个LSTM层。在这⾥，LSTM被专门⽤来模拟时间依赖关系。编码器由五个Conv2d块组成，旨在从输⼊特征中提取⾼级特征，或降低分辨率。随后，解码器将低分辨率的特征重构为输⼊的原始⼤⼩，使编码器-解码器的结构成为对称设计。详细来说，编码器/解码器Conv2d块由卷积/解卷积层组成，然后是批量归⼀化和激活函数。跳跃连接有利于通过集中编码器和解码器来流动梯度。

原始⽹络结构：对称的五层复数⼆维卷积编解码，每层做Batch Normalization和PReLu，中间两层复数的LSTM，输⼊输出对应层做链接

与原来的幅度映射的CRN不同，Tan等⼈[24]最近提出了⼀种修改的结构，⽤⼀个编码器和两个解码器来对STFT谱图的实部和虚部建模使得混合有噪⾳的输⼊可以转换为纯净语⾳。与传统的仅有幅度的⽬标相⽐，同时增强幅度和相位获得了显著的改善。然⽽，他们把实部和虚部当作两个输⼊通道，只⽤⼀个共享的实值卷积滤波器进⾏实值卷积运算，这不符合复数乘法的规则。因此，⽹络可以学习实部

和虚数部分，⽽不需要先验知识。为了解决这个问题，本⽂提出的DCCRN对CRN进⾏了实质性的修改，在编码器/解码器中加⼊了复杂的CNN和复杂的批量归⼀化层，同时还考虑⽤复杂的LSTM代替传统的LSTM。具体来说，复数模块通过模拟复数乘法来模拟幅度和相位之间的关联性。

复数乘法(a+bi)(c+di)=( ac-bd)+(bc+ad)i，为了保持乘法特性还需计算复数的实虚步相对关系

复数⽹络编解码

复数编码器模块包括复数Conv2d、复数批归⼀化[26]和实值PReLU[28]。复数批归⼀化和PReLU遵循原论⽂的实现。我们根据DCUNET[25]中的设计来设计复杂Conv2d块。复杂的Conv2d由四个传统的Conv2d操作组成，它们控制着整个编码器的复杂信息流。复值卷积滤波器W被定义为W = Wr+jWi，其中实值矩阵Wr和Wi分别代表复值卷积核的实部和虚部。同时，我们定义输⼊复数矩阵X = Xr + jXi 。因此，我们可以从复数卷积运算X ~ W得到复数输出Y。

这部分就是怎么在卷积和lstm层实现复数的卷积和lstm。简单来说，若把参数和输⼊均看为复数，⼀次的卷积就会变成四次，因为涉及

到实虚部的相互关系，lstm同理

实验

数据集

在我们的实验中，我们⾸先在WSJ0[30]模拟的数据集上评估了所提出的模型以及⼏个基线，然后在Interspeech2020 DNS挑战赛数据集[1]上进⼀步评估了表现最好的模型。对于第⼀个数据集，我们从WSJ0[30]中选择了24500个语料（约50⼩时），其中包括131个演讲者（66个男性和65个⼥性）。我们对训练、验证和评估集进⾏洗牌和拆分，分别为20000、3000和1500个语料。噪声数据集包含6.2⼩时的⾃由声噪声和42.6⼩时的MUSAN[31]⾳乐，我们⽤其中的41.8⼩时进⾏训练和验证，其余7⼩时⽤于评估。训练和验证中的语⾳-噪声混合物是通过从语⾳集和噪声集中随机选择语料并在-5dB和20dB之间的随机信噪⽐下混合产⽣的。测试集是在5个典型的信噪⽐（0dB、5dB、10dB、15dB、20dB）下产⽣的。

第⼆个⼤数据集是基于DNS挑战提供的数据。180⼩时的DNS挑战赛噪声集包括150个类别和65,000个噪声⽚段，⽽⼲净的语⾳集包括来⾃2150个发⾔⼈的超过500⼩时的⽚段。为了充分利⽤该数据集，我们在模型训练期间⽤动态混合来模拟语⾳-噪声混合物。详细地说，在每个训练历时，我们⾸先⽤房间脉冲响应（RIR）对语⾳和噪声进⾏卷积，该房间脉冲响应是通过图像⽅法[32]从模拟的3000个RIR集合中随机选择的，然后通过在-5到20dB之间的随机信噪⽐混合混响语⾳和噪声，动态地产⽣语⾳-噪声混合物。经过10个全训练集的训练，该模型 "看到 "的总数据超过5000⼩时。我们使⽤官⽅测试集进⾏客观评分和最终的模型选择。

本文发布于:2024-09-22 04:21:51，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/1/378085.html

上一篇：比特速率、码片速率和符号速率等区分

下一篇：数据链路层技术中的误码率分析与处理方法(八)

标签：复数卷积模型相位增强编码器频谱

留言与评论（共有 0 条评论）