一种深度降噪自编码器的语音增强算法

收稿日期：2020年10月12日，修回日期：2020年11月22日基金项目：山西工程技术学院科研课题（编号：2020004）资助。作者简介：刘鹏，男，硕士，讲师，工程师，研究方向：模式识别与机器学习。

∗

1引言

传统的语音增强算法（如子空间法、谱减法和

维纳滤波法），作为一种非监督方法大都基于语音和噪声信号复杂的统计特性来实现降噪，但在降噪过程中不可避免地会产生“音乐噪音”，导致语音失真［1］。考虑到噪声对清晰语音产生影响的复杂过程，在带噪语音与清晰语音信号间基于神经网络建立非线性映射模型来实现语音增强已成为当前研究的一个热点。

Xugang Lu ，Yu Tsao 等学者采用逐层预训练

（layer-wise pre-training ）堆叠自编码器（Stacked AutoEncoder ）后微调（fine tuning ）整个学习网络的

方法，建立了深度降噪自编码器（Deep Denoising AutoEncoder ，DDAE ），完成了带噪语音的降噪，并验证了增加降噪自编码器的深度，有助于提高语音增强的效果［2］。但是，由于深度降噪自编码器是对训练集中带噪语音与清晰语音对的一种统计平均，在缺乏足够样本量的数据集上进行训练，极易产生神经元的联合适应性（co-adaptations ），进而导致过拟合。为此，文献［3］提出了DDAE 的集成模型（Ensemble Model ），将训练数据聚类后分别训练多个DDAE 模型，然后在训练数据集上通过回归拟合来建立多个DDAE 的组合函数。但是，集成模型需要训练和评估多个DDAE 模型，这将花费大量的运行时间和内存空间。研究表明，集成模型通常只能

一种深度降噪自编码器的语音增强算法

∗

刘

鹏

（山西工程技术学院信息工程与大数据科学系

阳泉

045000）

摘

要

依据带噪语音中不同类型语音分段（segment ）对语音整体的可懂度影响不同，提出了一种基于语音分段来分

类训练深度降噪自编码器（DDAE ）的语音增强算法。该算法使得DDAE 模型在尽可能减小Dropout 所引入的扰动对带噪语音噪声特性破坏的同时，提高了对带噪语音可懂度关键分段（中均方根分段）语音特性学习的鲁棒性，提高了增强语音的可懂度。实验结果表明，该算法较现有方法提高了增强语音可懂度的NCM 值。

关键词

语音分段；深度降噪自编码器；Dropout ；语音可懂度

中图分类号

TN912.35

DOI ：10.3969/j.issn.1672-9722.2021.05.003

A Speech Enhancement Algorithm for Deep Noise Reduction

Autoencoder

LIU Peng

（Department of Information Engineering and Big Data Science ，Shanxi Institute of Technology ，Yangquan 045000）

Abstract

According to the principle that different types of speech segments in noisy speech have different influence on the in ⁃

telligibility of the speech ，a speech enhancement algorithm based on the Deep Denoising AutoEncoder （DDAE ）trained by the clas ⁃

sified speech segments is proposed.This algorithm makes the DDAE model minimize the disruption of the noise characteristics intro ⁃duced by the Dropout.Meanwhile it makes the DDAE model improve the robustness of the speech feature learning of the key seg ⁃ments （the middle-level RMS segments ）of noisy speech intelligibility ，the intelligibility of enhanced speech is improved.The ex ⁃

perimental results show that the proposed algorithm improves the NCM value of enhanced speech intelligibility compared with the ex ⁃isting methods.

Key Words

speech segment ，DDAE ，Dropout ，speech intelligibility Class Number

TN912.35

第49卷

集成5~10个神经网络，超过这个数量将很快变得难以处理［4］。Yong Xu ，Jun Du 等学者选用Dropout 训练的深度神经网络（DNN ）模型实现了带噪语音增强。选用Dropout 训练所得的深度网络可以看作是每轮训练所得网络的集成，但由于Dropout 所引入的噪声扰动（perturbations ）在一定程度上破坏了带噪语音中噪声的特性关系，因此完全采用Drop ⁃out 训练对于测试数据集噪声类型与训练集相同的情形，增强效果不佳［5］

。研究表明

［6~7］

，带噪语音中

不同类型语音分段（segment ）对语音整体的可懂度影响不同，中均方根分段（短时信噪比小于整体均方根但不小于-10dB 整体均方根的分段）影响了带噪语音整体的可懂度。因此，我们提出了基于语音分段类型来分类训练DDAE 模型的语音增强算法。

本文算法首先将训练数据集的带噪语音与清晰语音对进行短时分段处理后，划分为中均方根分段训练子集和非中均方根分段训练子集。然后，中均方根分段训练子集选用Dropout 方法训练DDAE （即随机选出部分神经元参加训练），非中均方根分段训练子集选用非Dropout 方法训练DDAE （即所有神经元均参加训练）。这样，使得训练好的DDAE 模型既可以减少Dropout 所引入的扰动对带噪语音噪声特性的破坏又可以增强对带噪语音可懂度关键分段（中均方根分段）语音特性学习的鲁棒性，避免陷入过拟合，提高了语音可懂度增强的效果。

理论概述

2.1

深度降噪自编码器

自编码器（AutoEncoder ，AE ）是一种以无监督

的方式来学习数据编码的人工神经网络。如图1所示，自编码器的网络结构特点是输入层神经元数目和输出层相等，隐藏层神经元数目小于输入层和输出层，网络学习是以重构自身输入为目的（而不是预测目标值），通常用于数据降维和特征提取。自动编码器总是由两部分组成：编码器和解码器。它们可以被定义为式（1）所示的转换，其中X 是输

入数据集，Z 是压缩编码，X ′为输出数据集，ϕ是编码转换，ψ

是解码转换。

图1

自编码器的网络结构

ϕ:X ®Z

ψ:Z ®X ′

ϕ ψ=arg min ϕ ψ|

|||X -(ψ ϕ)X ′（1）

降噪自编码器（Denoising AutoEncoder ，DAE ）是针对部分输入数据中含有噪声的情形，训练的目的是尽量输出不含噪的输入数据，以增强自编码器所提取的数据特征对所加入噪声的鲁棒性。因此，DAE 的模型训练可分为四步。1）加入噪声：将原有输入数据x 加入某种形式的噪声后得到带噪数据x 。

2）编码：将带噪数据x 作为输入层数据经过式

（2）转换到隐藏层。其中，z 是编码数据，W 是编码权重矩阵，b 是编码偏置向量，σ是编码激活函

数（这里选取为sigmoid 函数）。

z =σ()

Wx +b （2）

3）解码：将隐藏层数据经过式（3）转换到输出

层。其中，x ′是输出数据（降噪后数据），W ′是解码权重矩阵，

b ′是解码偏置向量，σ′是解码激活函数（这里选取为sigmoid 函数）。

x ′=σ′()

W ′z +b ′（3）

4）确定并最小化损失函数：降噪自编码器经过

训练以尽量减少输出数据（降噪后数据）与原有输入数据的差别，训练目标同样是使损失函数最小

化。降噪自编码器的损失函数可参照式（4）和式（5）确定。

Loss ()x x ′=|

|||x -x ′2

（4）

Loss ()x x ′=|||||||

x -σ′(

)W ′()σ()Wx ′+b +b ′2

（5）

Xugang Lu ，Yu Tsao 等学者在DAE 模型的基础

上采用逐层预训练的方式，将多个自编码器堆叠后微调整个学习网络，建立了深度降噪自编码器（DDAE ）模型。实际上，DDAE 模型在本质上也是一种深度神经网络（DNN ），已有学者基于DNN 模型开展了语音增强研究［8~10］，因此，同样可以选用Dropout 训练方式来快速训练DDAE 模

型。

2.2

Dropout 训练

Dropout 训练是在DNN 训练开始前固定一组超

参数来随机决定网络中的神经单元（输出单元除外）是否包括在本轮训练的网络中，通常一个输入神经元被包含在本轮训练网络的概率为0.8，一个

隐藏神经元其相应的概率为0.5［4］。因此，Dropout 训练的结果是原有DNN 子网络的集成，而且，在训练过程中共享了模型参数。Dropout 训练可以降低

神经元的联合适应性（co-adaptations ），在某种程度

刘鹏：一种深度降噪自编码器的语音增强算法876

2021年第5期计算机与数字工程上，它避免了模型产生过拟合。Dropout 训练之所以有效在很大程度上得益于它给隐藏单元所带来的掩码噪声（masking noise ），这在一定程度上相当于增加了训练数据集的规模［4］。

三七的花怎样制成干茶

基于语音段分类训练DDAE 增强

算法

3.1

模型概述

本文所提出的基于语音段分类训练DDAE 模

型的语音增强算法框架如图2所示，这一系统由训

练和增强两个阶段构成。

图2

基于语音段分类训练DDAE 增强算法框架

在训练阶段，采用DDAE 作为从带噪语音特征到清晰语音特征的映射函数。训练阶段的具体工作如下。

1）将训练集中的带噪语音与清晰语音样本对

进行短时分段处理后，按照语音分段短时信噪比与语音降噪芯片

整体均方根的关系，将原有训练数据集重新划分为中均方根分段训练子集和非中均方根分段训练子集。

2）将训练子集中带噪语音分段与清晰语音分段进行快速傅里叶变换后，提取其频谱的对数幅度特征，分别作为DDAE 模型的输入与输出。

3）在依据语音分段的不同类型所构建的两种

训练子集上开展DDAE 模型训练。中均方根分段训练子集选用Dropout 方法训练，非中均方根分段

训练子集选用非Dropout 方法训练。

在增强阶段，利用训练好的DDAE 模型对带噪语音特征进行处理，预测出清晰的语音特征，进而波形恢复出清晰语音，实现语音增强。增强阶段的具体工作如下：

1）将测试集中的带噪语音进行短时分段处理后，提取带噪语音分段的频谱对数幅度特征。

2）将所提取的带噪语音分段的频谱对数幅度

特征，作为已训练好的DDAE 模型的输入值，通过

DDAE 模型获得相应的输出值，即增强后语音分段的频谱对数幅度特征。

3）将增强后语音分段的频谱对数幅度，结合带

噪语音的相位信息，依据文献［5］中的方法完成增强语音的波形重建。

3.2语音段分类

将训练集中的带噪语音与清晰语音样本对加

窗进行短时分段处理（本文中窗长16ms ，重叠50%）。假设带噪语音中的语音信号稳定，噪声信号与语音信号无关，按照式（6）计算带噪语音分段

m 的先验信噪比ξ(m )。

ξ(m )=

X 2()m D 2

()

m =

1D 2

()m X 2()m =1Y 2()m -X 2()

m X 2()

m =

1Y 2

()

m X 2()

m -1

（6）

其中Y ()m 为带噪语音的功率，X ()m 为与之对应的清晰语音的功率，D ()m 为噪声信号的功率。带噪语音分段先验信噪比的相对均方根依据式（7）计算得出，M 为带噪语音的分段个数。

ξRMS

=（7）

最后，依据式（8）确定出带噪语音短时分段中的中均方根分段，进而将训练集划分为中均方根分段训练子集和非中均方根分段训练子集。

-10dB £10lg ξ(m )

ξRMS

<0dB

（8）

3.3基于语音段分类训练的DDAE 模型

本文中的DDAE 模型由1个输入层，5个隐藏

层（每层500个神经元）和1个输出层构成。DDAE 模型的输入向量和输出向量分别如式（9）和式（10）所示。其中，||y k m 和||x k m 分别表示输入和输出的第m 帧第k 个频带的谱幅度。

Y m =[log ()||y 1 m log ()||y k m log ()

||y K m ]′（9）X m

=[log ()||x 1 m

log ()||x k m

log ()||x K m

]′（10）

为了将两种训练方式在同一个DDAE 模型上实现，模型基于Inverted Dropout 进行了改进训练，在训练阶段其正向传播的过程如式（11）所示。

h 1()Y m =σ()W 1Y m +b 1

h L ()Y m =

11-p B m

σ()W L -1h L -1()Y m +b L -1X m

=W L h L ()Y m

+b L

（11）

877

第49卷

其中，p 为Dropout 训练中神经元的舍弃概率，当选用Dropout 方式训练时p =0.5，当选用非Dropout 方式训练时p =0。B m 是如式（12）所示的m 维向量。

B m =()

b 1 b i b m （12）

当选用Dropout 方式训练时B m 中的各元素b i

是伯努利（Bernoulli ）随机变量，其取值为0的概率是p ，其取值为1的为概率是1-p ；当选用非Drop ⁃out 方式训练时b i 的值均为1。式（11）中σ().为Logistic sigmoid 激活函数。DDAE 模型的损失函数

按照式（13）定义。

Loss ()θ=arg min θæè

çöø÷F ()θ+η1|

|||W 12

2+ +ηL |

|||W L 2

2 F ()θ=1M åm =1M

|||||

|X m -X m 2

（13）

其中，θ={}W 1 W L ;b 1 b L 是DDAE 模型的参数集，{}η1 ηL 是正则化项系数，这里依据文献［11~12］将其均取值为0.0002，并采用随机梯度下降法来进行反向传播以实现模型的参数更新。

在语音增强阶段，已经完成参数训练的DDAE 模型的正向传播过程如式（14）所示。

h 1()Y ′m =σ()W 1Y ′m +b 1

h L ()Y ′m =σ(

)

W L -1h L -1()Y ′m +b L -1

X ′m =W L h L ()Y ′m +b L

（14）

其中，Y ′m 为测试集中带噪语句m 分段频谱的对数

幅度，X ′m

为使用分类训练好的DDAE 模型增强后

的语音频谱对数幅度。

4实验结果与分析

为研究所提出算法对带噪语音可懂度的增强

效果，基于TensorFlow 深度学习框架开展了仿真实验。清晰语音材料来源于IEEE 句子库

［13］

，

背景噪

声选用NOISEX-92标准库中的babble ，car ，street 和

train 四种噪声类型，实验中分别以-15dB 、-10dB 和-5dB 三种信噪比加入噪声。实验中信号的采样频率统一在8Kz ，量化精度为16bit 。

实验中训练集由IEEE 句子库的60组句子（共

600个句子），按照12种加噪条件（4种噪声类型×3种信噪比）产生的带噪语音和对应的清晰语音构成。因此，训练数据集共有12个加噪条件子集，每个加噪条件子集有600个样本对，共计7200个样本对。

实验中测试集由IEEE 句子库的剩余12组句子（共120个句子），按照12种加噪条件（4种噪声类型×3种信噪比）产生的带噪语音组成。因此，测试数据集共有12个加噪条件子集，每个加噪条件子集有120个样本，共计1440个样本。

4.1语音可懂度评价

语音可懂度评价选用归一化协方差（Normal ⁃

ized Covariance Metric ，NCM ）评价法［14］。实验中把测试阶段样本处理后的归一化协方差NCM 平均值作为其相应条件下语音可懂度评价值。为了进行

实验效果的对比，选取了子空间法和原有DDAE 方法（每轮训练中所有神经元均参加训练）对测试集中的样本数据进行了语音增强，并将其增强语音与本文算法增强语音的可懂度进行了对比。表1~表3给出了实验中语音可懂度的NCM 评价结果。

表1

信噪比SNR =-15dB ，不同条件下语音的NCM 值

语音

类型加噪未增强子空间法增强原DDAE 法增强本文算法增强

NCM 值

SNR =-15dB Babble 0.260.220.390.54Car

0.290.270.500.62Street 0.320.250.480.60

spi隔离芯片Train

0.290.240.460.59

表2信噪比SNR =-10dB ，不同条件下语音的NCM 值

语音类型加噪未增强子空间法增强原DDAE 法增强本文算法增强NCM 值

阻塞密度SNR =-10dB Babble 0.410.360.540.68Car

0.470.520.710.80Street 0.520.480.670.78

Train

0.420.400.600.75

表3

信噪比SNR =-5dB ，不同条件下语音的NCM 值

语音类型加噪未增强子空间法增强原DDAE 法增强本文算法增强

NCM 值

SNR =-5dB Babble 0.600.610.740.79

Car

0.680.690.790.88Street 0.700.700.760.86

Train

0.610.580.750.82

4.2可懂度评价结果分析

带噪语音的NCM 数值越大说明其主观可懂度越高［15］，从表1~表3语音NCM 测试值的对比可以看出：本文算法处理相较于其他三种对带噪语音的处理（加噪未增强，子空间法增强和原有DDAE 法增强）提高了增强后带噪语音的可懂度。

刘鹏：一种深度降噪自编码器的语音增强算法878

2021年第5期计算机与数字工程

由于中均方根分段影响了带噪语音整体的可懂度，中均方根分段训练子集选用Dropout方法训练DDAE，这相当于增加了此种训练数据集的规模，降低了神经元的联合适应性，在一定程度上防止了DDAE模型陷入过度拟合，使得语音可懂度的增强效果得以提高。

5结语

本文提出了一种基于语音分段来分类训练DDAE模型的语音增强算法。该算法首先将训练数据集的带噪语音与清晰语音对进行短时分段处理后，划分为中均方根分段训练子集和非中均方根分段训练子集。然后，中均方根分段训练子集选用Dropout方法训练DDAE（即随机选出部分神经元参加训练），非中均方根分段训练子集选用非Dropout 方法训练DDAE（即所有神经元均参加训练）。使得DDAE模型在尽可能减少Dropout所引入的扰动对带噪语音噪声特性破坏的同时，提高了对带噪语音可懂度关键分段（中均方根分段）语音特性学习的鲁棒性，提高了增强语音的可懂度。在模型实验中，选取了NCM评价法将本文算法在语音可懂度性能上开展了实验验证。结果表明，本文算法有效提高了增强语音的可懂度。

胎圈钢丝值得注意的是，虽然选用Dropout训练在一定程度上相当于增加了训练数据集的规模，但是，当训练集的样本数量极少时，同样有可能会导致Dropout失效［4］。我们将在后期对本文算法训练集的最小规模进行实验探究。

参考文献

［1］Loizou P C.Speech Enhancement：Theory and Practice （Second Edition）［M］.Boca Raton，FL，USA：CRC Press，2013：172-179，225-227.

［2］Lu X-G，Tsao Y，Matsuda S，et a1.Speech enhancement based on deep denoising autoencoder［J］.Interspeech，2013，25-29：436-440.

［3］Lu X-G，Tsao Y，Matsuda S，et al.Ensemble modeling of denoising autoencoder for speech spectrum［J］.Inter⁃speech，2014，14-18：885-889.

［4］Goodfellow I，Bengio Y，Courville A.Deep Learning ［M］.Cambridge，MA，USA：MIT Press，2016：257-258.［5］Xu Y，Du J，Dai L-R，et al.A regression approach to speech enhancement based on deep neural networks［J］.

IEEE/ACM transactions on audio，speech，and language processing，2015，23（1）：7-19.

［6］Wang L，Chen F，Lai Y-H.Segmental Contribution to Predicting Speech Intelligibility in Noisy Conditions［C］// IEEE Second International Conference on Multimedia Big Data.IEEE，2016：476-480.

［7］Guan T，Chu G-X，Tsao Y，et al.Assessing the perceptu⁃al contributions of level-dependent segments to sentence intelligibility［J］.Journal of the Acoustical Society of America，2016，140（5）：3745-3754.

［8］Kolbæk M，Tan Z H，Jensen J.Speech intelligibility po⁃tential of general and specialized deep neural network based speech enhancement systems［J］.IEEE/ACM Trans Audio Speech Lang Process，2017，25：153-167.

［9］Tu Y-H，Du J，Lee C-H.DNN training based on classic gain function for single-channel speech enhancement and recognition［C］//2019IEEE International Conference on Acoustics，Speech and Signal Processing（ICASSP）. IEEE，2019：910-914.

［10］Odelowo B O，Anderson D V.A study of training targets for deep neural network-based speech enhancement us⁃

ing noise prediction［C］//2018IEEE International Con⁃

ference on Acoustics，Speech and Signal Processing

（ICASSP）.IEEE，2018：5409-5413.

［11］Lai Y-H，Chen F，Wang S-S，et al.A Deep Denoising Autoencoder approach to improving the intelligibility of

vocoded speech in cochlear implant simulation［J］.

IEEE Transactions on Biomedical Engineering，2017，64

（7）：1568-1578.

［12］Lai Y-H，Lu X，Chen F，et al.Deep learning based noise reduction approach to improve speech intelligibili⁃

ty for cochlear implant recipients［J］.Ear Hear，2018，

39：795-809.

［13］Rothauser E H，Chapman W D，Guttman N，et al.IEEE recommended practice for speech quality measurements

［J］. Audio and Electroacoustics，1969，

17（3）：225-246.

［14］Chen F，Loizou P C.Analysis of a simplified normalized covariance measure based on binary weighting functions

for predicting the intelligibility of noise-suppressed

speech［J］.J.Acoust.Soc.Am.，2010，128（6）：

3715-3723.

［15］Ma J-F，Hu Y，Loizou P C.Objective measures for pre⁃dicting speech intelligibility in noisy conditions based on

new band-importance functions［J］.J.Acoust.Soc.

烯合金

Am.，2009，125（5）：3387-3405.

879

本文发布于:2024-09-23 08:20:29，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/4/343991.html

上一篇：如何通过稀疏编码实现语音信号的降噪

下一篇：主动降噪技术原理

标签：语音训练分段增强带噪

留言与评论（共有 0 条评论）