一种时域上同时建模语音和噪声的语音增强方法

1.本发明涉及语音信号处理的语音增强技术领域，尤其涉及一种时域上同时建模语音和噪声的语音增强方法。

背景技术：

2.在日常语音通信中，环境噪声和其他干扰不可避免地影响了通话质量，如何有效地消除环境噪声和干扰一直是语音信号处理领域的一项挑战性课题。语音增强的目的就是消除噪声和干扰，最大可能地提高语音听觉质量和可懂度，语音增强已被广泛应用于语音识别，语音通话，电话会议和听力辅助等领域。
3.传统的语音增强方法主要是基于谱减法、基于统计模型的方法和维纳滤波。这些方法在平稳噪声条件下能取得不错的增强效果，但对于非平稳噪声而言，这些方法不能适应噪声的变化，所以实际性能受到了限制；为了解决这一局限性，近年来语音增强在基于深度学习的方法上取得了重大发展，这些方法包括循环神经网络(rnn)，卷积神经网络(cnn)，卷积循环神经网络(crnn)和生成对抗网络(gan)等。目前大多数基于深度学习的语音增强算法在时频域实现，这些方法通常是经过短时傅里叶变换，将幅度谱作为训练目标，利用噪声语音的相位和增强后的语音幅度，用逆短时傅里叶变换重构时域信号；但时频域方法具有局限性，语音信号的相位信息通常被忽略，这可能导致语音增强质量下降；为了解决相位问题，有方法使用卷积递归网络（crn）预测干净语音的实频谱图和虚频谱图，同时增强噪声语音的幅度和相位；另外，生成对抗网络（gan）应用在语音增强任务上实现了端到端的语音增强，在时域上直接完成了增强任务，避免了直接使用噪声相位来恢复语音信号；有的时域增强方法大多是直接预测干净语音，然而在增强语音中经常会观察到语音失真和残余噪声，这表明从带噪语音减去增强语音得到的残余信号与预测的干净语音之间仍然存在一些相关性。

技术实现要素：

4.本发明主要是在预测干净语音时使用额外的噪声信息解决语音增强技术对于不匹配的噪声类型去噪效果不确定的问题，解决用卷积神经网络对语音信号特征提取时相同大小的卷积核限制其表达能力的问题；本发明提供一种时域上同时建模语音和噪声的语音增强方法，通过该方法可以完成语音增强的任务，不需要复杂的数据预处理，解决对未知噪声去噪效果不佳的问题。
5.本发明的目的是通过以下技术方案实现。
6.一种时域上同时建模语音和噪声的语音增强方法，包括以下步骤：步骤1：预处理训练数据：对训练数据进行配对以及分帧，获取时域语音信号序列，并且对训练集进行数据增强，在训练期间，对输入语音进行归一化，并使用sinc插值滤波器对其进行重采样，再将其送入模型。
7.步骤2：构建模型并训练：构建同时预测语音和噪声的语音增强模型，设定合适的
训练参数，将预处理后的训练集语音信号输入到模型进行联合训练，将训练好的增强模型部署到服务器。
8.步骤3：测试模型：对带噪语音测试集进行预处理，利用训练好的增强模型对其去噪，获得增强的语音信号，完成语音增强任务。
9.步骤4：评估模型：采用多种评价指标对增强后语音信号的质量与可懂度进行评估。
10.本发明的模型是基于卷积编解码器结构，使用两分支网络分别预测干净语音和噪声，可以在时域上完成语音增强的任务，避免了复杂的数据预处理过程，用户只需输入带噪语音就可以直接获得增强语音；本发明的方法可以将估计的噪声作为附加信息更好地预测干净语音，解决对于不匹配的噪声类型去噪效果不确定的问题。
11.进一步的，步骤2中的模型由一个编码器、两个解码器和信息交互模块组成，其中编码器网络获取原始波形作为输入，并输出潜在表示，在每层编码器上使用可选择核单元，根据输入信息的多个尺度自适应地调整其感受野大小，学习语音中不同尺度的信息，注意语音中有用的信息，并通过跳跃连接传递给解码器，避免语音中无用信息影响解码器对干净语音的预测。
12.进一步的，在编解码器中间构建两分支的网络，使用堆叠的可选择核单元分别对语音和噪声的特征进行多尺度学习，关注它们不同尺度的特征，并在两分支之间添加信息交互模块，利用一个分支的特征抵消另一分支不需要的部分，可以将估计的噪声特征作为附加信息以更好地预测干净语音。
13.进一步的，模型的最后是语音解码器和噪声解码器，两个解码器的结构相同，分别输出预测的干净语音和噪声；模型的目标函数，同时优化语音分支和噪声分支的损失函数；其中采用的是多分辨率短时傅里叶变换（stft）损失函数，它是不同参数（即fft大小，窗口大小和帧移）下stft损失之和，stft损失分为频谱收敛损失(sc)和对数幅度谱损失(mag)，表示如下：g)，表示如下：g)，表示如下：其中和分别表示f-范数和l1范数，m和分别表示不同的stft参数和第m个参数对应的stft幅值。
14.进一步的，步骤3包括以下子步骤。
15.步骤3-1：测试数据预处理：对测试集的带噪语音进行分帧处理，获取时域语音信号序列，对输入语音进行归一化，并使用sinc插值滤波器对其进行重采样。
16.步骤3-2：增强语音信号：将处理后的带噪语音信号输入到训练好的增强模型，经过编码和解码，输出去噪后的语音信号。
17.步骤3-3：保存增强语音：对输出进行重采样，恢复去噪后的语音信号，保存到指定
位置。
18.进一步的，步骤1和3的数据处理中采样率设置为16000hz，帧长设置为2s，重叠为1s，不足部分则补0，数据增强设置在0到2秒之间应用随机移位，随机移位的采样点数为8000。
19.进一步的，步骤3中利用训练好的模型进行语音增强时，不同带噪语音测试数据的噪声条件可能不同，应对未知噪声条件时模型可完成语音增强任务，说明本发明可以适应不同的噪声场景，是具有实用性的。
20.进一步的，步骤4中多种语音质量评价指标包括：用于评价语音质量的指标：pesq、csig、cbak、covl以及ssnr，用于评价语音可懂度的指标：stoi；其中pesq是感知语音质量评估，csig是针对语音信号失真的平均意见得分，cbak是评测背景噪声干扰性的平均意见得分，covl是总体增强效果的平均意见得分，ssnr是分段信噪比，stoi是短时客观可懂度。通过这些评价指标，可以对模型进行准确有效地评估。
21.采用上述方案，本发明地有益效果包括以下几点。
22.1.本发明提供了一种时域上同时建模语音和噪声的语音增强方法，使用两分支的网络结构完成了语音增强的任务，其中加入可选择核单元，利用注意力自适应地关注语音信息中不同尺度的信息，提高对语音特征提取的能力。
23.2.本发明采用联合训练方式，从带噪语音信号中分别预测出干净语音和噪声，并在两分支间加入交互模块，利用一个分支的信息抵消另一分支不需要的信息，将估计的噪声特征作为附加信息，有效地提升语音质量与可懂度。
24.3.本发明能够在不同的噪声条件下完成语音增强任务，具有一定的适应性和实用性。
附图说明
25.为进一步理解本发明实施的技术方案，对附图1加以说明，附图1构成本技术的一部分，并不构成本发明实施例的限定。
26.在附图中：图1为本发明实施例提供的一种语音增强技术路线示意图。

技术特征：

1.一种时域上同时建模语音和噪声的语音增强方法，包括以下步骤：步骤1：预处理训练数据：对训练数据进行配对以及分帧，获取时域语音信号序列，并且对训练集进行数据增强，在训练期间，对输入语音进行归一化，并使用sinc插值滤波器对其进行重采样，再将其送入模型；步骤2：构建模型并训练：构建同时预测语音和噪声的语音增强模型，设定合适的训练参数，将训练集语音信号输入到模型进行联合训练，将训练好的增强模型部署到服务器中；步骤3：测试模型：对带噪语音测试集进行预处理，利用训练好的增强模型对其去噪，获得增强的语音信号，完成语音增强任务；步骤4：评估模型：采用多种评价指标对增强后语音信号的质量与可懂度进行评估。2.根据权利要求1所述的一种同时预测语音和噪声的语音增强方法，其特征在于，所述步骤2的增强模型由两个分支分别预测干净语音和噪声：带噪语音信号经过一个编码器获得特征矩阵，再使用两个具有相同结构的特征提取分支，分别提取干净语音和噪声的特征，最后使用两个解码器分别恢复干净语音和噪声。3.根据权利要求2所述的一种同时预测语音和噪声的语音增强方法，其特征在于，所述的增强模型中编码器不同于传统的卷积编码器使用相同大小的卷积核，而是在每一层编码器后添加可选择核单元，利用注意力动态地选择核大小，对不同核大小的分支进行融合，提高对带噪语音特征提取的能力。4.根据权利要求2所述的一种同时预测语音和噪声的语音增强方法，其特征在于，所述的增强模型在编解码器中间使用堆叠的可选择核单元，分别对带噪语音中的语音信息和噪声信息进行动态地学习，使用具有相同结构的两个分支对语音信号和噪声信号建模。5.根据权利要求2所述的一种同时预测语音和噪声的语音增强方法，其特征在于，所述的增强模型在两分支结构中添加信息交互模块，该模块可以转换噪声分支的信息，抵消语音分支中的噪声信息或恢复相关的语音信息，以获得过滤后的语音，实现噪声分支和语音分支的信息交互。6.根据权利要求1所述的一种同时预测语音和噪声的语音增强方法，其特征在于，所述的步骤3包括以下子步骤：步骤3-1：测试数据预处理：对测试集的带噪语音进行分帧处理，获取时域语音信号序列，对输入语音进行归一化，并使用sinc插值滤波器对其进行重采样；步骤3-2：增强语音信号：将处理后的带噪语音信号输入到训练好的增强模型，经过编码和解码，输出去噪后的语音信号；步骤3-3：保存增强语音：对输出进行重采样，恢复去噪后的语音信号，保存到指定位置。7.根据权利要求1和6所述的一种同时预测语音和噪声的语音增强方法，其特征在于，所述的步骤1和3的数据处理中，采样率设置为16000hz，帧长设置为2s，重叠为1s，不足部分则补0，数据增强设置在0到2秒之间应用随机移位，随机移位的采样点数为8000。8.根据权利要求1所述的一种同时预测语音和噪声的语音增强方法，其特征在于，所述的步骤3利用训练好的模型进行语音增强时，不同带噪语音测试数据的噪声条件可能不同，应对未知噪声条件时模型也可完成语音增强任务。9.根据权利要求1所述的一种同时预测语音和噪声的语音增强方法，其特征在于，所述
的步骤4中的评价指标包括：用于评价语音质量的指标：pesq、csig、cbak、covl以及ssnr；用于评价语音可懂度的指标：stoi。

技术总结

本发明公开了一种在时域上同时建模语音和噪声的方法，所述方法包括以下步骤：步骤1：预处理训练数据，获取时域语音信号序列；步骤2：构建可以同时建模语音和噪声的语音增强模型，设定合理的训练参数，使用训练集训练语音增强模型；步骤3：预处理带噪语音测试集，利用训练好的模型对其去噪后重构，保存增强后的语音；步骤4：使用多种评价指标对增强后语音信号的质量与可懂度进行评估；本发明设计一个具有两个分支的时域语音增强算法，分别预测干净语音和噪声，在两分支中间加入信息交互模块，一定程度上解决了对未知噪声增强效果不确定的问题，可以同时分离语音和噪声，能够有效地实现语音增强。现语音增强。现语音增强。