一种利用多源辅助信息的通用语音增强方法和装置与流程

1.本发明涉及一种语音处理技术领域，尤其涉及一种利用多源辅助信息的通用语音增强方法和装置。

背景技术：

2.话音增强的目标是从噪声环境中将目标语音分离出来，在许多研究中也称为语音分离。语音分离是语音信号处理的基本方法和任务，在许多应用中，只有将语音尽可能地与背景干扰和噪声分隔开，后续处理过程才会取得良好的效果。早期的语音增强算法以非监督学习算法为主，近年来随着深度学习方法的进步，以带噪特征为输入、干净特征为目标的有监督学习算法给语音增强算法领域带来了长足的进步。当前，主流的基于深度学习算法的语音增强方法首先对带噪信号提取频谱特征，再基于频谱特征估计理想二值掩码、理想比率掩码等掩码信息，进而对带噪频谱特征进行一定的掩蔽后，再通过逆短时傅里叶变换重建干净语音。此类方法的问题在于，提取频谱特征所需要进行的短时傅里叶变换需要固定窗长的信号，这一定程度上影响了算法的实时性，且人工设计的频谱特征并不一定完美适用于语音增强任务。此外，在现实应用中，通常可获得较丰富的实用场景中的不同声源的先验信息，如设备使用者的历史音频、长期共存的环境干扰说话人的历史音频、环境噪声的历史数据等等。此前的语音增强算法较少对此类信息的应用，有较少量工作开始发掘利用主要目标说话人的历史信息进行特定人的个性语音增强，但对可得的多类声源辅助信息还是利用不足。
3.为此，我们提出一种利用多源辅助信息的通用语音增强方法和装置以此解决上述技术问题。

技术实现要素：

4.本发明为了解决上述技术问题，提供一种利用多源辅助信息的通用语音增强方法和装置。
5.本发明采用的技术方案如下：一种利用多源辅助信息的通用语音增强方法，包括以下步骤：步骤s1：构建训练数据集；步骤s2：根据编码器模块、注意力模块和解码器模块三个子网络构建语音增强模型，并利用所述训练数据集对所述语音增强模型的网络参数进行学习；步骤s3：通过预采集或者现场采集的方式构建声源信息数据库；步骤s4：获取语音增强模型的输入，包括待处理的含噪原始信号以及利用所述声源信息数据库得到目标组辅助声源信号和干扰组辅助声源信号；步骤s5：将所述含噪原始信号作为所述语音增强模型的主输入，所述目标组辅助声源信号和所述干扰组辅助声源信号作为所述语音增强模型的旁输入进行语音增强，得到增强语音信号。
6.进一步地，所述步骤s1具体包括以下子步骤：步骤s11：采集一个基础数据集，所述基础数据集由三部分组成：干净人声数据集、噪声数据集、场所混响数据集；步骤s12：在所述干净人声数据集中随机选定某一说话人作为目标说话人，在所述目标说话人语料集合中随机抽取目标语料与目标辅助信息语料；在所述干净人声数据集中随机选定另一不同的说话人作为干扰说话人，在所述干扰说话人语料集合中随机抽取干扰语料与干扰辅助信息语料；步骤s13：在所述噪声数据集中随机抽取噪声音频；步骤s14：在所述场所混响数据集中随机选定冲激响应；步骤s15：将所述目标语料、干扰语料、噪声音频和冲激响应通过随机设定的信噪比计算得到仿真嘈杂音频；步骤s16：将所述目标语料、仿真嘈杂音频、目标辅助信息语料和干扰辅助信息语料按四元组形式进行保存，得到训练数据集。
7.进一步地，所述步骤s2具体包括以下子步骤：步骤s21：根据编码器模块、注意力模块和解码器模块三个子网络构建语音增强模型，从所述训练数据集中抽取四元组数据，包括目标语料，仿真嘈杂音频，目标辅助信息语料和干扰辅助信息语料；步骤s22：将所述仿真嘈杂音频搭配所述目标辅助信息语料与所述干扰辅助信息语料输入所述语音增强模型，得到增强语音信号，利用所述目标语料与所述增强语音信号，计算频谱损失函数和幅度损失函数；步骤s23：根据所述频谱损失函数和所述幅度损失函数构建总损失函数；步骤s24：根据所述总损失函数，利用梯度下降深度学习的模型更新算法对所述语音增强模型的参数进行更新；步骤s25：重复步骤s21至步骤s24，直到更新的迭代次数到达预设的学习步数、或当在所述训练数据集的所有数据上完成进行过50轮的训练、或当使用所述总损失函数的下降速度低于预设阈值、或当所述训练数据集上的相邻训练轮次之间的轮内平均损失函数相对下降小于10%，则停止所述语音增强模型更新迭代，得到所述语音增强模型的网络参数。
8.进一步地，所述步骤s3中所述预采集为通过搜集说话人的声纹系统中的注册数据和/或历史会话中的语音数据；所述现场采集要求用户发声说话并使用拾音及录音设备对发声过程进行记录，得到记录结果，所述记录结果即为对应用户的辅助信息。
9.进一步地，所述步骤s4具体包括以下子步骤：步骤s41：通过拾音设备采集、网络传输获取用户的音频信号和/或直接使用在存储器上现有的音频文件得到待处理的含噪原始信号；步骤s42：根据实际需求，使用者人工选定目标组声源和干扰组声源，从所述声源信息数据库中提取对应的目标组辅助声源信号和干扰组辅助声源信号。
10.进一步地，所述步骤s5具体包括以下子步骤：步骤s51：将所述含噪原始信号通过对应的所述编码器模块得到原始信号表征；将所述目标组辅助声源信号和所述干扰组辅助声源信号通过对应的所述编码器模块，分别得
到目标组辅助声源信号表征和干扰组辅助声源信号表征；步骤s52：将所述原始信号表征和所述目标组辅助声源信号表征及所述干扰组辅助声源信号表征通过注意力模型依次读取第一信号表征对和第二信号表征对，得到目标组辅助声源信号表征掩码和干扰组辅助声源信号表征掩码，其中，所述第一信号表征对包括原始信号表征和目标组辅助声源信号表征，所述第二信号表征对包括原始信号表征和干扰组辅助声源信号表征；步骤s53：将所述目标组辅助声源信号表征掩码和所述干扰组辅助声源信号表征掩码通过注意力融合进行融合，得到融合掩码；步骤s54：将所述原始信号表征利用所述融合掩码得到增强的表征；步骤s55：利用所述解码器模块将所述增强的表征转换为增强语音信号。
11.进一步地，所述步骤s52具体包括以下子步骤：步骤s521：所述注意力模型由若干个相同的conformer模块堆叠而成，所述conformer模块由第一全连接层ffn、卷积层conv、第一多头交叉注意力层mhca、第二多头交叉注意力层mhca、特征维线性调制层film、第二全连接层ffn、层规整层layernorm依次连接组成；步骤s522：所述原始信号表征、所述目标组辅助声源信号表征及所述干扰组辅助声源信号表征分别依次通过所述conformer模块中的所述第一全连接层ffn与所述卷积层conv，得到原始信号高级表征、目标组辅助声源信号高级表征及干扰组辅助声源信号高级表征；步骤s523：将所述原始信号高级表征当作值，所述目标组辅助声源信号高级表征及所述干扰组辅助声源信号高级表征分别当作查询和键送入所述第一多头交叉注意力层mhca，分别得到目标组辅助声源信号对应的原始信号调制向量与干扰组辅助声源信号对应的原始信号调制向量；步骤s524：所述特征维线性调制层film基于所述目标组辅助声源信号对应的原始信号调制向量或干扰组辅助声源信号对应的原始信号调制向量对所述原始信号高级表征进行调制，分别得到目标组辅助声源信号调制后对应的原始信号更高级表征与干扰组辅助声源信号调制后对应的原始信号更高级表征；步骤s525：分别将所述目标组辅助声源信号调制后对应的原始信号更高级表征与干扰组辅助声源信号调制后对应的原始信号更高级表征当作值与键，所述原始信号高级表征当作查询送入所述第二多头交叉注意力层mhca得到目标组辅助声源信号对应的原始信号交叉条件化后的高级表征和干扰组辅助声源信号对应的原始信号交叉条件化后的高级表征；步骤s526：将所述目标组辅助声源信号对应的原始信号交叉条件化后的高级表征和干扰组辅助声源信号对应的原始信号交叉条件化后的高级表征分别通过所述第二全连接层ffn和所述层规整层layernorm，得到目标组辅助声源信号初步表征掩码及干扰组辅助声源信号初步表征掩码；步骤s527：下一个所述conformer模块的输入为所述步骤s526得到的所述目标组辅助声源信号初步表征掩码与所述目标组辅助声源信号表征以及所述干扰组辅助声源信号初步表征掩码与所述干扰组辅助声源信号表征，重复步骤s522-步骤s526，直至遍历所有
所述conformer模块，得到所有所述conformer模块对应的目标组辅助声源信号表征掩码及干扰组辅助声源信号表征掩码。
12.进一步地，所述步骤s53具体包括以下子步骤：步骤s531：对所述目标组辅助声源信号表征掩码和所述干扰组辅助声源信号表征掩码通过累加的方式分别进行组内的表征掩码融合，分别得到目标组辅助声源信号组内表征掩码和干扰组辅助声源信号组内表征掩码；步骤532：将所述目标组辅助声源信号组内表征掩码和所述干扰组辅助声源信号组内表征掩码通过相减的方式进行组间融合，得到融合掩码。
13.本发明还提供一种利用多源辅助信息的通用语音增强装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述实施例中任一项所述的一种利用多源辅助信息的通用语音增强方法。
14.本发明还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中任一项所述的一种利用多源辅助信息的通用语音增强方法。
15.本发明的有益效果是：1、本发明提供了一种对多声源辅助信息加以利用进行定向的灵活可定制的语音增强，包括：为声源辅助信息提取辅助声源信号表征；对待增强的原始音频信息提取原始信号表征；将原始信号表征与辅助声源信号表征送入语音增强模型进行语音增强；2、本发明提供了一种对多声源辅助信息进行注意力建模与多源注意力整合的方法，包括：收集声源信息数据；确定目标组、干扰组的声源组成，并对应从声源信息数据库中抽取；为各声源辅助信息提取音频嵌入信息；基于辅助声源信号表征、原始信号表征，计算对应原始信号的表征掩码；根据分组信息，对各声源表征掩码进行统一融合，得到最终的融合掩码。
16.3、本发明提供一个利用多源辅助信息的通用语音增强模型，为一个直接使用音频原始波形信号的端到端神经网络，由u-net结构的编码器模块和解码器模块与conformer模块组成。
17.4、本发明因可对多个目标声源及多个干扰声源的辅助信息加以利用，尤其是对干扰声源辅助信息的利用，相比同领域的现有语音增强算法，使用本发明增强后的语音信号有着更高的语音质量、语音清晰度、语音可懂度和语音自然度。
附图说明
18.图1为本发明一种利用多源辅助信息的通用语音增强方法的流程示意图；图2为本发明实施例语音增强模型示意图；图3为本发明实施例目标组辅助声源信号和干扰组辅助声源信号进行语音增强的模型示意图；图4为本发明实施例注意力模型的基本模块——交叉注意力conformer模块的结构示意力；图5为本发明一种利用多源辅助信息的通用语音增强装置的结构图。
具体实施方式
19.以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
20.参见图1，一种利用多源辅助信息的通用语音增强方法，包括以下步骤：步骤s1：构建训练数据集；步骤s11：采集一个基础数据集，所述基础数据集由三部分组成：干净人声数据集、噪声数据集、场所混响数据集；步骤s12：在所述干净人声数据集中随机选定某一说话人作为目标说话人，在所述目标说话人语料集合中随机抽取目标语料与目标辅助信息语料；在所述干净人声数据集中随机选定另一不同的说话人作为干扰说话人，在所述干扰说话人语料集合中随机抽取干扰语料与干扰辅助信息语料；步骤s13：在所述噪声数据集中随机抽取噪声音频；步骤s14：在所述场所混响数据集中随机选定冲激响应；步骤s15：将所述目标语料、干扰语料、噪声音频和冲激响应通过随机设定的信噪比计算得到仿真嘈杂音频；步骤s16：将所述目标语料、仿真嘈杂音频、目标辅助信息语料和干扰辅助信息语料按四元组形式进行保存，得到训练数据集。
21.步骤s2：根据编码器模块、注意力模块和解码器模块三个子网络构建语音增强模型，并利用所述训练数据集对所述语音增强模型的网络参数进行学习；步骤s21：根据编码器模块、注意力模块和解码器模块三个子网络构建语音增强模型，从所述训练数据集中抽取四元组数据，包括目标语料，仿真嘈杂音频，目标辅助信息语料和干扰辅助信息语料；步骤s22：将所述仿真嘈杂音频搭配所述目标辅助信息语料与所述干扰辅助信息语料输入所述语音增强模型，得到增强语音信号，利用所述目标语料与所述增强语音信号，计算频谱损失函数和幅度损失函数；步骤s23：根据所述频谱损失函数和所述幅度损失函数构建总损失函数；步骤s24：根据所述总损失函数，利用梯度下降深度学习的模型更新算法对所述语音增强模型的参数进行更新；步骤s25：重复步骤s21至步骤s24，直到更新的迭代次数到达预设的学习步数、或当在所述训练数据集的所有数据上完成进行过50轮的训练、或当使用所述总损失函数的下降速度低于预设阈值、或当所述训练数据集上的相邻训练轮次之间的轮内平均损失函数相对下降小于10%，则停止所述语音增强模型更新迭代，得到所述语音增强模型的网络参数。
22.步骤s3：通过预采集或者现场采集的方式构建声源信息数据库；所述预采集为通过搜集说话人的声纹系统中的注册数据和/或历史会话中的语音数据；所述现场采集要求用户发声说话并使用拾音及录音设备对发声过程进行记录，得到记录结果，所述记录结果即为对应用户的辅助信息。
23.步骤s4：获取语音增强模型的输入，包括待处理的含噪原始信号以及利用所述声
源信息数据库得到目标组辅助声源信号和干扰组辅助声源信号；步骤s41：通过拾音设备采集、网络传输获取用户的音频信号和/或直接使用在存储器上现有的音频文件得到待处理的含噪原始信号；步骤s42：根据实际需求，使用者人工选定目标组声源和干扰组声源，从所述声源信息数据库中提取对应的目标组辅助声源信号和干扰组辅助声源信号。
24.步骤s5：将所述含噪原始信号作为所述语音增强模型的主输入，所述目标组辅助声源信号和所述干扰组辅助声源信号作为所述语音增强模型的旁输入进行语音增强，得到增强语音信号。
25.步骤s51：将所述含噪原始信号通过对应的所述编码器模块得到原始信号表征；将所述目标组辅助声源信号和所述干扰组辅助声源信号通过对应的所述编码器模块，分别得到目标组辅助声源信号表征和干扰组辅助声源信号表征；步骤s52：将所述原始信号表征和所述目标组辅助声源信号表征及所述干扰组辅助声源信号表征通过注意力模型依次读取第一信号表征对和第二信号表征对，得到目标组辅助声源信号表征掩码和干扰组辅助声源信号表征掩码，其中，所述第一信号表征对包括原始信号表征和目标组辅助声源信号表征，所述第二信号表征对包括原始信号表征和干扰组辅助声源信号表征；步骤s521：所述注意力模型由若干个相同的conformer模块堆叠而成，所述conformer模块由第一全连接层ffn、卷积层conv、第一多头交叉注意力层mhca、第二多头交叉注意力层mhca、特征维线性调制层film、第二全连接层ffn、层规整层layernorm依次连接组成；步骤s522：所述原始信号表征、所述目标组辅助声源信号表征及所述干扰组辅助声源信号表征分别依次通过所述conformer模块中的所述第一全连接层ffn与所述卷积层conv，得到原始信号高级表征、目标组辅助声源信号高级表征及干扰组辅助声源信号高级表征；步骤s523：将所述原始信号高级表征当作值，所述目标组辅助声源信号高级表征及所述干扰组辅助声源信号高级表征分别当作查询和键送入所述第一多头交叉注意力层mhca，分别得到目标组辅助声源信号对应的原始信号调制向量与干扰组辅助声源信号对应的原始信号调制向量；步骤s524：所述特征维线性调制层film基于所述目标组辅助声源信号对应的原始信号调制向量或干扰组辅助声源信号对应的原始信号调制向量对所述原始信号高级表征进行调制，分别得到目标组辅助声源信号调制后对应的原始信号更高级表征与干扰组辅助声源信号调制后对应的原始信号更高级表征；步骤s525：分别将所述目标组辅助声源信号调制后对应的原始信号更高级表征与干扰组辅助声源信号调制后对应的原始信号更高级表征当作值与键，所述原始信号高级表征当作查询送入所述第二多头交叉注意力层mhca得到目标组辅助声源信号对应的原始信号交叉条件化后的高级表征和干扰组辅助声源信号对应的原始信号交叉条件化后的高级表征；步骤s526：将所述目标组辅助声源信号对应的原始信号交叉条件化后的高级表征和干扰组辅助声源信号对应的原始信号交叉条件化后的高级表征分别通过所述第二全连
接层ffn和所述层规整层layernorm，得到目标组辅助声源信号初步表征掩码及干扰组辅助声源信号初步表征掩码；步骤s527：下一个所述conformer模块的输入为所述步骤s526得到的所述目标组辅助声源信号初步表征掩码与所述目标组辅助声源信号表征以及所述干扰组辅助声源信号初步表征掩码与所述干扰组辅助声源信号表征，重复步骤s522-步骤s526，直至遍历所有所述conformer模块，得到所有所述conformer模块对应的目标组辅助声源信号表征掩码及干扰组辅助声源信号表征掩码。
26.步骤s53：将所述目标组辅助声源信号表征掩码和所述干扰组辅助声源信号表征掩码通过注意力融合进行融合，得到融合掩码；步骤s531：对所述目标组辅助声源信号表征掩码和所述干扰组辅助声源信号表征掩码通过累加的方式分别进行组内的表征掩码融合，分别得到目标组辅助声源信号组内表征掩码和干扰组辅助声源信号组内表征掩码；步骤532：将所述目标组辅助声源信号组内表征掩码和所述干扰组辅助声源信号组内表征掩码通过相减的方式进行组间融合，得到融合掩码。
27.步骤s54：将所述原始信号表征利用所述融合掩码得到增强的表征；步骤s55：利用所述解码器模块将所述增强的表征转换为增强语音信号。
28.实施例：参见图2，一种利用多源辅助信息的通用语音增强方法，包括：步骤s1：构建训练数据集；步骤s11：采集一个基础数据集，所述基础数据集由三部分组成：干净人声数据集、噪声数据集、场所混响数据集；所述干净人声数据集，其中为所述干净人声数据集包含的说话人数量，为第i个说话人的语料集合；所述干净人声数据集的采集要求：应包含较多的说话人；每段语料数据应尽量干净纯粹：除目标说话人外，不包含其他说话人、音乐等等干扰，且背景噪音要低于一定阈值；每段语料数据对应的说话人均为已知的，且所述干净人声数据集须支持通过说话人身份检索其所有语料的功能；每个说话人的所有语料数据累计时长不应小于1分钟；每个说话人的语料数据应尽可能覆盖更多录音条件，如拾音设备等。
29.如果不存在对应信息，则使用全0的假输入。
30.所述噪声数据集中的元素为噪声音频数据，应尽可能覆盖更多的噪声种类。
31.所述场所混响数据集中的元素是在不同声学环境中采集到的房屋冲激响应，也可使用通过仿真方法生成的房屋冲激响应。
32.在必要情况下，对数据进行静音剔除、音量规整、采样率统一等步骤。在本实施例中，统一采用单通道、16khz采样、16位量化精度的音频格式，亦可选取其他格式，只需注意对格式进行统一。
33.步骤s12：在所述干净人声数据集中随机选定某一说话人作为目标说话人，在所述目标说话人语料集合中随机抽取目标语料与目标辅助信息语料；在所述干净人声数据集中随机选定另一不同的说话人作为干扰说话人，在所述干扰说话人语料集合中随机抽取干扰语料与干扰辅助信息语料；步骤s13：在所述噪声数据集中随机抽取噪声音频；步骤s14：在所述场所混响数据集中随机选定冲激响应；步骤s15：将所述目标语料、干扰语料、噪声音频和冲激响应通过随机设定的信噪比、计算得到仿真嘈杂音频：步骤s16：将所述目标语料、仿真嘈杂音频、目标辅助信息语料和干扰辅助信息语料按四元组形式进行保存，得到训练数据集。
34.在后续的训练步骤中，仿真嘈杂音频将作为语音增强模型的主输入，对应待增强的含噪原始信号；目标辅助信息语料与干扰辅助信息语料将作为语音增强模型的旁输入，分别对应目标辅助声源信号与干扰辅助声源信号；目标语料将作为语音增强模型的目标输出，对应增强语音信号。
35.注：在步骤s12中，仅以目标组与干扰组仅包含一个说话人为例进行了说明，每组也可包含多个说话人。
36.步骤s2：根据编码器模块、注意力模块和解码器模块三个子网络构建语音增强模型，并利用所述训练数据集对所述语音增强模型的网络参数进行学习；步骤s21：根据编码器模块、注意力模块和解码器模块三个子网络构建语音增强模型，从所述训练数据集中抽取四元组数据，包括目标语料，仿真嘈杂音频，目标辅助信息语料和干扰辅助信息语料；下面为方便表述，目标语料用进行指代；步骤s22：将所述仿真嘈杂音频搭配目标辅助信息语料与干扰辅助信息语料输入所述语音增强模型，得到增强语音信号，利用目标语料与增强语音信号，计算频谱损失函数和幅度损失函数；
其中，为频谱损失函数，为幅度损失函数，，分别是目标语料与增强语音信号，与分别是frobenius范数与l1范数，stft代表对应信号经短时傅里叶变换后得到的频谱。
37.步骤s23：根据所述频谱损失函数和所述幅度损失函数构建总损失函数：步骤s24：根据所述总损失函数，利用梯度下降深度学习的模型更新算法对所述语音增强模型的参数进行更新；步骤s25：重复步骤s21至步骤s24，直到更新的迭代次数到达预设的学习步数、或当在所述训练数据集的所有数据上完成进行过50轮的训练、或当使用所述总损失函数的下降速度低于预设阈值、或当所述训练数据集上的相邻训练轮次之间的轮内平均损失函数相对下降小于10%，则停止所述语音增强模型更新迭代，得到所述语音增强模型的网络参数。
38.步骤s3：通过预采集或者现场采集的方式构建声源信息数据库；所述声源信息数据库通过预采集或者现场采集的方式构建，所述声源信息数据库包括语音类声源信息和非语音类声源信息；所述预采集为通过搜集说话人的声纹系统中的注册数据和/或历史会话中的语音数据；所述现场采集要求用户发声说话并使用拾音及录音设备对发声过程进行记录，得到记录结果，所述记录结果即为对应用户的辅助信息。
39.在一般的语音应用环境中，通常涉及到的角是相对比较固定的，会话发生的周遭环境也较为固定。因而在长期使用后，语音会话涉及到的各方因素均会有较为丰富的历史信息可供使用，例如不同说话人的声纹注册语料、历史会话等等。一般的语音增强算法通常不会针对目标对象和实际干扰源进行定制，而是以对环境不可知的方式进行一般性质的通用语音增强。本发明实施例的主要出发点即如何利用各个声源的已有的丰富历史信息，依此对音频成分进行定向的语音增强。
40.所述声源信息数据库需要至少支持三个表的管理功能：声源数据表、说话人信息表、非语音类声源信息表。见表1为声源数据表，表2为说话人信息表，表3为非语音类声源信息表；表1 声源数据表
字段名字段意义aux_id声源数据表的主键。type两类：voice，语音类声源信息；non-voice，非语音类声源信息，如噪声等。source_id本条所属声源的“身份”信息，如语音类声源对应的说话人、噪声类声源对应的噪声来源等。对应于说话人信息表或者非语音类声源信息表的主键。data声源信息信号
表2 说话人信息表
字段名字段意义speaker_id说话人信息表的主键。speaker_info说话人的基本信息，如姓名、性别等。可根据实际需求进行字段扩充。
表3 非语音类声源信息表
字段名字段意义sound_id非语音类声源信息表的主键。sound_info声源的基本信息，如产生声源的物体、带宽等。可根据实际需求进行字段扩充。
其中，所述声源数据表中的data字段对应声源辅助信号，在本实施例中的data字段直接存储声源的音频信号（即波形文件），如某说话人的speaker_000_000.wav，本领域的技术人员亦可使用其他类型的声源辅助信号，如直接记录speaker_000_000.wav对应的声学特征或者使用神经网络编码器提取的音频表征。
41.预采集为主要的获取方式，主要通过搜集说话人的历史数据如声纹系统中的注册数据、历史会话中的语音数据等。
42.所述现场采集要求用户发声说话并使用拾音及录音设备对发声过程进行记录，所述记录结果即为对应用户的辅助信息。
43.步骤s4：获取语音增强模型的输入，包括待处理的含噪原始信号以及利用所述声源信息数据库得到目标组辅助声源信号和干扰组辅助声源信号；步骤s41：通过拾音设备采集、网络传输获取用户的音频信号和/或直接使用在存储器上现有的音频文件得到待处理的含噪原始信号；所述含噪原始信号为一个向量，用加以表示；步骤s42：根据实际需求，使用者人工选定目标组声源和干扰组声源，从所述声源信息数据库中提取对应的目标组辅助声源信号和干扰组辅助声源信号；目标组辅助声源信号用表示，代表共包含有n个目标辅助声源，分别用表示；干扰组辅助声源信号用表示，代表共包含有m个干扰辅助声源，分别用表示。
44.在本实施例中，为固定网络结构、优化性能，在满足绝大多数场景的使用需求的前提下，n与m使用固定的参数，如n=4，m=4。当实际可用声源数量少于固定值时，对应声源信号使用取值均为0的填充数据，从而后续的注意力计算结果亦为全0的掩蔽，不影响融合注意力的准确度。通过这种方式，本实施例方法可实现多种语音增强方式的统一：传统的以目标与干扰均未知的语音增强、针对特定说话人的个性化语音增强、针对特定干扰进行定向抑制的语音增强以及前述模式的组合。
45.参见图3，步骤s5：将所述含噪原始信号作为所述语音增强模型的主输入，所述目标组辅助声源信号和所述干扰组辅助声源信号作为所述语音增强模型的旁输入进行语音增强，得到增强语音信号。
46.步骤s51：将所述含噪原始信号通过对应的所述编码器模块得到原始信号表征；将所述目标组辅助声源信号和所述干扰组辅助声源信号通过对应的所述编码器模块，分别得到目标组辅助声源信号表征和干扰组辅助声源信号表征；在本实施例中，以上的编码过程均通过同一编码器实现，以保证各信号的表征处于同一个表征空间中。
47.所述编码器模块与步骤s55中所述解码器模块一同构成u-net的卷积网络结构，所述编码器模块与所述解码器模块对应的卷积层之间具有跳跃连接，以保证解码信号的质量下限；编码器模块与解码模块均由l个1维卷积层或反卷积层堆叠而成，本实施例中l=5；步骤s52：将所述原始信号表征和所述目标组辅助声源信号表征及所述干扰组辅助声源信号表征通过注意力模型依次读取第一信号表征对和第二信号表征对，得到目标组辅助声源信号表征掩码和干扰组辅助声源信号表征掩码，其中，所述第一信号表征对包括原始信号表征和目标组辅助声源信号表征，所述第二信号表征对包括原始信号表征和干扰组辅助声源信号表征；；参见图4，在接下来的步骤中以（原始信号表征，目标组辅助声源信号表征）为例进行说明，图4中涉及到的参数含义具体为以下所述，图中不再进行赘述。
48.步骤s521：所述注意力模型由若干个相同的conformer模块堆叠而成，所述conformer模块由第一全连接层ffn、卷积层conv、第一多头交叉注意力层mhca、第二多头交叉注意力层mhca、特征维线性调制层film、第二全连接层ffn、层规整层layernorm依次连接组成；步骤s522：所述原始信号表征、所述目标组辅助声源信号表征及所述干扰组辅助声源信号表征分别依次通过所述conformer模块中的所述第一全连接层ffn与所述卷积层conv，得到原始信号高级表征、目标组辅助声源信号高级表征及干扰组辅助声源信号高级表征；组辅助声源信号高级表征；步骤s523：将所述原始信号高级表征当作值（value, v），所述目标组辅助声源信号高级表征及所述干扰组辅助声源信号高级表征分别当作查询（query, q）和键（key, k）送入所述第一多头交叉注意力层mhca，分别得到目标组辅助声源信号对应的原始
信号调制向量与干扰组辅助声源信号对应的原始信号调制向量：步骤s524：所述特征维线性调制层film基于所述目标组辅助声源信号对应的原始信号调制向量或干扰组辅助声源信号对应的原始信号调制向量对所述原始信号高级表征进行调制，分别得到目标组辅助声源信号调制后对应的原始信号更高级表征与干扰组辅助声源信号调制后对应的原始信号更高级表征；其中，调制过程使用的调制参数分别为原始信号调制向量的仿射变换；的仿射变换；的仿射变换；步骤s525：分别将所述目标组辅助声源信号调制后对应的原始信号更高级表征与干扰组辅助声源信号调制后对应的原始信号更高级表征当作值（value, v）与键（key, k），所述原始信号高级表征当作查询（query, q）送入所述第二多头交叉注意力层mhca得到目标组辅助声源信号对应的原始信号交叉条件化后的高级表征和干扰组辅助声源信号对应的原始信号交叉条件化后的高级表征：步骤s526：将所述目标组辅助声源信号对应的原始信号交叉条件化后的高级表征和干扰组辅助声源信号对应的原始信号交叉条件化后的高级表征分别通过所述第二全连接层ffn和所述层规整层layernorm，得到目标组辅助声源信号初步表征掩码及干扰组辅助声源信号初步表征掩码；即目标组辅助声源信号初步表征掩码的初步估计：步骤s527：下一个所述conformer模块的输入为所述步骤s526得到的所述目标组辅助声源信号初步表征掩码与所述目标组辅助声源信号表征以及所述干扰组辅助声源信号初步表征掩码与所述干扰组辅助声源信号表征，重复步骤s522-步骤s526，直至遍历所有所述conformer模块，得到所有所述conformer模块对应的目标组辅助声源信号表征掩码及干扰组辅助声源信号表征掩码。
49.所述利用多源辅助声源信息的语音增强模型由两组多分支流程组成，分别对应目
标辅助声源信号与干扰辅助声源信号；每组分支又由多个分支组成，每个分支对应一个声源信号，其输出为目标组辅助声源信号表征掩码和干扰组辅助声源信号表征掩码。
50.步骤s53：将所述目标组辅助声源信号表征掩码和所述干扰组辅助声源信号表征掩码通过注意力融合进行融合，得到融合掩码；步骤s531：对所述目标组辅助声源信号表征掩码和所述干扰组辅助声源信号表征掩码通过累加的方式分别进行组内的表征掩码融合，分别得到目标组辅助声源信号组内表征掩码和干扰组辅助声源信号组内表征掩码；具体地，这里的融合方法为累加：具体地，这里的融合方法为累加：步骤532：将所述目标组辅助声源信号组内表征掩码和所述干扰组辅助声源信号组内表征掩码通过相减的方式进行组间融合，得到融合掩码；步骤s54：将所述原始信号表征利用所述融合掩码得到增强的表征；步骤s55：通过所述解码器模块将所述增强的表征转换为增强语音信号；所述解码器模块为一个由l个1维反卷积层堆叠而成的1维反卷积神经网络组成，在本实施例中，l=5；所述解码器模块的每一个反卷积层与步骤s51中的编码器模块的对应卷积层通过跳跃连接结构相连接。
51.以客观语音质量评估指标pesq为例，在单目标源单干扰源的样本数据集上，本发明增强后的语音信号的pesq相对一般的语音增强算法可相对提升大约5%以上。
52.与前述一种物联网设备协同联动方法的实施例相对应，本发明还提供了一种物联网设备协同联动装置的实施例。
53.参见图5，本发明实施例提供的一种利用多源辅助信息的通用语音增强装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述实施例中的一种利用多源辅助信息的通用语音增强方法。
54.本发明一种利用多源辅助信息的通用语音增强装置的实施例可以应用在任意具
备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，为本发明一种利用多源辅助信息的通用语音增强装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。
55.上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。
56.对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
57.本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的一种利用多源辅助信息的通用语音增强方法。
58.所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（smart media card，smc）、sd卡、闪存卡（flash card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。
59.以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

技术特征：

1.一种利用多源辅助信息的通用语音增强方法，其特征在于，包括以下步骤：步骤s1：构建训练数据集；步骤s2：根据编码器模块、注意力模块和解码器模块三个子网络构建语音增强模型，并利用所述训练数据集对所述语音增强模型的网络参数进行学习；步骤s3：通过预采集或者现场采集的方式构建声源信息数据库；步骤s4：获取语音增强模型的输入，包括待处理的含噪原始信号以及利用所述声源信息数据库得到目标组辅助声源信号和干扰组辅助声源信号；步骤s5：将所述含噪原始信号作为所述语音增强模型的主输入，所述目标组辅助声源信号和所述干扰组辅助声源信号作为所述语音增强模型的旁输入进行语音增强，得到增强语音信号。2.如权利要求1所述的一种利用多源辅助信息的通用语音增强方法，其特征在于，所述步骤s1具体包括以下子步骤：步骤s11：采集一个基础数据集，所述基础数据集由三部分组成：干净人声数据集、噪声数据集、场所混响数据集；步骤s12：在所述干净人声数据集中随机选定某一说话人作为目标说话人，在所述目标说话人语料集合中随机抽取目标语料与目标辅助信息语料；在所述干净人声数据集中随机选定另一不同的说话人作为干扰说话人，在所述干扰说话人语料集合中随机抽取干扰语料与干扰辅助信息语料；步骤s13：在所述噪声数据集中随机抽取噪声音频；步骤s14：在所述场所混响数据集中随机选定冲激响应；步骤s15：将所述目标语料、干扰语料、噪声音频和冲激响应通过随机设定的信噪比计算得到仿真嘈杂音频：步骤s16：将所述目标语料、仿真嘈杂音频、目标辅助信息语料和干扰辅助信息语料按四元组形式进行保存，得到训练数据集。3.如权利要求1所述的一种利用多源辅助信息的通用语音增强方法，其特征在于，所述步骤s2具体包括以下子步骤：步骤s21：根据编码器模块、注意力模块和解码器模块三个子网络构建语音增强模型，从所述训练数据集中抽取四元组数据，包括目标语料，仿真嘈杂音频，目标辅助信息语料和干扰辅助信息语料；步骤s22：将所述仿真嘈杂音频搭配所述目标辅助信息语料与所述干扰辅助信息语料输入所述语音增强模型，得到增强语音信号，利用所述目标语料与所述增强语音信号，计算频谱损失函数和幅度损失函数；步骤s23：根据所述频谱损失函数和所述幅度损失函数构建总损失函数：步骤s24：根据所述总损失函数，利用梯度下降深度学习的模型更新算法对所述语音增强模型的参数进行更新；步骤s25：重复步骤s21至步骤s24，直到更新的迭代次数到达预设的学习步数、或当在所述训练数据集的所有数据上完成进行过50轮的训练、或当使用所述总损失函数的下降速度低于预设阈值、或当所述训练数据集上的相邻训练轮次之间的轮内平均损失函数相对下降小于10%，则停止所述语音增强模型更新迭代，得到所述语音增强模型的网络参数。
4.如权利要求1所述的一种利用多源辅助信息的通用语音增强方法，其特征在于，所述步骤s3中所述预采集为通过搜集说话人的声纹系统中的注册数据和/或历史会话中的语音数据；所述现场采集要求用户发声说话并使用拾音及录音设备对发声过程进行记录，得到记录结果，所述记录结果即为对应用户的辅助信息。5.如权利要求1所述的一种利用多源辅助信息的通用语音增强方法，其特征在于，所述步骤s4具体包括以下子步骤：步骤s41：通过拾音设备采集、网络传输获取用户的音频信号和/或直接使用在存储器上现有的音频文件得到待处理的含噪原始信号；步骤s42：根据实际需求，使用者人工选定目标组声源和干扰组声源，从所述声源信息数据库中提取对应的目标组辅助声源信号和干扰组辅助声源信号。6.如权利要求1所述的一种利用多源辅助信息的通用语音增强方法，其特征在于，所述步骤s5具体包括以下子步骤：步骤s51：将所述含噪原始信号通过对应的所述编码器模块得到原始信号表征；将所述目标组辅助声源信号和所述干扰组辅助声源信号通过对应的所述编码器模块，分别得到目标组辅助声源信号表征和干扰组辅助声源信号表征；步骤s52：将所述原始信号表征和所述目标组辅助声源信号表征及所述干扰组辅助声源信号表征通过注意力模型依次读取第一信号表征对和第二信号表征对，得到目标组辅助声源信号表征掩码和干扰组辅助声源信号表征掩码，其中，所述第一信号表征对包括原始信号表征和目标组辅助声源信号表征，所述第二信号表征对包括原始信号表征和干扰组辅助声源信号表征；步骤s53：将所述目标组辅助声源信号表征掩码和所述干扰组辅助声源信号表征掩码通过注意力融合进行融合，得到融合掩码；步骤s54：将所述原始信号表征利用所述融合掩码得到增强的表征；步骤s55：利用所述解码器模块将所述增强的表征转换为增强语音信号。7.如权利要求6所述的一种利用多源辅助信息的通用语音增强方法，其特征在于，所述步骤s52具体包括以下子步骤：步骤s521：所述注意力模型由若干个相同的conformer模块堆叠而成，所述conformer模块由第一全连接层ffn、卷积层conv、第一多头交叉注意力层mhca、第二多头交叉注意力层mhca、特征维线性调制层film、第二全连接层ffn、层规整层layernorm依次连接组成；步骤s522：所述原始信号表征、所述目标组辅助声源信号表征及所述干扰组辅助声源信号表征分别依次通过所述conformer模块中的所述第一全连接层ffn与所述卷积层conv，得到原始信号高级表征、目标组辅助声源信号高级表征及干扰组辅助声源信号高级表征；步骤s523：将所述原始信号高级表征当作值，所述目标组辅助声源信号高级表征及所述干扰组辅助声源信号高级表征分别当作查询和键送入所述第一多头交叉注意力层mhca，分别得到目标组辅助声源信号对应的原始信号调制向量与干扰组辅助声源信号对应的原始信号调制向量；步骤s524：所述特征维线性调制层film基于所述目标组辅助声源信号对应的原始信号调制向量或干扰组辅助声源信号对应的原始信号调制向量对所述原始信号高级表征进行
调制，分别得到目标组辅助声源信号调制后对应的原始信号更高级表征与干扰组辅助声源信号调制后对应的原始信号更高级表征；步骤s525：分别将所述目标组辅助声源信号调制后对应的原始信号更高级表征与干扰组辅助声源信号调制后对应的原始信号更高级表征当作值与键，所述原始信号高级表征当作查询送入所述第二多头交叉注意力层mhca得到目标组辅助声源信号对应的原始信号交叉条件化后的高级表征和干扰组辅助声源信号对应的原始信号交叉条件化后的高级表征；步骤s526：将所述目标组辅助声源信号对应的原始信号交叉条件化后的高级表征和干扰组辅助声源信号对应的原始信号交叉条件化后的高级表征分别通过所述第二全连接层ffn和所述层规整层layernorm，得到目标组辅助声源信号初步表征掩码及干扰组辅助声源信号初步表征掩码；步骤s527：下一个所述conformer模块的输入为所述步骤s526得到的所述目标组辅助声源信号初步表征掩码与所述目标组辅助声源信号表征以及所述干扰组辅助声源信号初步表征掩码与所述干扰组辅助声源信号表征，重复步骤s522-步骤s526，直至遍历所有所述conformer模块，得到所有所述conformer模块对应的目标组辅助声源信号表征掩码及干扰组辅助声源信号表征掩码。8.如权利要求6所述的一种利用多源辅助信息的通用语音增强方法，其特征在于，所述步骤s53具体包括以下子步骤：步骤s531：对所述目标组辅助声源信号表征掩码和所述干扰组辅助声源信号表征掩码通过累加的方式分别进行组内的表征掩码融合，分别得到目标组辅助声源信号组内表征掩码和干扰组辅助声源信号组内表征掩码；步骤532：将所述目标组辅助声源信号组内表征掩码和所述干扰组辅助声源信号组内表征掩码通过相减的方式进行组间融合，得到融合掩码。9.一种利用多源辅助信息的通用语音增强装置，其特征在于，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现权利要求1-8中任一项所述的一种利用多源辅助信息的通用语音增强方法。10.一种计算机可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，实现权利要求1-8中任一项所述的一种利用多源辅助信息的通用语音增强方法。

技术总结

本发明公开了一种利用多源辅助信息的通用语音增强方法和装置，包括以下步骤：步骤S1：构建训练数据集；步骤S2：利用所述训练数据集对模型的网络参数进行学习，构建语音增强模型；步骤S3：通过预采集或者现场采集的方式构建声源信息数据库；步骤S4：获取语音增强模型的输入；步骤S5：将所述含噪原始信号作为所述语音增强模型的主输入，所述目标组辅助声源信号和所述干扰组辅助声源信号作为所述语音增强模型的旁输入进行语音增强，得到增强语音信号。本发明多类声源辅助声源信息提取辅助声源信号表征；对待增强的原始音频信息提取原始信号表征；将原始信号表征与辅助声源信号表征送入语音增强模型进行语音增强。入语音增强模型进行语音增强。入语音增强模型进行语音增强。