基于波形和频域信息融合网络的声音信号增强方法及装置



1.本公开涉及信号处理技术领域,更具体地,涉及一种基于波形和频域信息的多模态融合网络的单通道声音信号增强方法及装置。


背景技术:



2.由于受到环境噪声的影响,声音信号在通信过程中的干扰是不可避免的,从周围环境引发的噪声严重影响了电子设备的声音信号采集。许多与声音信号相关的应用,如自动声音信号识别、听力辅助系统面临着严峻的挑战。因此,从带噪信号中提取有用的声音信号信息,提升声音信号的质量和可懂度具有重要意义。
3.在实现本公开构思的过程中,发明人发现相关技术中至少存在如下问题:。单独在时域或频域进行相应映射目标的学习,很容易出现增强信号局部信息过强或者过弱的情况,进而使得频谱估计或者波形估计的重建不精确,最终限制了声音信号的增强上限。


技术实现要素:



4.有鉴于此,本公开实施例提供了一种基于波形和频域信息多模态融合网络的单通道声音信号增强方法、装置、电子设备、计算机可读存储介质以及计算机程序产品。
5.本公开实施例的一个方面提供了一种基于波形和频域信息多模态融合网络的单通道声音信号增强方法,包括:
6.获取声音训练样本集,其中,上述声音训练样本集包括多个声音训练样本和对应的标签数据,每个上述声音训练样本包括训练声音信号和训练幅度谱;
7.将上述声音训练样本输入初始融合网络模型,输出增强后的训练声音数据,其中,上述初始融合网络模型为用于融合声音信号时域信息和频域信息的多模态融合网络模型;
8.根据上述标签数据和上述增强后的训练声音数据计算损失函数,得到损失结果;
9.根据上述损失结果迭代地调整上述初始融合网络模型的网络参数,生成经训练的多模态融合网络模型;
10.将待增强的声音信号输入上述多模态融合网络模型,输出增强的语音信号。
11.根据本公开的实施例,上述初始融合网络模型包括双路经联合优化训练单元和多模态信息融合单元;
12.其中,上述将上述声音训练样本输入初始融合网络模型,输出增强后的训练声音数据,包括:
13.将上述训练声音信号和上述训练幅度谱输入上述双路经联合优化训练单元,输出分别对应于上述训练声音信号和上述训练幅度谱的增强的训练声音信号和增强的训练幅度谱;
14.将上述增强的训练声音信号和上述增强的训练幅度谱输入上述多模态信息融合单元,输出上述增强后的训练声音数据。
15.根据本公开的实施例,上述双路经联合优化训练单元包括主路径子单元和辅助路
径子单元;
16.上述主路径子单元包括依次连接的多个第一卷积层、多个第一门控循环层和多个第二卷积层,其中,每个第一卷积层分别与一个上述第二卷积层连接,连接关系关于上述多个第一门控循环层对称;
17.上述辅助路径子单元包括依次连接的多个第三卷积层、多个第二门控循环层和多个第四卷积层,其中,每个上述第三卷积层分别与一个上述第四卷积层连接,连接关系关于上述多个第二门控循环层对称。
18.根据本公开的实施例,上述将上述训练声音信号和上述训练幅度谱输入上述双路经联合优化训练单元,输出分别对应于上述训练声音信号和上述训练幅度谱的增强的训练声音信号和增强的训练幅度谱,包括:
19.将上述训练声音信号输入上述多个第一卷积层,输出第一声音特征;
20.将上述第一声音特征输入上述多个第一门控循环层,输出第二声音特征,其中,上述第一门控循环层用于建立上述第一声音特征中帧与帧之间的时间关联性;
21.将上述第二声音特征输入上述多个第二卷积层,输出上述增强的训练声音信号;
22.将上述训练幅度谱输入辅助路径子单元,输出上述增强的训练幅度谱。
23.根据本公开的实施例,上述将上述训练幅度谱输入辅助路径子单元,输出上述增强的训练幅度谱,包括:
24.将上述训练幅度谱输入上述多个第三卷积层,输出第一频谱特征;
25.将上述第一频谱特征输入多个第二门控循环层,输出第二频谱特征,其中,上述第二门控循环层用于建立上述第一频谱特征中帧与帧之间的时间关联性;
26.将上述第二频谱特征输入上述多个第四卷积层,输出上述增强的训练幅度谱。
27.根据本公开的实施例,上述将上述增强的训练声音信号和上述增强的训练幅度谱输入上述多模态信息融合单元,输出上述增强后的训练声音数据,包括:
28.对上述增强的训练声音信号进行短时傅里叶变换,得到相位信息和辅助幅度谱;
29.根据上述辅助幅度谱和上述训练幅度谱,得到融合后的幅度谱;
30.根据上述相位信息和上述融合后的幅度谱,得到目标频谱图;
31.对上述目标频谱图进行短时傅里叶逆变换,得到上述增强后的训练声音数据。
32.根据本公开的实施例,上述主路径子单元的损失函数如下所示:
[0033][0034]
其中,θ表征多模态融合网络模型中一组可学习参数;n表征声音训练样本集中训练声音信号的数量;yi表征训练声音信号,si表征训练声音信号对应的标签数据中的纯净声音信号;f(yi;θ)表征由主路径子单元生成的增强的训练声音信号;lm(θ)表征主路径子单元中增强的训练声音信号与纯净声音信号之间的损失值;
[0035]
上述辅助路径子单元的损失函数如下所示:
[0036]
[0037]
其中,y(i)
mag
表征输入带噪声音信号的幅度谱,s(i)
mag
表征纯净声音信号幅度谱;f(y(i)
mag
;θ)表征由辅助路径子单元生成的增强的训练幅度谱;la(θ)表征辅助路径子单元中增强的训练幅度谱与标签数据中纯净声音信号的幅度谱之间的损失值;
[0038]
上述多模态融合网络模型的损失函数l如下所示:
[0039]
l=k1*lm+k2*la[0040]
其中,k1和k2均表征预设系数,lm表征主路径子单元的损失函数,la表征辅助路径子单元的损失函数。
[0041]
根据本公开的实施例,在将上述待增强的声音信号输入上述多模态融合网络模型之前,还包括:
[0042]
对上述待增强的声音信号进行预处理,得到预处理后的声音信号。
[0043]
根据本公开的实施例,上述对上述待增强的声音信号进行预处理,得到预处理后的声音信号,包括:
[0044]
根据预设采样频率对上述待增强的声音信号进行重采样处理,得到第一声音信号;
[0045]
按照预设维度对上述第一声音信号进行短时傅里叶变换,得到上述预处理后的声音信号,其中,上述预处理后的声音信号包括信号幅度谱。
[0046]
本公开实施例的另一个方面提供了一种基于波形和频域信息多模态融合网络的单通道声音信号增强装置,包括:
[0047]
获取模块,用于获取声音训练样本集,其中,上述声音训练样本集包括多个声音训练样本和对应的标签数据,每个上述声音训练样本包括训练声音信号和训练幅度谱;
[0048]
训练模块,用于将上述声音训练样本输入初始融合网络模型,输出增强后的训练声音数据,其中,上述初始融合网络模型为用于融合声音信号时域信息和频域信息的多模态融合网络模型;
[0049]
计算模块,用于根据上述标签数据和上述增强后的训练声音数据计算损失函数,得到损失结果;
[0050]
迭代模块,用于根据上述损失结果迭代地调整上述初始融合网络模型的网络参数,生成经训练的多模态融合网络模型;以及
[0051]
增强模块,用于将待增强的声音信号输入上述多模态融合网络模型,输出增强的语音信号。
[0052]
本公开实施例的另一个方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上所述的方法。
[0053]
本公开实施例的另一个方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
[0054]
本公开实施例的另一个方面提供了一种计算机程序产品,所述计算机程序产品包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
[0055]
根据本公开的实施例,通过可以包括训练声音信号和训练幅度谱的训练样本训练多模态融合网络模型,由于多模态融合网络模型能够融合声音信号时域信息和频域信息,使得多模态融合网络模型能够对待增强的声音信号的时域信息和频域信息进行优势互补,
从而使得输出的增强的语音信号质量更高,同时提高了声音信号的增强上限。
附图说明
[0056]
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
[0057]
图1示意性示出了根据本公开实施例的应用单通道声音信号增强方法的示例性系统架构;
[0058]
图2示意性示出了根据本公开实施例的单通道声音信号增强方法的流程图;
[0059]
图3示意性示出了根据本公开实施例的多模态融合网络模型的模型结构图;
[0060]
图4示意性示出了根据本公开实施例的获取增强后的训练声音数据的方法流程图;
[0061]
图5示意性示出了根据本公开的实施例的单通道声音信号增强装置的框图;以及
[0062]
图6示意性示出了根据本公开实施例的实现单通道声音信号增强方法的电子设备的框图。
具体实施方式
[0063]
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
[0064]
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
[0065]
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
[0066]
在使用类似于“a、b和c等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有a、b和c中至少一个的系统”应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。
[0067]
相关技术中,基于深度神经网络的单通道声音信号增强方法主要分为两类:基于映射的声音信号增强和基于掩膜的声音信号增强。
[0068]
基于映射的声音信号增强通过训练神经网络模型直接学习带噪声音信号和纯净声音信号之间的映射关系,主要包括两种映射方案,其一是频谱映射,该类方法将带噪声音信号从时域转换到频域,以幅度谱或者复数谱作为输入和优化目标。其二是波形映射,该类方法直接将带噪声音信号波形作为输入,模型直接输出增强后的声音信号。
[0069]
基于掩膜的声音信号增强通常用来估计用于恢复纯净声音信号的时频掩码,例如理想二值掩蔽(ibm)、理想幅度掩蔽(iam)。
[0070]
然而,上述方法单独在时域或频域进行相应映射目标的学习,很容易出现增强信号局部信息过强或者过弱的情况,进而使得频谱估计或者波形估计的重建不精确,最终导致声音信号的增强范围有限。
[0071]
有鉴于此,本公开的实施例提供了一种基于波形和频域信息融合网络的声音信号增强方法及装置。该方法包括获取声音训练样本集,其中,声音训练样本集包括多个声音训练样本和对应的标签数据,每个声音训练样本包括训练声音信号和训练幅度谱;将声音训练样本输入初始融合网络模型,输出增强后的训练声音数据,其中,初始融合网络模型为用于融合声音信号时域信息和频域信息的多模态融合网络模型;根据标签数据和增强后的训练声音数据计算损失函数,得到损失结果;根据损失结果迭代地调整初始融合网络模型的网络参数,生成经训练的多模态融合网络模型;将待增强的声音信号输入多模态融合网络模型,输出增强的语音信号。
[0072]
图1示意性示出了根据本公开实施例的可以应用单通道声音信号增强方法的示例性系统架构100。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
[0073]
如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104、服务器105和声音信号采集设备106。网络104用以在终端设备101、102、103、服务器105和声音信号采集设备106之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等。
[0074]
用户可以使用终端设备101、102、103通过网络104与服务器105、声音信号采集设备106交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如声音信号增强类应用。
[0075]
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等。
[0076]
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
[0077]
需要说明的是,本公开实施例所提供的单通道声音信号增强方法一般可以由终端设备101、102、或103执行,或者也可以由不同于终端设备101、102、或103的其他终端设备执行。相应地,本公开实施例所提供的单通道声音信号增强系统可以设置于终端设备101、102、或103中,或设置于不同于终端设备101、102、或103的其他终端设备中。或者,本公开实施例所提供的单通道声音信号增强方法也可以由服务器105执行。相应地,本公开实施例所提供的单通道声音信号增强系统一般可以设置于服务器105中。本公开实施例所提供的单通道声音信号增强方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集执行。相应地,本公开实施例所提供的单通道声音信号增强系统也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集中。
[0078]
应该理解,图1中的终端设备、网络、服务器和声音信号采集设备的数目仅仅是示
意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
[0079]
图2示意性示出了根据本公开实施例的单通道声音信号增强方法的流程图。
[0080]
如图2所示,基于波形和频域信息多模态融合网络的单通道声音信号增强方法可以包括操作s210~s250。
[0081]
在操作s210,获取声音训练样本集,其中,声音训练样本集可以包括多个声音训练样本和对应的标签数据,每个声音训练样本可以包括训练声音信号和训练幅度谱。
[0082]
在操作s220,将声音训练样本输入初始融合网络模型,输出增强后的训练声音数据,其中,初始融合网络模型为用于融合声音信号时域信息和频域信息的多模态融合网络模型。
[0083]
在操作s230,根据标签数据和增强后的训练声音数据计算损失函数,得到损失结果。
[0084]
在操作s240,根据损失结果迭代地调整初始融合网络模型的网络参数,生成经训练的多模态融合网络模型。
[0085]
在操作s250,将待增强的声音信号输入多模态融合网络模型,输出增强的语音信号。
[0086]
根据本公开的实施例,待增强的声音信号可以包括待降噪的声音,因此本公开的单通道声音信号增强方法可以应用于耳机、电视、手机、对讲机等各种音频输出设备。
[0087]
根据本公开的实施例,标签数据可以包括与声音训练样本相应的纯净声音信号s(t)和对应的幅度谱s
mag
。训练声音信号可以包括声音信号时域波形y(t)。
[0088]
根据本公开的实施例,利用可以包括多个声音训练样本和对应的标签数据的声音训练样本集对初始融合网络模型进行训练,每个训练样本在输入初始融合网络模型后均可以输出一个增强后的训练声音数据,根据增强后的训练声音数据和对应的标签数据计算对应的损失函数,从而根据计算得到的损失结果迭代地调整初始融合网络模型的网络参数,在初始融合网络模型达到收敛时可以获得训练完成的多模态融合网络模型。将待增强的声音信号输入多模态融合网络模型,多模态融合网络模型可以对输入的待增强的声音信号的时域信息和频域信息进行联合优化学习和交叉融合,实现了多种模态信息的优势互补,从而输出语音信号质量较高的增强的语音信号。
[0089]
根据本公开的实施例,通过可以包括训练声音信号和训练幅度谱的训练样本训练多模态融合网络模型,由于多模态融合网络模型能够融合声音信号时域信息和频域信息,使得多模态融合网络模型能够对待增强的声音信号的时域信息和频域信息进行优势互补,从而使得输出的增强的语音信号质量更高,同时提高了声音信号的增强上限。
[0090]
图3示意性示出了根据本公开实施例的多模态融合网络模型的模型结构图。
[0091]
根据本公开的实施例,初始融合网络模型可以包括双路经联合优化训练单元和多模态信息融合单元。
[0092]
如图3所示,将声音训练样本输入初始融合网络模型,输出增强后的训练声音数据,可以包括如下操作:
[0093]
将训练声音信号和训练幅度谱输入双路经联合优化训练单元,输出分别对应于训练声音信号和训练幅度谱的增强的训练声音信号和增强的训练幅度谱将增强
的训练声音信号和增强的训练幅度谱输入多模态信息融合单元,输出增强后的训练声音数据。
[0094]
根据本公开的实施例,双路经联合优化训练单元实现对声音信号波形和幅度谱的联合优化学习。多模态信息融合单元由模态转换机制及互补增强机制构成。模态转换机制主要负责对和建模,将其统一到相同的模态空间,互补融合机制主要用来实现时域信息和频域信息的优势互补。
[0095]
根据本公开的实施例,双路经联合优化训练单元可以包括主路径子单元和辅助路径子单元。
[0096]
主路径子单元可以包括依次连接的多个第一卷积层、多个第一门控循环层和多个第二卷积层,其中,每个第一卷积层分别与一个第二卷积层连接,连接关系关于多个第一门控循环层对称。
[0097]
辅助路径子单元可以包括依次连接的多个第三卷积层、多个第二门控循环层和多个第四卷积层,其中,每个第三卷积层分别与一个第四卷积层连接,连接关系关于多个第二门控循环层对称。
[0098]
在一种示例性的实施例中,第一卷积层和第二卷积层的数量可以相同,例如可以为6个。第三卷积层和第四卷积层的数量也可以相同,例如也可以为6个,具体数量可以根据实际需求具体设置。
[0099]
根据本公开的实施例,多个第一卷积层的堆叠可以实现输入声音信号的波形信息向更高维向量空间进行映射。多个第一门控循环层可以在潜在空间对特征向量进行建模。多个第二卷积层可以实现特征向量的解码重构,从而得到主路径增强后的声音信号
[0100]
根据本公开的实施例,第三卷积层可以实现二维频域信息向高维空间的非线性映射。多个第二门控循环层可以建立帧与帧之间的时间相关性。第四卷积层可以实现频谱信息的重构,从而得到辅助路径增强后的幅度谱
[0101]
根据本公开的实施例,第一卷积层可以包括多个一维卷积层、整流线性层和门控机制激活函数层,第二卷积层可以包括一维卷积层、门控机制激活函数层、亚像素卷积层和整流线性层。
[0102]
根据本公开的实施例,第三卷积层可以包括二维卷积层、批规范化层和指数线性激活函数层,第四卷积层可以包括亚像素卷积层、批规范化层和指数线性激活函数层。
[0103]
根据本公开的实施例,主路径子单元采用跳跃连接的方式,以融合浅层特征向量和深层向量的语义信息,实现特征向量的解码重构,从而得到主路径增强后的声音信号
[0104]
根据本公开的实施例,辅助路径子单元采用跳跃连接的方式实现相应位置的互联,构建浅层语义信息和深层语义信息的关联,以实现频谱信息的重构,从而得到辅助路径增强后的幅度谱
[0105]
根据本公开的实施例,主路径子单元中的跳跃连接的方式可以指第一个第一卷积层和最后一个第二卷积层连接,第二个第一卷积层和倒数第二个第二卷积层连接,以此类推实现多个第一卷积层和多个第一卷积层的跳跃连接。
[0106]
根据本公开的实施例,辅助路径子单元中的跳跃连接的方式可以指第一个第三卷积层和最后一个第四卷积层连接,第二个第三卷积层和倒数第二个第四卷积层连接,以此类推实现多个第三卷积层和多个第四卷积层的跳跃连接。
[0107]
如图3所示,将训练声音信号和训练幅度谱输入双路经联合优化训练单元,输出分别对应于训练声音信号和训练幅度谱的增强的训练声音信号和增强的训练幅度谱可以包括如下操作。
[0108]
将训练声音信号输入多个第一卷积层,输出第一声音特征。将第一声音特征输入多个第一门控循环层,输出第二声音特征,其中,第一门控循环层用于建立第一声音特征中帧与帧之间的时间关联性。将第二声音特征输入多个第二卷积层,输出增强的训练声音信号将训练幅度谱输入辅助路径子单元,输出增强的训练幅度谱
[0109]
根据本公开的实施例,将训练幅度谱输入辅助路径子单元,输出增强的训练幅度谱,可以包括如下操作:
[0110]
将训练幅度谱输入多个第三卷积层,输出第一频谱特征。将第一频谱特征输入多个第二门控循环层,输出第二频谱特征,其中,第二门控循环层用于建立第一频谱特征中帧与帧之间的时间关联性。将第二频谱特征输入多个第四卷积层,输出增强的训练幅度谱。
[0111]
图4示意性示出了根据本公开实施例的获取增强后的训练声音数据的方法流程图。
[0112]
如图4所示,将增强的训练声音信号和增强的训练幅度谱输入多模态信息融合单元,输出增强后的训练声音数据,可以包括操作s401~操作s405。
[0113]
在操作s401,对增强的训练声音信号进行短时傅里叶变换,得到相位信息和辅助幅度谱
[0114]
在操作s402,根据辅助幅度谱和训练幅度谱得到融合后的幅度谱。
[0115]
在操作s403,根据相位信息和融合后的幅度谱,得到目标频谱图。
[0116]
在操作s404,对目标频谱图进行短时傅里叶逆变换,得到增强后的训练声音数据。
[0117]
根据本公开的实施例,在双路经联合优化训练单元完成对输入的训练声音信号的降噪增强后,为了实现频域信息和时域信息的互补融合,可以利用多模态信息融合单元进行处理,多模态信息融合单元由模态转换机制及互补增强机制构成。模态转换机制主要负责对和建模,将其统一到相同的模态空间,互补融合机制主要用来实现时域信息和频域信息的优势互补。
[0118]
根据本公开的实施例,通过执行短时傅里叶变换(short-time fourier transform,stft)将训练声音信号转换到频域,然后提取其辅助幅度谱鉴于单一类型的映射方案往往会造成幅度谱、相位谱重建不精确,因此,本公开通过在幅度域中对多个增强频谱加权的方式来进行幅度谱补偿,以得到最终得到增强的融合后的幅度谱。在得到融合后的幅度谱后,为了进一步加强模型对相位信息的追踪能力,将中隐含的相位信息引入到信号重建过程,以用于信号合成,并通过执行短时傅里叶逆变换得到增强
后的训练声音数据的波形
[0119]
根据本公开的实施例,主路径子单元的损失函数可以为mae损失函数,mae损失函数如公式(1)所示:
[0120][0121]
其中,θ表征多模态融合网络模型中一组可学习参数;n表征声音训练样本集中训练声音信号的数量;yi表征训练声音信号,si表征训练声音信号对应的标签数据中的纯净声音信号;f(yi;θ)表征由主路径子单元生成的增强的训练声音信号;lm(θ)表征主路径子单元中增强的训练声音信号与纯净声音信号之间的损失值。
[0122]
根据本公开的实施例,辅助路径子单元的损失函数可以为mse损失函数,mse损失函数如公式(2)所示:
[0123][0124]
其中,y(i)
mag
表征输入带噪声音信号的幅度谱,s(i)
mag
表征纯净声音信号幅度谱;f(y(i)
mag
;θ)表征由辅助路径子单元生成的增强的训练幅度谱;la(θ)表征辅助路径子单元中增强的训练幅度谱与标签数据中纯净声音信号的幅度谱之间的损失值。
[0125]
多模态融合网络模型的损失函数l如公式(3)所示:
[0126]
l=k1*lm+k2*laꢀꢀꢀ
(3)
[0127]
其中,k1和k2均表征预设系数,lm表征主路径子单元的损失函数,la表征辅助路径子单元的损失函数。
[0128]
根据本公开的实施例,预设系数可以根据实际情况具体设置,例如k1和k2均可以为0.5,需要说明的是预设系数也可以为其他数值,例如k1=0.4和k2=0.6。
[0129]
根据本公开的实施例,在将待增强的声音信号输入多模态融合网络模型之前,还可以包括如下操作:
[0130]
对待增强的声音信号进行预处理,得到预处理后的声音信号。
[0131]
根据本公开的实施例,为了使得输入多模态融合网络模型的待增强的声音信号的信号质量更高,从而使得输出的增强的语音信号的质量更加优异,可以对对待增强的声音信号进行预处理。
[0132]
根据本公开的实施例,对待增强的声音信号进行预处理,得到预处理后的声音信号,可以包括如下操作:
[0133]
根据预设采样频率对待增强的声音信号进行重采样处理,得到第一声音信号;
[0134]
按照预设维度对第一声音信号进行短时傅里叶变换,得到预处理后的声音信号,其中,预处理后的声音信号可以包括信号幅度谱。
[0135]
根据本公开的实施例,重采样处理的采样频率可以为16khz,也可以为其他的采样频率,本公开对采样频率的具体数值并不做具体限定。
[0136]
根据本公开的实施例,预设维度可以指320维,也可以为其他的维度,本公开对预设维度的具体数值并不做具体限定。
[0137]
根据本公开的实施例,信号幅度谱的汉明窗口大小可以为20ms,重叠时间可以为10ms,同样上述汉明窗口的大小和重叠时间均只是示例,并不代表本公开的汉明窗口的大小和重叠时间只能为上述数值。
[0138]
图5示意性示出了根据本公开的实施例的单通道声音信号增强装置的框图。
[0139]
如图5所示,基于波形和频域信息多模态融合网络的单通道声音信号增强装置500可以包括获取模块510、训练模块520、计算模块530、迭代模块540和增强模块550。
[0140]
获取模块510,用于获取声音训练样本集,其中,声音训练样本集可以包括多个声音训练样本和对应的标签数据,每个声音训练样本可以包括训练声音信号和训练幅度谱。
[0141]
训练模块520,用于将声音训练样本输入初始融合网络模型,输出增强后的训练声音数据,其中,初始融合网络模型为用于融合声音信号时域信息和频域信息的多模态融合网络模型。
[0142]
计算模块530,用于根据标签数据和增强后的训练声音数据计算损失函数,得到损失结果。
[0143]
迭代模块540,用于根据损失结果迭代地调整初始融合网络模型的网络参数,生成经训练的多模态融合网络模型。
[0144]
增强模块550,用于将待增强的声音信号输入多模态融合网络模型,输出增强的语音信号。
[0145]
根据本公开的实施例,通过可以包括训练声音信号和训练幅度谱的训练样本训练多模态融合网络模型,由于多模态融合网络模型能够融合声音信号时域信息和频域信息,使得多模态融合网络模型能够对待增强的声音信号的时域信息和频域信息进行优势互补,从而使得输出的增强的语音信号质量更高,同时提高了声音信号的增强上限。
[0146]
根据本公开的实施例,初始融合网络模型可以包括双路经联合优化训练单元和多模态信息融合单元。
[0147]
根据本公开的实施例,训练模块520可以包括第一训练子模块和第二训练子模块。
[0148]
第一训练子模块,用于将训练声音信号和训练幅度谱输入双路经联合优化训练单元,输出分别对应于训练声音信号和训练幅度谱的增强的训练声音信号和增强的训练幅度谱。
[0149]
第二训练子模块,用于将增强的训练声音信号和增强的训练幅度谱输入多模态信息融合单元,输出增强后的训练声音数据。
[0150]
根据本公开的实施例,双路经联合优化训练单元可以包括主路径子单元和辅助路径子单元。
[0151]
根据本公开的实施例,主路径子单元可以包括依次连接的多个第一卷积层、多个第一门控循环层和多个第二卷积层,其中,每个第一卷积层分别与一个第二卷积层连接,连接关系关于多个第一门控循环层对称。
[0152]
辅助路径子单元可以包括依次连接的多个第三卷积层、多个第二门控循环层和多个第四卷积层,其中,每个第三卷积层分别与一个第四卷积层连接,连接关系关于多个第二门控循环层对称。
[0153]
根据本公开的实施例,第一训练子模块可以包括第一训练单元、第二训练单元、第三训练单元和第四训练单元。
[0154]
第一训练单元,用于将训练声音信号输入多个第一卷积层,输出第一声音特征。
[0155]
第二训练单元,用于将第一声音特征输入多个第一门控循环层,输出第二声音特征,其中,第一门控循环层用于建立第一声音特征中帧与帧之间的时间关联性。
[0156]
第三训练单元,用于将第二声音特征输入多个第二卷积层,输出增强的训练声音信号。
[0157]
第四训练单元,用于将训练幅度谱输入辅助路径子单元,输出增强的训练幅度谱。
[0158]
根据本公开的实施例,第四训练单元可以包括第一训练子单元、第二训练子单元和第三训练子单元。
[0159]
第一训练子单元,用于将训练幅度谱输入多个第三卷积层,输出第一频谱特征。
[0160]
第二训练子单元,用于将第一频谱特征输入多个第二门控循环层,输出第二频谱特征,其中,第二门控循环层用于建立第一频谱特征中帧与帧之间的时间关联性。
[0161]
第三训练子单元,用于将第二频谱特征输入多个第四卷积层,输出增强的训练幅度谱。
[0162]
根据本公开的实施例,第二训练子模块可以包括变换单元、融合单元、得到单元和逆变换单元。
[0163]
变换单元,用于对增强的训练声音信号进行短时傅里叶变换,得到相位信息和辅助幅度谱。
[0164]
融合单元,用于根据辅助幅度谱和训练幅度谱,得到融合后的幅度谱。
[0165]
得到单元,用于根据相位信息和融合后的幅度谱,得到目标频谱图。
[0166]
逆变换单元,用于对目标频谱图进行短时傅里叶逆变换,得到增强后的训练声音数据。
[0167]
根据本公开的实施例,单通道声音信号增强装置还可以包括预处理模块。
[0168]
预处理模块,用于对待增强的声音信号进行预处理,得到预处理后的声音信号。
[0169]
根据本公开的实施例,预处理模块可以包括重采样子模块和变换模块。
[0170]
重采样子模块,用于根据预设采样频率对待增强的声音信号进行重采样处理,得到第一声音信号。
[0171]
变换模块,用于按照预设维度对第一声音信号进行短时傅里叶变换,得到预处理后的声音信号,其中,预处理后的声音信号可以包括信号幅度谱。
[0172]
根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(field programmable gate array,fpga)、可编程逻辑阵列(programmable logic arrays,pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(application specific integrated circuit,asic),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
[0173]
例如,获取模块510、训练模块520、计算模块530、迭代模块540和增强模块550中的任意多个可以合并在一个模块/子模块/单元/子单元中实现,或者其中的任意一个模块/子模块/单元/子单元可以被拆分成多个模块/子模块/单元/子单元。或者,这些模块/子模块/单元/子单元中的一个或多个模块/子模块/单元/子单元的至少部分功能可以与其他模块/单元/子单元的至少部分功能相结合,并在一个模块/子模块/单元/子单元中实现。根据本公开的实施例,获取模块510、训练模块520、计算模块530、迭代模块540和增强模块550中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,获取模块510、训练模块520、计算模块530、迭代模块540和增强模块550中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
[0174]
需要说明的是,本公开的实施例中单通道声音信号增强装置部分与本公开的实施例中单通道声音信号增强方法部分是相对应的,单通道声音信号增强装置部分的描述具体参考单通道声音信号增强方法部分,在此不再赘述。
[0175]
图6示意性示出了根据本公开实施例的适于实现上文描述的方法的电子设备的框图。图6示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
[0176]
如图6所示,根据本公开实施例的电子设备600包括处理器601,其可以根据存储在只读存储器(read-only memory,rom)602中的程序或者从存储部分608加载到随机访问存储器(random access memory,ram)603中的程序而执行各种适当的动作和处理。处理器601例如可以包括通用微处理器(例如cpu)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(asic)),等等。处理器601还可以包括用于缓存用途的板载存储器。处理器601可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
[0177]
在ram 603中,存储有电子设备600操作所需的各种程序和数据。处理器601、rom 602以及ram 603通过总线604彼此相连。处理器601通过执行rom 602和/或ram 603中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除rom 602和ram 603以外的一个或多个存储器中。处理器601也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
[0178]
根据本公开的实施例,电子设备600还可以包括输入/输出(i/o)接口605,输入/输出(i/o)接口605也连接至总线604。系统600还可以包括连接至i/o接口605的以下部件中的一项或多项:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(crt)、液晶显示器(liquid crystal display,lcd)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至i/o接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
[0179]
根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程
序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被处理器601执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
[0180]
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
[0181]
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom(erasable programmable read only memory,eprom)或闪存)、便携式紧凑磁盘只读存储器(computer disc read-only memory,cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0182]
例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的rom 602和/或ram 603和/或rom602和ram603以外的一个或多个存储器。
[0183]
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行本公开实施例所提供的方法的程序代码,当计算机程序产品在电子设备上运行时,该程序代码用于使电子设备实现本公开实施例所提供的单通道声音信号增强方法。
[0184]
在该计算机程序被处理器601执行时,执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
[0185]
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分609被下载和安装,和/或从可拆卸介质611被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
[0186]
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如java,c++,python,“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0187]
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程
序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,多个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
[0188]
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

技术特征:


1.一种基于波形和频域信息多模态融合网络的单通道声音信号增强方法,包括:获取声音训练样本集,其中,所述声音训练样本集包括多个声音训练样本和对应的标签数据,每个所述声音训练样本包括训练声音信号和训练幅度谱;将所述声音训练样本输入初始融合网络模型,输出增强后的训练声音数据,其中,所述初始融合网络模型为用于融合声音信号时域信息和频域信息的多模态融合网络模型;根据所述标签数据和所述增强后的训练声音数据计算损失函数,得到损失结果;根据所述损失结果迭代地调整所述初始融合网络模型的网络参数,生成经训练的多模态融合网络模型;将待增强的声音信号输入所述多模态融合网络模型,输出增强的语音信号。2.根据权利要求1所述的方法,所述初始融合网络模型包括双路经联合优化训练单元和多模态信息融合单元;其中,所述将所述声音训练样本输入初始融合网络模型,输出增强后的训练声音数据,包括:将所述训练声音信号和所述训练幅度谱输入所述双路经联合优化训练单元,输出分别对应于所述训练声音信号和所述训练幅度谱的增强的训练声音信号和增强的训练幅度谱;将所述增强的训练声音信号和所述增强的训练幅度谱输入所述多模态信息融合单元,输出所述增强后的训练声音数据。3.根据权利要求2所述的方法,其中,所述双路经联合优化训练单元包括主路径子单元和辅助路径子单元;所述主路径子单元包括依次连接的多个第一卷积层、多个第一门控循环层和多个第二卷积层,其中,每个第一卷积层分别与一个所述第二卷积层连接,连接关系关于所述多个第一门控循环层对称;所述辅助路径子单元包括依次连接的多个第三卷积层、多个第二门控循环层和多个第四卷积层,其中,每个所述第三卷积层分别与一个所述第四卷积层连接,连接关系关于所述多个第二门控循环层对称。4.根据权利要求3所述的方法,其中,所述将所述训练声音信号和所述训练幅度谱输入所述双路经联合优化训练单元,输出分别对应于所述训练声音信号和所述训练幅度谱的增强的训练声音信号和增强的训练幅度谱,包括:将所述训练声音信号输入所述多个第一卷积层,输出第一声音特征;将所述第一声音特征输入所述多个第一门控循环层,输出第二声音特征,其中,所述第一门控循环层用于建立所述第一声音特征中帧与帧之间的时间关联性;将所述第二声音特征输入所述多个第二卷积层,输出所述增强的训练声音信号;将所述训练幅度谱输入辅助路径子单元,输出所述增强的训练幅度谱。5.根据权利要求4所述的方法,其中,所述将所述训练幅度谱输入辅助路径子单元,输出所述增强的训练幅度谱,包括:将所述训练幅度谱输入所述多个第三卷积层,输出第一频谱特征;将所述第一频谱特征输入多个第二门控循环层,输出第二频谱特征,其中,所述第二门控循环层用于建立所述第一频谱特征中帧与帧之间的时间关联性;将所述第二频谱特征输入所述多个第四卷积层,输出所述增强的训练幅度谱。
6.根据权利要求2~5中任一项所述的方法,其中,所述将所述增强的训练声音信号和所述增强的训练幅度谱输入所述多模态信息融合单元,输出所述增强后的训练声音数据,包括:对所述增强的训练声音信号进行短时傅里叶变换,得到相位信息和辅助幅度谱;根据所述辅助幅度谱和所述训练幅度谱,得到融合后的幅度谱;根据所述相位信息和所述融合后的幅度谱,得到目标频谱图;对所述目标频谱图进行短时傅里叶逆变换,得到所述增强后的训练声音数据。7.根据权利要求3~5中任一项所述的方法,其中,所述主路径子单元的损失函数如公式(1)所示:其中,θ表征多模态融合网络模型中一组可学习参数;n表征声音训练样本集中训练声音信号的数量;y
i
表征训练声音信号,s
i
表征训练声音信号对应的标签数据中的纯净声音信号;f(y
i
;θ)表征由主路径子单元生成的增强的训练声音信号;l
m
(θ)表征主路径子单元中增强的训练声音信号与纯净声音信号之间的损失值;所述辅助路径子单元的损失函数如公式(2)所示:其中,y(i)
mag
表征输入带噪声音信号的幅度谱,s(i)
mag
表征纯净声音信号幅度谱;f(y(i)
mag
;θ)表征由辅助路径子单元生成的增强的训练幅度谱;l
a
(θ)表征辅助路径子单元中增强的训练幅度谱与标签数据中纯净声音信号的幅度谱之间的损失值;所述多模态融合网络模型的损失函数l如公式(3)所示:l=k1*l
m
+k2*l
a
ꢀꢀꢀꢀ
(3)其中,k1和k2均表征预设系数,l
m
表征主路径子单元的损失函数,l
a
表征辅助路径子单元的损失函数。8.根据权利要求1所述的方法,其中,在将所述待增强的声音信号输入所述多模态融合网络模型之前,还包括:对所述待增强的声音信号进行预处理,得到预处理后的声音信号。9.根据权利要求8所述的方法,其中,所述对所述待增强的声音信号进行预处理,得到预处理后的声音信号,包括:根据预设采样频率对所述待增强的声音信号进行重采样处理,得到第一声音信号;按照预设维度对所述第一声音信号进行短时傅里叶变换,得到所述预处理后的声音信号,其中,所述预处理后的声音信号包括信号幅度谱。10.一种基于波形和频域信息多模态融合网络的单通道声音信号增强装置,包括:获取模块,用于获取声音训练样本集,其中,所述声音训练样本集包括多个声音训练样本和对应的标签数据,每个所述声音训练样本包括训练声音信号和训练幅度谱;训练模块,用于将所述声音训练样本输入初始融合网络模型,输出增强后的训练声音
数据,其中,所述初始融合网络模型为用于融合声音信号时域信息和频域信息的多模态融合网络模型;计算模块,用于根据所述标签数据和所述增强后的训练声音数据计算损失函数,得到损失结果;迭代模块,用于根据所述损失结果迭代地调整所述初始融合网络模型的网络参数,生成经训练的多模态融合网络模型;以及增强模块,用于将待增强的声音信号输入所述多模态融合网络模型,输出增强的语音信号。

技术总结


本公开提供了一种基于波形和频域信息融合网络的声音信号增强方法及装置。该方法包括获取声音训练样本集,其中,声音训练样本集包括多个声音训练样本和对应的标签数据,每个声音训练样本包括训练声音信号和训练幅度谱;将声音训练样本输入初始融合网络模型,输出增强后的训练声音数据,其中,初始融合网络模型为用于融合声音信号时域信息和频域信息的多模态融合网络模型;根据标签数据和增强后的训练声音数据计算损失函数,得到损失结果;根据损失结果迭代地调整初始融合网络模型的网络参数,生成经训练的多模态融合网络模型;将待增强的声音信号输入多模态融合网络模型,输出增强的语音信号。强的语音信号。强的语音信号。


技术研发人员:

郭慧敏 鉴海防 王洪昌 朱文旗 李文昌

受保护的技术使用者:

中国科学院半导体研究所

技术研发日:

2022.06.01

技术公布日:

2022/7/22

本文发布于:2024-09-22 04:16:16,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/15794.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:声音   信号   多个   卷积
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议