一种语音增强模型的训练方法、装置及设备与流程

1.本技术涉及语音处理及识别技术领域，特别涉及一种语音增强模型的训练方法、装置及设备。

背景技术：

2.语音增强技术应用于通话系统时，通常需要对音频中的回声和噪声进行抑制来提高信噪比和信回比，用以提升用户的通话体验。而在语音增强技术应用于语音识别系统时，则需要更完整地保留音频中的语音信号，尽量降低语音失真，用以提高语音识别率。
3.但在目前技术中，通常需要切换不同的语音增强模型来实现在通话系统中可以抑制音频中的噪声，在语音识别系统中降低音频中的语音失真。也就是说，目前并没有一个语音增强模型既可以实现降低音频中的语音失真，又可以实现抑制音频中的噪声。

技术实现要素：

4.本技术实施例提供了一种语音增强模型的训练方法、装置及设备，用以通过一个语音增强模型既可以实现降低音频中的语音失真，又可以实现抑制音频中的噪声。
5.第一方面，本技术实施例提供了一种语音增强模型的训练方法，包括：
6.获取训练样本集，所述训练样本集中包括多个音频样本数据和所述多个音频样本数据分别对应的音频掩蔽结果；通过语音增强模型的输入层获取所述训练样本集中第一音频样本数据；通过所述语音增强模型的n个隐藏层提取所述第一音频样本数据的音频特征，n为正整数；将所述音频特征分别输入所述语音增强模型的m个输出层获得m个音频降噪结果，m为大于1的整数；通过所述m个输出层分别对应的损失函数确定所述m个音频降噪结果分别与所述音频掩蔽结果之间的损失得到m个损失值；根据所述m个损失值的加权结果调整所述输入层、所述n个隐藏层以及所述m个输出层的网络参数，以获得训练后的所述语音增强模型。
7.基于上述方案，由于语音增强模型包括多个输出层，因此通过该方法训练的语音增强模型，可以通过切换输出层的网络参数达到对待处理语音信号不同降噪处理的效果。
8.一种可能的实现方式中，所述通过所述m个输出层分别对应的损失函数确定所述m个音频降噪结果分别与所述音频掩蔽结果之间的损失得到m个损失值，包括：通过第一损失函数确定第一输出层对应的音频降噪结果与所述音频掩蔽结果之间的第一损失值；所述第一输出层为所述m个输出层中的任一输出层；所述第一损失函数满足以下公式：
[0009][0010]
其中，loss1为所述第一损失值，n为所述音频特征的频点数，w1为所述第一损失函数对应的权重，y
pred1,f
为所述音频特征的第f个频点的所述第一输出层对应的音频降噪结果，y
true,f
为所述第f个频点的音频掩蔽结果。
[0011]
基于上述方案，运用该损失函数可以使得残留噪声的惩罚大于过度消除噪声的惩
罚，使得语音增强模型具备更强的降噪效果，提升信噪比。
[0012]
一种可能的实现方式中，所述第一损失函数对应的权重与所述音频掩蔽结果相关；所述权重满足以下公式：
[0013][0014]
其中，w1为所述第一损失函数对应的权重，α为预设常数，y
true,f
为所述第f个频点的音频掩蔽结果。
[0015]
基于上述方案，可以使得音频掩蔽结果越小，权重越高，从而使得在语音增强模型的训练过程中信噪比越低的频点具有越高的权重，从而增强语音增强模型的降噪效果。
[0016]
一种可能的实现方式中，所述m个输出层包括第一输出层和第二输出层；所述通过所述m个输出层分别对应的损失函数确定所述m个音频降噪结果分别与所述音频掩蔽结果之间的损失得到m个损失值，包括：通过第二损失函数确定第二输出层对应的音频降噪结果与所述音频掩蔽结果之间的第二损失值；所述第二输出层为所述m个输出层中与所述第一输出层不同的任一输出层；所述第二损失函数满足以下公式：
[0017][0018]
其中，loss2为所述第二损失值，n为所述音频特征的频点数，w2为所述第二损失函数对应的权重，y
pred2,f
为所述音频特征的第f个频点的所述第二输出层对应的音频降噪结果，y
true,f
为所述第f个频点的音频掩蔽结果。
[0019]
基于上述方案，运用该损失函数可以使得残留噪声的惩罚小于过度消除噪声的惩罚，使得语音增强模型可以更好地保留音频样本中的语音信号，减少音频样本的失真。
[0020]
一种可能的实现方式中，所述第二损失函数对应的权重与所述音频掩蔽结果相关；所述权重满足以下公式：
[0021][0022]
其中，w2为所述第二损失函数对应的权重，β为预设常数，y
true,f
为所述第f个频点的音频掩蔽结果。
[0023]
基于上述方案，可以使得音频掩蔽结果越小，权重越高，从而使得在语音增强模型的训练过程中信噪比越低的频点具有越高的权重，从而增强语音增强模型的降噪效果。
[0024]
第二方面，本技术实施例提供了一种基于语音增强模型的音频处理方法，包括：获取待处理音频信号；确定针对所述待处理音频信号进行降噪的降噪模式为第一模式；通过语音增强模型的输入层和至少一个隐藏层获取待处理音频信号的音频特征；所述语音增强模型还包括m个输出层，m为大于1的整数，所述降噪模式包括所述第一模式在内的m种模式，所述m种模式与m个输出层一一对应，所述m种模式的降噪程度不同，m个输出层分别对应的网络参数不同；将所述音频特征输入到所述第一模式对应到所述m个输出层的第一输出层，以得到所述待处理音频信号的音频降噪结果。
[0025]
基于上述方案，可以通过将音频特征输入不同的输出层，获得不同的音频降噪结果，从而可以通过一个模型实现多种降噪模式的切换。
[0026]
一种可能的实现方式中，所述语音增强模型是采用如第一方面的语音增强模型的
训练方法进行训练得到的。
[0027]
第三方面，本技术实施例提供了一种语音增强模型的训练装置，包括：获取单元，用于获取训练样本集，所述训练样本集中包括多个音频样本和所述多个音频样本分别对应的音频掩蔽结果；处理单元，用于通过语音增强模型的输入层对所述训练样本集中的第一音频样本进行预处理获取第一音频样本数据；通过所述语音增强模型的n个隐藏层提取所述第一音频样本数据的音频特征，n为正整数；将所述音频特征分别输入所述语音增强模型的m个输出层获得m个音频降噪结果，m为大于1的整数；通过所述m个输出层分别对应的损失函数确定所述m个音频降噪结果分别与所述音频掩蔽结果之间的损失得到m个损失值；根据所述m个损失值的加权结果调整所述输入层、所述n个隐藏层以及所述m个输出层的网络参数，以获得训练后的所述语音增强模型。
[0028]
一种可能的实现方式中，所述处理单元通过所述m个输出层分别对应的损失函数确定所述m个音频降噪结果分别与所述音频掩蔽结果之间的损失得到m个损失值时，用于：通过第一损失函数确定第一输出层对应的音频降噪结果与所述音频掩蔽结果之间的第一损失值；所述第一输出层为所述m个输出层中的任一输出层；所述第一损失函数满足以下公式：
[0029][0030]
其中，loss1为所述第一损失值，n为所述音频特征的频点数，w1为所述第一损失函数对应的权重，y
pred1,f
为所述音频特征的第f个频点的所述第一输出层对应的音频降噪结果，y
true,f
为所述第f个频点的音频掩蔽结果。
[0031]
一种可能的实现方式中，所述第一损失函数对应的权重与所述音频掩蔽结果相关；所述权重满足以下公式：
[0032][0033]
其中，w1为所述第一损失函数对应的权重，α为预设常数，y
true,f
为所述第f个频点的音频掩蔽结果。
[0034]
一种可能的方式中所述m个输出层包括第一输出层和第二输出层；所述处理单元1802通过所述m个输出层分别对应的损失函数确定所述m个音频降噪结果分别与所述音频掩蔽结果之间的损失得到m个损失值时，用于：通过第二损失函数确定第二输出层对应的音频降噪结果与所述音频掩蔽结果之间的第二损失值；所述第二输出层为所述m个输出层中与所述第一输出层不同的任一输出层；所述第二损失函数满足以下公式：
[0035][0036]
其中，loss2为所述第二损失值，n为所述音频特征的频点数，w2为所述第二损失函数对应的权重，y
pred2,f
为所述音频特征的第f个频点的所述第二输出层对应的音频降噪结果，y
true,f
为所述第f个频点的音频掩蔽结果。
[0037]
一种可能的实现方式中，所述第二损失函数对应的权重与所述音频掩蔽结果相关；所述权重满足以下公式：
[0038][0039]
其中，w2为所述第二损失函数对应的权重，β为预设常数，y
true,f
为所述第f个频点的音频掩蔽结果。
[0040]
第四方面，本技术实施例提供了一种基于语音增强模型的音频处理装置，包括：获取单元用于获取待处理音频信号；确定单元用于确定针对所述待处理音频信号进行降噪的降噪模式为第一模式；处理单元用于通过语音增强模型的输入层和至少一个隐藏层获取待处理音频信号的音频特征；所述语音增强模型还包括m个输出层，m为大于1的整数，所述降噪模式包括所述第一模式在内的m种模式，所述m种模式与m个输出层一一对应，所述m种模式的降噪程度不同，m个输出层分别对应的网络参数不同；将所述音频特征输入到所述第一模式对应到所述m个输出层的第一输出层，以得到所述待处理音频信号的音频降噪结果。
[0041]
一种可能的实现方式中，装置应用的语音增强模型是采用上述语音增强模型的训练方法进行训练得到的。
[0042]
第五方面，本技术实施例提供了一种芯片系统，包括存储器和处理器；所述处理器和所述存储器耦合；其中，所述存储器包括有程序指令，所述程序指令被所述处理器运行时，使得所述芯片系统执行第一方面、第二方面中任一项所述的方法。
[0043]
第六方面，本技术实施例提供了一种电子设备，包括：通信接口，用于接收训练样本集。处理器，用于从所述通信接口获取所述训练样本集，以执行第一方面以及第一方面中不同实现方式所述的方法。
[0044]
第七方面，本技术实施例提供了一种终端设备，包括：处理器，被配置为执行第二方面以及第二方面中不同实现方式所述的方法。扬声器，用于播放音频降噪后的音频信号。第六方面，本技术实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行第一方面、第二方面中任一项所述的方法。
[0045]
上述第二方面至第七方面中的各个方面以及各个方面可能达到的技术效果请参照上述针对第一方面或第一方面中的各种可能方案可以达到的技术效果说明，这里不再重复赘述。
附图说明
[0046]
为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例。
[0047]
图1为本技术实施例提供的一种显示设备的使用场景的示意图；
[0048]
图2为本技术实施例提供的一种控制装置100的配置框图；
[0049]
图3为本技术实施例提供的一种显示设备200的硬件配置框图；
[0050]
图4为本技术实施例提供的一种终端设备的软件架构示意图；
[0051]
图5a为本技术实施例提供的系统架构示意图；
[0052]
图5b为本技术实施例提供的另一种系统架构示意图；
[0053]
图6为本技术实施例提供的电子设备结构示意图；
[0054]
图7为本技术实施例提供的语音增强模型示意图之一；
[0055]
图8为本技术实施例提供的语音增强模型隐藏层结构示意图；
[0056]
图9为本技术实施例提供的语音增强模型输出层结构示意图；
[0057]
图10为本技术实施例提供的一种语音增强模型的训练方法的示例性流程图；
[0058]
图11为本技术实施例提供的基于卷积神经网络的语音增强模型结构示意图；
[0059]
图12为本技术实施例提供的语音增强模型结构示意图之一；
[0060]
图13为本技术实施例提供的损失计算示意图之一；
[0061]
图14为本技术实施例提供的损失计算示意图之一；
[0062]
图15为本技术实施例提供的第一损失函数曲线图；
[0063]
图16为本技术实施例提供的第二损失函数曲线图；
[0064]
图17为本技术实施例提供的损失计算示意图之一；
[0065]
图18为本技术实施例提供的一种基于语音增强模型的音频处理方法的示例性流程图；
[0066]
图19为本技术实施例提供的执行设备确定降噪模式的方式示意图之一；
[0067]
图20为本技术实施例提供的执行设备确定降噪模式的方式示意图之一；
[0068]
图21为本技术实施例提供的降噪模式切换示意图之一；
[0069]
图22为本技术实施例提供的降噪模式切换示意图之一。
具体实施方式
[0070]
为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术技术方案的一部分实施例，而不是全部的实施例。基于本技术文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术技术方案保护的范围。
[0071]
因此，以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围，而是仅仅表示本技术的选定实施例。基于本技术的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本技术保护的范围。
[0072]
需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0073]
本技术实施例涉及的理想比率掩蔽(ideal ratio mask，irm)中会计算语音信号和噪音之间的能量比，得到介于0到1之间的一个数，然后据此改变时频单元的能量大小。irm是对理想二值掩蔽(ideal binary mask，ibm)的演进，反映了各个时频单元上对噪声的抑制程度，可以进一步提高分离后语音的质量和可懂度。
[0074]
下面对本技术实施例的技术方案能够适用的应用场景做一些简单介绍，需要说明
的是，以下介绍的应用场景仅用于说明本技术实施例而非限定。在具体实施时，可以根据实际需要灵活地应用本技术实施例提供的技术方案。
[0075]
本技术实施例提供的语音增强模型的训练方法以及基于语音增强模型的音频处理方法可以由执行设备实现。一些实施例中，用于执行语音增强模型的训练方法的执行设备可以是电子设备，电子设备可以包括服务器、台式计算机、笔记本电脑等。用于执行基于语音增强模型的音频处理方法的执行设备可以是终端设备。终端设备可以是具有语音交互功能的显示设备。显示设备可以包括：手机、电视、平板电脑、笔记本电脑、掌上电脑、车载设备、可穿戴设备等，本技术对此不作限定。
[0076]
如下以执行设备为具有语音交互功能的显示设备为例来描述执行设备的结构以及应用场景。图1为实施例中显示设备的使用场景的示意图。如图1所示，显示设备200还可以与服务器400进行数据通信，用户可通过智能设备300或控制装置100操作显示设备200。一种可能的示例中，可由服务器400来执行语音增强模型的训练方法，并提供给显示设备200，显示设备200来执行基于语音增强模型的音频处理方法。另一种可能的示例中，可由服务器400以外的其它的服务器来执行语音增强模型的训练方法，并提供给显示设备200。基于语音增强模型的音频处理方法可以由服务器400执行，也可以由显示设备200执行。
[0077]
在一些实施例中，控制装置100可以是遥控器，遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式中的至少一种，通过无线或有线方式来控制显示设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等至少一种输入用户指令，来控制显示设备200。
[0078]
在一些实施例中，智能设备300可以包括移动终端、平板电脑、计算机、笔记本电脑，ar/vr设备等中的任意一种。
[0079]
在一些实施例中，也可以使用智能设备300以控制显示设备200。例如，使用在智能设备上运行的应用程序控制显示设备200。
[0080]
在一些实施例中，也可以使用智能设备300和显示设备200进行数据的通信。
[0081]
在一些实施例中，显示设备200还可以采用除了控制装置100和智能设备300之外的方式进行控制，例如，可以通过显示设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制，也可以通过显示设备200设备外部设置的语音控制装置来接收用户的语音指令控制。
[0082]
在一些实施例中，显示设备200还与服务器400进行数据通信。可允许显示设备200通过局域网(lan)、无线局域网(wlan)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。服务器400可以是一个集，也可以是多个集，可以包括一类或多类服务器。
[0083]
在一些实施例中，一个步骤执行主体执行的软件步骤可以随需求迁移到与之进行数据通信的另一步骤执行主体上进行执行。示例性地，服务器执行的软件步骤可以随需求迁移到与之数据通信的显示设备上执行，反之亦然。
[0084]
图2示例性示出了根据示例性实施例中控制装置100的配置框图。如图2所示，控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起到用户与显示设备200之间交互中介作用。
[0085]
在一些实施例中，通信接口130用于和外部通信，包含wifi芯片，蓝牙模块，nfc或可替代模块中的至少一种。
[0086]
在一些实施例中，用户输入/输出接口140包含麦克风，触摸板，传感器，按键或可替代模块中的至少一种。
[0087]
下面以显示设备200为例对实施例进行具体说明。应该理解的是，图3所示显示设备200仅是一个范例，并且显示设备200可以具有比图3中所示的更多的或者更少的部件，可以组合两个或多个的部件，或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。
[0088]
图3示出了根据示例性实施例中显示设备200的硬件配置框图。
[0089]
在一些实施例中，显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口中的至少一种。
[0090]
在一些实施例中控制器包括中央处理器，视频处理器，音频处理器，图形处理器，ram，rom，用于输入/输出的第一接口至第n接口。
[0091]
在一些实施例中，音频输出接口270用于将音频信号输出到其他设备中，可以包括扬声器和外接音响输出端子等用于播放或传输音频的组件，比如可以将音频信号输出到扬声器播放音频，或者将音频信号输出到其他音响设备进行播放或放大等。
[0092]
在一些实施例中，显示器260包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件，用于接收源自控制器输出的图像信号，进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控ui界面等。
[0093]
在一些实施例中，显示器260可为液晶显示器、oled显示器、以及投影显示器中的至少一种，还可以为一种投影装置和投影屏幕。
[0094]
在一些实施例中，调谐解调器210通过有线或无线接收方式接收广播电视信号，以及从多个无线或有线广播电视信号中解调出音视频信号，如以及epg数据信号。
[0095]
在一些实施例中，通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。显示设备200可以通过通信器220与控制装置100或服务器400建立控制信号和数据信号的发送和接收。
[0096]
在一些实施例中，检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器(图中未示出)，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器230包括声音采集器，如麦克风等，用于接收外部声音。
[0097]
在一些实施例中，外部装置接口240可以包括但不限于如下：高清多媒体接口(hdmi)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(cvbs)、usb输入接口(usb)、rgb端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。
[0098]
在一些实施例中，控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。
[0099]
在一些实施例中，控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。例如：响应于接收到用于选择在显示器260上显示ui对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。
[0100]
在一些实施例中，所述对象可以是可选对象中的任何一个，例如超链接、图标或其他可操作的控件。与所选择的对象有关操作有：显示连接到超链接页面、文档、图像等操作，或者执行与所述图标相对应程序的操作。
[0101]
在一些实施例中控制器包括中央处理器(central processing unit，cpu)，视频处理器，音频处理器，图形处理器(graphics processing unit，gpu)，ram random access memory，ram)，rom(read-only memory，rom)，用于输入/输出的第一接口至第n接口，通信总线(bus)等中的至少一种。
[0102]
cpu处理器是显示设备200的控制中心，包括系统级芯片soc，如图3所示，用于执行存储在存储器中操作系统和应用程序指令，以及根据接收外部输入的各种交互指令，来执行各种应用程序、数据和内容，以便最终显示和播放各种音视频内容。cpu处理器，可以包括多个处理器。如，包括一个主处理器以及一个或多个子处理器。
[0103]
在一些实施例中，图形处理器，用于产生各种图形对象，如：图标、操作菜单、以及用户输入指令显示图形等中的至少一种。图形处理器包括运算器，通过接收用户输入各种交互指令进行运算，根据显示属性显示各种对象；还包括渲染器，对基于运算器得到的各种对象，进行渲染，上述渲染后的对象用于显示在显示器上。
[0104]
在一些实施例中，视频处理器，用于将接收外部视频信号，根据输入信号的标准编解码协议，进行解压缩、解码、缩放、降噪、帧率转换、分辨率转换、图像合成等视频处理中的至少一种，可得到直接可在显示设备200上显示或播放的信号。
[0105]
在一些实施例中，视频处理器，包括解复用模块、视频解码模块、图像合成模块、帧率转换模块、显示格式化模块等中的至少一种。其中，解复用模块，用于对输入音视频数据流进行解复用处理。视频解码模块，用于对解复用后的视频信号进行处理，包括解码和缩放处理等。图像合成模块，如图像合成器，其用于将图形生成器根据用户输入或自身生成的gui信号，与缩放处理后视频图像进行叠加混合处理，以生成可供显示的图像信号。帧率转换模块，用于对转换输入视频帧率。显示格式化模块，用于将接收帧率转换后视频输出信号，改变信号以符合显示格式的信号，如输出rgb数据信号。
[0106]
在一些实施例中，音频处理器，用于接收外部的音频信号，根据输入信号的标准编解码协议，进行解压缩和解码，以及降噪、数模转换、和放大处理等处理中的至少一种，得到可以在扬声器中播放的声音信号。
[0107]
在一些实施例中，用户可在显示器260上显示的图形用户界面(gui)输入用户命令，则用户输入接口通过图形用户界面(gui)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。
[0108]
在一些实施例中，“用户界面”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(graphic user interface，gui)，是指采用图形方式显示的
与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、widget等可视的界面元素中的至少一种。
[0109]
在一些实施例中，用户接口280，为可用于接收控制输入的接口(如：显示设备本体上的实体按键，或其他等)。
[0110]
在一些实施例中，显示设备的系统可以包括内核(kernel)、命令解析器(shell)、文件系统和应用程序。内核、shell和文件系统一起组成了基本的操作系统结构，它们让用户可以管理文件、运行程序并使用系统。上电后，内核启动，激活内核空间，抽象硬件、初始化硬件参数等，运行并维护虚拟内存、调度器、信号及进程间通信(ipc)。内核启动后，再加载shell和用户应用程序。应用程序在启动后被编译成机器码，形成一个进程。
[0111]
参见图4，在一些实施例中，将系统分为四层，从上至下分别为应用程序(applications)层(简称“应用层”)，应用程序框架(application framework)层(简称“框架层”)，安卓运行时(android runtime)和系统库层(简称“系统运行库层”)，以及内核层。
[0112]
在一些实施例中，应用程序层中运行有至少一个应用程序，这些应用程序可以是操作系统自带的窗口(window)程序、系统设置程序或时钟程序等；也可以是第三方开发者所开发的应用程序。在具体实施时，应用程序层中的应用程序包不限于以上举例。
[0113]
框架层为应用程序层的应用程序提供应用编程接口(application programming interface，api)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心，这个中心决定让应用层中的应用程序做出动作。应用程序通过api接口，可在执行中访问系统中的资源和取得系统的服务。
[0114]
如图4所示，本技术实施例中应用程序框架层包括管理器(managers)，内容提供者(content provider)等，其中管理器包括以下模块中的至少一个：活动管理器(activity manager)用与和系统中正在运行的所有活动进行交互；位置管理器(location manager)用于给系统服务或应用提供了系统位置服务的访问；文件包管理器(package manager)用于检索当前安装在设备上的应用程序包相关的各种信息；通知管理器(notification manager)用于控制通知消息的显示和清除；窗口管理器(window manager)用于管理用户界面上的括图标、窗口、工具栏、壁纸和桌面部件。
[0115]
在一些实施例中，活动管理器用于管理各个应用程序的生命周期以及通常的导航回退功能，比如控制应用程序的退出、打开、后退等。窗口管理器用于管理所有的窗口程序，比如获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕，控制显示窗口变化(例如将显示窗口缩小显示、抖动显示、扭曲变形显示等)等。
[0116]
在一些实施例中，系统运行库层为上层即框架层提供支撑，当框架层被使用时，安卓操作系统会运行系统运行库层中包含的c/c++库以实现框架层要实现的功能。
[0117]
在一些实施例中，内核层是硬件和软件之间的层。如图4所示，内核层至少包含以下驱动中的至少一种：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、wifi驱动、usb驱动、hdmi驱动、传感器驱动(如指纹传感器，温度传感器，压力传感器等)、以及电源驱动等。
[0118]
本技术实施例中的显示设备200并不限定于智能电视，也可以为手机、平板电脑等电子设备。
[0119]
另一些实施例中，用于执行语音增强模型的训练方法的执行设备可以由一个或者
多个服务器来实现，服务器可以本地的服务器或者云服务器。
[0120]
参见图5a所示，服务器500可以通过实体服务器实现，也可以通过虚拟服务器实现。服务器可以通过单个服务器实现，可以通过多个服务器组成的服务器集实现，可以通过单个服务器或者服务器集来实现本技术提供的基于语音增强模型的音频处理方法或者语音增强模型的训练方法。图5a中以服务器500与终端设备600以及显示设备200相连为例。示例性地，服务器500可以执行语音增强模型的训练方法。服务器500可以针对语音增强模型进行训练，然后将训练完成的语音增强模型发送给显示设备200和/或终端设备600。显示设备200或者终端设备600可以通过语音增强模型实现音频数据的处理。
[0121]
一些场景中，服务器500中部署有语音增强模型。终端设备600或者显示设备200向服务器500发送音频处理任务，音频处理任务包括待处理音频信号，服务器500对待处理音频信号进行音频降噪处理，并将降噪后的音频信号发送给终端设备600或者显示设备200。从而终端设备600或者显示设备200通过扬声器播放降噪后的音频信号。
[0122]
如图5b所示，以服务器500与显示设备200相连为例。示例性地，服务器500可以执行语音增强模型的训练方法。一些场景中，服务器500可以针对语音增强模型进行训练，然后将训练完成的语音增强模型发送给显示设备200。显示设备200可以通过语音增强模型实现音频数据的处理。一些场景中，服务器500中部署有语音增强模型。显示设备200向服务器500发送音频处理任务，音频处理任务包括待处理音频信号，服务器500对待处理音频信号进行音频降噪处理，并将降噪后的音频信号发送给显示设备200。从而显示设备200通过扬声器播放降噪后的音频信号。
[0123]
下面对用于执行语音增强模型的训练方法的电子设备的结构进行示例性描述。作为一种举例，参见图6所示，电子设备可以包括处理器510、通信接口520。电子设备还可以包括存储器530。当然电子设备中还可以包括其它的组件，图6中未示出。
[0124]
通信接口520用于与显示设备进行通信，用于接收显示设备发送的音频处理任务，或者向电子设备发送降噪后的音频信号。
[0125]
在本技术实施例中，处理器510可以是通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。
[0126]
处理器510是电子设备的控制中心，利用各种接口和路线连接电子设备的各个部分，通过运行或执行存储在存储器530内的软件程序/或模块，以及调用存储在存储器530内的数据，执行电子设备的各种功能和处理数据。可选地，处理器510可以包括一个或多个处理单元。处理器510，例如可以是处理器、微处理器、控制器等控制组件，例如可以是通用中央处理器(central processing unit，cpu)，通用处理器，数字信号处理(digital signal processing，dsp)，专用集成电路(application specific integrated circuits，asic)，现场可编程门阵列(field programmable gate array，fpga)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。
[0127]
存储器530可用于存储软件程序以及模块，处理器510通过运行存储在存储器530的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器530可主要包括存储程
序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据业务处理所创建的数据等。存储器530作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器530可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(random access memory，ram)、静态随机访问存储器(static random access memory，sram)、可编程只读存储器(programmable read only memory，prom)、只读存储器(read only memory，rom)、带电可擦除可编程只读存储器(electrically erasable programmable read-only memory，eeprom)、磁性存储器、磁盘、光盘等等。存储器530是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本技术实施例中的存储器530还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。
[0128]
需要说明的是，上述图1-6所示的结构仅是一种示例，本发明实施例对此不做限定。
[0129]
目前，在语音增强技术中，在通话场景中通常需要对音频信号中的回声和噪声进行更好地抑制。在语音识别场景中，通常需要抑制音频信号中的噪声的同时还要降低音频信号的失真。若想实现切换不同场景下对音频信号的处理，通常需要通过切换不同的语音增强模型来实现。也就是说，若想要将处理后的音频信号应用到更多不同的场景就需要搭建更多的语音增强模型来实现，工作量将大大增加。因此如何通过一个语音增强模型既可以实现降低音频中的语音失真，又可以实现抑制音频中的噪声就亟待解决。
[0130]
有鉴于此，本技术提供了一种语音增强模型的训练方法，该方法中，将训练样本集中的音频样本数据以及每个音频样本数据的音频掩蔽结果输入语音增强模型。通过输入层和多个隐藏层对音频样本数据进行特征提取，将提取的音频特征分别输入多个输出层，计算每个输出层的音频降噪结果和音频掩蔽结果之间的损失值。根据多个输出层损失值的加权结果对语音增强模型的网络参数进行调整，从而得到训练后的语音增强模型。应用训练后的语音增强模型进行音频处理，可以通过切换输出层的网络参数实现对音频信号的多种不同模式的处理，使得通过不同输出层处理的音频信号可以应用于不同场景，无需构建多个语音增强模型。
[0131]
参阅图7为本技术实施例提供的语音增强模型示意图之一。本技术实施例中以该语音增强模型采用神经网络为例进行说明。图7所示的语音增强模型700包括输入层701，隐藏层702，输出层703。输入层701用于对输入语音增强模型700的音频样本进行预处理，例如，输入层701可以对输入语音增强模型700的音频样本进行数据标准化、归一化等预处理操作。隐藏层702用于对预处理后的音频样本数据进行特征提取。输出层703用于输出对提取的音频特征进行降噪后的音频降噪结果。
[0132]
其中，图7中的隐藏层702可以包括n个隐藏层，n为大于0的整数。参见图8为本技术实施例提供的语音增强模型隐藏层结构示意图。如图8所示，隐藏层800中可以包括隐藏层1、隐藏层2、隐藏层3
……
隐藏层n。
[0133]
图7中的输出层703可以包括m个输出层，m为大于1的整数。参见图9为本技术实施例提供的语音增强模型输出层结构示意图。如图9所示，输出层900中可以包括输出层1、输出层2、输出层3
……
输出层m。隐藏层将输出的音频特征分别输入输出层900中的输出层1、
输出层2、输出层3
……
输出层m可以得到音频降噪结果1、音频降噪结果2、音频降噪结果3
……
音频降噪结果m。不同的输出层输出的音频降噪结果的降噪程度不同。
[0134]
应了解，图7-图9所示的语音增强模型可以采用全连接神经网络、深度神经网络(deep neural networks，dnn)、卷积神经网络(convolutional neural networks，cnn)、注意力机制(attention)等神经网络中的一种或多种来实现，本技术对此不作限定。
[0135]
基于图7所示的语音增强模型结构，参阅图10为本技术实施例提供的一种语音增强模型的训练方法的示例性流程图，该方法可以由执行设备来实现，比如由图1所示的服务器400实现。语音增强模型的训练方法包括以下流程：
[0136]
s1001，获取训练样本集。
[0137]
其中，训练样本集中包括多个音频样本和多个音频样本分别对应的音频掩蔽结果。每个音频样本对应的音频掩蔽结果可以为预先标定的，音频掩蔽结果的取值可以为大于等于0并且小于等于1的数。音频掩蔽结果的取值越小，训练后的语音增强模型处理音频时，对音频的降噪效果越好。音频掩蔽结果取值越大训练后的语音增强模型处理音频时，音频中的语音信号保留地越完整。
[0138]
一种可能的实现方式中，训练样本集可以为一段连续的包括t帧的音频。其中，该音频的每一帧可以为一个音频样本，t为大于0的整数，t为大于0小于t的整数。举例来说，假设训练样本集为一段包含20帧的连续的音频，该音频的第一帧为一个音频样本，第二帧为一个音频样本，以此类推，则该训练样本集可以包含20个音频样本以及每个音频样本对应的音频掩蔽结果。
[0139]
另一种可能的实现方式中，训练样本集也可以包括一段或多段不连续的音频。其中，每段音频可以为一个音频样本。举例来说，假设训练样本集包含30段不连续的音频，则第一段音频为一个音频样本，第二段音频为一段音频样本，以此类推，则该训练样本集可以包括30个音频样本以及每个音频样本对应的音频掩蔽结果。
[0140]
应了解，音频样本集中的音频样本可以为时域波形、滤波器组(filter bank，fbank)、梅尔频率倒谱系数(melfrequency cepstrum coefficient，mfcc)、幅度谱、功率谱、复数谱、相位谱等音频样本中的一种或多种，本技术对此不作限定。
[0141]
s1002，通过语音增强模型的输入层对训练样本集中的第一音频样本进行预处理获取第一音频样本数据。
[0142]
将s1001获取的训练样本集中的第一音频样本和第一音频样本对应的音频掩蔽结果输入如图7所示的语音增强模型的输入层进行预处理，获取第一音频样本数据。
[0143]
s1003，通过语音增强模型的n个隐藏层提取第一音频样本数据的音频特征。
[0144]
将s1002获取的第一音频样本数据输入n个隐藏层对第一音频样本数据进行特征提取，得到该第一音频样本数据的音频特征。
[0145]
可选地，当图7所示的语音增强模型应用不同的神经网络时，图8所示隐藏层的结构可能有所不同。例如，当语音增强模型为基于卷积神经网络的语音增强模型时，隐藏层可以包括卷积层、池化层和全连接层。在一个示例中，参见图11为本技术实施例提供的基于卷积神经网络的语音增强模型结构示意图。如图11所示，语音增强模型1100包括输入层1101、隐藏层1102和输出层1103。其中隐藏层1102包括池化层1、卷积层、池化层2、全连接层1和全连接层2。应了解，图11所示的卷积神经网络的结构仅为示例性地，卷积神经网络中卷积层、
池化层和全连接层的数量均可以为一个或多个，本技术对此不作限定。
[0146]
s1004，将音频特征分别输入语音增强模型的m个输出层获得m个音频降噪结果。
[0147]
将s1003提取的音频特征分别输入语音增强模型的m个输出层，每个输出层可以通过基于掩蔽(mask)的语音增强算法分别输出一个音频降噪结果，因此可以获得m个音频降噪结果。其中，m为大于1的整数，不同的输出层网络参数不同。应了解，基于mask的语音增强算法可以为irm、理想幅度掩蔽(ideal amplitude mask，iam)和相位敏感掩蔽(phase sensitive mask，psm)等基于mask的语音增强算法中的任意一种，本技术对此不作限定。
[0148]
具体的，语音增强模型的m个输出层可以包括第一输出层和第二输出层。s1003提取到的音频特征分别输入语音增强模型的第一输出层和第二输出层后，可以在第一输出层中根据基于mask的语音增强算法得到第一音频降噪结果。可以在第二输出层中根据基于mask的语音增强算法得到第二音频降噪结果。其中，第一输出层和第二输出层的网络参数不同。
[0149]
举例来说，假设语音增强模型包括1个输入层、1个隐藏层和2个输出层。参见图12为本技术实施例提供的语音增强模型结构示意图之一，图12中所示的语音增强模型1200包括输入层1201、隐藏层1202、第一输出层1203和第二输出层1204。其中，以语音增强模型1200的第一输出层1203和第二输出层1204为全连接层为例。第一输出层1203和第二输出层1204的网络参数可以包括权重w和偏置b。则第一输出层1203的网络参数为w1和b1。第二输出层1204的网络参数为w2和b2。将音频样本输入语音增强模型1200通过输入层1201、隐藏层1202和第一输出层1203可以得到第一音频降噪结果。将音频样本输入语音增强模型1200通过输入层1201、隐藏层1202和第二输出层1204可以得到第二音频降噪结果。
[0150]
s1005，通过m个输出层分别对应的损失函数确定m个音频降噪结果分别与音频掩蔽结果之间的损失得到m个损失值。
[0151]
参见图13为本技术实施例提供的损失计算示意图之一。图13所示的语音增强模型中包括输出层a和输出层b。输出层a对应的损失函数为损失函数a，输出层b对应的损失函数为损失函数b，音频样本通过输入层、隐藏层和输出层a输出音频降噪结果a，音频样本通过输入层、隐藏层和输出层b输出音频降噪结果b。则通过损失函数a计算音频降噪结果a与音频掩蔽结果之间的损失，可以得到损失值lossa。通过损失函数b计算音频降噪结果b与音频掩蔽结果之间的损失，可以得到损失值lossb。
[0152]
参见图14为本技术实施例提供的损失计算示意图之一。图14所示的语音增强模型包括输出层1、输出层2
……
输出层m，共m个输出层。输出层1对应的损失函数为损失函数1，输出层2对应的损失函数为损失函数2，音频样本通过输入层、隐藏层和输出层1输出音频降噪结果1，音频样本通过输入层、隐藏层和输出层2输出音频降噪结果2。则通过损失函数1计算音频降噪结果1与音频掩蔽结果之间的损失，可以得到损失值loss1。通过损失函数2计算音频降噪结果2与音频掩蔽结果之间的损失，可以得到损失值loss2，以此类推，可以得到loss1-lossm，共m个损失值。
[0153]
一种可能的实现方式中，通过第一损失函数可以确定第一输出层输出的第一音频降噪结果与第一音频样本对应的音频掩蔽结果之间的第一损失值。其中，第一输出层为m个输出层的任一输出层，第一损失函数为第一输出层对应的损失函数。
[0154]
可选地，第一损失函数可以是根据第一目标降噪结果和第一音频降噪结果确定
的。第一损失函数可以如公式(1)所示。
[0155][0156]
如上式所示，loss1表示第一损失值，n表示音频特征的频点数，w1表示第一损失函数对应的权重，y
pred1,f
表示音频特征的第f个频点的第一音频降噪结果，y
target1,f
表示音频特征的第f个频点的目标降噪结果可以如公式(2)所示，y
true,f
表示音频特征的第f个频点的音频掩蔽结果。
[0157]ytarget1,f
＝1-y
true,f
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式(2)
[0158]
如上式所示，y
true,f
为音频特征的第f个频点的音频掩蔽结果。
[0159]
可以将公式(1)中音频特征的第f个频点的目标降噪结果用公式(2)来表示，则第一损失函数可以表示为如公式(3)所示的形式。
[0160][0161]
可选地，第一损失函数对应的权重可以与音频样本的音频掩蔽结果无关。例如，第一损失函数对应的权重可以设为常数，如w1可以取值为4、5或6等，本技术对此不作限定。
[0162]
或者，第一损失函数对应的权重还可以与音频样本的音频掩蔽结果相关。
[0163]
在一个示例中，音频掩蔽结果越小第一损失函数对应的权重越大，第一损失函数对应的权重可以满足公式(4)。
[0164][0165]
如上式所示，w1表示第一损失函数对应的权重。α可以为预设常数，如α可以取值为3、4或5等，α取值越大，第一损失函数对应的权重越大。本技术对此不作限定。
[0166]
在另一个示例中，第一损失函数对应的权重还可以如公式(5)所示。
[0167]
w1＝γ-y
true,f
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式(5)
[0168]
如上式所示，γ可以为预设常数，如γ可以取值为2、3或4等，本技术对此不作限定。
[0169]
基于上述方案，由于如公式(3)所示的第一损失函数，对音频信号残留噪声的惩罚大于过度消除噪声的惩罚，因此可以增强语音增强模型的降噪效果。
[0170]
参见图15为本技术实施例提供的第一损失函数曲线图。图15中假设音频掩蔽结果为0.2，可以看出当音频降噪结果为0.2时第一损失值最小，当音频降噪结果为0.3时的第一损失值设为loss1，音频降噪结果为0.1时的第一损失值设为loss2，loss1大于loss2。也就是说，音频掩蔽结果相同且音频降噪结果与音频掩蔽结果的差值相同时，音频降噪结果大于音频掩蔽结果时的第一损失值大于音频降噪结果小于音频掩蔽结果时的第一损失值。
[0171]
可选地，s1001获取的训练样本集不同时，第一损失函数的公式可以不同。例如，s1001获取的训练样本集包括多段不连续的音频时，第一损失函数可以如公式(1)或公式(3)所示，在此不再赘述。
[0172]
在一种可能的情况中，s1001获取的训练样本集可以为一段连续的包括t帧的音频时，第一音频样本可以为该音频的第t帧。其中，t为大于0的整数，t为大于0小于t的整数。则第一损失函数为第t帧音频的损失函数，可以如公式(6)所示。
[0173][0174]
如上式所示，loss1表示第一损失值，n表示音频特征的频点数，w1表示第一损失函数对应的权重，y
pred1，(t,f)
表示该帧音频特征的第f个频点的第一输出层对应的音频降噪结果，y
true,(t,f)
表示第f个频点的音频掩蔽结果。
[0175]
一种可能的实现方式中，m个输出层中还可以包括第二输出层。通过第二损失函数确定第二输出层的音频降噪结果与第二音频样本对应的音频掩蔽结果之间的第二损失值。其中，第二输出层为m个输出层中除第一输出层以外的任意一个，第二损失函数为第二输出层对应的损失函数。
[0176]
第二损失函数如公式(7)所示。
[0177][0178]
如上式所示，loss2表示第二损失值，n表示音频特征的频点数，w2表示第二损失函数对应的权重，y
pred2,f
表示音频特征的第f个频点的第二输出层对应的音频降噪结果，y
target2,f
表示第f个频点的第二目标降噪结果，满足公式(8)。
[0179]ytarget2,f
＝y
true,f
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式(8)
[0180]
将公式(7)中的第二目标降噪结果用公式(8)表示，第二损失函数可以如公式(9)所示。
[0181][0182]
一种可能的实现方式中，第二损失函数对应的权重可以参见上述第一损失函数对应的权重进行设置，在此不再赘述。
[0183]
可选地，第二损失函数对应的权重可以与第一损失函数对应的权重相同。例如，第一损失函数对应的权重与第二损失函数对应的权重可以均为4。
[0184]
或者，第二损失函数对应的权重也可以与第一损失函数对应的权重不同。在一个示例中，第一损失函数对应的权重满足的公式和第二损失函数对应的权重满足的公式相同，而第一损失函数对应的权重满足的公式中的预设常数与第二损失函数对应的权重满足的公式中的预设常数不同。例如，第一损失函数对应的权重与第二损失函数对应的权重均满足公式(4)时，第一损失函数对应的权重中α可以取值为4，第二损失函数对应的权重中α可以取值为5。在另一个示例中，第一损失函数对应的权重满足的公式和第二损失函数对应的权重满足的公式可以不同。例如，第一损失函数对应的权重满足公式(4)，第二损失函数对应的权重满足公式(5)。
[0185]
基于上述方案，由于如公式(9)所示的第二损失函数对音频残留噪声的惩罚小于过度消除音频信号中的噪声的惩罚，因此可以更完整地保留音频，使得通过该语音增强模型处理后的音频不失真。
[0186]
参见图16为本技术实施例提供的第二损失函数曲线图。图16中假设音频掩蔽结果为0.2，可以看出，当音频降噪结果为0.2时第二损失值最小，当音频降噪结果为0.1时的第二损失值设为loss1，音频降噪结果为0.3时的第二损失值设为loss2，loss1小于loss2。也就是说，音频掩蔽结果相同且音频降噪结果与音频掩蔽结果的差值相同时，音频降噪结果
大于音频掩蔽结果时的第一损失值小于音频降噪结果小于音频掩蔽结果时的第一损失值。
[0187]
可选地，s1001获取的训练样本集不同时，第二损失函数的公式可以不同。例如，s1001获取的训练样本集包括多段不连续的音频时，第二损失函数可以如公式(7)或公式(9)所示，在此不再赘述。
[0188]
在一种可能的情况中，s1001获取的训练样本集可以为一段连续的包括t帧的音频时，第二音频样本可以为该音频的第t帧。则第二损失函数为第t帧音频的损失函数，可以如公式(10)所示。
[0189][0190]
如上式所示，loss2表示第二损失值，n表示音频特征的频点数，w2表示第二损失函数对应的权重，y
pred2，(t,f)
表示该帧音频特征的第f个频点的第二音频降噪结果，y
true,(t,f)
表示第f个频点的音频掩蔽结果。
[0191]
一种可能的实现方式中，m个输出层分别对应的损失函数可以是不相同的。具体的，不同的输出层可以通过调整如公式(3)或公式(9)所示的损失函数中的对数函数和/或加权函数来设定不同的损失函数。举例来说，参见图17为本技术实施例提供的损失计算示意图之一。图17中的语音增强模型的输出层包括输出层1、输出层2和输出层3。输出层1对应的损失函数满足公式(3)，其中，w1满足公式(4)且α取值为4，则通过输出层1对应的损失函数得到的损失值loss1可以满足公式(11)。
[0192][0193]
输出层2对应的损失函数满足公式(9)其中，w2满足公式(4)且α取值为4，则通过输出层2对应的损失函数得到的损失值loss2可以满足公式(12)。
[0194][0195]
输出层3对应的损失函数可以满足公式(9)其中，w2满足公式(5)且γ取值为2。则通过输出层3对应的损失函数得到的损失值loss3可以满足公式(13)。
[0196][0197]
s1006，根据m个损失值的加权结果调整输入层、n个隐藏层以及m个输出层的网络参数，以获得训练后的语音增强模型。
[0198]
可以根据m个损失值的加权结果确定语音增强模型的总损失值，根据语音增强模型的总损失值对语音增强模型进行训练，调整输入层、n个隐藏层以及m个输出层的网络参数，从而获得训练后的语音增强模型。
[0199]
语音增强模型的总损失值可以满足公式(14)。
[0200]
loss＝a1loss1+a2loss2+
……
+amlossm
ꢀꢀꢀꢀꢀꢀꢀ
公式(14)
[0201]
如上式所示，loss表示语音增强模型的总损失值。a1～am表示m个损失值分别对应的加权值，且a1～am的和为1。loss1～lossm表示s1005得到的m个损失值。
[0202]
可选地，语音增强模型可以在模型的总损失值不再收敛时结束训练，获得训练后
的语音增强模型。或者，语音增强模型可以在迭代次数达到一定次数时结束训练获得训练后的语音增强模型。例如，语音增强模型可以在迭代次数达到50时结束训练。本技术对此不作限定。
[0203]
参阅图18，为本技术实施例提供的一种基于语音增强模型的音频处理方法的示例性流程图。该流程可由执行设备执行，该执行设备可以是图3所示的显示设备200，具体可以通过显示设备200中的控制器250执行音频处理。或者，该执行设备可以是图6所示的电子设备，具体可以通过电子设备中的处理器510执行音频处理。其中，音频处理时应用的语音增强模型可以是图1所示的服务器400通过如图10所示的语音增强模型训练方法训练后的，并将该训练后的语音增强模型提供给执行设备。具体包括：
[0204]
s1801，执行设备获取待处理音频信号。
[0205]
其中，待处理音频信号可以是通过网络获取的，待处理音频信号还可以是执行设备收录的，本技术对此不作限定。
[0206]
s1802，执行设备确定针对待处理音频信号进行降噪的降噪模式为第一模式。
[0207]
其中，对待处理音频信号进行降噪的降噪模式可以包括m种降噪模式。不同的降噪模式对待处理音频信号的降噪程度不同。
[0208]
可选地，执行设备可以根据使用场景确定对待处理音频信号进行降噪的降噪模式。例如，参见图19为本技术实施例提供的执行设备确定降噪模式的方式示意图之一。如图19所示，以执行设备为手机为例。可以当执行设备检测到使用场景为通话中时，确定对待处理音频信号进行降噪的降噪模式为第一模式。当执行设备检测到使用场景为录音场景时，确定对待处理音频信号进行降噪的降噪模式为第二模式等。
[0209]
或者，执行设备可以根据接收到的指令确定对待处理音频信号进行降噪的降噪模式。示例性地，执行设备可以响应于用户选择降噪模式为第一模式的指令，确定针对待处理音频信号进行降噪的降噪模式为第一模式。参见图20为本技术实施例提供的执行设备确定降噪模式的方式示意图之一。如图20所示，以执行设备为带有触摸屏的手机为例。触摸屏上可以显示用于选择降噪模式的显示界面，显示界面上包括第一降噪模式和第二降噪模式。当用户点击第一降噪模式时，执行设备响应于用户的点击的操作确定对待处理音频信号进行降噪的降噪模式为第一模式。当用户点击第二降噪模式时，执行设备响应于用户的点击的操作确定对待处理音频信号进行降噪的降噪模式为第二模式。
[0210]
应了解，图19和图20所示的执行设备确定降噪模式的方法仅为示例性地，本技术对此不作限定。
[0211]
s1803，执行设备通过语音增强模型的输入层和至少一个隐藏层获取待处理音频信号的音频特征。
[0212]
其中，语音增强模型可以为通过上述如图10所示语音增强模型训练方法训练后的语音增强模型。语音增强模型的结构可以如图7-图9所示，在此不再赘述。
[0213]
s1804，执行设备将音频特征输入到第一模式对应的m个输出层的第一输出层，以得到待处理音频信号的音频降噪结果。
[0214]
其中，m种降噪模式可以与语音增强模型m个输出层一一对应，每个输出层的网络参数不同。
[0215]
一种可能的实现方式中，执行设备可以通过切换输出层的网络参数来切换降噪模
式，从而获得不同的音频降噪结果。举例来说，参见图21为本技术实施例提供的降噪模式切换示意图之一。图21中，示例性地以执行设备的降噪模式包括第一模式和第二模式为例，第一输出层对应第一模式，第二输出层对应第二模式。其中，第一输出层的网络参数为w1和b1，第二输出层的网络参数为w2和b2。假设执行设备当前的降噪模式为第一模式，当执行设备检测到当前的使用场景为第二模式对应的使用场景时，执行设备可以通过将语音增强模型输出层的网络参数从w1和b1切换至w2和b2，使得执行设备的降噪模式从第一模式切换至第二模式。
[0216]
另一种可能的实现方式中，执行设备还可以通过切换语音增强模型的最后k层的网络参数来切换降噪模式，从而获得不同的音频降噪结果。其中，语音增强模型的最后k层可以包括输出层和隐藏层，k为大于1的整数。参见图22为本技术实施例提供的降噪模式切换示意图之一。如图22所示，假设语音增强模型包括5个隐藏层，执行设备通过切换语音增强模型的最后3层的网络参数来切换降噪模式。当降噪模式为第一模式时输入语音增强模型的待处理音频信号可以通过输入层、隐藏层1、隐藏层2、隐藏层3、隐藏层4、隐藏层5和输出层1得到待处理音频信号的音频降噪结果。降噪模式为第二模式时，输入语音增强模型的待处理音频信号可以通过输入层、隐藏层1、隐藏层2、隐藏层3、隐藏层6、隐藏层7和输出层2得到待处理音频信号的音频降噪结果。则执行设备当前的降噪模式为第一模式，当执行设备检测到当前的使用场景为第二模式对应的使用场景时，可以通过切换网络参数将隐藏层4、隐藏层5和输出层1分别切换至隐藏层6、隐藏层7和输出层2从而将执行设备的降噪模式切换至第二模式。
[0217]
基于上述方案，通过切换输出层的网络参数或者语音增强模型的最后k层的网络参数就可以通过一个语音增强模型实现多种不同降噪模式的切换。
[0218]
基于相同的技术构思，本技术实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行上述任一方法的步骤。
[0219]
本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
[0220]
虽然以上描述了本技术的具体实施方式，但是本领域的技术人员应当理解，这些仅是举例说明，本技术的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本技术的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本技术的保护范围。尽管已描述了本技术的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。
[0221]
显然，本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的范围。这样，倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内，则本技术也意图包含这些改动和变型在内。

技术特征：

1.一种语音增强模型的训练方法，其特征在于，包括：获取训练样本集，所述训练样本集中包括多个音频样本和所述多个音频样本分别对应的音频掩蔽结果；通过语音增强模型的输入层对所述训练样本集中的第一音频样本进行预处理获取第一音频样本数据；通过所述语音增强模型的n个隐藏层提取所述第一音频样本数据的音频特征，n为正整数；将所述音频特征分别输入所述语音增强模型的m个输出层获得m个音频降噪结果，m为大于1的整数；通过所述m个输出层分别对应的损失函数确定所述m个音频降噪结果分别与所述音频掩蔽结果之间的损失得到m个损失值；根据所述m个损失值的加权结果调整所述输入层、所述n个隐藏层以及所述m个输出层的网络参数，以获得训练后的所述语音增强模型。2.根据权利要求1所述的方法，其特征在于，所述通过所述m个输出层分别对应的损失函数确定所述m个音频降噪结果分别与所述音频掩蔽结果之间的损失得到m个损失值，包括：通过第一损失函数确定第一输出层对应的音频降噪结果与所述音频掩蔽结果之间的第一损失值；所述第一输出层为所述m个输出层中的任一输出层；所述第一损失函数满足以下公式：其中，loss1为所述第一损失值，n为所述音频特征的频点数，w1为所述第一损失函数对应的权重，y
pred1,f
为所述音频特征的第f个频点的所述第一输出层对应的音频降噪结果，y
true,f
为所述第f个频点的音频掩蔽结果。3.根据权利要求2所述的方法，其特征在于，所述第一损失函数对应的权重与所述音频掩蔽结果相关；所述权重满足以下公式：其中，w1为所述第一损失函数对应的权重，α为预设常数，y
true,f
为所述第f个频点的音频掩蔽结果。4.根据权利要求2或3所述的方法，其特征在于，所述m个输出层包括第一输出层和第二输出层；所述通过所述m个输出层分别对应的损失函数确定所述m个音频降噪结果分别与所述音频掩蔽结果之间的损失得到m个损失值，包括：通过第二损失函数确定第二输出层对应的音频降噪结果与所述音频掩蔽结果之间的第二损失值；所述第二输出层为所述m个输出层中与所述第一输出层不同的任一输出层；所述第二损失函数满足以下公式：
其中，loss2为所述第二损失值，n为所述音频特征的频点数，w2为所述第二损失函数对应的权重，y
pred2,f
为所述音频特征的第f个频点的所述第二输出层对应的音频降噪结果，y
true,f
为所述第f个频点的音频掩蔽结果。5.根据权利要求4所述的方法，其特征在于，所述第二损失函数对应的权重与所述音频掩蔽结果相关；所述权重满足以下公式：其中，w2为所述第二损失函数对应的权重，β为预设常数，y
true,f
为所述第f个频点的音频掩蔽结果。6.一种基于语音增强模型的音频处理方法，其特征在于，所述方法包括：获取待处理音频信号；确定针对所述待处理音频信号进行降噪的降噪模式为第一模式；通过语音增强模型的输入层和至少一个隐藏层获取待处理音频信号的音频特征；所述语音增强模型还包括m个输出层，m为大于1的整数，所述降噪模式包括所述第一模式在内的m种模式，所述m种模式与m个输出层一一对应，所述m种模式的降噪程度不同，m个输出层分别对应的网络参数不同，所述语音增强模型采用如权利要求1-5任一项所述的训练方法训练得到；将所述音频特征输入到所述第一模式对应的所述m个输出层的第一输出层，以得到所述待处理音频信号的音频降噪结果。7.一种芯片系统，其特征在于，包括存储器和处理器；所述处理器和所述存储器耦合；其中，所述存储器包括有程序指令，所述程序指令被所述处理器运行时，使得所述芯片系统执行如权利要求1-6任一项所述的方法。8.一种电子设备，其特征在于，包括：通信接口，用于接收训练样本集；处理器，用于从所述通信接口获取所述训练样本集，以执行权利要求1-5任一项所述的方法。9.一种终端设备，其特征在于，包括：处理器，用于执行如权利要求6所述的方法；扬声器，用于播放音频降噪后的音频信号。10.一种计算机可读存储介质，其特征在于，包括：所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如权利要求1至6中任一项所述的方法。

技术总结

本申请实施例提供了一种语音增强模型的训练方法、装置及设备，涉及语音处理及识别技术领域，用以通过一个语音增强模型实现降低音频中的语音失真和抑制音频中的噪声。该方法中，首先获取训练样本集；通过语音增强模型的输入层对训练样本集中的第一音频样本进行预处理获取第一音频样本数据；通过语音增强模型的N个隐藏层提取第一音频样本数据的音频特征；将音频特征分别输入语音增强模型的M个输出层获得M个音频降噪结果；通过M个输出层分别对应的损失函数确定M个音频降噪结果分别与音频掩蔽结果之间的损失得到M个损失值；根据M个损失值的加权结果调整输入层、N个隐藏层以及M个输出层的网络参数，以获得训练后的语音增强模型。模型。模型。