语音合成模型生成方法及其装置、设备、介质、产品与流程



1.本技术涉及语音通信技术领域,尤其涉及一种语音合成模型生成方法及其装置、设备、介质、产品。


背景技术:



2.随着在线音频用户数量持续成长,用户对于网络音频内容、娱乐属性、传输质量等提出越来越高的要求。在不同应用场景、网络环境下部署深度语音合成模型,不仅需要模型具有更好的推断效果,也对模型运算的实时性提出更高要求。
3.深度语音合成模型为具有足够的表征能力,但如果要将其部署到移动端,却存在不少问题,例如:一方面,深度语音合成模型一般参数较多,如wavenet模型参数量达到4.6m,waveglow模型参数量达到87.9m,flowavenet模型参数量达到182.6m,远超过移动端的计算能力;另一方面,在一些基于语音合成的应用场景,如丢包补偿,要求模型达到或超过实时合成的速度。
4.传统移动端语音合成方法为达到移动端实时效果,一般使用拼接合成、参数合成或浅度学习等方法。这些方法通常也受限于模型参数量、每秒浮点计算次数(floating point operations per second,flops),在实践中往往无法达到小型化和实时性的要求,往往需要进行人工压缩剪枝,或在后台进行大规模算力部署。


技术实现要素:



5.本技术的目的在于解决上述问题而提供一种语音合成模型生成方法及其相应的装置、设备、非易失性可读存储介质,以及计算机程序产品。
6.根据本技术的一个方面,提供一种语音合成模型生成方法,包括如下步骤:
7.调用控制器,由控制器生成声码器的结构编码;
8.根据结构编码构造声码器,该声码器包括根据结构编码生成的条件网络和自回归网络;
9.采用训练集将所述声码器迭代训练至收敛状态,根据该声码器在测试集上获得的性能评分,在控制器未达至收敛之前对控制器实施梯度更新并迭代生成新的声码器;
10.在控制器达至收敛后,根据性能评分选出声码器作为语音合成模型。
11.根据本技术的另一方面,提供一种语音合成模型生成装置,包括:
12.编码生成模块,设置为调用控制器,由控制器生成声码器的结构编码;
13.声码器构造模块,设置为根据结构编码构造声码器,该声码器包括根据结构编码生成的条件网络和自回归网络;
14.迭代决策模块,设置为采用训练集将所述声码器迭代训练至收敛状态,根据该声码器在测试集上获得的性能评分,在控制器未达至收敛前对控制器实施梯度更新并迭代生成新的声码器;
15.模型产出模块,设置为在控制器达至收敛后,根据性能评分选出声码器作为语音
合成模型。
16.根据本技术的另一方面,提供一种语音合成模型生成设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本技术所述的语音合成模型生成方法的步骤。
17.根据本技术的另一方面,提供一种非易失性可读存储介质,其以计算机可读指令的形式存储有依据所述的语音合成模型生成方法所实现的计算机程序,所述计算机程序被计算机调用运行时,执行该方法所包括的步骤。
18.根据本技术的另一方面,提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现本技术任意一种实施例中所述方法的步骤。
19.相对于现有技术,本技术采用控制器生成结构编码,根据结构编码构造声码器,训练并测试声码器获得相应的性能评分,根据性能评分对控制器的迭代过程实施控制,在控制器训练过程中产出多个声码器,最终优选实测表现最佳的声码器作为语音合成模型,借助控制器实现声码器的自动产出和择优,使所获得的语音合成模型符合移动端设备部署所需,在移动端设备部署后能获得良好的性能表现,能符合语音合成场景中关于模型小型化和高实时性的要求。
附图说明
20.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
21.图1为本技术所应用的语音通话服务相对应的网络架构示意图;
22.图2为本技术的声码器的拓扑结构的原理框图;
23.图3为本技术的语音合成模型生成方法的实施例的流程示意图;
24.图4为本技术的控制器产生的编码器的示例性训练过程的的流程示意图;
25.图5为本技术的实施例中部署语音合成模型之前处理过程的示意图;
26.图6为本技术的实施例中对语音合成模型实施多阶段训练的流程示意图;
27.图7为本技术的实施例中对语音合成模型实施第三阶段训练的流程示意图;
28.图8为本技术的语音合成模型生成装置的原理框图;
29.图9为本技术所采用的一种语音合成模型生成设备的结构示意图。
具体实施方式
30.本技术中所引用或可能引用到的模型,包括传统机器学习模型或深度学习模型,除非明文指定,既可部署于远程服务器且在客户端实施远程调用,也可部署于设备能力胜任的客户端直接调用,某些实施例中,当其运行于客户端时,其相应的智能可通过迁移学习来获得,以便降低对客户端硬件运行资源的要求,避免过度占用客户端硬件运行资源。
31.本领域技术人员对此应当知晓:本技术的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本技术所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同
表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
32.本技术即将揭示的各个实施例,除非明文指出彼此之间的相互排斥关系,否则,各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例,只要这种结合不背离本技术的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通,本领域技术人员应当知晓。
33.请参阅图1,本技术示例性的应用场景所采用的网络架构,其可用于部署语音通话服务,语音通话服务支持实时语音通信,语音通话服务的语音流的编解码处理过程中,可通过运行由本技术的任意一个实施例所生成的语音合成模型来实现丢包补偿。图1所示的应用服务器81可用于支持所述语音通话服务的运行,而媒体服务器82可用于处理各个用户推送的语音流的解编码过程而实现中继,其中的计算机83、移动电话84之类的终端设备,作为客户端,一般提供给终端用户使用,可用于发送或接收语音流。除此之外,当需要在终端设备对语音流进行编解码时,同样可将本技术各个实施例所获得的语音合成模型部署于该终端设备中,以便对所接收或所发送的语音流进行丢包补偿。以上揭示的语音合成模型的应用场景仅为示例之用,例如还可以在网络直播服务场景中用于对直播流中的语音流进行丢包补偿。
34.图2示出本技术生成的声码器的原理框图,其提供一个固定的拓扑结构,依照该拓扑结构可构造本技术的声码器,并从声码器中择优选出至少一个作为语音合成模型。
35.根据图2所示的拓扑结构,该声码器包括条件网络和自回归网络,条件网络主要用于对语音流中的语音数据进行特征表示,自回归网络主要用于为语音数据生成丢包补偿所需的后续语音帧。
36.条件网络主要由残差网络负责提取语音数据的全局特征信息,由上采样网络负责以多个不同缩放系数提取语音数据的多个尺度对应的局部特征信息,然后通过拼接层将全局特征信息与局部特征信息拼接为综合特征信息,实现对语音数据的深层语义信息的提取,使综合特征信息实现对声学特征中的音素、韵律等变化缓慢的信息的特征表示。残差网络获得的全局特征信息进一步被分为多路输出,以便为自回归网络处理综合特征信息的过程提供参考信息。
37.自回归网络采用循环神经网络(rnn,recurrent convolutional network)实现,内部采用了两个单向的门控循环单元(gru,gate recurrent unit),门控循环单元的数量可按需灵活设置,每个门控循环单元负责处理综合特征信息,获得相应的深层语义信息并与所述残差网络输出的全局特征信息拼接后输入下一节点处理。自回归网络在其末端设置分类网络,用于实现根据门控循环单元处理后的输出及所述全局特征信息的结合信息做分类映射,以还原出后续语音帧。
38.一个实施例中,所述声码器可以wavernn(wave recurrent neural network,波形循环神经网络)或其变体模型例如sc-wavernn(speaker conditional wavernn,基于说话人条件的波形循环神经网络)为基础模型改造获得,wavernn是一个适于以序列形式处理音频数据的自回归网络模型,wavernn最初的设计目标就是在保持高速序列生成,作者使用简化模型、稀疏化、并行序列生成等技术显著提升了序列生成速度,其良好的表现甚至可以在cpu上实现实时语音合成。
39.经过本技术的任意实施例的处理而确定出的语音合成模型,可事先被训练至收敛
状态以投入使用,语音合成模型的网络结构,整体复杂度被降低,参数较少,且利用了全局特征信息提供临时上下文,更易被训练至收敛,可以做出更准确的预测。
40.请参阅图3,根据本技术的一个方面提供的一种语音合成模型生成方法,在其一个实施例中,包括如下步骤:
41.步骤s1100、调用控制器,由控制器生成声码器的结构编码;
42.本技术采用适于实现网络结构搜索(nas,network architecture search)的控制器,用于迭代产出声码器的结构编码,并利用其产出的声码器的实测性能表现对控制器进行策略梯度优化,将控制器训练至收敛状态,使控制器在迭代训练过程中,逐渐产出声码器的性能表现越来越优异。
43.控制器采用循环神经网络(rnn,recurrent convolutional network)构造,其输入为随机数,产出一个以高维向量表示的结构编码,该结构编码以序列的形式表示出声码器的条件网络和自回归网络相对应的编码信息。在构造声码器时,根据遵守声码器的拓扑结构的预定规范的所述结构编码,从中选取条件网络和自回归网络相对应的编码信息,可分别用于构造所述条件网络和自回归网络。
44.一个实施例中,所述结构编码中包含声码器的条件网络内的上采样网络相对应的编码信息。示例性的具体结构中,上采样网络包括三个匹配不同缩放系数以便进行不同尺度采样的卷积层,为此,结构编码中与条件网络相对应的编码信息,可对应三个卷积层提供其相应的设计参数。所述设计参数可以是卷积层的层类型和通道数。
45.一个实施例中,上采样网络的卷积层的层类型可以是如下所示的任意一种:
46.第一种:卷积核为1*1的卷积,层类型表示为0;
47.第二种:卷积核为3*3的卷积,层类型表示为1;
48.第三种:卷积核为5*5的卷积,层类型表示为2;
49.第四种:卷积核为1*1的卷积,以步长为2进行反卷积,层类型表示为3;
50.第五种:卷积核为3*3的卷积,以步长为2进行反卷积,层类型表示为4;
51.第六种:卷积核为5*5的卷积,以步长为2进行反卷积,层类型表示为5。
52.一个实施例中,卷积层所对应的通道数,可以是如下通道数中的任意一种:32、64、96、128等,对应的,各通道数的类型编码可以0至3对应表示。
53.按照如上示例,所述结构编码中与条件网络的上采样网络相对应的编码信息,可以是对应其各个卷积层而提供的层类型和通道数构成的子序列,形式如:
54.{第一卷积层类型;第一卷积层通道数;第二卷积层类型;第二卷积层通道数;第三卷积层类型;第三卷积层通道数}
55.根据这里的示例,可以看出,上采样网络中的每个卷积层占用结构编码中的两个维度,分别对应其层类型及通道数,非常简洁。
56.一个实施例中,所述结构编码中包含声码器的自回归网络内的门控循环单元相对应的编码信息。假设门控循环单元在第t步的输入特征为x
t
,隐状态为h
t
,门控循环单元的神经元结构可以看做函数关系:
57.h
t
=f(h
t-1
,x
t
)
58.特别地,对于声码器的门控循环单元的神经元结构,一般具有按照以下描述公式表示的架构:
59.h
t
=(1-z
t
)*h
t-1
+z
t
*c
t
60.其中z
t
为更新门(update gate),控制隐状态信息更新的速度,c
t
为候选隐状态,根据以上神经元结构的描述公式可知,门控循环单元的架构搜索的重点在于搜索z
t
和c
t
的架构。
61.因而,以四个执行单元为例,门控循环单元的编码信息的组成形式可以表达如下:
62.{第一种二元运算类型;第一种二元运算的激活函数;第二种二元运算类型;第二种二元运算的激活函数;第三种二元运算类型;第三种二元运算的激活函数;第四种二元运算类型;第四种二元运算的激活函数}
63.根据以上示例可见,门控循环单元由4个单元组成,每个单元包括一个二元运算和一个激活函数。其中第1个单元决定更新门z
t
的计算方法,后3个单元决定候选隐状态c
t

64.这里,每个二元运算可采用的类型可在如下类型中择一:
65.·
加法,类型编码可表示为0
66.·
元素积(element-wise multiplication),类型编码可表示为1
67.·
拼接,类型编码可表示为2
68.而激活函数的类型则可在如下类型中择一:
69.·
无激活函数,类型编码可表示为0
70.·
relu,类型编码可表示为1
71.·
sigmoid,类型编码可表示为2
72.·
tanh,类型编码可表示为3
73.由此可见,根据以上示例,条件网络的编码信息将占用结构编码中的6个维度,自回归网络的编码信息将占用结构编码中的8个维度,控制器生成的结构编码,为14个维度的向量。当然,条件网络和自回归网络所需占用的维度可以按照需要构造的声码器的预设拓扑结构灵活对应设置的,其各自对结构编码的维度的占用也是对应可变的,并不局限于以上的示例。
74.步骤s1200、根据结构编码构造声码器,该声码器包括根据结构编码生成的条件网络和自回归网络;
75.不难理解,只要遵循以上原理对所述结构编码进行利用,便可构造出相应的声码器。一个实施例中,具体可按照如下过程构造声码器:
76.首先,根据结构编码中第一编码信息构造声码器的条件网络中的上采样网络,所述第一编码信息包括与上采样网络的多个卷积层相对应的层类型和其对应的通道数;
77.沿用前一步骤的示例,对所述结构编码,可获取其中与条件网络相对应的子串,即前6个维度对应的特征数值,用于构造条件网络,具体是构造条件网络中的上采样网络。同理,可获取其中与自回归网络相对应的子串,即后8个维度对应的特征数值,用于构造自回归网络,具体是构造自回归网络中的门控循环单元。
78.示例性的结构编码如下:
79.{0,0,1,1,5,3,0,2,0,2,1,0,0,3}
80.其中,取示例性的结构编码中前6位作为上采样网络相对应的第一编码信息,即:
81.{0,0,1,1,5,3}
82.根据第一编码信息构造的上采样网络,其获得的网络结构由三个卷积层构造,各
卷积层的构造及其功能如下:第一卷积层获取输入的声学特征后,重复2倍,执行卷积核为1*1的卷积操作,处理为32个通道的数据;第二卷积层对第一卷积层的输出重复2倍,执行卷积核为3*3的卷积操作,处理为64个通道的数据;第三卷积层执行示例性的结构编码中5*5的卷积操作,处理为128通道的数据,以便接入自回归网络。
83.其次,根据结构编码中第二编码信息构造声码器的自回归网络中的门控循环单元,所述第二编码信息包括与门控循环单元的结构节点相对应的运算类型和其对应的激活类型;
84.取示例性的结构编码中后8位作为门控循环单元相对应的第二编码信息,即:
85.{0,2,0,2,1,0,0,3}
86.根据第二编码信息构造门控循环单元,在应用二元运算时,遵循如下启发式规则:
87.1.加法运算的运算数均先乘以可学习矩阵再相加,可学习矩阵的输出维度为二者维度较小者;
88.2.元素积如果两运算数维度相同,不使用可学习矩阵直接相乘;如果维度不同,将维度较高运算数乘以学习矩阵,使其与维度较低运算数一致再相乘;
89.3.拼接运算不使用可学习矩阵直接拼接。
90.根据以上规则,仍以前文示例所得的第二编码信息为例,其中更新门相对应的前两位编码{0,2},其二元运算指定为加法运算,直接应用于h
t-1
,x
t
,具体表示将h
t-1
和x
t
进行匹配可学习矩阵相加,再使用sigmoid函数进行激活输出,其结构描述公式表示为:
91.z
t
=σ(ω1*h
t-1
+ω2*x
t
)
92.候选隐状态相对应的后六位编码{0,2,1,0,0,3},首先应用于h
t-1
,x
t
,再将结果与h
t-1
相结合,再将结果x
t
相结合,即依次对应于如下函数:f1、f2、f3,其原理公式示例如下:
93.i1=f1(h
t-1
,x
t
)
94.i2=f2(i1,h
t-1
)
95.c
t
=f3(i2,x
t
)
96.由此,根据以上原理公式,第二编码信息相对应的过程公式表示如下:
97.i1=σ(ω3*h
t-1
+ω4*x
t
)
98.i2=i1⊙ht-1
99.c
t
=tanh(ω5*i2+ω6*x
t
)
100.根据前文描述的架构,门控循环单元将以上两部分结合后输出,公式表示为:
101.h
t
=(1-z
t
)*h
t-1
+z
t
*c
t
102.经过以上过程,便可获得自回归网络中的门控循环单元,当自回归网络根据需要构造的声码器的预设拓扑结构定义了多个相串接的门控循环单元时,各个门控循环单元均可采用相同的构造。
103.最后,根据预设拓扑结构将条件网络和自回归网络构造为声码器。
104.由于声码器的其他结构已经由其预设拓扑结构所定义,因而,在根据声码器的编码信息构造出声码器的上采样网络和门控循环单元之后,对应配置到预设拓扑结构中即可获得相应的声码器。
105.不难看出,利用声码器的原型所提供的先验知识,知晓其预设拓扑结构,在此基础上,由控制器产出声码器的编码信息,生成其中的上采样网络和门控循环单元,构造出对应
的声码器,生成过程无需像一般网络搜索架构一样依赖有向无环图,是因为依赖有向无环图获得的复杂的分支结构,即便节省了权重参数的规模,但在部署到终端设备时,前传成本仍然较高,而且,依赖有向无环图的情况下,如果上采样过程中数据维度发生变化,分支结构需要处理数据维度一致性的问题,往往会导致性能下降。
106.相对应的,根据本技术的控制构造声码器,体现在网络架构搜索方面,有如下的优势:
107.1.利用声码器方面的先验知识,牺牲网络拓扑架构搜索的空间复杂度,换取声码器权重密集的关键模块即上采样网络和门控循环单元的联合搜索;
108.2.以压缩网络flops数为目标设计搜索空间,使用权重较少的算子和应用一些启发式规则,可提升效率;
109.3.结合后续的软约束目标函数,搜索资源分配最优的语音合成模型,达到移动端部署满足实时性要求的目的。
110.步骤s1300、采用训练集将所述声码器迭代训练至收敛状态,根据该声码器在测试集上获得的性能评分,在控制器未达至收敛之前对控制器实施梯度更新并迭代生成新的声码器;
111.控制器所产生的声码器,需要获得其实测性能表现,因而,预备一个训练集,使用其中的足量的训练样本对控制器产生的声码器实施迭代训练,将其训练至收敛状态。所述训练样本可以是对应声码器的输入所需而提供的音频数据,每个音频数据包括多个语音帧,取其中一个按时间戳连续构成的语音帧序列,提取其声学特征,输入所述声码器中,由声码器的条件网络对该声学特征进行特征表示,再由声码器的自回归网络在该特征表示的基础上预测出该语音帧序列的后续语音帧,声码器最后根据该后续语音帧与训练样本的所述语音帧序列相连续的在后语音帧计算模型损失值,根据该模型损失值控制声码器的梯度更新和迭代过程,通过不断迭代训练使声码器最终达至收敛状态,从而完成对声码器的训练。
112.在该声码器被训练至收敛状态后,可按照如下过程对控制器进行更新:
113.首先,采用测试集中的测试样本对声码器实施测试,获得性能评分,该性能评分包括基于所述测试样本被声码器处理后获得的质量评分;
114.采用一个对应预备的测试集,利用其中的测试样本对已经达到收敛状态的所述声码器进行测试,根据预设统计方法获得整个测试集相对应的性能评分,以便分析该声码器在该测试集上取得的性能表现。
115.一个实施例中,所述性能评分可以是根据每个测试样本对应获得的质量评分的汇总统计值,所述质量评分可以是主观质量评分(mos,mean opinion score),也可以是客观质量评分,例如峰值信噪比或结构相似性评分等。对全量测试样本的质量评分进行统计相对应的算法,一般采用平均值的方式即可。根据该实施例,控制器可以应用如下硬约束多目标函数计算其模型损失值:
[0116][0117]
s.t.lat(a,h)≤b
[0118]
其中,a为声码器相对应的架构搜索空间,mos(a)为声码器的架构a在测试集上的
平均主观意见评分,lat(a,h)为架构a在硬件条件h上的推断延迟,b为声码器在整个测试集上获得的最大推断延迟,这将限制控制器只在推断延迟不超过b的搜索空间中进行采样。
[0119]
另一实施例中,所述性能评分可以是根据每个测试样本对应的质量评分统计获得汇总统计值后,叠加所述声码器对整个测试集进行测试所产生的推断延迟,以便实现将语音质量与机器执行表现进行结合实现综合评价。根据该实施例,控制器可以应用如下软约束目标函数计算其模型损失值:
[0120][0121]
其中,a为声码器相对应的架构搜索空间,mos(a)为声码器的架构a在测试集上的平均主观意见评分,lat(a,h)为架构a在硬件条件h上的推断延迟,c为控制架构压缩的常数。
[0122]
然后,根据该性能评分对控制器实施策略梯度优化,在控制器未达至收敛状态下继续迭代调用控制器以生成新的声码器。
[0123]
可见,在所述声码器获得其相应的性能评分后,可以根据该性能评分决策控制器是否收敛,从而决定是否继续迭代生成新的声码器,具体而言,对于控制器未收敛的情况,可以根据该性能评分对控制器实施策略梯度优化,然后重新从步骤s1100出发,生成新的声码器,循环执行步骤s1100至步骤s1300;对于控制器已经收敛的情况,则可跳到下一步骤,与此同时,也就终止了对控制器的训练。
[0124]
适用于控制器采用软约束目标函数的一个实施例中,对控制器实施策略梯度更新,可应用如下策略更新函数:
[0125][0126]
其中,π
θ
为当前策略概率分布(由控制器参数θ参数化),a
t
为控制器门控循环单元第t步选择的架构设计,r为a
1:t
决定的架构在软约束目标函数下计算得到的奖励值。
[0127]
另一实施例中,对控制器实施策略梯度更新,可应用深度强化学习方法相应的策略,而采用如下策略更新函数:
[0128][0129]
其中,q(a
t
|a
1:t-1
)为q函数,通过一个与控制器共享参数的rnn实现,α为q学习的学习率,γ为折扣因子。
[0130]
不难理解,根据声码器在测试集上获得的性能评分对控制器实施梯度优化,可以不断提升控制器产生性能表现优异的声码器的能力。
[0131]
步骤s1400、在控制器达至收敛后,根据性能评分选出声码器作为语音合成模型。
[0132]
控制器在其训练过程中,通过不断迭代产生多个声码器,这些声码器均经过训练和测试而获得其相应的性能评分,所述性能评分反映了相应的声码器的性能表现,性能评分越高的声码器,其在语音合成时所体现的实时性会更佳,其网络结构通常也是最优的,因而,可以以性能评分为依据,从控制器迭代训练过程中产生的大量声码器中择优选用其中之一,作为语音合成模型。通常,可以采用其中性能评分最高的一个或多个声码器作为所述
的语音合成模型。当然,其他实施例中,也可适应需要部署的终端设备的实际硬件能力选用性能评分次高的声码器作为语音合成模型,本质上也与此同理。
[0133]
在本步骤中择优选出的语音合成模型,可按需进一步深入训练,以优化其推理能力,以便部署到终端设备中使用。
[0134]
根据以上实施例可知,本技术采用控制器生成结构编码,根据结构编码构造声码器,训练并测试声码器获得相应的性能评分,根据性能评分对控制器的迭代过程实施控制,在控制器训练过程中产出多个声码器,最终优选实测表现最佳的声码器作为语音合成模型,借助控制器实现声码器的自动产出和择优,使所获得的语音合成模型符合移动端设备部署所需,在移动端设备部署后能获得良好的性能表现,能符合语音合成场景中关于模型小型化和高实时性的要求。
[0135]
在以上任意实施例的基础上,请参阅图4,采用训练集将所述声码器迭代训练至收敛状态,包括:
[0136]
步骤s1310、调用训练集中的单个训练样本,获取其中的预定时长的多个连续语音帧构造为语音帧序列,提取该语音序列相对应的声学特征;
[0137]
所述的训练集可以采用公开数据集或者线上用户数据,公开数据集是一个包含多种语言,由上万个贡献者提供的音频数据汇聚而成的语音数据集,其中每个语音数据均可作为第一类训练样本。所述线上用户数据可以自行采集,可包含上万个线上用户的音频数据采样片段,原始采样片段经过背景噪声消除后,通过语音活性检测(voice activity detection,vad)截取纯人声片段,最终形成15-30s的训练样本。在声码器训练过程中,每次迭代训练调用一个训练样本。
[0138]
对于每个训练样本,以预定时长获取其中的多个时序连续的语音帧构成语音帧序列,然后提取其声学特征,示例而言,所述语音帧序列的长度可以以20ms为每个语音帧的时长单位,总共选取300ms相对应的语音帧构成,然后对应提取该语音帧序列的声学特征。
[0139]
所述声学特征,起到描述语音帧中的风格相对稳定特征的相关信息的作用,例如音素、韵律等,可以是对数梅尔谱、时频谱信息、cqt滤波信息中任意一种。
[0140]
本领域技术人员理解,以上各种声学特征,均可采用对应的算法对其编码。编码的过程中,先对语音信号进行预加重、分帧以及加窗等常规处理,然后再进行时域或频域的分析,即实现语音信号分析。预加重的目的是为了提升语音信号的高频部分,使频谱平滑;一般预加重通过一个一阶高通滤波器实现。在对语音信号进行分析前,还需对其进行分帧,通常将语音信号的每帧长度设为20ms,考虑帧移因素,相邻两帧之间可以有10ms的重叠。为了实现分帧,可通过对语音信号进行加窗操作来实现。不同的窗口选择对语音信号分析的结果会产生影响,较为常见的,采用汉明窗(hamm)相对应的窗函数来实施加窗操作。
[0141]
一种实施例中,针对所述的时频谱信息,通过对各个语音信息在时域上的语音数据进行预加重、分帧、加窗、短时傅里叶变换(stft)变换到频域,从而获得声谱图相对应的数据,从而构成所述的时频谱信息。
[0142]
另一实施例中,针对所述的对数梅尔谱,可以采用梅尔尺度滤波器组对所述的时频谱信息进行滤波处理后取对数而获得。
[0143]
再一实施例中,针对所述的cqt滤波信息,cqt(constant q transform),即恒q变换,指中心频率按指数规律分布,滤波带宽不同、但中心频率与带宽比为常量q的滤波器组。
其与傅立叶变换不同的是,其频谱的横轴频率不是线性的,而是基于log2为底的,并且可以根据谱线频率的不同而改变滤波窗长度,以获得更好的性能。
[0144]
以上任意一种具体声学特征均可用作本技术的声码器的输入,为了便于该声码器的处理,一种实施例中,可以根据一定的预设格式构造所述的声学特征。例如,将每个语音帧对应的声学特征组织为一个行向量,对于被编码的整个语音帧序列,按时序将其中各个语音帧的行向量纵向拼接在一起获得一个二维矩阵作为其整个语音帧序列的声学特征。
[0145]
步骤s1320、将所述声学特征输入声码器的条件网络中,经其中的残差网络获取该声学特征的全局特征信息,经其中的上采样网络获取该声学特征在多个尺度下的局部特征信息,获得由全局特征信息和局部特征信息构成的综合特征信息;
[0146]
根据本技术的声码器的原理,将所述声学特征输入声码器的条件网络中,将按照如下过程获得输出:
[0147]
首先,基于条件网络中的残差网络提取所述声学特征,获得其全局特征信息;
[0148]
本实施例中,以采用sc-wavernn为原型拓扑结构获得本技术的声码器的具体架构为例,相对于原作者提供的原型网络,可以省去原型网络中的speaker encoder(说话人编码器),当然,另一实施例中,也可沿用该编码器。
[0149]
从本技术实施语音合成的角度来说,sc-wavernn的原型网络中的说话人编码器不是必须的。说话人编码器是sc-wavernn论文的重要贡献,作者用pesq(perceptual evaluation of speech quality,客观语音质量评估)衡量说话人编码器在所有情形下均有正收益;本技术使用相同的指标衡量,针对本技术执行丢包补偿的任务,说话人编码器的贡献并不明显。究其原因是sc-wavernn是以tts(text to speech,从文本到语音)为目的的,模型输入包含完整的梅尔谱,说话人编码器将梅尔谱映射为说话者特征较为重要;对于本技术丢包隐藏的应用场景,说话人特征仅能影响补偿语音第一帧,增加的说话人编码器包含lstm(long short-term memory,长短期记忆网络),计算复杂度较高,收益并不明显。因而,本领域技术人员可以根据此处揭示的原理,采用或不采用说话人编码器,实现所述声码器的构型。
[0150]
前文所获得的用于据以生成后续语音帧的语音帧序列的声学特征,被输入至声码器的条件网络中,其中一路被输入至条件网络的残差网络。残差网络负责对声学特征执行残差卷积操作,在语音帧序列的全局尺度上提取其中的深层语义信息,从而获得相应的全局特征信息,实现对语音帧序列的声学特征的全局表示。
[0151]
然后,基于条件网络中的上采样网络对所述声学特征进行多尺度采样,获得其局部特征信息;
[0152]
所述语音帧序列的声学特征从第二通路输入至条件网络中的上采样网络,上采样网络在所述结构编码提供的第一编码信息的约束下,被构造为对应多个缩放尺度,例如三个缩放尺度,在这些不同缩放尺度上分别从所述声学特征中提取深层语义信息,不断细化信息粒度,从而获得不同信息粒度下相对应的局部特征信息,实现对语音帧序列的声学特征的局部表示。
[0153]
进而,基于条件网络中的拼接层将所述全局特征信息和局部特征信息进行特征拼接,获得综合特征信息。
[0154]
条件网络中设置的拼接层,将残差网络获得的全局特征信息和局部特征信息进行
特征拼接,构造为综合特征信息,该综合特征信息既包含所述声学特征的全局信息,也包含所述声学特征在其不同较细尺度下的局部信息,能够全面完整地表征所述声学特征中的重要特征,有助于指导自回归网络生成有效的后续语音帧。
[0155]
根据以上过程可以理解,声码器通过综合声学特征在全局和局部条件下的重要特征,实现对语音帧序列的有效特征表示,是生成后续语音帧的基础,并且,通过采用优选网络结构的声码器,可以提升声码器的工作效率,获得良好的收益。
[0156]
步骤s1330、经声码器中的自回归网络的门控循环单元从所述综合特征信息中提取出语音帧序列中的风格相对稳定特征,获得预测特征信息;
[0157]
首先,从条件网络输出的综合特征信息,在自回归网络中先通过第一全连接层进行全连接,以进一步实现特征综合。
[0158]
然后,先将全连接后的综合特征信息输入根据控制器输出的结构编码中的第二编码信息生成的第一门控循环单元进行特征提取,以实现对其中的重要特征的选取,获得第一门控特征信息。第一门控特征信息经过进一步与残差网络获得的全局特征信息拼接后,输入根据控制器输出的结构编码中的第二编码信息生成的第二门控循环单元。第二门控循环单元同理对输入其中的特征信息进行特征提取获得第二门控特征信息,第二门控特征信息也同理与残差网络获得的全局特征信息进行拼接后输出。
[0159]
一个实施例中,第二门控特征信息与全局特征信息拼接后的输出可以作为预测特征信息使用。另一实施例中,进一步,将第二门控特征信息与全局特征信息拼接获得的特征信息进行全连接,在全连接后又进一步与残差网络获得的全局特征信息进行拼接,获得预测特征信息。在以上各个步骤中,不断引用残差网络获得的全局特征信息提供上下文参考,有助于准确提取声学特征中的重要特征,使自回归网络所生成的后续语音帧更为有效。
[0160]
步骤s1340、经声码器中的分类网络根据所述预测特征信息生成语音帧序列的后续语音帧;
[0161]
所述预测特征信息被输入自回归网络各预置的一个分类网络,经过分类网络的分类映射,确定出构造后续语音帧所需的各个比特位的概率,从而构造出后续语音帧。
[0162]
一个实施例中,在所述分类网络中,在根据预测特征信息进行构造后续语音帧的过程,应用如下基于温度系数的公式进行音频采样:
[0163][0164]
其中,t为采样温度,yi为预测标签,pi为后续语音帧的第i个比特位的概率。
[0165]
根据以上过程可以理解,自回归网络可以根据条件网络的输出,在声学特征的全局特征和局部特征的指导下,有效地生成当前语音帧的后续语音帧,实现对语音流进行有效的丢包补偿。
[0166]
步骤s1350、采用所述训练样本中语音帧序列的时序连续在后的语音帧计算所述后续语音帧的损失值,根据该损失值控制所述声码器的迭代训练。
[0167]
当针对一个训练样本中的语音帧序列生成其后续语音帧后,利用所述语音帧序列最后一个语音帧的下一语音帧作为监督标签,计算该后续语音帧相对于下一语音帧的损失值,然后根据该损失值决策声码器是否已经收敛,当未收敛时,根据该损失值对声码器实施
反向传播,梯度更新其条件网络和自回归网络的权重参数,并从训练集中调用下一训练样本对声码器继续实施迭代训练,直至声码器达到收敛为止。
[0168]
可以看出,在声码器被训练的过程中,训练样本中采样的语音帧序列中时序最后的语音帧,其时序连续在后的下一语音帧,作为基于该语音帧序列所生成的后续语音帧的监督标签,用于计算后续语音帧的损失值,从而实现对声码器的预训练过程实施有效监督。
[0169]
以上实施例显示,由控制器输出结构编码,根据结构编码构造而成的声码器,将在同一训练集的基础上进行训练,因而,后续可以将控制器产出的多个声码器之间进行性能表现的比较,以便产出优选的声码器作为语音合成模型。
[0170]
在以上任意实施例的基础上,请参阅图5,所述在控制器达至收敛后,根据性能评分选出声码器作为语音合成模型的步骤之后,包括:
[0171]
步骤s1500、将所述语音合成模型训练至收敛状态;
[0172]
当步骤s1400中优选出至少一个声码器作为适于部署到终端设备的语音合成模型后,可以对该语音合成模型实施更为深入的训练,以便全面提升其语音合成能力,示例性的一种训练方式,可将该语音合成模型的条件网络作为生成器,将其自回归网络作为鉴别器,构造为生成对抗模型而实施训练。后文也将揭示本技术推荐的一种训练方式相对应的实施例,暂且不表。通过训练,优选出的语音合成模型再次达至收敛状态,可部署至终端设备中使用。
[0173]
步骤s1600、将所述语音合成模型配置为将根据语音流生成的后续语音帧平滑接入所述语音流。
[0174]
当完成最终训练的语音合成模型被部署到终端设备时,可通过配置其所生成的后续语音帧与相应的语音流之间的过渡方式,来使语音合成模型能够将其为语音流生成的后续语音帧接入到该语音流中。具体可按照如下过程实现:
[0175]
首先,将语音帧合成模型已生成的后续语音帧进行拼接获得补偿帧序列;
[0176]
对于经由语音合成模型生成的后续语音帧,无论其产生单个后续语音帧,还是连续产生多个后续语音帧,均可进行集中处理,将这些后续语音帧按照时间戳先后进行有序拼接,构造为补偿帧序列。
[0177]
进而,调节所述补偿帧序列相对应的音量,使其不超过所述语音帧序列的音量;
[0178]
经丢包补偿获得的各个后续语音帧在音量上可能有所差异,为了统一音量效果,可调用预设的压限器,具体是音量压限器,对补偿帧序列中的各个后续语音帧实施音量压限控制,以所述语音帧序列中的音量为参考,降低后续语音帧中过大的音量,使补偿帧序列中的后续语音帧的音量不超过语音帧序列中的语音帧的音量,从而将丢包补偿获得的语音帧的音量控制在合理的幅度,维持音质的一致性。
[0179]
最后,将补偿帧序列平滑接入所述语音帧序列所在的语音流。
[0180]
将补偿帧序列接入语音流中,可以进一步实现对语音流的丢包补偿。为了使语音合成模型所获得的补偿帧序列在接入语音流之后,在听觉上维持平滑性,可以采用淡出淡入方式,将补偿帧序列平滑接入所述语音流。
[0181]
一个实施例中,控制所述补偿帧序列接入语音流之后,在20ms处开始淡出,也即从第二个后续语音帧开始淡出,直到丢包结束后20ms或者丢包开始后120ms时完全静音,此外,控制在补偿帧序列之后的语音流中的语音帧在20ms时间窗内淡入。以上关于淡出、淡入
相对应的时间设置,可以根据实际需求而灵活调节,不限于以上的示例。
[0182]
根据以上过程可以理解,由语音合成模型实施丢包补偿恢复的后续语音帧,能够以平滑的方式接入原语音流,使原语音流在听觉上保持平滑性,获得良好的音质。
[0183]
以上实施例揭示,在将从控制器生成的声码器中优选出的语音合成模型再次训练至收敛状态之后,可使语音合成模型适于部署于移动终端之类的终端设备中,并且,通过配置其具备将根据语音流生成的后续语音帧平滑接入所述语音流的功能,使得语音合成模型能够针对语音流连续生成多个后续语音帧,实现连续丢包补偿,由于优选出的语音合成模型经过控制器的有效压缩,其权重参数大幅降低,运行效率明显增强,从而可以满足终端设备的高实时性的要求,使得其对语音流实施丢包补偿之后,能够明显提升语音流的音质。
[0184]
在以上任意实施例的基础上,请参阅图6,所述将所述语音合成模型训练至收敛状态,包括:
[0185]
步骤s1510、采用数据集中的第一类训练样本对语音合成模型实施第一阶段训练,将语音合成模型训练至收敛状态,第一阶段训练中根据预设权重稀疏化目标实施训练;
[0186]
预备两类训练样本,即第一类训练样本和第二类训练样本,两类训练样本可以存储于同一数据集中,也可存储于不同数据集中。
[0187]
第一类训练样本主要用于实施对语音合成模型的预训练,第二类训练样本主要用于实施对语音合成模型的微调训练,因而,第一类训练样本可以采用环境噪声适当放宽的素材,第二类训练样本可以采用前景语音更为清晰的素材。
[0188]
一个实施例中,第一类训练样本可以采用公开数据集,如前所述,本技术实测训练中选用的一个公开数据集是一个包含多种语言,由上万个贡献者提供的音频数据汇聚而成的语音数据集,其中每个语音数据均可作为第一类训练样本。
[0189]
一个实施例中,第二类训练样本可以自行采集线上用户数据,如前所述,本技术实测训练中采用的线上用户数据,包含上万个线上用户的音频数据采样片段,原始采样片段经过背景噪声消除后,通过语音活性检测(voice activity detection,vad)截取纯人声片段,最终形成15-30s的训练样本。
[0190]
第一类训练样本与第二类训练样本均可先行语音预处理,确定出其中的各个语音帧以便提取其语音帧序列及其相对应的声学特征。
[0191]
在第一阶段训练过程中,针对每个第一类训练样本对语音合成模型实施训练,其过程同于前文所揭示的实施例,恕不赘述。同理可以看出,在语音合成模型预训练的过程中,第一类训练样本中采样的语音帧序列中时序最后的语音帧,其时序连续在后的语音帧,作为基于该语音帧序列所生成的后续语音帧的监督标签,用于计算后续语音帧的损失值,从而实现对语音合成模型的预训练过程实施有效监督。
[0192]
为了进一步减小语音合成模型的权重,在第一阶段训练过程中,针对每个训练样本,将语音合成模型权重按绝对值排列,绝对值最小的n
t
个权重设置为0,其中:
[0193][0194]
其中,n为模型总权重数量,s∈[0,1]为目标稀疏化率,t为训练步骤,t0为开始稀疏化部署的步骤,t为稀疏化训练总步数,α》1为控制稀疏化速率的常数。
[0195]
步骤s1520、采用数据集中的第二类训练样本对语音合成模型实施第二阶段训练,
将语音合成模型训练至收敛状态;
[0196]
在第二阶段训练过程中,与第一阶段训练相比较,彼此的基本训练过程相同,但是,第二阶段训练时所采用的训练样本为第二类训练样本,并且,在执行第二阶段训练时,以相对于第一阶段训练更小的学习率训练语音合成模型,使得条件网络的参数化更符合线上用户的数据分布。由于线上用户提供的第二类训练样本为纯人声片段,因而,通过采用第二类训练样本对语音合成模型进行更小学习率的训练,有助于进一步提升语音合成模型生成后续语音帧的能力。
[0197]
同理,在第二阶段训练过程中,也可根据第一阶段训练相同的原理对语音合成模型实施权重稀疏化训练。
[0198]
步骤s1530、固化所述语音合成模型的条件网络的权重,采用数据集中的第二类训练样本对语音合成模型实施第三阶段训练,将语音合成模型训练至收敛状态,以调节语音合成模型中自回归网络的权重。
[0199]
对语音合成模型实施第三阶段训练,实际上是在语音合成模型经过前两个阶段的预训练后,对语音合成模型实施微调训练,以进一步调节其中的自回归网络的权重,确保其能有效产出给定的语音帧序列的后续语音帧。
[0200]
为此,在执行第三阶段训练的之前,视为条件网络已经达到期望的要求,而将其权重冻结,使条件网络在第三阶段训练时,其权重不会被梯度更新。至于自回归网络的权重,则仍维持其为可学习权重,将在第三阶段训练过程中进一步修正。然后,便可启动对语音合成模型的第三阶段训练。
[0201]
在对语音合成模型实施第三阶段训练时,其采用的训练样本为线上用户数据相对应的第二类训练样本,其针对每个训练样本进行训练的基础过程与第一阶段训练和第二阶段训练均相同,同理也可按需适用权重稀疏化训练。在语音合成模型预训练的过程中,第二类训练样本中采样的语音帧序列中时序最后的语音帧,其时序连续在后的语音帧,作为基于该语音帧序列所生成的后续语音帧的监督标签,用于计算后续语音帧的损失值,从而实现对语音合成模型的微调训练过程实施有效监督。
[0202]
经过第三阶段训练,条件网络的权重保持不变,自回归网络的权重不断被修正,最终达至收敛状态,便可终止语音合成模型的整个训练过程。
[0203]
根据以上的实施例,不难理解,本技术的语音合成模型,经过多阶段训练,在第一阶段中采用第一类训练样本进行预训练,在第二阶段中采用第二类训练样本中以更小学习率提升预训练效果,在第三阶段中在固化条件网络的权重的情况下,采用第二类训练样本提升自回归网络生成后续语音帧的能力,最终实现全面训练,使所获得的语音合成模型为给定的语音帧序列生成有效的后续语音帧的能力。根据以上训练过程获得的语音合成模型,其参数量较低,每秒浮点运算次数较少,可以实现移动端的实时推断,特别适用于诸如手机、电脑之类的移动终端中部署。
[0204]
在以上任意实施例的基础上,请参阅图7,采用数据集中的第二类训练样本对语音合成模型实施第三阶段训练,包括:
[0205]
步骤s1531、将从每个第二类训练样本中采样的语音帧序列中的最后一个语音帧时序连续的预设数量的多个在后语音帧的声学特征替换为掩膜表示;
[0206]
在第三阶段训练过程中,可以按照希望语音合成模型对语音帧序列预测生成的后
续语音帧的数量,也即最大补偿数量,对语音合成模型实施相应的训练。为此,在每次迭代训练时,对所调用的第二类训练样本,获取语音帧序列,对于语音帧序列的最后一个语音帧之后的连续多个语音帧,具体数量根据预设的最大补偿数量而定,将这些语音帧的声学特征替换为掩膜表示,例如,最大补偿数量按照120ms时长确定为6个语音帧,则将居于语音帧序列之后的6个时序连续的在后语音帧的声学特征替换为掩膜表示。进行掩膜表示的方式,可以是诸如将对应的声学特征的特征值全部替换为值1、0.5等方式,可以灵活设定。
[0207]
步骤s1532、语音合成模型以该训练样本的语音帧序列为基础迭代生成所述多个在后语音帧相对应的后续语音帧;
[0208]
对于所述第二类训练样本,语音合成模型首先以从该第二类训练样本的首个语音帧序列的声学特征为基础开始生成后续语音帧,在生成一个后续语音帧之后,该后续语音帧作为所述语音帧序列中的最后一个语音帧入列获得新的语音帧序列,然后继续迭代提取新的语音帧序列的声学特征用于生成下一后续语音帧,如此迭代执行,直到产生最大补偿数量相对应的多个后续语音帧。
[0209]
步骤s1533、根据第二类训练样本中的所述多个在后语音帧计算其相应的后续语音帧的损失值,根据该损失值修正语音合成模型中自回归网络的权重。
[0210]
在语音合成模型针对每个第二类训练样本产生多个后续语音帧的过程中,针对每个后续语音帧,语音合成模型都采用训练样本中时间戳与该后续语音帧相对应的在后语音帧作为该后续语音帧的监督标签,计算该后续语音帧的损失值,并根据该损失值对语音合成模型实施反向传播,梯度更新自回归网络的权重,而所述条件网络由于其权重已被冻结而不参与梯度更新。
[0211]
根据以上的实施例,不难理解,通过在第三阶段训练时对第二类训练样本中的在后语音帧的声学特征替换为掩膜表示,可以引导自回归网络生成在后语音帧相对应的后续语音帧,并且可以按照预设的最大补偿数量连续迭代产生相应多个后续语音帧,使语音合成模型习得连续补偿多个语音帧的能力,提升了语音合成模型的执行丢包补偿的效率。
[0212]
请参阅图8,根据本技术的一个方面提供的一种语音合成模型生成装置,包括编码生成模块1100、声码器构造模块1200、迭代决策模块1300,以及模型产出模块1400,其中:所述编码生成模块1100,设置为调用控制器,由控制器生成声码器的结构编码;所述声码器构造模块1200,设置为根据结构编码构造声码器,该声码器包括根据结构编码生成的条件网络和自回归网络;所述迭代决策模块1300,设置为采用训练集将所述声码器迭代训练至收敛状态,根据该声码器在测试集上获得的性能评分,在控制器未达至收敛前对控制器实施梯度更新并迭代生成新的声码器;所述模型产出模块1400,设置为在控制器达至收敛后,根据性能评分选出声码器作为语音合成模型。
[0213]
在以上任意实施例的基础上,所述声码器构造模块1200,包括:第一构造单元,设置为根据结构编码中第一编码信息构造声码器的条件网络中的上采样网络,所述第一编码信息包括与上采样网络的多个卷积层相对应的层类型和其对应的通道数;第二构造单元,设置为根据结构编码中第二编码信息构造声码器的自回归网络中的门控循环单元,所述第二编码信息包括与门控循环单元的结构节点相对应的运算类型和其对应的激活类型;整体构造单元,设置为根据预设拓扑结构将条件网络和自回归网络构造为声码器。
[0214]
在以上任意实施例的基础上,所述迭代决策模块1300,包括:样本处理单元,设置
为调用训练集中的单个训练样本,获取其中的预定时长的多个连续语音帧构造为语音帧序列,提取该语音序列相对应的声学特征;特征表示单元,设置为将所述声学特征输入声码器的条件网络中,经其中的残差网络获取该声学特征的全局特征信息,经其中的上采样网络获取该声学特征在多个尺度下的局部特征信息,获得由全局特征信息和局部特征信息构成的综合特征信息;特征预测单元,设置为经声码器中的自回归网络的门控循环单元从所述综合特征信息中提取出语音帧序列中的风格相对稳定特征,获得预测特征信息;语音帧生成单元,设置为经声码器中的分类网络根据所述预测特征信息生成语音帧序列的后续语音帧;损失计算单元,设置为采用所述训练样本中语音帧序列的时序连续在后的语音帧计算所述后续语音帧的损失值,根据该损失值控制所述声码器的迭代训练。
[0215]
在以上任意实施例的基础上,所述迭代决策模块1300,包括:测试评分单元,设置为采用测试集中的测试样本对声码器实施测试,获得性能评分,该性能评分包括基于所述测试样本被声码器处理后获得的质量评分;梯度优化单元,设置为根据该性能评分对控制器实施策略梯度优化,在控制器未达至收敛状态下继续迭代调用控制器以生成新的声码器。
[0216]
在以上任意实施例的基础上,后于所述模型产出模块1400,包括:模型训练模块,设置为将所述语音合成模型训练至收敛状态;丢包补偿模块,设置为将所述语音合成模型配置为将根据语音流生成的后续语音帧平滑接入所述语音流。
[0217]
在以上任意实施例的基础上,所述丢包补偿模块,包括:第一训练单元,设置为采用数据集中的第一类训练样本对声码器实施第一阶段训练,将声码器训练至收敛状态,第一阶段训练中根据预设权重稀疏化目标实施训练;第二训练单元,设置为采用数据集中的第二类训练样本对声码器实施第二阶段训练,将声码器训练至收敛状态;第三训练单元,设置为固化所述声码器的条件网络的权重,采用数据集中的第二类训练样本对声码器实施第三阶段训练,将声码器训练至收敛状态,以调节声码器中自回归网络的权重;其中,所述训练样本为音频数据,包含多个时序连续的语音帧,时序连续在后的语音帧用于计算其时序连续在先的语音帧由声码器对应生成的后续语音帧的损失值,第二类训练样本为纯人声片段相对应的音频数据。
[0218]
在以上任意实施例的基础上,所述第三训练单元,包括:掩膜处理子单元,设置为将从每个第二类训练样本中采样的语音帧序列中的最后一个语音帧时序连续的预设数量的多个在后语音帧的声学特征替换为掩膜表示;迭代生成子单元,设置为声码器以该训练样本的语音帧序列为基础迭代生成所述多个在后语音帧相对应的后续语音帧;权重修正子单元,设置为根据第二类训练样本中的所述多个在后语音帧计算其相应的后续语音帧的损失值,根据该损失值修正声码器中自回归网络的权重。
[0219]
本技术的另一实施例还提供一种语音合成模型生成设备。如图9所示,语音合成模型生成设备的内部结构示意图。该语音合成模型生成设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中,该语音合成模型生成设备的计算机可读的非易失性可读存储介质,存储有操作系统、数据库和计算机可读指令,数据库中可存储有信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种语音合成模型生成方法。
[0220]
该语音合成模型生成设备的处理器用于提供计算和控制能力,支撑整个语音合成
模型生成设备的运行。该语音合成模型生成设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行本技术的语音合成模型生成方法。该语音合成模型生成设备的网络接口用于与终端连接通信。
[0221]
本领域技术人员可以理解,图9中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的语音合成模型生成设备的限定,具体的语音合成模型生成设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0222]
本实施方式中处理器用于执行图8中的各个模块的具体功能,存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于实现用户终端或服务器之间的数据传输。本实施方式中的非易失性可读存储介质中存储有本技术的语音合成模型生成装置中执行所有模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有模块的功能。
[0223]
本技术还提供一种存储有计算机可读指令的非易失性可读存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行本技术任一实施例的语音合成模型生成方法的步骤。
[0224]
本技术还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被一个或多个处理器执行时实现本技术任一实施例所述方法的步骤。
[0225]
本领域普通技术人员可以理解,实现本技术上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性可读存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)等计算机可读存储介质,或随机存储记忆体(random access memory,ram)等。
[0226]
综上所述,本技术借助控制器实现声码器的自动产出和择优,使所获得的语音合成模型符合移动端设备部署所需,在移动端设备部署后能获得良好的性能表现,能符合语音合成场景中对于模型小型化和高实时性所需的要求。

技术特征:


1.一种语音合成模型生成方法,其特征在于,包括:调用控制器,由控制器生成声码器的结构编码;根据结构编码构造声码器,该声码器包括根据结构编码生成的条件网络和自回归网络;采用训练集将所述声码器迭代训练至收敛状态,根据该声码器在测试集上获得的性能评分,在控制器未达至收敛之前对控制器实施梯度更新并迭代生成新的声码器;在控制器达至收敛后,根据性能评分选出声码器作为语音合成模型。2.根据权利要求1所述的语音合成模型生成方法,其特征在于,所述根据结构编码构造声码器,包括:根据结构编码中第一编码信息构造声码器的条件网络中的上采样网络,所述第一编码信息包括与上采样网络的多个卷积层相对应的层类型和其对应的通道数;根据结构编码中第二编码信息构造声码器的自回归网络中的门控循环单元,所述第二编码信息包括与门控循环单元的结构节点相对应的运算类型和其对应的激活类型;根据预设拓扑结构将条件网络和自回归网络构造为声码器。3.根据权利要求1所述的语音合成模型生成方法,其特征在于,采用训练集将所述声码器迭代训练至收敛状态,包括:调用训练集中的单个训练样本,获取其中的预定时长的多个连续语音帧构造为语音帧序列,提取该语音序列相对应的声学特征;将所述声学特征输入声码器的条件网络中,经其中的残差网络获取该声学特征的全局特征信息,经其中的上采样网络获取该声学特征在多个尺度下的局部特征信息,获得由全局特征信息和局部特征信息构成的综合特征信息;经声码器中的自回归网络的门控循环单元从所述综合特征信息中提取出语音帧序列中的风格相对稳定特征,获得预测特征信息;经声码器中的分类网络根据所述预测特征信息生成语音帧序列的后续语音帧;采用所述训练样本中语音帧序列的时序连续在后的语音帧计算所述后续语音帧的损失值,根据该损失值控制所述声码器的迭代训练。4.根据权利要求1所述的语音合成模型生成方法,其特征在于,根据该声码器在测试集上获得的性能评分,在控制器未达至收敛之前对控制器实施梯度更新并迭代生成新的声码器,包括:采用测试集中的测试样本对声码器实施测试,获得性能评分,该性能评分包括基于所述测试样本被声码器处理后获得的质量评分;根据该性能评分对控制器实施策略梯度优化,在控制器未达至收敛状态下继续迭代调用控制器以生成新的声码器。5.根据权利要求1所述的语音合成模型生成方法,其特征在于,所述在控制器达至收敛后,根据性能评分选出声码器作为语音合成模型的步骤之后,包括:将所述语音合成模型训练至收敛状态;将所述语音合成模型配置为将根据语音流生成的后续语音帧平滑接入所述语音流。6.根据权利要求5所述的语音合成模型生成方法,其特征在于,所述将所述语音合成模型训练至收敛状态,包括:
采用数据集中的第一类训练样本对语音合成模型实施第一阶段训练,将语音合成模型训练至收敛状态,第一阶段训练中根据预设权重稀疏化目标实施训练;采用数据集中的第二类训练样本对语音合成模型实施第二阶段训练,将语音合成模型训练至收敛状态;固化所述语音合成模型的条件网络的权重,采用数据集中的第二类训练样本对语音合成模型实施第三阶段训练,将语音合成模型训练至收敛状态,以调节语音合成模型中自回归网络的权重;其中,所述训练样本为音频数据,包含多个时序连续的语音帧,时序连续在后的语音帧用于计算其时序连续在先的语音帧由语音合成模型对应生成的后续语音帧的损失值,第二类训练样本为纯人声片段相对应的音频数据。7.根据权利要求6所述的语音合成模型生成方法,其特征在于,采用数据集中的第二类训练样本对语音合成模型实施第三阶段训练,包括:将从每个第二类训练样本中采样的语音帧序列中的最后一个语音帧时序连续的预设数量的多个在后语音帧的声学特征替换为掩膜表示;语音合成模型以该训练样本的语音帧序列为基础迭代生成所述多个在后语音帧相对应的后续语音帧;根据第二类训练样本中的所述多个在后语音帧计算其相应的后续语音帧的损失值,根据该损失值修正语音合成模型中自回归网络的权重。8.一种语音合成模型生成装置,其特征在于,包括:编码生成模块,设置为调用控制器,由控制器生成声码器的结构编码;声码器构造模块,设置为根据结构编码构造声码器,该声码器包括根据结构编码生成的条件网络和自回归网络;迭代决策模块,设置为采用训练集将所述声码器迭代训练至收敛状态,根据该声码器在测试集上获得的性能评分,在控制器未达至收敛前对控制器实施梯度更新并迭代生成新的声码器;模型产出模块,设置为在控制器达至收敛后,根据性能评分选出声码器作为语音合成模型。9.一种语音合成模型生成设备,包括中央处理器和存储器,其特征在于,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。10.一种非易失性可读存储介质,其特征在于,其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序,所述计算机程序被计算机调用运行时,执行相应的方法所包括的步骤。11.一种计算机程序产品,其特征在于,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现权利要求1至7中任意一项所述方法的步骤。

技术总结


本申请涉及一种语音合成模型生成方法及其装置、设备、介质、产品,所述方法包括:调用控制器,由控制器生成声码器的结构编码;根据结构编码构造声码器,该声码器包括根据结构编码生成的条件网络和自回归网络;采用训练集将所述声码器迭代训练至收敛状态,根据该声码器在测试集上获得的性能评分,在控制器未达至收敛之前对控制器实施梯度更新并迭代生成新的声码器;在控制器达至收敛后,根据性能评分选出声码器作为语音合成模型。本申请借助控制器实现声码器的自动产出和择优,使所获得的语音合成模型符合移动端设备部署所需,在移动端设备部署后能获得良好的性能表现,能符合语音合成场景中对于模型小型化和高实时性所需的要求。场景中对于模型小型化和高实时性所需的要求。场景中对于模型小型化和高实时性所需的要求。


技术研发人员:

王汉超 林伟

受保护的技术使用者:

百果园技术(新加坡)有限公司

技术研发日:

2022.07.07

技术公布日:

2022/10/13

本文发布于:2024-09-23 12:32:49,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/26687.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:声码   语音   所述   模型
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议