模型部署方法、音频生成方法、电子设备、介质及产品与流程



1.本技术涉及金融科技(fintech)的人工智能技术领域,尤其涉及一种模型部署方法、音频生成方法、电子设备、介质及产品。


背景技术:



2.随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术(如分布式、人工智能等)应用在金融领域,但金融业也对技术提出了更高的要求,如对金融业对应待办事项的分发也有更高的要求。
3.随着人工智能的不断发展,人工智能的应用也越来越广泛,在日常生活中常需要将文本转换为音频,而为了转换后的音频具备特定说话人的个性化音,通常将文本和说话人的音频特征表示共同输入该特定说话人对应的特定声学模型,从而得到具备个性化音的音频,所以在进行声学模型部署时,通常在终端部署各个特定说话人对应的个性化声学模型,从而在进行语音合成时,即可直接依据特定说话人和个性化声学模型之间的对应关系,直接选取特定说话人对应的个性化声学模型进行语音合成,但是当特定说话人数量较多时,则需要在终端针对每一个特定说话人部署一个对应的个性化声学模型,而声学模型通常为深度学习模型,模型参数的量级较高,从而将导致声学模型部署成本极高。


技术实现要素:



4.本技术的主要目的在于提供一种模型部署方法、音频生成方法、电子设备、介质及产品,旨在解决现有技术中个性化声学模型部署成本高的技术问题。
5.为实现上述目的,本技术提供一种声学模型部署优化方法,应用于第一设备,所述第一设备部署有基础声学模型和不同说话人对应的预设正则化参数,所述声学模型部署优化方法包括:
6.在各预设正则化参数中选取目标说话人对应的目标正则化参数,其中,各所述预设正则化参数是根据不同说话人的音频特征表示对基础声学模型的正则化参数分别进行优化得到;
7.根据所述目标正则化参数和所述基础声学模型,部署所述目标说话人对应的个性化声学模型。
8.可选地,在所述在各预设正则化参数中选取目标说话人对应的目标正则化参数,其中,各所述预设正则化参数是根据不同说话人的音频特征表示对基础声学模型的正则化参数分别进行优化得到的步骤之前,所述声学模型部署优化方法还包括:
9.获取说话人的音频样本和所述音频样本对应的文本样本;将所述音频样本转换为对应的音频特征表示,以及将所述文本样本转换为对应的文本特征表示;依据所述音频特征表示和所述文本特征表示,通过对所述基础声学模型进行微调,对所述正则化参数进行优化,得到所述说话人对应的预设正则化参数;和/或
10.接收第二设备下发的不同说话人对应的预设正则化参数。
11.可选地,所述依据所述音频特征表示和所述文本特征表示,通过对所述基础声学模型进行微调,对所述正则化参数进行优化,得到所述说话人对应的预设正则化参数的步骤包括:
12.将所述音频特征表示和所述文本特征表示进行拼接,得到拼接特征表示;
13.依据所述基础声学模型,将所述拼接特征表示转换为输出个性化声学特征;
14.获取所述说话人对所述文本样本的真实个性化声学特征,依据所述输出个性化声学特征和所述真实个性化声学特征之间的差距,计算声学模型损失;
15.依据所述声学模型损失,在保证所述基础声学模型的神经元参数不变的情况下对所述正则化参数进行迭代优化,得到所述说话人对应的预设正则化参数。
16.可选地,在所述根据所述目标正则化参数和所述基础声学模型,部署所述目标说话人对应的个性化声学模型的步骤之后,所述声学模型部署优化方法还包括:
17.获取所述目标说话人对应的目标音频特征表示以及目标文本对应的目标文本特征表示;
18.依据所述个性化声学模型,将所述目标音频特征表示和所述目标文本特征表示共同转换为所述目标说话人对于所述目标文本的目标个性化声学特征;
19.根据所述目标个性化声学特征,生成所述目标说话人对于所述目标文本的个性化音频。
20.为实现上述目的,本技术提供一种声学模型部署优化方法,应用于第二设备,所述声学模型部署优化方法包括:
21.获取各说话人的音频样本和各所述音频样本对应的文本样本;
22.将各所述音频样本分别转换为对应的音频特征表示,以及将各所述文本样本分别转换为对应的文本特征表示;
23.依据各所述音频特征表示和各所述文本特征表示,通过对基础声学模型进行微调,分别对所述基础声学模型的正则化参数进行优化,得到各所述说话人对应的预设正则化参数;
24.依据各所述预设正则化参数和所述基础声学模型,在所述第一设备处部署个性化声学模型。
25.可选地,所述依据各所述音频特征表示和各所述文本特征表示,通过对基础声学模型进行微调,分别对所述基础声学模型的正则化参数进行优化,得到各所述说话人对应的预设正则化参数的步骤包括:
26.将所述音频特征表示和所述文本特征表示进行拼接,得到拼接特征表示;
27.依据所述基础声学模型,将所述拼接特征表示转换为输出个性化声学特征;
28.获取所述说话人对所述文本样本的真实个性化声学特征,依据所述输出个性化声学特征和所述真实个性化声学特征之间的差距,计算声学模型损失;
29.依据所述声学模型损失,在保证所述基础声学模型的神经元参数不变的情况下对所述正则化参数进行迭代优化,得到所述说话人对应的预设正则化参数。
30.可选地,所述依据各所述预设正则化参数和所述基础声学模型,在所述第一设备处部署个性化声学模型的步骤包括:
31.将各所述预设正则化参数和所述基础声学模型发送至第一设备,以供所述第一设
备在各预设正则化参数中选取目标说话人对应的目标正则化参数,并根据所述目标正则化参数和所述基础声学模型,部署所述目标说话人对应的个性化声学模型。
32.为实现上述目的,本技术提供一种个性化音频生成方法,应用于第一设备,所述个性化音频生成方法包括:
33.获取目标说话人对应的目标音频特征表示以及目标文本对应的目标文本特征表示;
34.依据所述目标说话人对应的个性化声学模型,将所述目标音频特征表示和所述目标文本特征表示共同转换为所述目标说话人对于所述目标文本的目标个性化声学特征,其中,所述个性化声学模型是根据所述目标说话人对应的目标正则化参数和基础声学模型进行部署得到;
35.根据所述目标个性化声学特征,生成所述目标说话人对于所述目标文本的个性化音频。
36.可选地,所述第一设备部署有基础声学模型和不同说话人对应的预设正则化参数,在所述依据所述目标说话人对应的个性化声学模型,将所述目标音频特征表示和所述目标文本特征表示共同转换为所述目标说话人对于所述目标文本的目标个性化声学特征的步骤之前,所述个性化音频生成方法包括:
37.在各预设正则化参数中选取所述目标说话人对应的目标正则化参数,其中,各所述预设正则化参数是根据不同说话人的音频特征表示对基础声学模型的正则化参数分别进行优化得到;
38.根据所述目标正则化参数和所述基础声学模型,部署所述目标说话人对应的个性化声学模型。
39.可选地,在所述在各预设正则化参数中选取所述目标说话人对应的目标正则化参数,其中,各所述预设正则化参数是根据不同说话人的音频特征表示对基础声学模型的正则化参数分别进行优化得到的步骤之前,所述声学模型部署优化方法还包括:
40.获取说话人的音频样本和所述音频样本对应的文本样本;将所述音频样本转换为对应的音频特征表示,以及将所述文本样本转换为对应的文本特征表示;依据所述音频特征表示和所述文本特征表示,通过对所述基础声学模型进行微调,对所述正则化参数进行优化,得到所述说话人对应的预设正则化参数;和/或
41.接收第二设备下发的不同说话人对应的预设正则化参数。
42.可选地,所述依据所述音频特征表示和所述文本特征表示,通过对所述基础声学模型进行微调,对所述正则化参数进行优化,得到所述说话人对应的预设正则化参数的步骤包括:
43.将所述音频特征表示和所述文本特征表示进行拼接,得到拼接特征表示;
44.依据所述基础声学模型,将所述拼接特征表示转换为输出个性化声学特征;
45.获取所述说话人对所述文本样本的真实个性化声学特征,依据所述输出个性化声学特征和所述真实个性化声学特征之间的差距,计算声学模型损失;
46.依据所述声学模型损失,在保证所述基础声学模型的神经元参数不变的情况下对所述正则化参数进行迭代优化,得到所述说话人对应的预设正则化参数。
47.本技术还提供一种声学模型部署优化装置,应用于第一设备,所述第一设备部署
有基础声学模型和不同说话人对应的预设正则化参数,所述声学模型部署优化装置包括:
48.正则化参数选取模块,用于在各预设正则化参数中选取目标说话人对应的目标正则化参数,其中,各所述预设正则化参数是根据不同说话人的音频特征表示对基础声学模型的正则化参数分别进行优化得到;
49.声学模型部署模块,用于根据所述目标正则化参数和所述基础声学模型,部署所述目标说话人对应的个性化声学模型。
50.可选地,所述声学模型部署优化装置还用于:
51.获取说话人的音频样本和所述音频样本对应的文本样本;将所述音频样本转换为对应的音频特征表示,以及将所述文本样本转换为对应的文本特征表示;依据所述音频特征表示和所述文本特征表示,通过对所述基础声学模型进行微调,对所述正则化参数进行优化,得到所述说话人对应的预设正则化参数;和/或
52.接收第二设备下发的不同说话人对应的预设正则化参数。
53.可选地,所述声学模型部署优化装置还用于:
54.将所述音频特征表示和所述文本特征表示进行拼接,得到拼接特征表示;
55.依据所述基础声学模型,将所述拼接特征表示转换为输出个性化声学特征;
56.获取所述说话人对所述文本样本的真实个性化声学特征,依据所述输出个性化声学特征和所述真实个性化声学特征之间的差距,计算声学模型损失;
57.依据所述声学模型损失,在保证所述基础声学模型的神经元参数不变的情况下对所述正则化参数进行迭代优化,得到所述说话人对应的预设正则化参数。
58.可选地,所述声学模型部署优化装置还用于:
59.获取所述目标说话人对应的目标音频特征表示以及目标文本对应的目标文本特征表示;
60.依据所述个性化声学模型,将所述目标音频特征表示和所述目标文本特征表示共同转换为所述目标说话人对于所述目标文本的目标个性化声学特征;
61.根据所述目标个性化声学特征,生成所述目标说话人对于所述目标文本的个性化音频。
62.本技术还提供一种声学模型部署优化装置,应用于第二设备,所述声学模型部署优化装置包括:
63.获取模块,用于获取各说话人的音频样本和各所述音频样本对应的文本样本;
64.特征变换模块,用于将各所述音频样本分别转换为对应的音频特征表示,以及将各所述文本样本分别转换为对应的文本特征表示;
65.模型微调模块,用于依据各所述音频特征表示和各所述文本特征表示,通过对基础声学模型进行微调,分别对所述基础声学模型的正则化参数进行优化,得到各所述说话人对应的预设正则化参数;
66.模型部署模块,用于依据各所述预设正则化参数和所述基础声学模型,在所述第一设备处部署个性化声学模型。
67.可选地,所述模型微调模块用于:
68.将所述音频特征表示和所述文本特征表示进行拼接,得到拼接特征表示;
69.依据所述基础声学模型,将所述拼接特征表示转换为输出个性化声学特征;
70.获取所述说话人对所述文本样本的真实个性化声学特征,依据所述输出个性化声学特征和所述真实个性化声学特征之间的差距,计算声学模型损失;
71.依据所述声学模型损失,在保证所述基础声学模型的神经元参数不变的情况下对所述正则化参数进行迭代优化,得到所述说话人对应的预设正则化参数。
72.可选地,所述模型部署模块还用于:
73.将各所述预设正则化参数和所述基础声学模型发送至第一设备,以供所述第一设备在各预设正则化参数中选取目标说话人对应的目标正则化参数,并根据所述目标正则化参数和所述基础声学模型,部署所述目标说话人对应的个性化声学模型。
74.本技术还提供一种个性化音频生成装置,应用于第一设备,所述个性化音频生成装置包括:
75.获取模块,用于获取目标说话人对应的目标音频特征表示以及目标文本对应的目标文本特征表示;
76.特征变化模块,用于依据所述目标说话人对应的个性化声学模型,将所述目标音频特征表示和所述目标文本特征表示共同转换为所述目标说话人对于所述目标文本的目标个性化声学特征,其中,所述个性化声学模型是根据所述目标说话人对应的目标正则化参数和基础声学模型进行部署得到;
77.生成模块,用于根据所述目标个性化声学特征,生成所述目标说话人对于所述目标文本的个性化音频。
78.可选地,所述第一设备部署有基础声学模型和不同说话人对应的预设正则化参数,所述个性化音频生成装置还用于:
79.在各预设正则化参数中选取所述目标说话人对应的目标正则化参数,其中,各所述预设正则化参数是根据不同说话人的音频特征表示对基础声学模型的正则化参数分别进行优化得到;
80.根据所述目标正则化参数和所述基础声学模型,部署所述目标说话人对应的个性化声学模型。
81.可选地,所述个性化音频生成装置还用于:
82.获取说话人的音频样本和所述音频样本对应的文本样本;将所述音频样本转换为对应的音频特征表示,以及将所述文本样本转换为对应的文本特征表示;依据所述音频特征表示和所述文本特征表示,通过对所述基础声学模型进行微调,对所述正则化参数进行优化,得到所述说话人对应的预设正则化参数;和/或
83.接收第二设备下发的不同说话人对应的预设正则化参数。
84.可选地,所述个性化音频生成装置还用于:
85.将所述音频特征表示和所述文本特征表示进行拼接,得到拼接特征表示;
86.依据所述基础声学模型,将所述拼接特征表示转换为输出个性化声学特征;
87.获取所述说话人对所述文本样本的真实个性化声学特征,依据所述输出个性化声学特征和所述真实个性化声学特征之间的差距,计算声学模型损失;
88.依据所述声学模型损失,在保证所述基础声学模型的神经元参数不变的情况下对所述正则化参数进行迭代优化,得到所述说话人对应的预设正则化参数。
89.本技术还提供一种电子设备,所述电子设备包括:存储器、处理器以及存储在所述
存储器上并可在所述处理器上运行的所述声学模型部署优化方法的程序,所述声学模型部署优化方法的程序被处理器执行时可实现如上述的声学模型部署优化方法的步骤。
90.本技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有实现声学模型部署优化方法的程序,所述声学模型部署优化方法的程序被处理器执行时实现如上述的声学模型部署优化方法的步骤。
91.本技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述的声学模型部署优化方法的步骤。
92.本技术还提供一种电子设备,所述电子设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述个性化音频生成方法的程序,所述个性化音频生成方法的程序被处理器执行时可实现如上述的个性化音频生成方法的步骤。
93.本技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有实现个性化音频生成方法的程序,所述个性化音频生成方法的程序被处理器执行时实现如上述的个性化音频生成方法的步骤。
94.本技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述的个性化音频生成方法的步骤。
95.本技术提供了一种声学模型部署优化方法,相比于现有技术中所采用的在终端针对每一个特定说话人部署一个对应的个性化声学模型的技术手段,本技术在各预设正则化参数中选取所述目标说话人对应的目标正则化参数,其中,各所述预设正则化参数是根据不同说话人的音频特征表示对基础声学模型的正则化参数分别进行优化得到;根据所述目标正则化参数和所述基础声学模型,确定所述目标说话人对应的个性化声学模型,也即本技术在终端部署了不同说话人对应的预设正则化参数和基础声学模型,当需要目标说话人的个性化声学模型时,则直接依据目标说话人对应的预设正则化参数和基础声学模型即可临时生成目标说话人对应的个性化声学模型,即可完成个性化声学模型的临时部署,实现了通过存储在终端上而实现部署的多个个性化声学模型替换为了多个预设正则化参数和单个基础声学模型,所以终端上只需存储多个预设正则化参数和单个基础声学模型即可,而由于预设正则化参数的量级远远小于个性化声学模型的模型参数的量级,从而克服了现有技术中当特定说话人数量较多时,则需要在终端针对每一个特定说话人部署一个对应的个性化声学模型,而声学模型通常为深度学习模型,模型参数的量级较高,从而将导致声学模型部署成本极高的技术缺陷,降低了个性化声学模型的模型部署成本。
附图说明
96.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
97.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
98.图1为本技术声学模型部署优化方法第一实施例的流程示意图;
99.图2为本技术声学模型部署优化方法中合成个性化音频的流程示意图;
100.图3为本技术声学模型部署优化方法第二实施例的流程示意图;
101.图4为本技术声学模型部署优化方法第三实施例的流程示意图;
102.图5为本技术实施例中声学模型部署优化方法涉及的硬件运行环境的设备结构示意图。
103.本技术目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
104.为使本技术的上述目的、特征和优点能够更加明显易懂,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,均属于本技术保护的范围。
105.实施例一
106.本技术实施例提供一种声学模型部署优化方法,在本技术声学模型部署优化方法的第一实施例中,参照图1,应用于第一设备,所述第一设备部署有基础声学模型和不同说话人对应的预设正则化参数,所述声学模型部署优化方法包括:
107.步骤s10,在各预设正则化参数中选取目标说话人对应的目标正则化参数,其中,各所述预设正则化参数是根据不同说话人的音频特征表示对基础声学模型的正则化参数分别进行优化得到;
108.步骤s20,根据所述目标正则化参数和所述基础声学模型,部署所述目标说话人对应的个性化声学模型。
109.在本实施例中,需要说明的是,个性化语音合成过程为:获取目标文本对应的文本特征表示和目标说话人的音频特征表示,进而将音频特征表示和文本特征表示输入目标说话人对应的个性化声学模型,即可生成目标说话人对于目标文本的个性化声学特征,进而可将个性化声学特征转换为对应的个性化音频,也即为目标说话人读出目标文本所产生的音频,其中,个性化声学模型与目标说话人一一对应。所以,当终端需要合成多个目标说话人的个性化音频时,则需要在终端部署多个目标说话人对应的个性化声学模型,而个性化声学模型通常为深度神经网络模型,模型参数的数量量级较高,从而为了部署多个目标说话人的个性化声学模型,需要终端具备大量的硬盘和内存空间,使得个性化声学模型的部署成本极高。各所述预设正则化参数可由第一设备根据不同说话人的音频特征表示对基础声学模型的正则化参数分别进行优化得到,再由第一设备本地进行部署;也可以由第二设备根据不同说话人的音频特征表示对基础声学模型的正则化参数分别进行优化得到,进而第二设备将基础声学模型和不同说话人对应的预设正则化参数下发至第一设备,由第一设备进行部署。
110.另外地,需要说明的是,所述基础声学模型由多层神经网络组成,且每层神经网络之后均设置有正则化层,用于根据正则化参数对每层的神经网络的输出进行规范化,本实施例中并不直接训练个性化声学模型,而是先训练得到一个基础声学模型,再根据不同说话人对应的音频特征表示,对基础声学模型进行微调,以单独更新基础声学模型的正则化参数,从而得到不同说话人对应的预设正则化参数,其中,需要说明的是,直接训练个性化声学模型需要更新模型中所有的模型参数,包括神经元参数和正则化参数等;从而在进行
个性化声学模型部署时,只需部署所有的预设正则化参数和基础声学模型即可,当需要合成某个目标说话人的个性化音频时,可在各预设正则化参数中查该目标说话人对应的目标正则化参数,将基础声学模型中的正则化参数替换为目标正则化参数即可得到目标说话人对应的个性化声学模型,从而完成个性化模型的部署,所以对于部署多个目标说话人对应的个性化声学模型,可将声学模型中除正则化参数之外的模型参数进行复用,不同说话人的音频的个性化音由正则化参数决定,而正则化参数的数量量级远远小于所有的模型参数的数量量级。
111.作为一种示例,步骤s10至步骤s20包括:获取目标说话人对应的身份标签,依据所述身份标签在各预设正则化参数中查对应的目标正则化参数,其中,各所述预设正则化参数是根据不同说话人的音频特征表示对基础声学模型的正则化参数分别进行优化得到;将所述基础声学模型的正则化参数替换更新为所述目标正则化参数,得到所述目标说话人对应的个性化声学模型,从而完成个性化声学模型的部署。其中,所述预设正则化参数可以为layer normalization(横向规范化)参数,用于调整声学模型中对应的神经网络层所有神经元的输出值的统计特征值,所述统计特征值可以为平均值,也可以为方差,在此不做限定。所述音频特征表示可以说话人的音频的向量表示,例如可以为embedding(嵌入),也可以为对音频数据进行pca(principal component analysis,主成分分析)降维的降维结果等,在此不做限定。
112.需要说明的是,目前通常在终端部署各个特定说话人对应的个性化声学模型,终端上需要存储多个个性化声学模型,个性化声学模型的模型参数的数据量级通常较大,对终端的硬盘和内存的占用极高,从而造成个性化声学模型部署的成本极高。而本技术实施例中终端上只需存储多个预设正则化参数和单个基础声学模型即可,而由于预设正则化参数的量级远远小于个性化声学模型的模型参数的量级,从而对终端的硬盘和内存的占用相对较低,降低了个性化声学模型的部署成本。
113.其中,在所述在各预设正则化参数中选取目标说话人对应的目标正则化参数,其中,各所述预设正则化参数是根据不同说话人的音频特征表示对基础声学模型的正则化参数分别进行优化得到的步骤之前,所述声学模型部署优化方法还包括:
114.步骤a10,获取说话人的音频样本和所述音频样本对应的文本样本;
115.步骤a20,将所述音频样本转换为对应的音频特征表示,以及将所述文本样本转换为对应的文本特征表示;
116.步骤a30,依据所述音频特征表示和所述文本特征表示,通过对所述基础声学模型进行微调,对所述正则化参数进行优化,得到所述说话人对应的预设正则化参数。
117.在本实施例中,需要说明的是,所述预设正则化参数和基础声学模型可以由第一设备在本地训练得到,也可以由第二设备训练好预设正则化参数和基础声学模型后,将预设正则化参数和基础声学模型发送至第一设备。
118.作为一种示例,步骤a10至步骤a30包括:获取文本样本和说话人读出文本样本而产生的音频样本;根据预设文本编码器,对所述文本样本进行特征提取,得到文本样本对应的文本特征表示;根据预设音频编码器,对所述音频样本进行特征提取,得到音频样本对应的音频特征表示;依据所述文本特征表示、所述音频特征表示和音频样本对应的真实个性化声学特征,在保持除正则化参数之外的模型参数不变的情况下,对所述基础声学模型的
正则化参数进行迭代更新,得到所述说话人对应的预设正则化参数。
119.作为一种示例,本技术实施例中可以由第二设备根据不同说话人的音频特征表示对基础声学模型的正则化参数分别进行优化得到。第一设备可以接收第二设备下发的不同说话人对应的预设正则化参数,从而第一设备依据第二设备下发的预设正则化参数和本地已经存在的基础声学模型,部署目标说话人对应的个性化声学模型;第一设备也可以接收第二设备同时下发的不同说话人对应的预设正则化参数和基础声学模型,从而第一设备依据第二设备同时下发的预设正则化参数和基础声学模型,部署目标说话人对应的个性化声学模型。
120.所述真实个性化声学特征为频域的声学信号特征,作为一种示例,获取方式如下:对音频样本进行数字信号处理,得到音频数字信号,在预设频率范围内以及预设频程下,对音频数字信号进行预设次数的周期性采样,以在音频数字信号中采集预设数量的频响值,得到真实个性化声学特征,例如,预设频率范围和预设频程具体可以用户自行设定,可将预设频率设置为20至1000hz,将预设频程设置为六分之一倍,采样周期设置为100ms,周期性采样的预设次数为32次,预设数量为32*32,则每次采样将得到一个由32个频响值构成的向量,一共32个向量,32个向量将组成32*32的矩阵,该32*32的矩阵即为真实个性化声学特征。
121.其中,所述依据所述音频特征表示和所述文本特征表示,通过对所述基础声学模型进行微调,对所述正则化参数进行优化,得到所述说话人对应的预设正则化参数的步骤包括:
122.步骤a31,将所述音频特征表示和所述文本特征表示进行拼接,得到拼接特征表示;
123.步骤a32,依据所述基础声学模型,将所述拼接特征表示转换为输出个性化声学特征;
124.步骤a33,获取所述说话人对所述文本样本的真实个性化声学特征,依据所述输出个性化声学特征和所述真实个性化声学特征之间的差距,计算声学模型损失;
125.步骤a34,依据所述声学模型损失,在保证所述基础声学模型的神经元参数不变的情况下对所述正则化参数进行迭代优化,得到所述说话人对应的预设正则化参数。
126.作为一种示例,需要说明的是,所述音频特征表示和文本特征表示均可以为向量,例如embedding向量,步骤a31至步骤a34包括:
127.对所述音频特征表示和所述文本特征表示进行向量拼接,得到拼接特征表示;通过将拼接特征表示输入基础声学模型,将所述拼接特征表示转换为对应的声学特征,得到说话人对应的输出个性化声学特征;获取所述说话人读出所述文本样本所产生音频样本的真实个性化声学特征,通过计算所述输出个性化声学特征和所述真实个性化声学特征之间的差值,计算声学模型损失,其中,所述声学模型损失可以为相似度损失;判断所述声学模型损失是否收敛,若所述声学模型损失收敛,则将所述基础声学模型的正则化参数作为所述说话人对应的预设正则化参数,若所述声学模型损失未收敛,则根据所述声学模型损失计算的模型梯度,在保证所述基础声学模型中除正则化参数之外的其他模型参数不变的情况下,更新所述基础声学模型的正则化参数,并返回执行步骤:获取说话人的音频样本和所述音频样本对应的文本样本,直至计算得到的声学模型损失收敛。其中,由于在进行模型微
调时,仅调整正则化参数,而保证其他模型参数不变,可保证合成的个性化语音不会产生过大的变化,保证了个性化语音的合成质量,且由于调整了正则化参数,又能保证模型输出的个性化声学特征的分布情况与说话人的真实个性化声学特征的分布情况类似,从而保证了说话人的个性化音。
128.作为一种示例,在更新所述基础声学模型的正则化参数时,也可同时对预设音频编码器进行同步更新,以获取准确度更高的预设音频编码器,也即,若所述声学模型损失未收敛,则根据所述声学模型损失计算的模型梯度,在保证所述基础声学模型中除正则化参数之外的其他模型参数不变的情况下,更新所述基础声学模型的正则化参数,以及更新所述预设音频编码器,并返回执行步骤:获取说话人的音频样本和所述音频样本对应的文本样本,直至计算得到的声学模型损失收敛,将所述预设音频编码器作为所述说话人对应的目标音频编码器。
129.其中,在所述根据所述目标正则化参数和所述基础声学模型,部署所述目标说话人对应的个性化声学模型的步骤之后,所述声学模型部署优化方法还包括:
130.步骤b10,获取所述目标说话人对应的目标音频特征表示以及目标文本对应的目标文本特征表示;
131.步骤b20,依据所述个性化声学模型,将所述目标音频特征表示和所述目标文本特征表示共同转换为所述目标说话人对于所述目标文本的目标个性化声学特征;
132.步骤b30,根据所述目标个性化声学特征,生成所述目标说话人对于所述目标文本的个性化音频。
133.在本实施例中,需要说明的是,所述目标音频特征表示为目标说话人预先录入的音频对应的音频特征表示,该音频可以不为目标说话人读出目标文本所产生的音频。
134.作为一种示例,步骤b10至步骤b30包括:获取所述目标说话人对应的目标音频特征表示和目标文本,并将所述目标文本转换为目标文本特征表示,其中,所述目标音频特征表示可以由目标音频编码器对目标说话人预先录入的音频进行转换得到;对所述目标文本特征表示和所述目标音频特征表示进行拼接,得到目标拼接特征表示;通过将所述目标拼接特征表示输入个性化声学模型,将所述目标拼接特征表示转换为所述目标说话人对于所述目标文本的目标个性化声学特征;通过将所述目标个性化声学特征输入预设声码器,合成所述目标说话人读出所述目标文本所产生的个性化音频。
135.作为一种示例,如图2所示为合成个性化音频的流程示意图,其中,文本为所述目标文本,文本语义向量为所述目标文本特征表示,说话人向量为所述目标音频特征表示,声学模型为所述个性化声学模型,“layer norm”为所述目标正则化参数,声学特征为所述目标个性化声学特征,个性化定制合成音频为所述个性化音频。
136.本技术实施例了一种声学模型部署优化方法,相比于现有技术中所采用的在终端针对每一个特定说话人部署一个对应的个性化声学模型的技术手段,本技术实施例在各预设正则化参数中选取所述目标说话人对应的目标正则化参数,其中,各所述预设正则化参数是根据不同说话人的音频特征表示对基础声学模型的正则化参数分别进行优化得到;根据所述目标正则化参数和所述基础声学模型,确定所述目标说话人对应的个性化声学模型,也即本技术实施例在终端部署了不同说话人对应的预设正则化参数和基础声学模型,当需要目标说话人的个性化声学模型时,则直接依据目标说话人对应的预设正则化参数和
基础声学模型即可临时生成目标说话人对应的个性化声学模型,即可完成个性化声学模型的临时部署,实现了通过存储在终端上而实现部署的多个个性化声学模型替换为了多个预设正则化参数和单个基础声学模型,所以终端上只需存储多个预设正则化参数和单个基础声学模型即可,而由于预设正则化参数的量级远远小于个性化声学模型的模型参数的量级,从而克服了现有技术中当特定说话人数量较多时,则需要在终端针对每一个特定说话人部署一个对应的个性化声学模型,而声学模型通常为深度学习模型,模型参数的量级较高,从而将导致声学模型部署成本极高的技术缺陷,降低了个性化声学模型的模型部署成本。
137.实施例二
138.进一步地,参照图3,本技术实施例提供一种声学模型部署优化方法,在本技术声学模型部署优化方法的第二实施例中,应用于第二设备,所述声学模型部署优化方法包括:
139.步骤c10,获取各说话人的音频样本和各所述音频样本对应的文本样本;
140.步骤c20,将各所述音频样本分别转换为对应的音频特征表示,以及将各所述文本样本分别转换为对应的文本特征表示;
141.步骤c30,依据各所述音频特征表示和各所述文本特征表示,通过对基础声学模型进行微调,分别对所述基础声学模型的正则化参数进行优化,得到各所述说话人对应的预设正则化参数;
142.步骤c40,依据各所述预设正则化参数和所述基础声学模型,在所述第一设备处部署个性化声学模型。
143.在本实施例中,需要说明的是,所述第二设备为预设正则化参数的训练设备,具体可以为服务器,在服务器训练好各预设正则化参数后,可由服务器将各预设正则化参数和基础声学模型部署至终端,也即部署至第一设备。
144.作为一种示例,步骤c10至步骤c40:获取各文本样本和不同说话人读出对应的文本样本而产生的音频样本;根据预设文本编码器,分别对各所述文本样本进行特征提取,得到各文本样本对应的文本特征表示;根据预设音频编码器,分别对各所述音频样本进行特征提取,得到各音频样本对应的音频特征表示;依据各所述文本特征表示、各所述音频特征表示和各音频样本对应的真实个性化声学特征,在保持除正则化参数之外的模型参数不变的情况下,分别对所述基础声学模型的正则化参数进行迭代更新,得到各所述说话人对应的预设正则化参数,其中,说话人、文本特征表示、音频特征表示和真实个性化声学特征四者一一对应;通过将各所述预设正则化参数和基础声学模型发送至第一设备,在所述第一设备处部署个性化声学模型。
145.其中,所述依据各所述音频特征表示和各所述文本特征表示,通过对基础声学模型进行微调,分别对所述基础声学模型的正则化参数进行优化,得到各所述说话人对应的预设正则化参数的步骤包括:
146.步骤c31,将所述音频特征表示和所述文本特征表示进行拼接,得到拼接特征表示;
147.步骤c32,依据所述基础声学模型,将所述拼接特征表示转换为输出个性化声学特征;
148.步骤c33,获取所述说话人对所述文本样本的真实个性化声学特征,依据所述输出
个性化声学特征和所述真实个性化声学特征之间的差距,计算声学模型损失;
149.步骤c34,依据所述声学模型损失,在保证所述基础声学模型的神经元参数不变的情况下对所述正则化参数进行迭代优化,得到所述说话人对应的预设正则化参数。
150.在本实施例中,需要说明的是,步骤c31至步骤c34的具体实施过程可参照步骤a31至步骤a34中的具体内容,在此不再赘述。
151.其中,所述依据各所述预设正则化参数和所述基础声学模型,在所述第一设备处部署个性化声学模型的步骤包括:
152.步骤c41,将各所述预设正则化参数和所述基础声学模型发送至第一设备,以供所述第一设备在各预设正则化参数中选取目标说话人对应的目标正则化参数,并根据所述目标正则化参数和所述基础声学模型,部署所述目标说话人对应的个性化声学模型。
153.作为一种示例,步骤c41包括:将各所述预设正则化参数和所述基础声学模型发送至第一设备,以供所述第一设备获取目标说话人对应的身份标签,依据所述身份标签在各预设正则化参数中查对应的目标正则化参数,其中,各所述预设正则化参数是根据不同说话人的音频特征表示对基础声学模型的正则化参数分别进行优化得到;第一设备将所述基础声学模型的正则化参数替换更新为所述目标正则化参数,得到所述目标说话人对应的个性化声学模型,从而完成个性化声学模型的部署。
154.本实施例提供了一种声学模型部署优化方法,获取各说话人的音频样本和各所述音频样本对应的文本样本;将各所述音频样本分别转换为对应的音频特征表示,以及将各所述文本样本分别转换为对应的文本特征表示;依据各所述音频特征表示和各所述文本特征表示,通过对所述基础声学模型进行微调,分别对所述正则化参数进行优化,得到各所述说话人对应的预设正则化参数,也即,通过不同说话人的音频特征对基础声学模型进行微调,得到不同说话人专属的预设正则化参数,其中,预设正则化参数为影响个性化声学模型输出的合成语音的音的参数,从而依据各所述预设正则化参数和所述基础声学模型,在所述第一设备处部署个性化声学模型,可通过在第一设备处部署不同说话人的预设正则化参数和基础声学模型,实现间接部署不同说话人的个性化声学模型的目的,且由于预设正则化参数的数量量级远远小于声学模型的所有模型参数的数量量级,因此可在极大程度上节约大量进行声学模型部署时所需求的硬盘和内存空间,降低了个性化声学模型部署的成本。
155.实施例三
156.进一步地,参照图4,本技术实施例还提供一种个性化音频生成方法,在应用于第二设备,所述个性化音频生成方法包括:
157.步骤d10,获取目标说话人对应的目标音频特征表示以及目标文本对应的目标文本特征表示;
158.步骤d20,依据所述目标说话人对应的个性化声学模型,将所述目标音频特征表示和所述目标文本特征表示共同转换为所述目标说话人对于所述目标文本的目标个性化声学特征,其中,所述个性化声学模型是根据所述目标说话人对应的目标正则化参数和基础声学模型进行部署得到;
159.步骤d30,根据所述目标个性化声学特征,生成所述目标说话人对于所述目标文本的个性化音频。
160.在本实施例中,需要说明的是,步骤d10至步骤d30的具体实现过程可参照上述步骤b10至步骤b30中的具体内容,在此不再赘述。所述个性化声学模型是根据所述目标说话人对应的目标正则化参数和基础声学模型进行部署得到的具体实现过程可参照上述步骤s10至步骤s20中的具体实施过程,在此不再赘述。
161.其中,所述第一设备部署有基础声学模型和不同说话人对应的预设正则化参数,在所述依据所述目标说话人对应的个性化声学模型,将所述目标音频特征表示和所述目标文本特征表示共同转换为所述目标说话人对于所述目标文本的目标个性化声学特征的步骤之前,所述个性化音频生成方法包括:
162.步骤e10,在各预设正则化参数中选取所述目标说话人对应的目标正则化参数,其中,各所述预设正则化参数是根据不同说话人的音频特征表示对基础声学模型的正则化参数分别进行优化得到;
163.步骤e20,根据所述目标正则化参数和所述基础声学模型,部署所述目标说话人对应的个性化声学模型。
164.在本实施例中,需要说明的是,步骤e10至步骤e20的具体实施过程可参照上述步骤s10至步骤s20中的具体实施过程,在此不再赘述。
165.其中,在所述在各预设正则化参数中选取所述目标说话人对应的目标正则化参数,其中,各所述预设正则化参数是根据不同说话人的音频特征表示对基础声学模型的正则化参数分别进行优化得到的步骤之前,所述声学模型部署优化方法还包括:
166.步骤f10,获取说话人的音频样本和所述音频样本对应的文本样本;
167.步骤f20,将所述音频样本转换为对应的音频特征表示,以及将所述文本样本转换为对应的文本特征表示;
168.步骤f30,依据所述音频特征表示和所述文本特征表示,通过对所述基础声学模型进行微调,对所述正则化参数进行优化,得到所述说话人对应的预设正则化参数;
169.在本实施例中,需要说明的是,步骤f10至步骤f30的具体实施内容可参照上述步骤c10至步骤c30中的具体内容,在此不再赘述。
170.在另一实施方式中,第一设备可以接收第二设备下发的不同说话人对应的预设正则化参数,从而第一设备依据第二设备下发的预设正则化参数和本地已经存在的基础声学模型,部署目标说话人对应的个性化声学模型;第一设备也可以接收第二设备同时下发的不同说话人对应的预设正则化参数和基础声学模型,从而第一设备依据第二设备同时下发的预设正则化参数和基础声学模型,部署目标说话人对应的个性化声学模型。
171.其中,所述依据所述音频特征表示和所述文本特征表示,通过对所述基础声学模型进行微调,对所述正则化参数进行优化,得到所述说话人对应的预设正则化参数的步骤包括:
172.步骤f31,将所述音频特征表示和所述文本特征表示进行拼接,得到拼接特征表示;
173.步骤f32,依据所述基础声学模型,将所述拼接特征表示转换为输出个性化声学特征;
174.步骤f33,获取所述说话人对所述文本样本的真实个性化声学特征,依据所述输出个性化声学特征和所述真实个性化声学特征之间的差距,计算声学模型损失;
175.步骤f34,依据所述声学模型损失,在保证所述基础声学模型的神经元参数不变的情况下对所述正则化参数进行迭代优化,得到所述说话人对应的预设正则化参数。
176.在本实施例中,需要说明的是,步骤f31至步骤f34的具体实施内容具体可参照上述步骤a31至步骤a34中具体内容,在此不再赘述。
177.本技术实施例提供了一种个性化音频生成方法,也即获取目标说话人对应的目标音频特征表示以及目标文本对应的目标文本特征表示;依据所述目标说话人对应的个性化声学模型,将所述目标音频特征表示和所述目标文本特征表示共同转换为所述目标说话人对于所述目标文本的目标个性化声学特征;根据所述目标个性化声学特征,生成所述目标说话人对于所述目标文本的个性化音频。其中,由于所述个性化声学模型是根据所述目标说话人对应的目标正则化参数和基础声学模型进行部署得到,不同说话人对应不同的预设正则化参数,在需要合成目标说话人的个性化音频时,本技术实施例中在各预设正则化参数中查该目标说话人对应的目标正则化参数,将基础声学模型中的正则化参数替换为目标正则化参数即可得到目标说话人对应的个性化声学模型,从而完成个性化模型的部署,而不同说话人的音频的个性化音由正则化参数决定,从而依据目标说话人对应的个性化声学模型,即可生成具备目标说话人的个性化音的个性化音频,使得个性化音频与目标说话人的个性化音相匹配,提升了个性化音频与目标说话人之间的匹配度。
178.实施例四
179.本技术实施例还提供一种声学模型部署优化装置,应用于第一设备,所述第一设备部署有基础声学模型和不同说话人对应的预设正则化参数,所述声学模型部署优化装置包括:
180.正则化参数选取模块,用于在各预设正则化参数中选取目标说话人对应的目标正则化参数,其中,各所述预设正则化参数是根据不同说话人的音频特征表示对基础声学模型的正则化参数分别进行优化得到;
181.声学模型部署模块,用于根据所述目标正则化参数和所述基础声学模型,部署所述目标说话人对应的个性化声学模型。
182.可选地,所述声学模型部署优化装置还用于:
183.获取说话人的音频样本和所述音频样本对应的文本样本;将所述音频样本转换为对应的音频特征表示,以及将所述文本样本转换为对应的文本特征表示;依据所述音频特征表示和所述文本特征表示,通过对所述基础声学模型进行微调,对所述正则化参数进行优化,得到所述说话人对应的预设正则化参数;和/或
184.接收第二设备下发的不同说话人对应的预设正则化参数。
185.可选地,所述声学模型部署优化装置还用于:
186.将所述音频特征表示和所述文本特征表示进行拼接,得到拼接特征表示;
187.依据所述基础声学模型,将所述拼接特征表示转换为输出个性化声学特征;
188.获取所述说话人对所述文本样本的真实个性化声学特征,依据所述输出个性化声学特征和所述真实个性化声学特征之间的差距,计算声学模型损失;
189.依据所述声学模型损失,在保证所述基础声学模型的神经元参数不变的情况下对所述正则化参数进行迭代优化,得到所述说话人对应的预设正则化参数。
190.可选地,所述声学模型部署优化装置还用于:
191.获取所述目标说话人对应的目标音频特征表示以及目标文本对应的目标文本特征表示;
192.依据所述个性化声学模型,将所述目标音频特征表示和所述目标文本特征表示共同转换为所述目标说话人对于所述目标文本的目标个性化声学特征;
193.根据所述目标个性化声学特征,生成所述目标说话人对于所述目标文本的个性化音频。
194.本技术提供的声学模型部署优化装置,采用上述实施例中的声学模型部署优化方法,解决了个性化声学模型部署成本高的技术问题。与现有技术相比,本技术实施例提供的声学模型部署优化装置的有益效果与上述实施例提供的声学模型部署优化方法的有益效果相同,且该声学模型部署优化装置中的其他技术特征与上述实施例方法公开的特征相同,在此不做赘述。
195.实施例五
196.本技术实施例还提供一种声学模型部署优化装置,应用于第二设备,所述声学模型部署优化装置包括:
197.获取模块,用于获取各说话人的音频样本和各所述音频样本对应的文本样本;
198.特征变换模块,用于将各所述音频样本分别转换为对应的音频特征表示,以及将各所述文本样本分别转换为对应的文本特征表示;
199.模型微调模块,用于依据各所述音频特征表示和各所述文本特征表示,通过对基础声学模型进行微调,分别对所述基础声学模型的正则化参数进行优化,得到各所述说话人对应的预设正则化参数;
200.模型部署模块,用于依据各所述预设正则化参数和所述基础声学模型,在所述第一设备处部署个性化声学模型。
201.可选地,所述模型微调模块用于:
202.将所述音频特征表示和所述文本特征表示进行拼接,得到拼接特征表示;
203.依据所述基础声学模型,将所述拼接特征表示转换为输出个性化声学特征;
204.获取所述说话人对所述文本样本的真实个性化声学特征,依据所述输出个性化声学特征和所述真实个性化声学特征之间的差距,计算声学模型损失;
205.依据所述声学模型损失,在保证所述基础声学模型的神经元参数不变的情况下对所述正则化参数进行迭代优化,得到所述说话人对应的预设正则化参数。
206.可选地,所述模型部署模块还用于:
207.将各所述预设正则化参数和所述基础声学模型发送至第一设备,以供所述第一设备在各预设正则化参数中选取目标说话人对应的目标正则化参数,并根据所述目标正则化参数和所述基础声学模型,部署所述目标说话人对应的个性化声学模型。
208.本技术提供的声学模型部署优化装置,采用上述实施例中的声学模型部署优化方法,解决了个性化声学模型部署成本高的技术问题。与现有技术相比,本技术实施例提供的声学模型部署优化装置的有益效果与上述实施例提供的声学模型部署优化方法的有益效果相同,且该声学模型部署优化装置中的其他技术特征与上述实施例方法公开的特征相同,在此不做赘述。
209.实施例六
210.本技术实施例还提供一种个性化音频生成装置,应用于第一设备,所述个性化音频生成装置包括:
211.获取模块,用于获取目标说话人对应的目标音频特征表示以及目标文本对应的目标文本特征表示;
212.特征变化模块,用于依据所述目标说话人对应的个性化声学模型,将所述目标音频特征表示和所述目标文本特征表示共同转换为所述目标说话人对于所述目标文本的目标个性化声学特征,其中,所述个性化声学模型是根据所述目标说话人对应的目标正则化参数和基础声学模型进行部署得到;
213.生成模块,用于根据所述目标个性化声学特征,生成所述目标说话人对于所述目标文本的个性化音频。
214.可选地,所述第一设备部署有基础声学模型和不同说话人对应的预设正则化参数,所述个性化音频生成装置还用于:
215.在各预设正则化参数中选取所述目标说话人对应的目标正则化参数,其中,各所述预设正则化参数是根据不同说话人的音频特征表示对基础声学模型的正则化参数分别进行优化得到;
216.根据所述目标正则化参数和所述基础声学模型,部署所述目标说话人对应的个性化声学模型。
217.可选地,所述个性化音频生成装置还用于:
218.获取说话人的音频样本和所述音频样本对应的文本样本;将所述音频样本转换为对应的音频特征表示,以及将所述文本样本转换为对应的文本特征表示;依据所述音频特征表示和所述文本特征表示,通过对所述基础声学模型进行微调,对所述正则化参数进行优化,得到所述说话人对应的预设正则化参数;和/或
219.接收第二设备下发的不同说话人对应的预设正则化参数。
220.可选地,所述个性化音频生成装置还用于:
221.将所述音频特征表示和所述文本特征表示进行拼接,得到拼接特征表示;
222.依据所述基础声学模型,将所述拼接特征表示转换为输出个性化声学特征;
223.获取所述说话人对所述文本样本的真实个性化声学特征,依据所述输出个性化声学特征和所述真实个性化声学特征之间的差距,计算声学模型损失;
224.依据所述声学模型损失,在保证所述基础声学模型的神经元参数不变的情况下对所述正则化参数进行迭代优化,得到所述说话人对应的预设正则化参数。
225.本技术提供的个性化音频生成装置,采用上述实施例中的个性化音频生成方法,与现有技术相比,本技术实施例提供的个性化音频生成装置的有益效果与上述实施例提供的个性化音频生成方法的有益效果相同,且该个性化音频生成装置中的其他技术特征与上述实施例方法公开的特征相同,在此不做赘述。
226.实施例六
227.本技术实施例提供一种电子设备,电子设备包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述实施例中的声学模型部署优化方法或者个性化音频生成方法。
228.下面参考图5,其示出了适于用来实现本公开实施例的电子设备的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。图5示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
229.如图5所示,电子设备可以包括处理装置(例如中央处理器、图形处理器等),其可以根据存储在只读存储器(rom)中的程序或者从存储装置加载到随机访问存储器(ram)中的程序而执行各种适当的动作和处理。在ram中,还存储有电子设备操作所需的各种程序和数据。处理装置、rom以及ram通过总线彼此训练。输入/输出(i/o)接口也连接至总线。
230.通常,以下系统可以连接至i/o接口:包括例如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等的输入装置;包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置;包括例如磁带、硬盘等的存储装置;以及通信装置。通信装置可以允许电子设备与其他设备进行无线或有线通信以交换数据。虽然图中示出了具有各种系统的电子设备,但是应理解的是,并不要求实施或具备所有示出的系统。可以替代地实施或具备更多或更少的系统。
231.特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置从网络上被下载和安装,或者从存储装置被安装,或者从rom被安装。在该计算机程序被处理装置执行时,执行本公开实施例的方法中限定的上述功能。
232.本技术提供的电子设备,采用上述实施例中的声学模型部署优化方法,解决了个性化声学模型部署成本高的技术问题。与现有技术相比,本技术实施例提供的电子设备的有益效果与上述实施例提供的声学模型部署优化方法的有益效果相同,且该电子设备中的其他技术特征与上述实施例方法公开的特征相同,在此不做赘述。
233.本技术提供的电子设备,还可以采用上述实施例中的个性化音频生成方法,与现有技术相比,本技术实施例提供的电子设备的有益效果与上述实施例提供的个性化音频生成方法的有益效果相同,且该电子设备中的其他技术特征与上述实施例方法公开的特征相同,在此不做赘述。
234.应当理解,本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式的描述中,具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
235.以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。
236.实施例七
237.本实施例提供一种计算机可读存储介质,具有存储在其上的计算机可读程序指令,计算机可读程序指令用于执行上述实施例中的声学模型部署优化方法或者个性化音频生成方法。
238.本技术实施例提供的计算机可读存储介质例如可以是u盘,但不限于电、磁、光、电磁、红外线、或半导体的系统、系统或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、系统或者器件使用或者与其结合使用。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。
239.上述计算机可读存储介质可以是电子设备中所包含的;也可以是单独存在,而未装配入电子设备中。
240.上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被电子设备执行时,使得电子设备:在各预设正则化参数中选取目标说话人对应的目标正则化参数,其中,各所述预设正则化参数是根据不同说话人的音频特征表示对基础声学模型的正则化参数分别进行优化得到;根据所述目标正则化参数和所述基础声学模型,部署所述目标说话人对应的个性化声学模型。
241.上述计算机可读存储介质还可以承载有一个或者多个程序,当上述一个或者多个程序被电子设备执行时,使得电子设备:获取目标说话人对应的目标音频特征表示以及目标文本对应的目标文本特征表示;依据所述目标说话人对应的个性化声学模型,将所述目标音频特征表示和所述目标文本特征表示共同转换为所述目标说话人对于所述目标文本的目标个性化声学特征,其中,所述个性化声学模型是根据所述目标说话人对应的目标正则化参数和基础声学模型进行部署得到;根据所述目标个性化声学特征,生成所述目标说话人对于所述目标文本的个性化音频。
242.可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
243.附图中的流程图和框图,图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令
的组合来实现。
244.描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该单元本身的限定。
245.本技术提供的计算机可读存储介质,存储有用于执行上述声学模型部署优化方法的计算机可读程序指令,解决了个性化声学模型部署成本高的技术问题。与现有技术相比,本技术实施例提供的计算机可读存储介质的有益效果与上述实施例提供的声学模型部署优化方法的有益效果相同,在此不做赘述。
246.本技术提供的计算机可读存储介质,还可以存储有用于执行上述个性化音频生成方法的计算机可读程序指令,与现有技术相比,本技术实施例提供的计算机可读存储介质的有益效果与上述实施例提供的个性化音频生成方法的有益效果相同,在此不做赘述。
247.实施例八
248.本技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述的声学模型部署优化方法的步骤或者如上述的个性化音频生成方法的步骤。
249.本技术提供的计算机程序产品解决了个性化声学模型部署成本高的技术问题。与现有技术相比,本技术实施例提供的计算机程序产品的有益效果与上述实施例提供的声学模型部署优化方法的有益效果相同,在此不做赘述。
250.与现有技术相比,本技术实施例提供的计算机程序产品的有益效果还可以与上述实施例提供的个性化音频生成方法的有益效果相同,在此不做赘述。
251.以上仅为本技术的优选实施例,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利处理范围内。

技术特征:


1.一种声学模型部署优化方法,其特征在于,应用于第一设备,所述第一设备部署有基础声学模型和不同说话人对应的预设正则化参数,所述声学模型部署优化方法包括:在各预设正则化参数中选取目标说话人对应的目标正则化参数,其中,各所述预设正则化参数是根据不同说话人的音频特征表示对基础声学模型的正则化参数分别进行优化得到;根据所述目标正则化参数和所述基础声学模型,部署所述目标说话人对应的个性化声学模型。2.如权利要求1所述声学模型部署优化方法,其特征在于,在所述在各预设正则化参数中选取目标说话人对应的目标正则化参数,其中,各所述预设正则化参数是根据不同说话人的音频特征表示对基础声学模型的正则化参数分别进行优化得到的步骤之前,所述声学模型部署优化方法还包括:获取说话人的音频样本和所述音频样本对应的文本样本;将所述音频样本转换为对应的音频特征表示,以及将所述文本样本转换为对应的文本特征表示;依据所述音频特征表示和所述文本特征表示,通过对所述基础声学模型进行微调,对所述正则化参数进行优化,得到所述说话人对应的预设正则化参数;和/或接收第二设备下发的不同说话人对应的预设正则化参数。3.如权利要求2所述声学模型部署优化方法,其特征在于,所述依据所述音频特征表示和所述文本特征表示,通过对所述基础声学模型进行微调,对所述正则化参数进行优化,得到所述说话人对应的预设正则化参数的步骤包括:将所述音频特征表示和所述文本特征表示进行拼接,得到拼接特征表示;依据所述基础声学模型,将所述拼接特征表示转换为输出个性化声学特征;获取所述说话人对所述文本样本的真实个性化声学特征,依据所述输出个性化声学特征和所述真实个性化声学特征之间的差距,计算声学模型损失;依据所述声学模型损失,在保证所述基础声学模型的神经元参数不变的情况下对所述正则化参数进行迭代优化,得到所述说话人对应的预设正则化参数。4.如权利要求1或2所述声学模型部署优化方法,其特征在于,在所述根据所述目标正则化参数和所述基础声学模型,部署所述目标说话人对应的个性化声学模型的步骤之后,所述声学模型部署优化方法还包括:获取所述目标说话人对应的目标音频特征表示以及目标文本对应的目标文本特征表示;依据所述个性化声学模型,将所述目标音频特征表示和所述目标文本特征表示共同转换为所述目标说话人对于所述目标文本的目标个性化声学特征;根据所述目标个性化声学特征,生成所述目标说话人对于所述目标文本的个性化音频。5.一种声学模型部署优化方法,其特征在于,应用于第二设备,所述声学模型部署优化方法包括:获取各说话人的音频样本和各所述音频样本对应的文本样本;将各所述音频样本分别转换为对应的音频特征表示,以及将各所述文本样本分别转换为对应的文本特征表示;
依据各所述音频特征表示和各所述文本特征表示,通过对基础声学模型进行微调,分别对所述基础声学模型的正则化参数进行优化,得到各所述说话人对应的预设正则化参数;依据各所述预设正则化参数和所述基础声学模型,在所述第一设备处部署个性化声学模型。6.如权利要求5所述声学模型部署优化方法,其特征在于,所述依据各所述音频特征表示和各所述文本特征表示,通过对基础声学模型进行微调,分别对所述基础声学模型的正则化参数进行优化,得到各所述说话人对应的预设正则化参数的步骤包括:将所述音频特征表示和所述文本特征表示进行拼接,得到拼接特征表示;依据所述基础声学模型,将所述拼接特征表示转换为输出个性化声学特征;获取所述说话人对所述文本样本的真实个性化声学特征,依据所述输出个性化声学特征和所述真实个性化声学特征之间的差距,计算声学模型损失;依据所述声学模型损失,在保证所述基础声学模型的神经元参数不变的情况下对所述正则化参数进行迭代优化,得到所述说话人对应的预设正则化参数。7.如权利要求5所述声学模型部署优化方法,其特征在于,所述依据各所述预设正则化参数和所述基础声学模型,在所述第一设备处部署个性化声学模型的步骤包括:将各所述预设正则化参数和所述基础声学模型发送至第一设备,以供所述第一设备在各预设正则化参数中选取目标说话人对应的目标正则化参数,并根据所述目标正则化参数和所述基础声学模型,部署所述目标说话人对应的个性化声学模型。8.一种个性化音频生成方法,其特征在于,应用于第一设备,所述个性化音频生成方法包括:获取目标说话人对应的目标音频特征表示以及目标文本对应的目标文本特征表示;依据所述目标说话人对应的个性化声学模型,将所述目标音频特征表示和所述目标文本特征表示共同转换为所述目标说话人对于所述目标文本的目标个性化声学特征,其中,所述个性化声学模型是根据所述目标说话人对应的目标正则化参数和基础声学模型进行部署得到;根据所述目标个性化声学特征,生成所述目标说话人对于所述目标文本的个性化音频。9.如权利要求8所述个性化音频生成方法,其特征在于,所述第一设备部署有基础声学模型和不同说话人对应的预设正则化参数,在所述依据所述目标说话人对应的个性化声学模型,将所述目标音频特征表示和所述目标文本特征表示共同转换为所述目标说话人对于所述目标文本的目标个性化声学特征的步骤之前,所述个性化音频生成方法包括:在各预设正则化参数中选取所述目标说话人对应的目标正则化参数,其中,各所述预设正则化参数是根据不同说话人的音频特征表示对基础声学模型的正则化参数分别进行优化得到;根据所述目标正则化参数和所述基础声学模型,部署所述目标说话人对应的个性化声学模型。10.如权利要求8所述个性化音频生成方法,其特征在于,在所述在各预设正则化参数中选取所述目标说话人对应的目标正则化参数,其中,各所述预设正则化参数是根据不同
说话人的音频特征表示对基础声学模型的正则化参数分别进行优化得到的步骤之前,所述声学模型部署优化方法还包括:获取说话人的音频样本和所述音频样本对应的文本样本;将所述音频样本转换为对应的音频特征表示,以及将所述文本样本转换为对应的文本特征表示;依据所述音频特征表示和所述文本特征表示,通过对所述基础声学模型进行微调,对所述正则化参数进行优化,得到所述说话人对应的预设正则化参数;和/或接收第二设备下发的不同说话人对应的预设正则化参数。11.如权利要求10所述个性化音频生成方法,其特征在于,所述依据所述音频特征表示和所述文本特征表示,通过对所述基础声学模型进行微调,对所述正则化参数进行优化,得到所述说话人对应的预设正则化参数的步骤包括:将所述音频特征表示和所述文本特征表示进行拼接,得到拼接特征表示;依据所述基础声学模型,将所述拼接特征表示转换为输出个性化声学特征;获取所述说话人对所述文本样本的真实个性化声学特征,依据所述输出个性化声学特征和所述真实个性化声学特征之间的差距,计算声学模型损失;依据所述声学模型损失,在保证所述基础声学模型的神经元参数不变的情况下对所述正则化参数进行迭代优化,得到所述说话人对应的预设正则化参数。12.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至11中任一项所述的声学模型部署优化方法的步骤。13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有实现声学模型部署优化方法的程序,所述实现声学模型部署优化方法的程序被处理器执行以实现如权利要求1至11中任一项所述声学模型部署优化方法的步骤。14.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至11中任一项所述声学模型部署优化方法的步骤。

技术总结


本申请公开了模型部署方法、音频生成方法、电子设备、介质及产品,应用于第一设备,所述第一设备部署有基础声学模型和不同说话人对应的预设正则化参数,所述声学模型部署优化方法包括:在各预设正则化参数中选取目标说话人对应的目标正则化参数,其中,各所述预设正则化参数是根据不同说话人的音频特征表示对基础声学模型的正则化参数分别进行优化得到;根据所述目标正则化参数和所述基础声学模型,部署所述目标说话人对应的个性化声学模型。本申请解决了现有技术中个性化声学模型部署成本高的技术问题。本高的技术问题。本高的技术问题。


技术研发人员:

谢泽颖

受保护的技术使用者:

深圳前海微众银行股份有限公司

技术研发日:

2022.03.23

技术公布日:

2022/6/24

本文发布于:2024-09-21 05:48:49,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/4844.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   声学   正则   模型
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议