语音转换模型训练、语音转换方法、装置、电子设备及存储介质与流程

1.本技术涉及语音处理技术领域，特别是涉及一种语音转换模型训练、语音转换方法、装置、电子设备及存储介质。

背景技术：

2.语音转换(voice conversion，vc)是指通过改变与源说话人个性特征有关的声学特征参数，使之听起来像是目标说话人的语音，而其中的语义是不发生变化的。
3.根据数据的分布可以将语音转换分为两大类，一类是平行语料，另一类是非平行语料。平行语料对训练数据的要求很严格，而且只能转换训练集内的人的音，所以目前广泛使用的是非平行语料方法。非平行语料方法是使用一个与说话人无关的特征作为中间特征，来作为原始声学特征和目标声学特征之间的媒介。通过提取器可以从任意原始说话人的语音中提取中间特征，然后只需要训练一个从说话人无关特征到目标说话人声学特征之间的映射模型便可以实现语音转换。最直观的说话人无关特征即是文本特征，因此可以使用每一帧对应的音素后验概率图作为中间特征。
4.当前的主流vc模型包括两个子模型，分别是声学模型和声码器，声学模型把语音后验概率(phonetic posteriorgram，ppg)转换成mel谱，再由声码器把mel谱转成语音信号，由此实现从语音到mel谱，再从mel谱到语音的转换。但是，这种vc模型所输出语音的效果和音质会和实际期望的真人效果存在一定差距。

技术实现要素：

5.本技术实施例提供了一种语音转换模型训练、语音转换方法、装置、电子设备及存储介质，以解决如何减小语音转换模型所输出的音频结果与期望得到的音频结果之间的差异的问题。
6.第一方面，本技术实施例提供了一种语音转换模型训练方法，所述方法包括：
7.获取多个训练音分别对应的训练音频集；
8.针对每个训练音，根据所述训练音对应的训练音频集确定所述训练音对应的语音后验概率ppg特征数据集；
9.根据所述训练音对应的ppg特征数据集和所述训练音对应的声学特征信息，对声学模型和声码器进行联合训练，获取所述训练音对应的语音转换子模型；
10.其中，语音转换模型包括所述多个训练音分别对应的语音转换子模型，每一所述训练音对应于一音标识，所述训练音对应的音标识与所述训练音对应的语音转换子模型形成关联关系。
11.第二方面，本技术实施例提供了一种语音转换方法，应用于目标设备，包括：
12.获取第一音频对应的语音后验概率ppg特征数据，所述第一音频对应于源音；
13.将所述第一音频对应的ppg特征数据和目标音对应的目标音标识输入语音转
换模型，获取第二音频，所述第二音频对应于所述目标音、且所述第二音频与所述第一音频对应的内容相同；
14.其中，所述语音转换模型为对声学模型和声码器进行联合训练确定的模型，所述语音转换模型用于将所述第一音频对应的ppg特征数据转换为所述目标音对应的目标mel谱、并将所述目标mel谱转换为所述第二音频。
15.第三方面，本技术实施例还提供一种语音转换模型训练装置，包括：
16.第一获取模块，用于获取多个训练音分别对应的训练音频集；
17.确定模块，用于针对每个训练音，根据所述训练音对应的训练音频集确定所述训练音对应的语音后验概率ppg特征数据集；
18.第二获取模块，用于根据所述训练音对应的ppg特征数据集和所述训练音对应的声学特征信息，对声学模型和声码器进行联合训练，获取所述训练音对应的语音转换子模型；
19.其中，语音转换模型包括所述多个训练音分别对应的语音转换子模型，每一所述训练音对应于一音标识，所述训练音对应的音标识与所述训练音对应的语音转换子模型形成关联关系。
20.第四方面，本技术实施例还提供一种语音转换装置，应用于目标设备，包括：
21.第三获取模块，用于获取第一音频对应的语音后验概率ppg特征数据，所述第一音频对应于源音；
22.第四获取模块，用于获取将所述第一音频对应的ppg特征数据和目标音对应的目标音标识输入语音转换模型，获取第二音频，所述第二音频对应于所述目标音、且所述第二音频与所述第一音频对应的内容相同；
23.其中，所述语音转换模型为对声学模型和声码器进行联合训练确定的模型，所述语音转换模型用于将所述第一音频对应的ppg特征数据转换为所述目标音对应的目标mel谱、并将所述目标mel谱转换为所述第二音频。
24.第五方面，本技术实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述的语音转换模型训练方法或语音转换方法。
25.第六方面，本技术实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现上述的语音转换模型训练方法或语音转换方法。
26.第七方面，本技术实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述的语音转换模型训练方法或语音转换方法。
27.本技术实施例至少包括以下技术效果：
28.本技术技术方案，通过根据训练音对应的ppg特征数据集和声学特征信息对声学模型和声码器进行联合训练，获取训练音对应的语音转换子模型，进而获取包括多个训练音分别对应的语音转换子模型的语音转换模型，该语音转换模型是通过对声学模型和声码器进行联合训练所确定，与单独进行声学模型训练和声码器训练相比，联合训练方式可以消除声学模型和声码器之间衔接问题，使得通过该语音转换模型在进行语音转换过程中可以更加顺畅的对音频进行处理，可以获取到自然流畅且音质效果更加接近实际期望
输出音频的音频，减小语音转换模型所输出的音频与实际期望输出的音频之间的差异。
附图说明
29.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
30.图1是本技术实施例提供的语音转换模型训练方法的流程示意图；
31.图2是本技术实施例提供的语音转换方法的流程示意图之一；
32.图3是本技术实施例提供的语音转换方法的流程示意图之二；
33.图4是本技术实施例提供的语音转换模型训练装置的结构示意图；
34.图5是本技术实施例提供的语音转换装置的结构示意图；
35.图6为本技术实施例提供的电子设备的框图。
具体实施方式
36.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
37.应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本技术的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
38.在本技术的各种实施例中，应理解，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本技术实施例的实施过程构成任何限定。
39.本技术实施例提供一种语音转换模型训练方法，如图1所示，所述方法包括：
40.步骤101，获取多个训练音分别对应的训练音频集。
41.步骤102，针对每个训练音，根据所述训练音对应的训练音频集确定所述训练音对应的ppg特征数据集。
42.步骤103，根据所述训练音对应的ppg特征数据集和所述训练音对应的声学特征信息，对声学模型和声码器进行联合训练，获取所述训练音对应的语音转换子模型；其中，所述语音转换模型包括所述多个训练音分别对应的语音转换子模型，每一所述训练音对应于一音标识，所述训练音对应的音标识与所述训练音对应的语音转换子模型形成关联关系。
43.具体的，通过本技术实施例提供的语音转换模型训练方法得到的语音转换模型可以将输入的第一音频转换为第二音频，其中，第一音频对应于源音，第二音频对应为目标音。本技术中提到的第一音频对应于源音是指第一音频的音为源音，第二音频对应于目标音是指第二音频的音为目标音。例如，第一音频是使用源音的“你好”，在确定目标音后，通过语音转换模型得到的第二音频为使用目标音的“你好”。
44.对该语音转换模型进行训练时，可以通过多个训练音分别对应的训练音频集所
确定的ppg特征数据集分别进行模型训练，从而使得训练得到的语音转换模型可以将第一音频转换为多个训练音中的任一音对应的音频。针对每个训练音，根据所述训练音对应的ppg特征数据集和所述训练音对应的声学特征信息，对声学模型和声码器进行联合训练，获取所述训练音对应的语音转换子模型。
45.需要说明的是，该语音转换模型包括多个训练音分别对应的语音转换子模型，每一训练音对应于一音标识，音标识与训练音对应的语音转换子模型形成关联关系。
46.在通过该语音转换模型进行语音转换时，需要确定所要转换的源音对应的音频，以及转换结果所对应的目标音，然后将目标音对应的目标音标识输入至语音转换模型中，即可调用与该目标音标识关联的语音转换子模型，也就是目标语音转换子模型，并通过该目标语音转换子模型，在保持所要转换的音频的内容特征不变的情况下，将音频对应的音进行改变，转换为目标音，从而实现将源音对应的音频转换为目标音对应的音频。
47.需要说明的是，在通过该语音转换模型进行语音转换时，可以同时输入多个音标识，在输入多个音标识的情况下，语音转换模型可以针对每一音标识调用对应的语音转换子模型，并基于对应的语音转换子模型，输出与每一音标识对应的音频，具体音频的输出顺序可以与音标识的输入顺序相同，从而实现了语音转换模型将输入音频转换为多个音分别对应的音频的目的。
48.本技术实施例通过根据训练音对应的ppg特征数据集和声学特征信息对声学模型和声码器进行联合训练，获取训练音对应的语音转换子模型，进而获取包括多个训练音分别对应的语音转换子模型的语音转换模型，该语音转换模型是通过对声学模型和声码器进行联合训练所确定，与单独进行声学模型训练和声码器训练相比，联合训练方式可以消除声学模型和声码器之间衔接问题，使得通过该语音转换模型在进行语音转换过程中可以更加顺畅的对音频进行处理，可以获取到自然流畅且音质效果更加接近实际期望输出音频的音频，减小语音转换模型所输出的音频与实际期望输出的音频之间的差异。
49.下面对如何获取所述训练音对应的语音转换子模型的过程进行介绍。
50.具体的，所述根据所述训练音对应的ppg特征数据集和所述训练音对应的声学特征信息，对声学模型和声码器进行联合训练，获取所述训练音对应的语音转换子模型，包括：
51.根据所述训练音对应的ppg特征数据和声学特征信息，对声学模型和声码器进行联合训练，在完成一次联合训练后，获取所述训练音对应的声学特征信息与输出音频的匹配度，所述输出音频为训练得到的子模型的输出结果；
52.在所述匹配度小于预设比例时，重复联合训练的过程，直至所述训练音对应的声学特征信息与输出音频的匹配度大于所述预设比例时，停止联合训练，获取所述训练音对应的语音转换子模型。
53.需要说明的是，在根据所述训练音对应的ppg特征数据集和所述训练音对应的声学特征信息，对声学模型和声码器进行联合训练时，目标设备可以将训练音对应的ppg特征数据以及声学特征信息输入预先构建的模型架构。通过训练音对应的ppg特征数据和声学特征信息进行至少一次训练，以获取训练音对应的语音转换子模型。其中，模型
训练的过程可以理解为模型调整参数的过程，针对除首次模型训练之外的每次模型训练，在进行训练之前需要调整模型参数，因此每次模型训练所对应的模型参数不同。
54.其中，ppg特征数据是训练角对应的训练音频在每个特定时间帧、每个语音类别的后验概率，声学特征信息是指训练角对应的训练音频对应的能量集中区、共振峰频率、共振峰强度、带宽以及表示语音韵律特性的时长、基频、平均语声功率等中的至少一项。
55.具体的，在获取训练音对应的语音转换子模型的过程中，可以在训练音对应的ppg特征数据和声学特征信息进行一次联合训练后，获取所述训练音对应的声学特征信息与输出音频的匹配度，所述输出音频为训练得到的子模型的输出结果。然后通过对该匹配度与预设比例(例如预设比例为90％)进行比较，确定该联合训练过程是否完成。
56.具体的，在所述匹配度小于预设比例时，重复联合训练的过程，直至所述训练音对应的声学特征信息与输出音频的匹配度大于预设比例，此时，联合训练得到的模型在进行语音转换时，输出的音频与训练音对应的声学特征信息的匹配度达到预设比例，表示输出的音频与期望得到的音频之间的差异满足条件，故可以停止联合训练，获取所述训练音对应的语音转换子模型。
57.本技术上述实施方案，通过在根据训练音对应的ppg特征数据和声学特征信息进行至少一次联合训练，获取训练音对应的语音转换子模型的过程中，获取每一次联合训练后，训练音对应的声学特征信息与输出音频的匹配度，并基于该匹配度与预设比例的关系，确定联合训练停止时对应的训练次数，从而可以使得停止联合训练时所得到的语音转换子模型，在进行语音转换时，所输出的语音与期望得到的语音之间的差距较小。
58.在本技术一可选实施例中，根据所述训练音对应的ppg特征数据和声学特征信息，对声学模型和声码器进行联合训练，获取所述训练音对应的声学特征信息与输出音频的匹配度，包括：
59.根据所述训练音对应的ppg特征数据和声学特征信息进行声学模型训练，获取与所述ppg特征数据对应的第一mel谱；
60.根据所述第一mel谱进行声码器训练，获取与所述第一mel谱对应的第一音频；
61.根据所述训练音对应的声学特征信息和所述第一音频，确定所述训练音对应的声学特征信息与输出音频的匹配度。
62.具体的，根据训练音对应的ppg特征数据和声学特征信息，对声学模型和声码器进行联合训练，以获取训练音对应的声学特征信息与输出音频的匹配度的过程，包括两个训练过程，第一个训练过程是根据所述训练音对应的ppg特征数据和声学特征信息进行声学模型训练，获取与所述ppg特征数据对应的第一mel谱，第二个训练过程是根据所述第一mel谱进行声码器训练，获取与所述第一mel谱对应的第一音频。然后基于所述训练音对应的声学特征信息和所述第一音频，确定所述训练音对应的声学特征信息与输出音频的匹配度。其中，第二次训练过程所使用的数据(第一mel谱)为第一次训练过程输出的数据(第一mel谱)，从而使得两个训练过程之间的关系更加紧密。具体的，在两次训练过程中可以采用深度学习方法。
63.需要说明的是，在确定训练音对应的声学特征信息与输出音频的匹配度时，可以通过获取输出音频对应的声学特征信息，并将得到的声学特征特征信息与训练音对应的声学特征信息进行比较，以确定训练音对应的声学特征信息与输出音频的匹配度。
64.本技术上述实施方案，在进行语音转换子模型的联合训练过程中，将声学模型训练和声码器训练进行了融合，使得声码器训练过程所使用的数据(第一mel谱)为声学模型训练过程输出的数据(第一mel谱)，从而使得两个训练过程之间的关系更加紧密、衔接更顺畅，进而使得在使用该语音转换子模型时，可以减小输出的音频与期望得到的音频之间的差异。
65.本技术实施例还提供一种语音转换方法，应用于目标设备，该目标设备可以是电脑、手机等电子设备，在此不做具体限定。该目标设备通过本技术实施例提供的语音转换方法可以实现将源音对应的第一音频转换为目标音对应的、且与第一音频内容相同的第二音频。例如，在无法直接获取到人物b讲述某段文字对应的音频的情况下，可以通过语音转换技术将人物a讲述的该段文字的音频对应的音转换为人物b的音，其中人物a对应的音为源音，人物b对应的音为目标音。具体可以应用在影视剧配音中。
66.如图2所示，该语音转换方法可以包括：
67.步骤201，获取第一音频对应的语音后验概率ppg特征数据，所述第一音频对应于源音。
68.本技术实施例在检测到需要进行语音转换的第一音频后，需要将其转换为对应的ppg特征数据，ppg特征数据是一个时间对类别的矩阵，可以表示第一音频在每个特定时间帧、每个语音类别的后验概率。由于该ppg特征数据仅表征第一音频的内容信息，从而可以通过获取第一音频对应的ppg特征数据，得到与源音无关的ppg特征数据，实现了对第一音频对应的内容特征的提取。
69.步骤202，将所述第一音频对应的ppg特征数据和目标音对应的目标音标识输入语音转换模型，获取第二音频，所述第二音频对应于所述目标音、且所述第二音频与所述第一音频对应的内容相同；其中，所述语音转换模型为对声学模型和声码器进行联合训练确定的模型，所述语音转换模型用于将所述第一音频对应的ppg特征数据转换为所述目标音对应的目标mel谱、并将所述目标mel谱转换为所述第二音频。
70.具体的，在需要对第一音频对应的音进行转换时，需要确定目标音，进而通过语音转换模型将第一音频对应的音转化为目标音，第一音频所对应的内容和第二音频所对应的内容相同。
71.下面对通过语音转换模型获取第二音频的过程进行介绍，在需要将第一音频转换为第二音频时，需要将第一音频对应的ppg特征数据和目标音对应的目标音标识输入至语音转换模型中，语音转换模型可以根据接收到的ppg特征数据和目标音标识信息，输出与第一音频的内容相同、对应于目标音的第二音频。例如，源音为人物a的音，目标音为人物b的音，第一音频为人物a说的、内容为“再见”的音频，通过对第一音频进行内容提取，可以得到第一音频对应的ppg特征数据，该ppg特征数据中包括内容特征“再见”，通过将ppg特征数据和人物b的音对应的音标识输入至语音转换模型，可以得到第二音频，第二音频为人物b说的、内容为“再见”的音频。
72.具体的，语音转换模型为对声学模型和声码器进行联合训练确定的模型，也就是说，通过该语音转换模型可以实现声学模型和声码器的功能，故通过该语音转换模型可以将第一音频对应的ppg特征数据转换为目标音对应的目标mel谱、并将目标mel谱转换为第二音频。
73.本技术实施例通过获取第一音频对应的ppg特征数据，并将第一音频对应的ppg特征数据和目标音对应的目标音标识信息输入至语音转换模型，通过语音转换模型获取第二音频，该语音转换模型是通过对声学模型和声码器进行联合训练所确定，与单独进行声学模型训练和声码器训练相比，联合训练方式可以消除声学模型和声码器之间衔接问题，使得通过该语音转换模型在进行语音转换过程中可以更加顺畅的对音频进行处理，可以获取到自然流畅且音质效果更加接近实际期望输出音频的音频，减小语音转换模型所输出的音频与实际期望输出的音频之间的差异。
74.在本技术一可选实施例中，所述目标设备包括ppg提取模块，所述获取第一音频对应的语音后验概率ppg特征数据，包括：
75.通过所述ppg提取模块对所述第一音频进行内容提取，获取所述第一音频对应的ppg特征数据。
76.具体的，在所述目标设备中设置有ppg提取模块，用于对第一音频进行内容提取，以得到与第一音频对应的ppg特征数据。其中，该ppg提取模块中设置有训练语音识别(automatic speech recognition，asr)模型，ppg提取模块可以通过调用该asr模型，得到第一音频中每一帧输入语音属于哪个音素的概率，也就是ppg特征数据。
77.本技术上述实施方案，通过ppg提取模块对第一音频进行内容提取，可以获取到第一音频对应的ppg特征数据，实现了对第一音频的预处理过程，获取了表征第一音频的内容特征的ppg特征数据。
78.在本技术一可选实施例中，所述语音转换模型包括多个训练音分别对应的语音转换子模型，每一所述训练音对应于一音标识，所述训练音对应的音标识与所述训练音对应的语音转换子模型形成关联关系，所述目标音为所述多个训练音中的其中之一。所述将所述第一音频对应的ppg特征数据和目标音对应的目标音标识输入语音转换模型，获取第二音频，包括：
79.将所述第一音频对应的ppg特征数据和所述目标音标识输入语音转换模型，以使所述语音转换模型基于所述目标音标识调用关联的目标语音转换子模型；
80.获取所述目标语音转换子模型根据所述第一音频对应的ppg特征数据输出的所述第二音频。
81.具体的，语音转换模型包括多个训练音分别对应的语音转换子模型，每一训练音对应于一音标识，音标识与训练音对应的语音转换子模型形成关联关系。在将第一音频对应的ppg特征数据转换为目标音对应的第二音频时，需要确定与该目标音对应的语音转换子模型。在确定与目标音对应的语音转换子模型时，由于音标识与语音转换子模型之间存在关联关系，故可以基于目标音对应的目标音标识确定与目标音关联的目标语音转换子模型。
82.在确定目标语音转换子模型之后，可以将第一音频对应的ppg特征输入输入该目标语音转换子模型，以获取目标音对应的第二音频。
83.本技术上述实施方案，在获取目标音对应的第二音频时，通过目标音标识调用关联的目标语音转换子模型，以获取目标语音转换子模型输出的第二音频。可以实现基于音标识与语音转换子模型之间的关联关系，调用目标语音转换子模型，以基于目标语音转换子模型获取目标音对应的第二音频。
84.为了进一步说明本技术的技术方案，将上述技术方案应用到具体场景说明，例如，在无法直接获取到人物b讲述某段文字对应的音频的情况下，可以通过语音转换技术将人物a讲述的该段文字对应的音频转换为人物b的音，获取待转换的音频，即人物a讲述的该段文字对应的音频，并将其确定为第一音频，确定人物b的音为目标音，并将需要获取的音频，即人物b讲述某段文字对应的音频，确定为第二音频。如图3所示，通过将第一音频和目标音标识输入至目标设备中，可以获取到第二音频，其中，第一音频对应源音(人物a的音)，第二音频对应目标音(人物b的音)，目标音标识为目标音的标识。目标设备可以包括ppg提取模块和语音转换模块，通过ppg提取模块可以将第一音频转换为ppg特征数据，通过语音转换模型可以将输入的ppg特征数据和目标音标识转换为第二音频。可选地，语音转换模型可以设置在除目标设备的其他设备或服务器上，在目标设备需要对音频进行语音转换时，可以调用设置在其他设备或服务器上的语音转换模型，以实现语音转换过程。
85.具体的，该语音转换模型为对声学模型和声码器进行联合训练确定的模型，所述语音转换模型用于将所述ppg特征数据转换为所述目标音对应的目标mel谱、并将所述目标mel谱转换为所述第二音频。
86.综上所述，语音转换模型为对声学模型和声码器进行联合训练确定的模型，由于采用了联合训练的模型训练方式，与单独进行声学模型训练和声码器训练相比，联合训练方式可以消除声学模型和声码器之间衔接问题，可以使得ppg特征数据在通过该语音转换模型转换为第二音频的过程中，所得到的第二音频与实际期望输出的音频之间的差异较小。同时，由于该语音转换模型为将声学模型和声码器融为一体的模型，从而可以在进行语音转换时仅通过一个模型即可实现语音的转换，简化了进行语音转换的模型。更进一步的，由于通过该语音转换模型得到的第二音频与实际期望输出的音频之间的差异较小，故无需再对第二音频进行微调处理，从而无需添加用于微调处理的微调声码器，降低了语音转换模型的复杂程度。
87.以上介绍了本技术实施例提供的语音转换模型训练方法和语音转换方法，下面将结合附图介绍本技术实施例提供的语音转换模型训练装置和语音转换装置。
88.如图4所示，本技术实施例还提供了一种语音模型训练装置，包括：
89.第一获取模块401，用于获取多个训练音分别对应的训练音频集；
90.确定模块402，用于针对每个训练音，根据所述训练音对应的训练音频集确定所述训练音对应的语音后验概率ppg特征数据集；
91.第二获取模块403，用于根据所述训练音对应的ppg特征数据集和所述训练音对应的声学特征信息，对声学模型和声码器进行联合训练，获取所述训练音对应的语音转换子模型；
92.其中，语音转换模型包括所述多个训练音分别对应的语音转换子模型，每一所述训练音对应于一音标识，所述训练音对应的音标识与所述训练音对应的语音转换子模型形成关联关系。
93.可选的，所述确定模块包括：
94.第一获取子模块，用于根据所述训练音对应的ppg特征数据和声学特征信息，对声学模型和声码器进行联合训练，在完成一次联合训练后，获取所述训练音对应的声学
特征信息与输出音频的匹配度，所述输出音频为训练得到的子模型的输出结果；
95.第二获取子模块，用于在所述匹配度小于预设比例时，重复联合训练的过程，直至所述训练音对应的声学特征信息与输出音频的匹配度大于所述预设比例时，停止联合训练，获取所述训练音对应的语音转换子模型。
96.可选的，所述第一获取子模块包括：
97.第一获取单元，用于根据所述训练音对应的ppg特征数据和声学特征信息进行声学模型训练，获取与所述ppg特征数据对应的第一mel谱；
98.第二获取单元，用于根据所述第一mel谱进行声码器训练，获取与所述第一mel谱对应的第一音频；
99.第三获取单元，用于根据所述训练音对应的声学特征信息和所述第一音频，确定所述训练音对应的声学特征信息与输出音频的匹配度。
100.本技术提供的语音转换模型训练装置，通过根据训练音对应的ppg特征数据集和声学特征信息对声学模型和声码器进行联合训练，获取训练音对应的语音转换子模型，进而获取包括多个训练音分别对应的语音转换子模型的语音转换模型，该语音转换模型是通过对声学模型和声码器进行联合训练所确定，与单独进行声学模型训练和声码器训练相比，联合训练方式可以消除声学模型和声码器之间衔接问题，使得通过该语音转换模型在进行语音转换过程中可以更加顺畅的对音频进行处理，可以获取到音质效果更加接近实际期望输出音频、自然流畅的音频，减小语音转换模型所输出的音频与实际期望输出的音频之间的差异。
101.如图5所示，本技术实施例还提供了一种语音转换装置，应用于目标设备，包括：
102.第三获取模块501，用于获取第一音频对应的语音后验概率ppg特征数据，所述第一音频对应于源音；
103.第四获取模块502，用于获取将所述第一音频对应的ppg特征数据和目标音对应的目标音标识输入语音转换模型，获取第二音频，所述第二音频对应于所述目标音、且所述第二音频与所述第一音频对应的内容相同；
104.其中，所述语音转换模型为对声学模型和声码器进行联合训练确定的模型，所述语音转换模型用于将所述第一音频对应的ppg特征数据转换为所述目标音对应的目标mel谱、并将所述目标mel谱转换为所述第二音频。
105.可选的，所述第三获取模块包括：
106.第三获取子模块，用于通过所述ppg提取模块对所述第一音频进行内容提取，获取所述第一音频对应的ppg特征数据。
107.可选的，所述第四获取模块包括：
108.输入子模块，用于将所述第一音频对应的ppg特征数据和所述目标音标识输入语音转换模型，以使所述语音转换模型基于所述目标音标识调用关联的目标语音转换子模型；
109.第四获取子模块，用于获取所述目标语音转换子模型根据所述第一音频对应的ppg特征数据输出的所述第二音频。
110.本技术提供的语音转换装置，通过获取第一音频对应的ppg特征数据，并将第一音频对应的ppg特征数据和目标音对应的目标音标识信息输入至语音转换模型，通过语
音转换模型获取第二音频，该语音转换模型是通过对声学模型和声码器进行联合训练所确定，与单独进行声学模型训练和声码器训练相比，联合训练方式可以消除声学模型和声码器之间衔接问题，使得通过该语音转换模型在进行语音转换过程中可以更加顺畅的对音频进行处理，可以获取到音质效果更加接近实际期望输出音频、自然流畅的音频，减小语音转换模型所输出的音频与实际期望输出的音频之间的差异。
111.本技术实施例还提供了一种电子设备，如图6所示，包括处理器61、通信接口62、存储器63和通信总线64，其中，处理器61，通信接口62，存储器63通过通信总线64完成相互间的通信，存储器63，用于存放计算机程序；所述处理器61，用于执行存储器63上所存放的程序。其中，处理器61在执行语音转换模型训练方法时，用于实现如下步骤：获取多个训练音分别对应的训练音频集；针对每个训练音，根据所述训练音对应的训练音频集确定所述训练音对应的语音后验概率ppg特征数据集；根据所述训练音对应的ppg特征数据集和所述训练音对应的声学特征信息，对声学模型和声码器进行联合训练，获取所述训练音对应的语音转换子模型；其中，语音转换模型包括所述多个训练音分别对应的语音转换子模型，每一所述训练音对应于一音标识，所述训练音对应的音标识与所述训练音对应的语音转换子模型形成关联关系。处理器61还可以实现语音转换模型训练方法的其他实施过程，这里不再进一步阐述。其中，处理器61在执行语音转换方法时，用于实现如下步骤：获取第一音频对应的ppg特征数据，所述第一音频对应于源音；将所述第一音频对应的ppg特征数据和目标音对应的目标音标识输入语音转换模型，获取第二音频，所述第二音频对应于所述目标音、且所述第二音频与所述第一音频对应的内容相同；其中，所述语音转换模型为对声学模型和声码器进行联合训练确定的模型，所述语音转换模型用于将所述第一音频对应的ppg特征数据转换为所述目标音对应的目标mel谱、并将所述目标mel谱转换为所述第二音频。处理器61还可以实现语音转换方法的其他实施过程，这里不再进一步阐述。
112.上述电子设备提到的通信总线可以是外设部件互连标准(peripheral component interconnect，简称pci)总线或扩展工业标准结构(extended industry standard architecture，简称eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
113.存储器可以包括随机存取存储器(random access memory，简称ram)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。
114.上述的处理器可以是通用处理器，包括中央处理器(central processing unit，简称cpu)、网络处理器(network processor，简称np)等；还可以是数字信号处理器(digital signal processing，简称dsp)、专用集成电路(application specific integrated circuit，简称asic)、现场可编程门阵列(field－programmable gate array，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
115.在本技术提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中所述的语音转换方法。
116.在本技术提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其
在计算机上运行时，使得计算机执行上述实施例中所述的语音转换方法。
117.在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
118.需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
119.本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
120.以上所述仅为本技术的较佳实施例而已，并非用于限定本技术的保护范围。凡在本技术的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本技术的保护范围内。

技术特征：

1.一种语音转换模型训练方法，其特征在于，所述方法包括：获取多个训练音分别对应的训练音频集；针对每个训练音，根据所述训练音对应的训练音频集确定所述训练音对应的语音后验概率ppg特征数据集；根据所述训练音对应的ppg特征数据集和所述训练音对应的声学特征信息，对声学模型和声码器进行联合训练，获取所述训练音对应的语音转换子模型；其中，语音转换模型包括所述多个训练音分别对应的语音转换子模型，每一所述训练音对应于一音标识，所述训练音对应的音标识与所述训练音对应的语音转换子模型形成关联关系。2.根据权利要求1所述的语音转换模型训练方法，其特征在于，所述根据所述训练音对应的ppg特征数据集和所述训练音对应的声学特征信息，对声学模型和声码器进行联合训练，获取所述训练音对应的语音转换子模型，包括：根据所述训练音对应的ppg特征数据和声学特征信息对声学模型和声码器进行联合训练，在完成一次联合训练后，获取所述训练音对应的声学特征信息与输出音频的匹配度，所述输出音频为训练得到的子模型的输出结果；在所述匹配度小于预设比例时，重复联合训练的过程，直至所述训练音对应的声学特征信息与输出音频的匹配度大于所述预设比例时，停止联合训练，获取所述训练音对应的语音转换子模型。3.根据权利要求2所述的语音转换模型训练方法，其特征在于，根据所述训练音对应的ppg特征数据和声学特征信息，对声学模型和声码器进行联合训练，获取所述训练音对应的声学特征信息与输出音频的匹配度，包括：根据所述训练音对应的ppg特征数据和声学特征信息进行声学模型训练，获取与所述ppg特征数据对应的第一mel谱；根据所述第一mel谱进行声码器训练，获取与所述第一mel谱对应的第一音频；根据所述训练音对应的声学特征信息和所述第一音频，确定所述训练音对应的声学特征信息与输出音频的匹配度。4.一种语音转换方法，其特征在于，应用于目标设备，所述方法包括：获取第一音频对应的ppg特征数据，所述第一音频对应于源音；将所述第一音频对应的ppg特征数据和目标音对应的目标音标识输入语音转换模型，获取第二音频，所述第二音频对应于所述目标音、且所述第二音频与所述第一音频对应的内容相同；其中，所述语音转换模型为对声学模型和声码器进行联合训练确定的模型，所述语音转换模型用于将所述第一音频对应的ppg特征数据转换为所述目标音对应的目标mel谱、并将所述目标mel谱转换为所述第二音频。5.根据权利要求4所述的语音转换方法，其特征在于，所述语音转换模型包括多个训练音分别对应的语音转换子模型，每一所述训练音对应于一音标识，所述训练音对应的音标识与所述训练音对应的语音转换子模型形成关联关系，所述目标音为所述多个训练音中的其中之一。6.根据权利要求5所述的语音转换方法，其特征在于，所述将所述第一音频对应的ppg
特征数据和目标音对应的目标音标识输入语音转换模型，获取第二音频，包括：将所述第一音频对应的ppg特征数据和所述目标音标识输入语音转换模型，以使所述语音转换模型基于所述目标音标识调用关联的目标语音转换子模型；获取所述目标语音转换子模型根据所述第一音频对应的ppg特征数据输出的所述第二音频。7.一种语音转换模型训练装置，其特征在于，包括：第一获取模块，用于获取多个训练音分别对应的训练音频集；确定模块，用于针对每个训练音，根据所述训练音对应的训练音频集确定所述训练音对应的语音后验概率ppg特征数据集；第二获取模块，用于根据所述训练音对应的ppg特征数据集和所述训练音对应的声学特征信息，对声学模型和声码器进行联合训练，获取所述训练音对应的语音转换子模型；其中，语音转换模型包括所述多个训练音分别对应的语音转换子模型，每一所述训练音对应于一音标识，所述训练音对应的音标识与所述训练音对应的语音转换子模型形成关联关系。8.一种语音转换装置，其特征在于，应用于目标设备，包括：第三获取模块，用于获取第一音频对应的语音后验概率ppg特征数据，所述第一音频对应于源音；第四获取模块，用于获取将所述第一音频对应的ppg特征数据和目标音对应的目标音标识输入语音转换模型，获取第二音频，所述第二音频对应于所述目标音、且所述第二音频与所述第一音频对应的内容相同；其中，所述语音转换模型为对声学模型和声码器进行联合训练确定的模型，所述语音转换模型用于将所述第一音频对应的ppg特征数据转换为所述目标音对应的目标mel谱、并将所述目标mel谱转换为所述第二音频。9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现权利要求1至3任一项所述的语音转换模型训练方法中的步骤或者实现权利要求4至6任一项所述的语音转换方法中的步骤。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至3任一项所述的语音转换模型训练方法中的步骤或者实现权利要求4至6任一项所述的语音转换方法中的步骤。

技术总结

本申请提供一种语音转换模型训练、语音转换方法、装置、电子设备及存储介质，该语音转换模型训练方法包括：获取多个训练音分别对应的训练音频集；针对每个训练音，根据训练音对应的训练音频集确定训练音对应的PPG特征数据集；根据训练音对应的PPG特征数据集和训练音对应的声学特征信息，对声学模型和声码器进行联合训练，获取训练音对应的语音转换子模型；语音转换模型包括多个训练音分别对应的语音转换子模型。本申请可以减小语音转换模型所输出的音频与实际期望输出的音频之间的差异。之间的差异。之间的差异。