语音转换模型的训练、语音转换方法、系统及设备与流程

1.本技术涉及语音处理技术领域，尤其是一种语音转换模型的训练、语音转换方法、系统及设备。

背景技术：

2.近年来，随着人工智能技术的发展，各类相关的应用正在逐步走进人们的生活工作中。其中，语音转换技术是一种重要的、被广泛应用的、促进人与人之间交流的技术。语音转换技术，是指将原始说话者的个性特征转换为目标说话者的个性特征，使转换后的语音听起来与目标说话者的语音一致，同时在转换过程中保留源语音的内容。
3.相关技术中，在进行语音转换时，往往只是简单的转换下语音的声，转换后的语音数据，并不能很好地体现出目标说话者的特征，导致听起来既不像原始说话者的语音也不像目标说话者的语音，因而转换的效果较差，无法给用户以良好的应用体验。
4.综上，相关技术存在的问题亟需得到解决。

技术实现要素：

5.本技术的目的在于至少一定程度上解决相关技术中存在的技术问题之一。
6.为此，本技术实施例的一个目的在于提供一种语音转换模型的训练方法，该方法可以提高训练得到的语音转换模型的语音转换效果。
7.为了达到上述技术目的，本技术实施例所采取的技术方案包括：
8.一方面，本技术实施例提供了一种语音转换模型的训练方法，所述语音转换模型包括第一生成器、第二生成器、第一鉴别器和第二鉴别器；所述语音转换模型的训练方法，包括：
9.获取训练数据集；所述训练数据集中包括第一对象的第一语音数据和目标对象的第二语音数据；
10.从所述第一语音数据提取第一频谱数据和第一基频数据，从所述第二语音数据提取第二基频数据；
11.根据所述第一频谱数据和所述第一基频数据，通过所述第一生成器生成所述第一对象的预测语音数据，并将所述第一语音数据和所述预测语音数据输入到所述第一鉴别器进行鉴别处理，得到第一鉴别结果；
12.将所述第一基频数据输入所述第二生成器，生成所述目标对象的预测基频数据，并将所述第二基频数据和所述预测基频数据输入到所述第二鉴别器进行鉴别处理，得到第二鉴别结果；
13.根据所述第一鉴别结果和所述第二鉴别结果，对所述语音转换模型的参数进行更新。
14.另外，根据本技术上述实施例的一种语音转换模型的训练方法，还可以具有以下附加的技术特征：
15.进一步地，在本技术的一个实施例中，所述根据所述第一频谱数据和所述第一基频数据，通过所述第一生成器生成所述第一对象的预测语音数据，包括：
16.对所述第一频谱数据进行矢量化处理，得到第一向量数据；
17.将所述第一向量数据和所述第一基频数据输入到所述第一生成器中，生成所述第一对象的预测语音数据。
18.进一步地，在本技术的一个实施例中，所述对所述第一频谱数据进行矢量化处理，得到第一向量数据，包括：
19.对所述第一频谱数据进行编码处理，得到连续变量；
20.对所述连续变量进行矢量化处理，得到离散变量；
21.计算所述连续变量和所述离散变量的差值，得到所述第一向量数据。
22.进一步地，在本技术的一个实施例中，所述根据所述第一鉴别结果和所述第二鉴别结果，对所述语音转换模型的参数进行更新，包括：
23.根据所述第一鉴别结果，确定训练的第一损失值，并通过所述第一损失值对所述第一鉴别器的参数和所述第一生成器的参数进行更新；
24.根据所述第二鉴别结果，确定训练的第二损失值，并通过所述第二损失值对所述第二鉴别器的参数和所述第二生成器的参数进行更新。
25.进一步地，在本技术的一个实施例中，所述根据所述第一鉴别结果，确定训练的第一损失值，并通过所述第一损失值对所述第一鉴别器和所述第一生成器的参数进行更新，包括：
26.检测当前所述语音转换模型所处的训练阶段；
27.当所述语音转换模型处于所述第一鉴别器的训练阶段时，根据所述第一鉴别结果和真实结果的偏离度，确定所述第一损失值，并通过所述第一损失值对所述第一鉴别器的参数进行更新；或者，
28.当所述语音转换模型处于所述第一生成器的训练阶段时，根据所述第一鉴别结果和真实结果的吻合度，确定所述第一损失值，并通过所述第一损失值对所述第一生成器的参数进行更新。
29.进一步地，在本技术的一个实施例中，通过交叉熵损失函数确定所述第一损失值或者所述第二损失值。
30.另一方面，本技术实施例提供了一种语音转换方法，包括：
31.获取待转换的第三语音数据；
32.将所述第三语音数据输入到语音转换模型中；所述语音转换模型通过如上述的语音转换模型的训练方法训练得到；
33.通过所述语音转换模型对所述第三语音数据进行转换，得到转换后的目标对象的第四语音数据。
34.另一方面，本技术实施例提供语音转换模型的训练系统，所述语音转换模型包括第一生成器、第二生成器、第一鉴别器和第二鉴别器；所述语音转换模型的训练方法，所述语音转换模型的训练系统包括：
35.获取单元，用于获取训练数据集；所述训练数据集中包括第一对象的第一语音数据和目标对象的第二语音数据；
36.提取单元，用于从所述第一语音数据提取第一频谱数据和第一基频数据，从所述第二语音数据提取第二基频数据；
37.第一处理单元，用于根据所述第一频谱数据和所述第一基频数据，通过所述第一生成器生成所述第一对象的预测语音数据，并将所述第一语音数据和所述预测语音数据输入到所述第一鉴别器进行鉴别处理，得到第一鉴别结果；
38.第二处理单元，用于将所述第一基频数据输入所述第二生成器，生成所述目标对象的预测基频数据，并将所述第二基频数据和所述预测基频数据输入到所述第二鉴别器进行鉴别处理，得到第二鉴别结果；
39.更新单元，用于根据所述第一鉴别结果和所述第二鉴别结果，对所述语音转换模型的参数进行更新。
40.另一方面，本技术实施例提供了一种计算机设备，包括：
41.至少一个处理器；
42.至少一个存储器，用于存储至少一个程序；
43.当所述至少一个程序被所述至少一个处理器执行时，使得所述至少一个处理器实现上述的语音转换模型的训练方法或者实现上述的语音转换方法。
44.另一方面，本技术实施例还提供了一种计算机可读存储介质，其中存储有处理器可执行的程序，上述处理器可执行的程序在由处理器执行时用于实现上述的语音转换模型的训练方法或者实现上述的语音转换方法。
45.本技术的优点和有益效果将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本技术的实践了解到：
46.本技术实施例所公开的一种语音转换模型的训练方法，该语音转换模型包括第一生成器、第二生成器、第一鉴别器和第二鉴别器；该方法获取训练数据集；所述训练数据集中包括第一对象的第一语音数据和目标对象的第二语音数据；从所述第一语音数据提取第一频谱数据和第一基频数据，从所述第二语音数据提取第二基频数据；根据所述第一频谱数据和所述第一基频数据，通过所述第一生成器生成所述第一对象的预测语音数据，并将所述第一语音数据和所述预测语音数据输入到所述第一鉴别器进行鉴别处理，得到第一鉴别结果；将所述第一基频数据输入所述第二生成器，生成所述目标对象的预测基频数据，并将所述第二基频数据和所述预测基频数据输入到所述第二鉴别器进行鉴别处理，得到第二鉴别结果；根据所述第一鉴别结果和所述第二鉴别结果，对所述语音转换模型的参数进行更新。该方法通过对抗生成的方式，基于两组对抗生成网络构造语音转换模型，并对模型中负责语音数据生成的第一生成器和负责基频转换的第二生成器进行参数更新，能够使得训练好的语音转换模型输出的语音数据更贴近目标对象的说话语调和韵律，改善相关应用中语音转换的效果。
附图说明
47.为了更清楚地说明本技术实施例或者现有技术中的技术方案，下面对本技术实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员来说，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。
48.图1为本技术实施例中提供的一种语音转换模型的训练方法的实施环境示意图；
49.图2为本技术实施例中提供的一种使用语音转换模型进行语音转换的示意图；
50.图3为本技术实施例中提供的一种语音转换模型的训练方法的流程示意图；
51.图4为本技术实施例中提供的一种步骤130的流程示意图；
52.图5为本技术实施例中提供的一种步骤1301的流程示意图；
53.图6为本技术实施例中提供的一种步骤150的流程示意图；
54.图7为本技术实施例中提供的一种步骤1501的流程示意图；
55.图8为本技术实施例中提供的一种语音转换方法的流程示意图；
56.图9为本技术实施例中提供的一种语音转换模型的训练系统的结构示意图；
57.图10为本技术实施例中提供的一种计算机设备的结构示意图。
具体实施方式
58.下面结合说明书附图和具体的实施例对本技术进行进一步的说明。所描述的实施例不应视为对本技术的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
59.在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。
60.除非另有定义，本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的，不是旨在限制本技术。
61.首先，对本技术中涉及的若干名词进行解析：
62.人工智能(artificial intelligence，ai)：是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
63.机器学习(machine learning，ml)：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，它专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，机器学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
64.深度学习(dl，deep learning)：是机器学习领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能。深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等
数据。
65.对抗生成网络(gan，generative adversarial networks)：也叫生成式对抗网络是一种深度学习模型，是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中(至少)两个模块：生成器(generative model)和判别器(discriminative model)的互相博弈学习产生相当好的输出。
66.本技术实施例提供的语音转换模型的训练、语音转换方法、系统及设备，具体通过如下实施例进行说明，首先描述本技术实施例中的语音转换模型的训练方法。
67.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
68.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
69.近年来，随着人工智能技术的发展，各类相关的应用正在逐步走进人们的生活工作中。其中，语音转换技术是一种重要的、被广泛应用的、促进人与人之间交流的技术。语音转换技术，是指将原始说话者的个性特征转换为目标说话者的个性特征，使转换后的语音听起来与目标说话者的语音一致，同时在转换过程中保留源语音的内容。
70.相关技术中，在进行语音转换时，往往只是简单的转换下语音的声，转换后的语音数据，并不能很好地体现出目标说话者的特征，导致听起来既不像原始说话者的语音也不像目标说话者的语音，因而转换的效果较差，无法给用户以良好的应用体验。
71.为了解决相关技术中存在的问题，本技术实施例提供了一种语音转换模型的训练、语音转换方法、系统及设备，该语音转换模型包括第一生成器、第二生成器、第一鉴别器和第二鉴别器；该方法获取训练数据集；所述训练数据集中包括第一对象的第一语音数据和目标对象的第二语音数据；从所述第一语音数据提取第一频谱数据和第一基频数据，从所述第二语音数据提取第二基频数据；根据所述第一频谱数据和所述第一基频数据，通过所述第一生成器生成所述第一对象的预测语音数据，并将所述第一语音数据和所述预测语音数据输入到所述第一鉴别器进行鉴别处理，得到第一鉴别结果；将所述第一基频数据输入所述第二生成器，生成所述目标对象的预测基频数据，并将所述第二基频数据和所述预测基频数据输入到所述第二鉴别器进行鉴别处理，得到第二鉴别结果；根据所述第一鉴别结果和所述第二鉴别结果，对所述语音转换模型的参数进行更新。该方法通过对抗生成的方式构造语音转换模型，并对模型中负责语音数据生成的第一生成器和负责基频转换的第二生成器进行参数更新，能够使得训练好的语音转换模型输出的语音数据更贴近目标对象的说话语调和韵律，改善相关应用中语音转换的效果。
72.图1是本技术实施例提供的一种语音转换模型的训练方法的实施环境示意图。参照图1，该实施环境的软硬件主体主要包括用户终端101和服务器102，用户终端101与服务器102通信连接。其中，该语音转换模型的训练方法可以配置在服务器102侧，服务器102通过大量的训练数据对语音转换模型进行训练，然后可以将训练好的语音转换模型的相关文
件发送给用户终端101。如此，用户终端101侧可以基于训练好的语音转换模型执行相关的语音转换任务。
73.具体地，本技术中的用户终端101可以包括但不限于智能手表、智能手机、电脑、个人数字助理(personal digital assistant，pda)、智能语音交互设备、智能家电或者车载终端中的任意一种或者多种。服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(content delivery network，内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。用户终端101与服务器102之间可以通过无线网络或有线网络建立通信连接，该无线网络或有线网络使用标准通信技术和/或协议，网络可以设置为因特网，也可以是其它任何网络，例如包括但不限于局域网(local area network，lan)、城域网(metropolitan area network，man)、广域网(wide area network，wan)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。
74.当然，可以理解的是，图1中的实施环境只是本技术实施例中提供的语音转换模型的训练方法一种可选的应用场景，实际的应用并不固定为图1所示出的软硬件环境。
75.下面结合图1示出的实施环境，对本技术实施例中提供的语音转换模型的训练方法进行详细说明。
76.首先，对本技术中提供的语音转换模型的模型结构和工作原理进行介绍和说明。
77.参照图2，本技术实施例中，提供的语音转换模型包括两组对抗生成网络，其中，一组对抗生成网络中包括第一生成器和第一鉴别器，第一生成器的作用是基于提取到的原始说话者的语音数据的内容信息，和转换到目标说话者的基频数据，生成和目标说话者对应的转换后的语音数据。第一鉴别器的作用是和第一生成器一起通过对抗生成的方式进行训练，在实际应用语音转换模型进行语音转换的过程中，可以不使用第一鉴别器。另一组对抗生成网络中包括第二生成器和第二鉴别器，第二生成器的作用是基于提取到的原始说话者的语音数据的基频数据，生成和目标说话者对应的转换后的基频数据，类似地，第二鉴别器的作用是和第二生成器一起通过对抗生成的方式进行训练，在实际应用语音转换模型进行语音转换的过程中，可以不使用第二鉴别器。
78.在实际应用语音转换模型进行语音转换的过程中，首先，输入一组原始的语音数据，即原始说话者的语音数据，然后对该语音数据进行处理，提取其频谱数据得到内容信息，并且提取其基频数据；然后，将提取到的原始说话者的基频数据输入到第二生成器中，通过第二生成器生成和目标说话者对应的转换后的基频数据；接着，将转换后的基频数据和提取得到的频谱数据一起输入到第一生成器，通过第一生成器生成和目标说话者对应的转换后的语音数据。
79.进一步地，请参照图3，图3是本技术实施例中提供的一种语音转换模型的训练方法的流程示意图，图3示出的语音转换模型的训练方法主要在服务器102侧执行。该方法可以应用于服务器102中相关的计算机设备上，但并不局限于以上形式。图3中的方法包括但不限于步骤110至步骤150。
80.步骤110、获取训练数据集；所述训练数据集中包括第一对象的第一语音数据和目标对象的第二语音数据；
81.本步骤中，在对语音转换模型进行训练时，可以获取批量的训练数据，这些训练数据构成训练数据集。具体地，此处的训练数据集中，主要包括第一对象和目标对象的语音数据，其中，第一对象为原始说话者，目标对象为目标说话者，本技术实施例中，将第一对象的语音数据记为第一语音数据，将目标对象的语音数据记为第二语音数据。
82.需要说明的是，本技术实施例中，对于第一语音数据和第二语音数据的获取渠道不做限制，其既可以是直接通过收音设备从相关的环境中采集得到的，也可以是通过数据传输接口或者远程通信传输从其他电子设备及计算机系统获取得到的。
83.并且，需要补充说明的是，在本技术的各个具体实施方式中，当涉及到需要根据用户信息、用户语音语句、用户行为数据，用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时，都会先获得用户的许可或者同意，而且，对这些数据的收集、使用和处理等，都会遵守相关国家和地区的相关法律法规和标准。此外，当本技术实施例需要获取用户的敏感个人信息时，会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意，在明确获得用户的单独许可或者单独同意之后，再获取用于使本技术实施例能够正常运行的必要的用户相关数据。
84.步骤120、从所述第一语音数据提取第一频谱数据和第一基频数据，从所述第二语音数据提取第二基频数据；
85.本步骤中，在获取得到训练数据集后，针对训练数据集中的各个第一语音数据，提取其频谱数据和基频数据。其中，频谱数据为时域的语音数据在频域下的表示方式，可以针对语音数据进行傅里叶变换而得，其中包含了语音数据的内容信息；基频数据则是一个人发声时声带振动的频率，该特征与语音的韵律节奏等有关，能体现说话者独有的说话特征。本技术实施例中，将第一语音数据的频谱数据记为第一频谱数据，将第一语音数据的基频数据记为第一基频数据，类似地，还提取第二语音数据的基频数据，将其记为第二基频数据。
86.具体地，本技术实施例中，在提取频谱数据时，可以对语音数据按照一定的帧叠进行分帧和加窗处理，得到多个音频帧，分别对各个音频帧进行处理。此处，分帧指的是按预设规则将整段的语音数据切成多段，每一段即为一个音频帧，加窗指的是使用预设的窗函数对每个音频帧进行截取，从而使分帧后的语音数据更加连贯，表现出更好的周期函数特征，该窗函数可以是矩形窗、汉明窗或者高斯窗等的任意一种。然后对获取的音频帧进行快速傅里叶变换(fft，fast fourier transformation)，得到每个音频帧的频谱数据，再合成即可得到该语音数据的频谱数据。在提取基频数据时，可以采用相关技术中基于时域的提取算法、基于频域的提取算法或者统计的算法等，本技术对此不作限制。
87.步骤130、根据所述第一频谱数据和所述第一基频数据，通过所述第一生成器生成所述第一对象的预测语音数据，并将所述第一语音数据和所述预测语音数据输入到所述第一鉴别器进行鉴别处理，得到第一鉴别结果；
88.本步骤中，在提取得到第一频谱数据和第一基频数据后，可以根据第一频谱数据和第一基频数据，通过第一生成器重新构造生成第一对象的语音数据，将此处第一生成器生成的第一对象的语音数据记为预测语音数据。预测语音数据是第一生成器通过相关的合成算法生成的，具体是基于频谱数据中包含的语音的内容信息，以及基频数据中包含的说话者的说话韵律等生成的语音数据。
89.然后，本技术实施例中，可以通过第一鉴别器对第一生成器的生成效果进行鉴别。具体地，该鉴别过程的目的是为了确定第一生成器生成的语音数据和实际的第一对象输出的语音数据的接近、相似程度，也即以假乱真的程度。因此，本技术实施例中，在通过第一鉴别器进行鉴别处理时，可以将第一语音数据和预测语音数据一起输入到第一鉴别器中，让第一鉴别器鉴别后输出各个语音数据是真实的说话者输出的语音数据，还是第一生成器生成的语音数据，从而得到对应的鉴别结果，记为第一鉴别结果。例如，在一些实施例中，第一鉴别结果可以包括真和假两种类别，当某个语音数据输入到第一鉴别器中，第一鉴别结果输出判定为真，表示第一鉴别器认定该语音数据为真实的说话者输出的语音数据；反之，当某个语音数据输入到第一鉴别器中，第一鉴别结果输出判定为假，表示第一鉴别器认定该语音数据为第一生成器生成的语音数据。此处，真和假的第一鉴别结果，对应的数据形式可以根据需要灵活设定，例如，在一些实施例中，第一鉴别结果的数据形式可以是数值，比如说数值0和数值1。当第一鉴别结果为数值0时，可以表示第一鉴别结果输出判定为假，当第一鉴别结果为数值1时，可以表示第一鉴别结果输出判定为真。在另一些实施例中，第一鉴别结果的数据形式可以是向量，比如说向量(0，1)和向量(1，0)。当第一鉴别结果为向量(0，1)时，可以表示第一鉴别结果输出判定为假，当第一鉴别结果为向量(1，0)时，可以表示第一鉴别结果输出判定为真。
90.需要说明的是，上述第一鉴别结果的数据形式和数据与实际含义的对应关系，可以根据需要灵活设定，本技术对此不作具体限制。
91.步骤140、将所述第一基频数据输入所述第二生成器，生成所述目标对象的预测基频数据，并将所述第二基频数据和所述预测基频数据输入到所述第二鉴别器进行鉴别处理，得到第二鉴别结果；
92.本步骤中，还将第一基频数据输入到第二生成器中，通过第二生成器构造生成目标对象的基频数据，将此处第二生成器生成的目标对象的基频数据记为预测基频数据。
93.然后，本技术实施例中，可以通过第二鉴别器对第二生成器的生成效果进行鉴别。具体地，该鉴别过程的目的是为了确定第二生成器生成的基频数据和目标用户实际的基频数据的相似程度。因此，本技术实施例中，在通过第二鉴别器进行鉴别处理时，可以将第二基频数据和预测基频数据一起输入到第二鉴别器中，让第二鉴别器鉴别后输出各个基频数据是真实的目标说话者(即目标对象)说话的语音数据的基频数据，还是第二生成器生成的基频数据，从而得到对应的鉴别结果，记为第二鉴别结果。例如，在一些实施例中，第二鉴别结果也可以包括真和假两种类别，当某个基频数据输入到第二鉴别器中，第二鉴别结果输出判定为真，表示第二鉴别器认定该基频数据为真实的目标对象输出的语音数据的基频数据；反之，当某个基频数据输入到第二鉴别器中，第二鉴别结果输出判定为假，表示第二鉴别器认定该基频数据为第二生成器生成的基频数据。此处，真和假的第二鉴别结果，对应的数据形式也可以根据需要灵活设定，具体地的实现方式和前述的第一鉴别结果类似，在此不作赘述。
94.步骤150、根据所述第一鉴别结果和所述第二鉴别结果，对所述语音转换模型的参数进行更新。
95.本步骤中，如前述的，第一鉴别结果能够反映出第一生成器生成的语音数据和实际的第一对象输出的语音数据的接近、相似程度；第二鉴别结果能够反映出第二生成器生
成的基频数据和目标用户实际的基频数据的相似程度，因此，第一鉴别结果和第二鉴别结果整体上能够反映出语音转换模型的转换效果。故而，本技术实施例中，可以根据第一鉴别结果和第二鉴别结果，对语音转换模型的参数进行更新，从而得到训练好的语音转换模型。
96.在一些实施例中，参照图4，本技术实施例中的步骤130，可以包括以下步骤：
97.步骤1301、对所述第一频谱数据进行矢量化处理，得到第一向量数据；
98.步骤1302、将所述第一向量数据和所述第一基频数据输入到所述第一生成器中，生成所述第一对象的预测语音数据。
99.本技术实施例中，在基于第一频谱数据和第一基频数据生成预测语音数据时，可以采用vq(矢量量化技术)对第一频谱数据进行矢量化处理，将得到的向量数据记为第一向量数据。此处，矢量量化技术是一种数据压缩技术，其能够大大减轻数据处理量，有利于提高整体的数据处理效率。然后，在得到第一向量数据后，可以将第一向量数据和第一基频数据一起输入到第一生成器中，从而得到第一生成器输出的预测语音数据。
100.具体地，在一些实施例中，参照图5，本技术实施例中的步骤1301，可以包括以下步骤：
101.步骤13011、对所述第一频谱数据进行编码处理，得到连续变量；
102.步骤13012、对所述连续变量进行矢量化处理，得到离散变量；
103.步骤13013、计算所述连续变量和所述离散变量的差值，得到所述第一向量数据。
104.本技术实施例中，在对第一频谱数据进行矢量化处理时，其内的内容信息(s)可以认为是原有的连续变量(v)和量化后的离散变量(c)之间的差值。如此，将第一频谱数据矢量化为向量形式的内容信息，从原始的第一频谱数据处理开始，可以先对第一频谱数据进行编码处理，得到v＝encoder(x)，其中，x表示原始的第一频谱数据，encoder()表示编码操作，v表示得到的连续变量；然后对连续变量进行矢量化处理，得到c＝quantize(v)，其中，v表示连续变量，quantize()表示矢量化操作，c表示得到的离散变量，离散变量c被要求尽可能与连续变量v靠近。接着，可以计算连续变量和离散变量的差值，得到第一向量数据。在一些实施例中，可以进行多次的重复操作，计算每次得到的连续变量和所述离散变量的差值的均值，从而提高得到的第一向量数据的准确度。
105.在一些实施例中，参照图6，本技术实施例中的步骤150，可以包括以下步骤：
106.步骤1501、根据所述第一鉴别结果，确定训练的第一损失值，并通过所述第一损失值对所述第一鉴别器的参数和所述第一生成器的参数进行更新；
107.步骤1502、根据所述第二鉴别结果，确定训练的第二损失值，并通过所述第二损失值对所述第二鉴别器的参数和所述第二生成器的参数进行更新。
108.本技术实施例中，在对语音转换模型的参数进行更新时，需要根据不同的鉴别结果，分别对语音转换模型的两个对抗生成网络进行参数更新。具体地，由于第一鉴别结果本身可以反映第一生成器生成的语音数据和实际的第一对象输出的语音数据的接近、相似程度，因此，可以通过第一鉴别结果，确定训练的损失值，记为第一损失值，然后通过第一损失值对第一组对抗生成网络，也即第一鉴别器和第一生成器的参数进行更新。类似地，第二鉴别结果能够反映出第二生成器生成的基频数据和目标用户实际的基频数据的相似程度，因此，可以通过第二鉴别结果，确定训练的损失值，记为第二损失值，然后通过第二损失值对第二组对抗生成网络，也即第二鉴别器和第二生成器的参数进行更新。
109.更为具体地，以第一鉴别器和第一生成器的参数更新过程为例，参照图7，在一些实施例中，步骤1501可以包括：
110.步骤15011、检测当前所述语音转换模型所处的训练阶段；
111.步骤15012、当所述语音转换模型处于所述第一鉴别器的训练阶段时，根据所述第一鉴别结果和真实结果的偏离度，确定所述第一损失值，并通过所述第一损失值对所述第一鉴别器的参数进行更新；或者，
112.步骤15013、当所述语音转换模型处于所述第一生成器的训练阶段时，根据所述第一鉴别结果和真实结果的吻合度，确定所述第一损失值，并通过所述第一损失值对所述第一生成器的参数进行更新。
113.本技术实施例中，在对语音转换模型进行训练时，由于其中包括对抗生成网络，而对抗生成网络一般是采用交替循环的方式训练的。以第一鉴别器和第一生成器构成的对抗生成网络为例，在对其进行训练时，在一些阶段中，将保持第一生成器的参数不变，主要更新第一鉴别器的参数，此时，第一鉴别结果本身即可以反映出第一鉴别器的鉴别效果，第一鉴别结果和真实结果的吻合度越高，说明第一鉴别器的鉴别效果越好，第一鉴别结果和真实结果的偏离度越高，说明第一鉴别器的鉴别效果越差。因此，此时第一损失值与第一鉴别结果和真实结果的吻合度呈负相关，与第一鉴别结果和真实结果的偏离度呈正相关。为方便起见，可以直接根据第一鉴别结果和真实结果的偏离度，确定第一损失值。然后通过第一损失值对第一鉴别器的参数进行反向传播更新。
114.在一些阶段中，将保持第一鉴别器的参数不变，主要更新第一生成器的参数，此时，第一鉴别器的鉴别效果越好，即第一鉴别结果和真实结果的吻合度越高，说明第一生成器生成的语音数据越容易被识别出来，生成效果越差。因此，该阶段中可以通过第一鉴别结果和真实结果的吻合度，确定第一损失值，然后通过第一损失值对第一生成器的参数进行反向传播更新。
115.因此，本技术实施例中，可以检测当前语音转换模型所处的训练阶段，通过对应的方式确定出训练第一生成器和第一鉴别器过程中的损失值，从而进行参数更新。
116.需要说明的是，本技术实施例中，第一生成器和第一鉴别器训练阶段的个数，以及每个训练阶段中参数的迭代轮次，可以根据需要灵活设定，本技术对此不作限制。
117.类似地，本技术实施例中，在对第二生成器和第二鉴别器进行训练时，可以参照前述第一生成器和第一鉴别器的训练过程执行，本技术对此不作赘述。
118.需要补充说明的是，对于机器学习领域的模型来说，模型输出的结果(如本技术实施例中的鉴别结果)的准确性可以通过损失函数(loss function)来衡量，损失函数是定义在单个训练数据上的，用于衡量一个训练数据的预测误差，具体是通过单个训练数据的真实结果和模型对该训练数据的预测结果确定该训练数据的损失值。而实际训练时，一个训练数据集有很多训练数据，因此一般采用代价函数(cost function)来衡量训练数据集的整体误差，代价函数是定义在整个训练数据集上的，用于计算所有训练数据的预测误差的平均值，能够更好地衡量出模型的预测效果。对于一般的机器学习模型来说，基于前述的代价函数，再加上衡量模型复杂度的正则项即可作为训练的目标函数，基于该目标函数便能求出整个训练数据集的损失值。常用的损失函数种类有很多，例如0-1损失函数、平方损失函数、绝对损失函数、对数损失函数、交叉熵损失函数等均可以作为机器学习模型的损失函
数，在此不再一一阐述。本技术实施例中，可以从中任选一种损失函数来确定训练的损失值，例如交叉熵损失函数。基于训练的损失值，采用反向传播算法对模型的参数进行更新，迭代几轮即可得到训练好的语音转换模型。
119.另外，请参照图8，图8是本技术实施例中提供的一种语音转换方法的流程示意图，图8示出的语音转换方法可以基于图1所示的实施环境执行，例如可以在服务器102侧执行。具体地，该方法可以应用于服务器102中相关的计算机设备上，但并不局限于以上形式。图8中的方法包括但不限于步骤810至步骤830。
120.步骤810、获取待转换的第三语音数据；
121.步骤820、将所述第三语音数据输入到如前述的语音转换模型的训练方法训练得到的语音转换模型中；所述语音转换模型包括第一生成器、第二生成器、第一鉴别器和第二鉴别器；
122.步骤830、通过所述语音转换模型对所述第三语音数据进行转换，得到转换后的目标对象的第四语音数据。
123.本技术实施例中，在得到训练好的语音转换模型后，可以通过该模型对语音数据进行转换，将其转换为和目标对象的语调、韵律相近的语音数据。具体地，将获取的语音数据记为第三语音数据，将转换后的语音数据记为第四语音数据。
124.将第三语音数据输入到语音转换模型中，对第三语音数据进行处理，提取其频谱数据得到内容信息，并且提取其基频数据；然后，将提取到的第三语音数据的基频数据输入到第二生成器中，通过第二生成器生成和目标对象对应的转换后的基频数据；接着，将转换后的基频数据和提取得到的频谱数据一起输入到第一生成器，通过第一生成器生成和目标对象对应的转换后的第四语音数据。
125.下面参照附图描述根据本技术实施例提出的语音转换模型的训练系统。
126.参照图9，本技术实施例中提出的语音转换模型的训练系统，所述语音转换模型包括第一生成器、第二生成器、第一鉴别器和第二鉴别器；所述语音转换模型的训练方法，所述语音转换模型的训练系统包括：
127.获取单元910，用于获取训练数据集；所述训练数据集中包括第一对象的第一语音数据和目标对象的第二语音数据；
128.提取单元920，用于从所述第一语音数据提取第一频谱数据和第一基频数据，从所述第二语音数据提取第二基频数据；
129.第一处理单元930，用于根据所述第一频谱数据和所述第一基频数据，通过所述第一生成器生成所述第一对象的预测语音数据，并将所述第一语音数据和所述预测语音数据输入到所述第一鉴别器进行鉴别处理，得到第一鉴别结果；
130.第二处理单元940，用于将所述第一基频数据输入所述第二生成器，生成所述目标对象的预测基频数据，并将所述第二基频数据和所述预测基频数据输入到所述第二鉴别器进行鉴别处理，得到第二鉴别结果；
131.更新单元950，用于根据所述第一鉴别结果和所述第二鉴别结果，对所述语音转换模型的参数进行更新。
132.可以理解的是，上述训练方法实施例中的内容均适用于本训练系统实施例中，本训练系统实施例所具体实现的功能与上述训练方法实施例相同，并且达到的有益效果与上
述训练方法实施例所达到的有益效果也相同。
133.参照图10，本技术实施例还公开了一种计算机设备，包括：
134.至少一个处理器1010；
135.至少一个存储器1020，用于存储至少一个程序；
136.当至少一个程序被至少一个处理器1010执行，使得至少一个处理器1010实现如图3所示的语音转换模型的训练方法实施例或者如图8所示的语音转换方法实施例。
137.可以理解的是，如图3所示的语音转换模型的训练方法实施例或者如图8所示的语音转换方法实施例中的内容均适用于本计算机设备实施例中，本计算机设备实施例所具体实现的功能与如图3所示的语音转换模型的训练方法实施例或者如图8所示的语音转换方法实施例相同，并且达到的有益效果与如图3所示的语音转换模型的训练方法实施例或者如图8所示的语音转换方法实施例所达到的有益效果也相同。
138.本技术实施例还公开了一种计算机可读存储介质，其中存储有处理器可执行的程序，处理器可执行的程序在由处理器执行时用于实现如图3所示的语音转换模型的训练方法实施例或者如图8所示的语音转换方法实施例。
139.可以理解的是，如图3所示的语音转换模型的训练方法实施例或者如图8所示的语音转换方法实施例中的内容均适用于本计算机可读存储介质实施例中，本计算机可读存储介质实施例所具体实现的功能与如图3所示的语音转换模型的训练方法实施例或者如图8所示的语音转换方法实施例相同，并且达到的有益效果与如图3所示的语音转换模型的训练方法实施例或者如图8所示的语音转换方法实施例所达到的有益效果也相同。
140.在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或方框有时能以相反顺序被执行。此外，在本技术的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
141.此外，虽然在功能性模块的背景下描述了本技术，但应当理解的是，除非另有相反说明，功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本技术是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本技术。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本技术的范围，本技术的范围由所附权利要求书及其等同方案的全部范围来决定。
142.功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例方法的全部或部分步骤。而前述的
存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
143.在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
144.计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(ram)，只读存储器(rom)，可擦除可编辑只读存储器(eprom或闪速存储器)，光纤装置，以及便携式光盘只读存储器(cdrom)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。
145.应当理解，本技术的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。
146.在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
147.尽管已经示出和描述了本技术的实施方式，本领域的普通技术人员可以理解：在不脱离本技术的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本技术的范围由权利要求及其等同物限定。
148.以上是对本技术的较佳实施进行了具体说明，但本技术并不限于实施例，熟悉本领域的技术人员在不违背本技术精神的前提下可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本技术权利要求所限定的范围内
149.在本说明书的描述中，参考术语“一个实施方式”、“另一实施方式”或“某些实施方式”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
150.尽管已经示出和描述了本技术的实施方式，本领域的普通技术人员可以理解：在不脱离本技术的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变
型，本技术的范围由权利要求及其等同物限定。

技术特征：

1.一种语音转换模型的训练方法，其特征在于，所述语音转换模型包括第一生成器、第二生成器、第一鉴别器和第二鉴别器；所述语音转换模型的训练方法，包括：获取训练数据集；所述训练数据集中包括第一对象的第一语音数据和目标对象的第二语音数据；从所述第一语音数据提取第一频谱数据和第一基频数据，从所述第二语音数据提取第二基频数据；根据所述第一频谱数据和所述第一基频数据，通过所述第一生成器生成所述第一对象的预测语音数据，并将所述第一语音数据和所述预测语音数据输入到所述第一鉴别器进行鉴别处理，得到第一鉴别结果；将所述第一基频数据输入所述第二生成器，生成所述目标对象的预测基频数据，并将所述第二基频数据和所述预测基频数据输入到所述第二鉴别器进行鉴别处理，得到第二鉴别结果；根据所述第一鉴别结果和所述第二鉴别结果，对所述语音转换模型的参数进行更新。2.根据权利要求1所述的一种语音转换模型的训练方法，其特征在于，所述根据所述第一频谱数据和所述第一基频数据，通过所述第一生成器生成所述第一对象的预测语音数据，包括：对所述第一频谱数据进行矢量化处理，得到第一向量数据；将所述第一向量数据和所述第一基频数据输入到所述第一生成器中，生成所述第一对象的预测语音数据。3.根据权利要求2所述的一种语音转换模型的训练方法，其特征在于，所述对所述第一频谱数据进行矢量化处理，得到第一向量数据，包括：对所述第一频谱数据进行编码处理，得到连续变量；对所述连续变量进行矢量化处理，得到离散变量；计算所述连续变量和所述离散变量的差值，得到所述第一向量数据。4.根据权利要求1-3中任一项所述的一种语音转换模型的训练方法，其特征在于，所述根据所述第一鉴别结果和所述第二鉴别结果，对所述语音转换模型的参数进行更新，包括：根据所述第一鉴别结果，确定训练的第一损失值，并通过所述第一损失值对所述第一鉴别器的参数和所述第一生成器的参数进行更新；根据所述第二鉴别结果，确定训练的第二损失值，并通过所述第二损失值对所述第二鉴别器的参数和所述第二生成器的参数进行更新。5.根据权利要求4所述的一种语音转换模型的训练方法，其特征在于，所述根据所述第一鉴别结果，确定训练的第一损失值，并通过所述第一损失值对所述第一鉴别器和所述第一生成器的参数进行更新，包括：检测当前所述语音转换模型所处的训练阶段；当所述语音转换模型处于所述第一鉴别器的训练阶段时，根据所述第一鉴别结果和真实结果的偏离度，确定所述第一损失值，并通过所述第一损失值对所述第一鉴别器的参数进行更新；或者，当所述语音转换模型处于所述第一生成器的训练阶段时，根据所述第一鉴别结果和真实结果的吻合度，确定所述第一损失值，并通过所述第一损失值对所述第一生成器的参数
进行更新。6.根据权利要求4所述的一种语音转换模型的训练方法，其特征在于，通过交叉熵损失函数确定所述第一损失值或者所述第二损失值。7.一种语音转换方法，其特征在于，包括：获取待转换的第三语音数据；将所述第三语音数据输入到语音转换模型中；所述语音转换模型通过如权利要求1-6中任一项所述的语音转换模型的训练方法训练得到；通过所述语音转换模型对所述第三语音数据进行转换，得到转换后的目标对象的第四语音数据。8.一种语音转换模型的训练系统，其特征在于，所述语音转换模型包括第一生成器、第二生成器、第一鉴别器和第二鉴别器；所述语音转换模型的训练方法，所述语音转换模型的训练系统包括：获取单元，用于获取训练数据集；所述训练数据集中包括第一对象的第一语音数据和目标对象的第二语音数据；提取单元，用于从所述第一语音数据提取第一频谱数据和第一基频数据，从所述第二语音数据提取第二基频数据；第一处理单元，用于根据所述第一频谱数据和所述第一基频数据，通过所述第一生成器生成所述第一对象的预测语音数据，并将所述第一语音数据和所述预测语音数据输入到所述第一鉴别器进行鉴别处理，得到第一鉴别结果；第二处理单元，用于将所述第一基频数据输入所述第二生成器，生成所述目标对象的预测基频数据，并将所述第二基频数据和所述预测基频数据输入到所述第二鉴别器进行鉴别处理，得到第二鉴别结果；更新单元，用于根据所述第一鉴别结果和所述第二鉴别结果，对所述语音转换模型的参数进行更新。9.一种计算机设备，其特征在于，包括：至少一个处理器；至少一个存储器，用于存储至少一个程序；当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-6中任一项所述的语音转换模型的训练方法或者实现如权利要求7所述的语音转换方法。10.一种计算机可读存储介质，其中存储有处理器可执行的程序，其特征在于：所述处理器可执行的程序在由处理器执行时用于实现如权利要求1-6中任一项所述的语音转换模型的训练方法或者实现如权利要求7所述的语音转换方法。

技术总结

本申请公开了一种语音转换模型的训练、语音转换方法、系统及设备，获取包括第一对象的第一语音数据和目标对象的第二语音数据的训练数据集；提取第一语音数据的第一频谱数据和第一基频数据，提取第二语音数据的第二基频数据；根据第一频谱数据和第一基频数据，生成第一对象的预测语音数据，并对第一语音数据和预测语音数据进行鉴别处理，得到第一鉴别结果；根据第一基频数据生成目标对象的预测基频数据，并对第二基频数据和预测基频数据进行鉴别处理，得到第二鉴别结果；根据第一鉴别结果和第二鉴别结果，对语音转换模型的参数进行更新。该方法可以提高训练得到的语音转换模型的语音转换效果。本申请可广泛应用于语音处理技术领域内。术领域内。术领域内。