歌声合成方法及组件，歌声合成模型训练方法及组件与流程

1.本技术涉及计算机技术领域，特别涉及一种歌声合成方法及组件，歌声合成模型训练方法及组件。

背景技术：

2.现有的歌声合成模型以音素、曲谱等复杂信息作为合成要素，且音准信息来自曲谱，合成效果一般比较机械。同时，歌曲中的颤音、滑音和气口等唱歌技巧难以在合成歌曲中进行构造。现有歌声合成模型在训练时，还需要以标注有音素、音素时长及曲谱的歌曲作为训练集，该训练集的标注也会消耗很多成本。并且，模型的训练和应用不由用户掌握，而是由模型提供商训练同一模型给多个用户使用。也即：用户不能个性化定制模型。

技术实现要素：

3.有鉴于此，本技术的目的在于提供一种歌声合成方法及组件，歌声合成模型训练方法及组件，以使用户能够个性化定制模型，同时保障合成歌曲的自然度和真实性，提升合成效果。其具体方案如下：
4.为实现上述目的，一方面，本技术提供了一种歌声合成方法，包括：
5.提供歌声合成界面；所述歌声合成界面用于接收用户针对目标歌曲的歌曲合成指令；
6.响应于所述歌曲合成指令，提供模型训练界面；所述模型训练界面提供有多个用户音频，以供用户选择；
7.基于用户选择的带有用户音的歌曲，训练得到歌声合成模型；
8.调用所述歌声合成模型将所述目标歌曲中的音更改为所述用户音，得到合成歌曲；
9.在所述歌声合成界面展示所述合成歌曲。
10.可选地，还包括：
11.在调用所述歌声合成模型的过程中，在所述歌声合成界面实时显示歌声合成进度。
12.可选地，在提供模型训练界面之前，还包括：
13.判断是否已存在所述歌声合成模型；
14.若已存在所述歌声合成模型，则执行所述调用所述歌声合成模型将所述目标歌曲中的音更改为所述用户音，得到合成歌曲；在所述歌声合成界面展示所述合成歌曲的步骤；否则，提供模型训练界面。
15.可选地，还包括：
16.在所述歌声合成模型训练完成后，利用所述歌声合成模型提取并存储所述用户音，以便在调用所述歌声合成模型时，查询所述用户音。
17.又一方面，本技术还提供了一种歌声合成方法，包括：
18.响应于模型训练指令，提供模型训练界面；所述模型训练界面提供有多个用户音频，以供用户选择；
19.基于用户选择的带有用户音的歌曲，训练得到歌声合成模型；
20.提供歌声合成界面，以便用户针对目标歌曲输入歌曲合成指令；
21.响应于所述歌曲合成指令，调用所述歌声合成模型将所述目标歌曲中的音更改为所述用户音，得到合成歌曲；
22.在所述歌声合成界面展示所述合成歌曲。
23.可选地，所述模型训练界面提供的多个用户音频为：用户实时录制的歌曲、用户即时上传的歌曲和/或用户以往录制的歌曲。
24.又一方面，本技术还提供了一种歌声合成方法，包括：
25.接收客户端发送的歌曲合成请求；
26.确定所述歌曲合成请求指定的歌曲音频和目标音的目标音频；
27.调用预设的歌声合成模型基于所述目标音频的目标频谱、所述歌曲音频的歌曲频谱和歌曲基频构造包括所述目标音的音特征、所述歌曲音频的歌曲内容特征和歌曲基频特征的合成频谱；
28.将所述合成频谱输入预设的声码器，以使所述声码器输出包括所述目标音、所述歌曲音频的歌曲内容和歌曲旋律的合成歌曲。
29.可选地，所述调用预设的歌声合成模型基于所述目标音频的目标频谱、所述歌曲音频的歌曲频谱和歌曲基频构造包括所述目标音的音特征、所述歌曲音频的歌曲内容特征和歌曲基频特征的合成频谱，包括：
30.从所述歌曲音频中提取所述歌曲频谱和所述歌曲基频；
31.从所述目标音频中提取所述目标频谱；
32.将所述歌曲频谱输入所述歌声合成模型中的内容编码器，得到所述歌曲内容特征；
33.将所述目标频谱输入所述歌声合成模型中的音编码器，得到所述音特征；
34.将所述歌曲基频输入所述歌声合成模型中的词嵌入模块，得到所述歌曲基频特征；
35.叠加所述歌曲内容特征、所述音特征和所述歌曲基频特征，并将叠加结果输入所述歌声合成模型中的解码器，得到所述合成频谱。
36.可选地，若接收到所述客户端发送的升调或降调请求，则所述将所述歌曲基频输入所述歌声合成模型中的词嵌入模块，得到所述歌曲基频特征之前，还包括：
37.对所述歌曲基频进行升调或降调。
38.可选地，所述将所述歌曲频谱输入所述歌声合成模型中的内容编码器，得到所述歌曲内容特征，包括：
39.将所述歌曲频谱输入所述内容编码器，以使所述内容编码器提取所述歌曲频谱中的连续内容特征，并对所述连续内容特征进行矢量量化，得到所述歌曲内容特征。
40.可选地，所述将所述目标频谱输入所述歌声合成模型中的音编码器，得到所述音特征，包括：
41.将所述目标频谱输入所述音编码器，以使所述音编码器提取所述目标频谱中
的连续音特征，并对所述连续音特征进行均值计算，得到所述音特征。
42.可选地，所述将所述歌曲基频输入所述歌声合成模型中的词嵌入模块，得到所述歌曲基频特征，包括：
43.将所述歌曲基频输入所述词嵌入模块，以使所述词嵌入模块将所述歌曲基频映射为以向量表示的所述歌曲基频特征。
44.可选地，还包括：
45.将所述合成歌曲返回至所述客户端，并进行展示和播放。
46.又一方面，本技术还提供了一种歌声合成模型训练方法，包括：
47.接收客户端发送的模型训练请求；
48.确定所述模型训练请求指定的训练集；所述训练集为：用户选择的携带用户音的歌曲集；
49.基于所述训练集进行模型训练，得到所述歌声合成模型。
50.可选地，所述基于所述训练集进行模型训练，得到所述歌声合成模型，包括：
51.从所述训练集中获取训练歌曲；
52.从所述训练歌曲中提取可训练频谱和训练基频；
53.将所述可训练频谱输入初始模型中的内容编码器，得到所述训练歌曲的训练内容特征；
54.将所述可训练频谱输入所述初始模型中的音编码器，得到所述训练歌曲的训练音特征；
55.将所述训练基频输入所述初始模型中的词嵌入模块，得到所述训练歌曲的训练基频特征；
56.叠加所述训练内容特征、所述训练音特征和所述训练基频特征，并将叠加结果输入所述初始模型中的解码器，得到训练合成频谱；
57.计算所述训练合成频谱和所述可训练频谱之间的损失；
58.若所述损失符合预设收敛条件，则输出当前模型作为所述歌声合成模型；否则，基于所述损失更新所述初始模型中的所述内容编码器、所述音编码器、所述解码器和所述词嵌入模块的参数，并从所述训练集中另选训练歌曲迭代训练模型。
59.又一方面，本技术还提供了一种电子设备，所述电子设备包括处理器和存储器；其中，所述存储器用于存储计算机程序，所述计算机程序由所述处理器加载并执行以实现前述任一方法。
60.又一方面，本技术还提供了一种存储介质，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现前述任一方法。
61.本技术可以提供歌声合成界面；歌声合成界面用于接收用户针对目标歌曲的歌曲合成指令；响应于该歌曲合成指令可提供模型训练界面；模型训练界面提供有多个用户音频，以供用户选择；基于用户选择的带有用户音的歌曲，训练得到歌声合成模型；然后调用歌声合成模型将目标歌曲中的音更改为用户音，得到合成歌曲；最后在歌声合成界面展示合成歌曲。可见，本技术允许用户自主选择用于训练歌声合成模型的训练数据(即用户选择的带有用户音的歌曲)，然后据此训练数据训练得到歌声合成模型，该歌声合成模型能够将目标歌曲中的音更改为用户音，同时保留歌曲中的原歌曲内容和旋律，因此
歌曲中的颤音、滑音和气口等唱歌技巧也会留存，使得合成歌曲更加真实自然。基于本技术，用户可以自主训练自己的歌声合成模型，使得模型训练更加灵活；用户使用该歌声合成模型将任意歌曲中的音更改为自己的音，同时保留歌曲里的旋律等其他内容，就得到了带有用户音的合成歌曲，从而提升了歌曲合成的可操作性和合成质量。
62.本技术提供的歌声合成模型可将歌曲中的音转换为另一种音，同时还能保留歌曲中的原歌曲内容和旋律，因此歌曲中的颤音、滑音和气口等唱歌技巧也会留存，使得合成歌曲更加真实自然。在具体实现时，用户只需基于客户端指定歌曲和带有目的音的音频，而后据此发送歌曲合成请求，那么后台可确定歌曲合成请求指定的歌曲音频(即原歌曲)和目标音(即目的音)的目标音频；调用预设的歌声合成模型基于目标音频的目标频谱、歌曲音频的歌曲频谱和歌曲基频构造包括目标音的音特征、歌曲音频的歌曲内容特征和歌曲基频特征的合成频谱；将合成频谱输入预设的声码器，以使声码器输出包括目标音、歌曲音频的歌曲内容和歌曲旋律的合成歌曲。可见，该方案能够保留歌曲音频中的原歌曲内容和旋律，同时再添加目的音，就可以得到合成歌曲，且该方案中的歌声合成模型以音频频谱作为输入数据，不涉及复杂的音素、曲谱等要素，因此模型训练过程可避免过多的曲谱标注和音素标注工作，训练效果较高。
63.相应地，本技术提供的一种歌声合成组件，一种歌声合成模型训练方法及组件，也同样具有上述技术效果。组件包括设备及存储介质。
附图说明
64.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
65.图1为本技术提供的一种本技术适用的物理架构示意图；
66.图2为本技术提供的第一种歌声合成方法流程图；
67.图3为本技术提供的一种歌声合成界面示意图；
68.图4为本技术提供的一种模型训练界面示意图；
69.图5为本技术提供的一种模型训练完成后的提示界面示意图；
70.图6为本技术提供的一种歌声合成进度示意图；
71.图7为本技术提供的第二种歌声合成方法流程图；
72.图8为本技术提供的第三种歌声合成方法流程图；
73.图9为本技术提供的一种歌声合成模型训练方法流程图；
74.图10为本技术提供的一种歌声合成模型训练步骤示意图；
75.图11为本技术提供的一种歌声合成模型的应用流程示意图；
76.图12为本技术提供的一种歌声合成模型的结构示意图；
77.图13为本技术提供的一种服务器结构图；
78.图14为本技术提供的一种终端结构图。
具体实施方式
79.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。另外，在本技术实施例中，“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。
80.现有歌声合成模型以音素、曲谱等复杂信息作为合成要素，且音准信息来自曲谱，合成效果一般比较机械。同时，歌曲中的颤音、滑音和气口等唱歌技巧难以在合成歌曲中进行构造。现有歌声合成模型在训练时，还需要以标注有音素、音素时长及曲谱的歌曲作为训练集，该训练集的标注也会消耗很多成本。并且，模型的训练和应用不由用户掌握，而是由模型提供商训练同一模型给多个用户使用。也即：用户不能个性化定制模型。
81.鉴于目前所存在的上述问题，本技术提出了歌声合成方案，该方案允许用户自主训练模型，且训练得到的模型可将歌曲中的音转换为另一种音，同时还能保留歌曲中的原歌曲内容和旋律，因此歌曲中的颤音、滑音和气口等唱歌技巧也会留存，使得合成歌曲更加真实自然。方案中的歌声合成模型不涉及复杂的音素、曲谱等要素，因此模型训练过程可避免过多的曲谱标注和音素标注工作，训练效果较高。
82.为了便于理解，先对本技术所适用的物理框架进行介绍。
83.应理解，本技术提供的歌声合成方法可以应用于具有歌声合成功能的系统或程序中。具体的，具有歌声合成功能的系统或程序可以运行于服务器、个人计算机等设备中。相应地，歌声合成模型训练方法可以应用于具有歌声合成模型训练功能的系统或程序中。具体的，具有歌声合成模型训练功能的系统或程序可以运行于服务器、个人计算机等设备中。
84.如图1所示，图1为本技术适用的物理架构示意图。在图1中，具有歌声合成功能的系统或程序可以运行于服务器，该服务器通过网络从其他终端设备中接收客户端发送的歌曲合成请求；确定歌曲合成请求指定的歌曲音频和目标音的目标音频；调用预设的歌声合成模型基于目标音频的目标频谱、歌曲音频的歌曲频谱和歌曲基频构造包括目标音的音特征、歌曲音频的歌曲内容特征和歌曲基频特征的合成频谱；将合成频谱输入预设的声码器，以使声码器输出包括目标音、歌曲音频的歌曲内容和歌曲旋律的合成歌曲。其中，本技术提供的歌声合成方案不更改原歌曲的编曲结构，只更改音。当然，歌声合成经过歌曲所有者同意后进行。
85.相应地，具有歌声合成模型训练功能的系统或程序可以运行于服务器，该服务器通过网络从其他终端设备中接收客户端发送的模型训练请求；确定模型训练请求指定的训练集；所述训练集为：用户选择的携带用户音的歌曲集；基于训练集进行模型训练，得到歌声合成模型。
86.当具有歌声合成功能的系统或程序运行于客户端时，客户端提供歌声合成界面；歌声合成界面用于接收用户针对目标歌曲的歌曲合成指令；响应于歌曲合成指令，提供模型训练界面；模型训练界面提供有多个用户音频，以供用户选择；基于用户选择的带有用户音的歌曲，训练得到歌声合成模型；调用歌声合成模型将目标歌曲中的音更改为用户音，得到合成歌曲；在歌声合成界面展示合成歌曲。
87.由图1可知，该服务器可以与多个设备建立通信连接，服务器从这些设备中获取歌
曲音频和目标音的目标音频。服务器据此合成歌曲。
88.图1中示出了多种终端设备，在实际场景中可以有更多或更少种类的终端设备参与到歌声合成或模型训练的过程中，具体数量和种类因实际场景而定，此处不做限定，另外，图1中示出了一个服务器，但在实际场景中，也可以有多个服务器的参与，具体服务器数量因实际场景而定。
89.应当注意的是，本实施例提供的歌声合成方法以及模型训练方法可以在线或离线进行。
90.可以理解的是，上述具有歌声合成功能的系统、程序，可以作为云端服务程序的一种，具体运作模式因实际场景而定，此处不做限定。自然，上述具有模型训练功能的系统、程序，可以作为云端服务程序的一种，具体运作模式因实际场景而定，此处不做限定。
91.具体的，在歌声合成完成后，用户可基于客户端分享、播放合成歌曲，还可以对比合成歌曲与原歌曲。该合成歌曲在用户的操作下，可在客户端参与打分、点赞等活动。
92.结合以上共性，请参见图2，图2为本技术实施例提供的第一种歌声合成方法流程图。如图2所示，该歌声合成方法应用于客户端，可以包括以下步骤：
93.s201、提供歌声合成界面；歌声合成界面用于接收用户针对目标歌曲的歌曲合成指令。
94.在本实施例中，歌声合成界面可以包括歌曲列表，歌曲列表里的每个歌曲对应有用于发起歌曲合成指令的按钮，用户点击歌曲列表里任一歌曲对应的按钮，那么用户就针对该歌曲发起了歌曲合成指令。歌声合成界面可参见图3。如图3所示，一个歌曲对应一个“合成按钮”。
95.其中，用户点击客户端提供的歌声合成功能的入口，就可以进入歌声合成界面。
96.s202、响应于歌曲合成指令，提供模型训练界面；模型训练界面提供有多个用户音频，以供用户选择。
97.s203、基于用户选择的带有用户音的歌曲，训练得到歌声合成模型。
98.s204、调用歌声合成模型将目标歌曲中的音更改为用户音，得到合成歌曲。
99.s205、在歌声合成界面展示合成歌曲。
100.如果用户点击图3所示的“歌曲1”对应的合成按钮，那么客户端根据此时歌曲1的歌曲合成指令，提供模型训练界面。模型训练界面提供有多个用户音频，以供用户选择。模型训练界面如图4所示，用户可在该界面勾选歌曲。可见，模型训练界面提供的用户音频就是各个歌曲，这些歌曲可以是：用户实时录制的歌曲、用户即时上传的歌曲和/或用户以往录制的歌曲。这些歌曲有一个共性，就是都包括用户自己的音，因此这些歌曲实际是用户自己唱的歌。用户在图4所示界面选择多个歌曲后，可以点击界面下方的“发起模型训练”按钮，从而自主发起模型训练。训练好的歌声合成模型与用户账户绑定。
101.客户端基于用户输入的模型训练指令以及用户选择的各个歌曲进行模型训练，在训练完成后，可以通知用户训练完成的消息，同时提示用户可以进行歌声合成了。如图5所示，训练完成后可在客户端展示图5所示内容，如果用户点击图5所示的“是”按钮，则直接跳转至图3所示的歌声合成界面，以便用户选择要进行歌声合成的歌曲；如果用户点击图5所示的“否”按钮，则跳转至客户端首页。
102.在一种具体实施方式中，在调用歌声合成模型的过程中，在歌声合成界面实时显
示歌声合成进度。例如：如果用户点击了图3所示的“歌曲1”对应的合成按钮，那么在图3“歌曲1”所在位置显示合成进度条，同时提示用户正在进行歌曲合成，具体可参见图6。此时图3所示歌曲1已在进行歌曲合成，故其对应的“合成按钮”相应修改为“分享”按钮，在歌曲合成后，用户点击此“分享”按钮，即可对合成歌曲进行分享。后续的分享流程可以参照现有相关技术，本实施例不再赘述。
103.需要说明的是，如果用户在歌声合成界面选择歌曲之前，已有自己的歌声合成模型，那么在用户点击图3所示的“歌曲1”后，客户端会判断当前用户是否有模型，若确定当前用户有模型，那么客户端不提供模型训练界面，而是执行调用歌声合成模型将目标歌曲中的音更改为用户音，得到合成歌曲；在歌声合成界面展示合成歌曲的步骤。在确定当前用户没有模型时，才提供模型训练界面。因此在一种具体实施方式中，在提供模型训练界面之前，还包括：判断是否已存在歌声合成模型；若已存在歌声合成模型，则执行调用歌声合成模型将目标歌曲中的音更改为用户音，得到合成歌曲；在歌声合成界面展示合成歌曲的步骤；否则，提供模型训练界面。
104.在一种具体实施方式中，客户端调用歌声合成模型将目标歌曲中的音更改为用户音时，需要知道当前用户的用户音。对此，可以提供带有用户音的音频给歌声合成模型，以进行音提取。为了避免在每次调用歌声合成模型时，歌声合成模型都进行用户音的提取，可以提前存储用户音，并将用户音与用户账户绑定。例如：在歌声合成模型训练完成后，利用歌声合成模型提取并存储用户音，以便在调用歌声合成模型时，查询用户音。用户音以音特征的形式进行存储。
105.可见，本实施例允许用户自主选择用于训练歌声合成模型的训练数据(即用户选择的带有用户音的歌曲)，然后据此训练数据训练得到歌声合成模型，该歌声合成模型能够将目标歌曲中的音更改为用户音，同时保留歌曲中的原歌曲内容和旋律，因此歌曲中的颤音、滑音和气口等唱歌技巧也会留存，使得合成歌曲更加真实自然。基于本实施例，用户可以自主训练自己的歌声合成模型，使得模型训练更加灵活；用户使用该歌声合成模型将任意歌曲中的音更改为自己的音，同时保留歌曲里的旋律等其他内容，就得到了带有用户音的合成歌曲，从而提升了歌曲合成的可操作性和合成质量。
106.请参见图7，图7为本技术实施例提供的第二种歌声合成方法流程图。如图7所示，该歌声合成方法应用于客户端，可以包括以下步骤：
107.s701、响应于模型训练指令，提供模型训练界面；模型训练界面提供有多个用户音频，以供用户选择。
108.其中，模型训练界面提供的用户音频就是用户自己唱的各个歌曲，这些歌曲可以是：用户实时录制的歌曲、用户即时上传的歌曲和/或用户以往录制的歌曲。
109.s702、基于用户选择的带有用户音的歌曲，训练得到歌声合成模型。
110.s703、提供歌声合成界面，以便用户针对目标歌曲输入歌曲合成指令。
111.s704、响应于歌曲合成指令，调用歌声合成模型将目标歌曲中的音更改为用户音，得到合成歌曲。
112.s705、在歌声合成界面展示合成歌曲。
113.在本实施例中，用户在客户端先进行模型训练，在训练得到歌声合成模型后，跳转至歌声合成界面进行歌声合成。也即：用户点击客户端提供的模型训练功能的入口，以进入
图4所示的模型训练界面，而后用户可在该界面勾选歌曲，并点击界面下方的“发起模型训练”按钮自主发起模型训练。
114.待模型训练完毕后，客户端展示图5所示内容，用户可以点击图5所示的“是”按钮，直接跳转至图3所示的歌声合成界面，以便用户选择要进行歌声合成的歌曲。如果用户点击了图3所示的“歌曲1”对应的合成按钮，那么在图3“歌曲1”所在位置显示合成进度条，同时提示用户正在进行歌曲合成，具体可参见图6。此时图3所示歌曲1已在进行歌曲合成，故其对应的“合成按钮”相应修改为“分享”按钮，在歌曲合成后，用户点击此“分享”按钮，即可对合成歌曲进行分享。后续的分享流程可以参照现有相关技术，本实施例不再赘述。
115.基于本实施例，用户可以自主训练自己的歌声合成模型，使得模型训练更加灵活；用户使用该歌声合成模型将任意歌曲中的音更改为自己的音，同时保留歌曲里的旋律等其他内容，就得到了带有用户音的合成歌曲，从而提升了歌曲合成的可操作性和合成质量。
116.请参见图8，图8为本技术实施例提供的第三种歌声合成方法流程图。如图8所示，该歌声合成方法可以包括以下步骤：
117.s801、接收客户端发送的歌曲合成请求。
118.s802、确定歌曲合成请求指定的歌曲音频和目标音的目标音频。
119.在本实施例中，客户端可以是安装在终端上的应用程序，用户可以通过客户端向服务端发送歌曲合成请求。当然，在发送歌曲合成请求时，用户需要在客户端的界面上指定某一歌曲和带有目标音的另一音频。其中，带有目标音的另一音频可以是带有目标音一首歌，也可以是一段人声语音。由此服务端接收到歌曲合成请求后，才能确定用户指定的歌曲音频和目标音。可见，本实施例提供的方法可应用于服务端。当然，如果客户端本地拥有足够的计算机资源，也可以由安装客户端的终端执行本实施例提供的方法。
120.s803、调用预设的歌声合成模型基于目标音频的目标频谱、歌曲音频的歌曲频谱和歌曲基频构造包括目标音的音特征、歌曲音频的歌曲内容特征和歌曲基频特征的合成频谱。
121.在本实施例中，歌声合成模型的输入为：目标音频的目标频谱、歌曲音频的歌曲频谱和歌曲基频，输出为：包括目标音的音特征、歌曲音频的歌曲内容特征和歌曲基频特征的合成频谱。因此在一种具体实施方式中，调用预设的歌声合成模型基于目标音频的目标频谱、歌曲音频的歌曲频谱和歌曲基频构造包括目标音的音特征、歌曲音频的歌曲内容特征和歌曲基频特征的合成频谱，包括：从歌曲音频中提取歌曲频谱和歌曲基频；从目标音频中提取目标频谱；将歌曲频谱输入歌声合成模型中的内容编码器，得到歌曲内容特征；将目标频谱输入歌声合成模型中的音编码器，得到音特征；将歌曲基频输入歌声合成模型中的词嵌入模块，得到歌曲基频特征；叠加歌曲内容特征、音特征和歌曲基频特征，并将叠加结果输入歌声合成模型中的解码器，得到合成频谱。
122.在一种具体实施方式中，将歌曲频谱输入歌声合成模型中的内容编码器，得到歌曲内容特征，包括：将歌曲频谱输入内容编码器，以使内容编码器提取歌曲频谱中的连续内容特征，并对连续内容特征进行矢量量化，得到歌曲内容特征。在一种具体实施方式中，将目标频谱输入歌声合成模型中的音编码器，得到音特征，包括：将目标频谱输入音编码器，以使音编码器提取目标频谱中的连续音特征，并对连续音特征进行均值计算，
得到音特征。在一种具体实施方式中，将歌曲基频输入歌声合成模型中的词嵌入模块，得到歌曲基频特征，包括：将歌曲基频输入词嵌入模块，以使词嵌入模块将歌曲基频映射为以向量表示的歌曲基频特征。
123.可见，歌声合成模型包括：内容编码器、音编码器、词嵌入模块以及解码器。内容编码器用于从歌曲频谱中得到歌曲内容特征。音编码器用于从目标音频的目标频谱中得到目标音频的音特征。词嵌入模块用于从歌曲基频中得到歌曲基频特征。解码器用于对歌曲内容特征、音特征和歌曲基频特征的叠加结果进行解码合成，得到包括目标音的音特征、歌曲音频的歌曲内容特征和歌曲基频特征的合成频谱。据此合成频谱就可以得到仅更改音，但同时保留歌曲内容特征和歌曲基频的一首新歌曲。
124.s804、将合成频谱输入预设的声码器，以使声码器输出包括目标音、歌曲音频的歌曲内容和歌曲旋律的合成歌曲。
125.本实施例中的声码器能够将合成频谱转换为人耳可听的合成歌曲。
126.当然，如果歌声合成时，用户想要更改原歌曲的音调大小，那么用户可以在客户端的相关界面发出升调或降调请求，这样服务端可根据升调或降调请求调整原歌曲的歌曲基频后，再进行基频特征提取。因此在一种具体实施方式中，若接收到客户端发送的升调或降调请求，则将歌曲基频输入歌声合成模型中的词嵌入模块，得到歌曲基频特征之前，还包括：对歌曲基频进行升调或降调。具体的，以下情况可以更改原歌曲的音调大小，如：原歌曲是男声主唱，目标音为女声音，那么将原歌曲的音调调大一些为宜。反之，原歌曲是女声主唱，目标音为男声音，那么将原歌曲的音调调小一些为宜。
127.在得到合成歌曲后，服务端可以将合成歌曲返回至客户端，以在用户操作下，将合成歌曲在客户端进行展示和播放。必要时，用户还可以播放原歌曲，以对比合成前后的区别。用户还可以基于客户端分享、播放合成歌曲。该合成歌曲在用户的操作下，还可以在客户端参与打分、点赞等活动。
128.可见，本实施例提供的歌声合成模型可将歌曲中的音转换为另一种音，同时还能保留歌曲中的原歌曲内容和旋律，因此歌曲中的颤音、滑音和气口等唱歌技巧也会留存，使得合成歌曲更加真实自然。在具体实现时，用户只需基于客户端指定歌曲和带有目的音的音频，而后据此发送歌曲合成请求，那么后台可确定歌曲合成请求指定的歌曲音频(即原歌曲)和目标音(即目的音)的目标音频；调用预设的歌声合成模型基于目标音频的目标频谱、歌曲音频的歌曲频谱和歌曲基频构造包括目标音的音特征、歌曲音频的歌曲内容特征和歌曲基频特征的合成频谱；将合成频谱输入预设的声码器，以使声码器输出包括目标音、歌曲音频的歌曲内容和歌曲旋律的合成歌曲。可见，该方案能够保留歌曲音频中的原歌曲内容和旋律，同时再添加目的音，就可以得到合成歌曲，且该方案中的歌声合成模型以音频频谱作为输入数据，不涉及复杂的音素、曲谱等要素，因此模型训练过程可避免过多的曲谱标注和音素标注工作，训练效果较高。
129.请参见图9，图9为本技术实施例提供的一种歌声合成模型训练方法流程图。如图9所示，一种歌声合成模型训练方法可以包括以下步骤：
130.s901、接收客户端发送的模型训练请求。
131.s902、确定模型训练请求指定的训练集。
132.其中，训练集为：用户选择的携带用户音的歌曲集。可见，训练集包括多个用于
训练歌声合成模型的、同一音的训练歌曲。
133.本实施例使用的歌声合成模型就是上述实施例所述的歌声合成模型。
134.在本实施例中，客户端也可以是安装在终端上的应用程序，用户可以通过客户端向服务端发送模型训练请求。当然，在发送模型训练请求时，用户需要在客户端的界面上指定多个同一音的歌曲组成训练集。服务端接收到模型训练请求后，可确定训练模型要用的训练集，从而据此进行模型训练。可见，本实施例提供的方法可应用于服务端。当然，如果客户端本地拥有足够的计算机资源，也可以由安装客户端的终端执行本实施例提供的方法。
135.请参见图4，用户可在客户端的界面上选择自己歌唱的任意歌曲来构成训练集，然后一键发起模型训练。图4中打钩的歌曲为：被选入训练集的歌曲，未打钩的歌曲为：未被选入训练集的歌曲。
136.s903、基于训练集进行模型训练，得到歌声合成模型。
137.由前述实施例可知，歌声合成模型包括：内容编码器、音编码器、词嵌入模块以及解码器。因此训练歌声合成模型时首先需要确定上述各组成部分的结构。具体的，内容编码器和音编码器的结构可以完全相同，在训练时使内容编码器的参数适用于进行歌曲内容提取，使音编码器的参数适用于进行音提取。词嵌入模块以及解码器可以采用现有训练好的模型，也可以使用初始化状态的，也即：歌声合成模型中的内容编码器、音编码器、词嵌入模块以及解码器都可以从初始状态进行训练。
138.请参见图10，具体的模型训练步骤包括：
139.s1001、从训练集中获取训练歌曲；
140.s1002、从训练歌曲中提取可训练频谱和训练基频；
141.s1003、将可训练频谱输入初始模型中的内容编码器，得到训练歌曲的训练内容特征；
142.s1004、将可训练频谱输入初始模型中的音编码器，得到训练歌曲的训练音特征；
143.s1005、将训练基频输入初始模型中的词嵌入模块，得到训练歌曲的训练基频特征；
144.s1006、叠加训练内容特征、训练音特征和训练基频特征，并将叠加结果输入初始模型中的解码器，得到训练合成频谱；
145.s1007、计算训练合成频谱和可训练频谱之间的损失；
146.s1008、判断损失是否符合预设收敛条件；若是，则执行s1009；否则，执行s510；
147.s1009、输出当前模型作为歌声合成模型；
148.s1010、基于损失更新初始模型中的内容编码器、音编码器、解码器和词嵌入模块的参数，并执行s1001，以从训练集中另选训练歌曲迭代训练模型，直至训练合成频谱和可训练频谱之间的损失符合预设收敛条件。
149.如图10所示，s1003、s1004、s1005可以并行执行，当然也可以无先后顺序执行。
150.在本实施例中，内容编码器可提取可训练频谱中的连续内容特征，并对连续内容特征进行矢量量化，从而得到训练内容特征。音编码器可提取可训练频谱中的连续音特征，并对连续音特征进行均值计算，从而得到训练音特征。词嵌入模块可将训练基频
映射为以向量表示的训练基频特征。可见，训练流程中模型各组成部分的功能与模型使用流程中的完全相同，必要时可以相互参照。
151.可见，本实施例提供的歌声合成模型可将歌曲中的音转换为另一种音，同时还能保留歌曲中的原歌曲内容和旋律，因此歌曲中的颤音、滑音和气口等唱歌技巧也会留存，使得合成歌曲更加真实自然。该训练方案能够保留歌曲音频中的原歌曲内容和旋律，同时再添加目的音，就可以得到合成歌曲，且该方案中的歌声合成模型以音频频谱作为输入数据，不涉及复杂的音素、曲谱等要素，因此模型训练过程可避免过多的曲谱标注和音素标注工作，训练效果较高。
152.下面通过具体的应用场景实例描述，来介绍本技术提供的歌声合成方案，该方案可以仅更改歌曲中的音，但同时保留歌曲中的原歌曲内容和旋律。
153.请参见图11，歌声合成方案的具体流程包括：
154.s1101、用户在终端上指定一首歌以及带有目的音的一段音频，终端基于用户的指定生成歌曲合成请求；
155.s1102、终端发送歌曲合成请求至服务器；
156.s1103、服务器基于歌曲合成请求确定用户指定的歌曲和带有目的音的一段音频，并调用预设的歌声合成模型将用户所指定歌曲的频谱更改为包括目的音、原歌曲内容和基频的合成频谱，将合成频谱输入预设的声码器，以使声码器输出与用户所指定歌曲的音不同，但旋律、内容完全相同的合成歌曲。
157.s1104、服务器将合成歌曲发送至终端；
158.s1105、终端接收合成歌曲后，用户可以播放该合成歌曲。
159.其中，终端可以为智能手机、电视、平板电脑、笔记本电脑或台式电脑等设备。
160.在实际应用时，本技术可以设置于音乐播放工具内，该工具安装在用户终端上。
161.请参见图12，本实施例中的歌声合成模型包含了内容编码器(content encoder)、音编码器(timbre encoder)、词嵌入模块(用于进行基频提取，即图12中的pitch extract)和解码器(decoder)。
162.需要说明的是，针对原歌曲需要提取其中的频谱特征，如图12中的梅尔谱特征(log-mel spec)，以便输入给内容编码器和音编码器。具体的，梅尔谱提取时，先对音频信号进行分帧加窗，然后通过傅里叶变换计算线性频谱，最后采用梅尔标度的滤波器组将线性频谱变换为梅尔频谱，实现将频谱的线性标度转化为梅尔标度。
163.同时，针对原歌曲提取其中的基频，采用常用的基频提取工具(如pyin)就可以从原歌曲音频中提取出基频，然后经过词嵌入模块，将各基频值映射到向量中，以得到基频特征p。基频信息是原歌声的重要信息。
164.在一种示例中，内容编码器和音编码器的结构完全相同。如图12所示，这两个模块是由多个残差连接构成的。一个log-mel spec特征(用x表示)，经过卷积(conv)、批标准化(batchnorm)和线性整流函数(relu)模块后得到y，然后将x和y相加，可以避免模型的梯度消失。将x+y作为下一个残差连接结构的输入，依此类推。这里设定的残差连接结构为5个，卷积核大小为3，通道数为128。在编码完成后，会进行一个线性层(linear)计算，对特征进行降维处理。
165.需要说明的是，虽然内容编码器和音编码器都使用上述相同的基础结构，但是
内容编码器会将线性层输出的连续特征进行矢量量化(vector quantised)后输出z，其作用是将连续的潜在空间转换为离散的潜在空间，可以使得码本信息在不同的音之间实现共享。而音编码器则会对线性层输出进行均值(mean)计算，输出s作为目标人的音表征，其作用是避免音频中不同位置的不同发音内容对音的表征造成干扰。
166.之后，叠加基频特征p、内容编码器输出的z以及音编码器输出的s后，将叠加结果输入解码器，从而得到新合成的频谱特征(图12中的predict log-mel spec)。其中，解码器使用fastspeech模型的解码器即可，该解码器由6个前向反馈网络(ffn，feed-forward network)组成。ffn可实现非自回归特征合成，具有良好的性能，另外ffn也在非自回归的合成任务中有更好的表现能力。解码器的输出也是梅尔谱特征。
167.基于上述模型结构，模型训练过程包括：针对一段音频信号，先提取其中的基频信息、梅尔谱特征。基频信息会首先经过词嵌入模块，得到一个p向量。而梅尔谱特征会分别经过内容编码器和音编码器，分别得到z向量和s向量。
168.在内容编码器中，梅尔谱特征经过5个残差连接结构，并进行降维，然后通过最近邻查来得到一个潜变量cenc(x)，cenc(x)＝ek,where k＝argminj||cenc(x)-ej||2，也即：经过矢量量化最终输出z。其中，ek为维度为[n，d]的码本中的第k个向量，ej为维度为cenc(x)最接近的潜在变量，n是离散潜在空间的大小，d是每个潜在嵌入向量的维数。
[0169]
在音编码器中，梅尔谱特征会同样经过5个线性残差连接结构，得到senc(x)，然后经过均值处理得到音表征s：s＝mean(cenc(x))。其中，mean表示对一个序列在时间维度上进行均值处理。例如：一个[t，d]的序列，均值处理后得到[1,d]的向量。
[0170]
之后将内容向量z，音向量s以及基频向量p相加得到z+s+p，输入到解码器得到预测梅尔谱特征。
[0171]
本模型使用的损失函数为最小均方误差(mes loss)。模型预测得到的梅尔谱和从音频信号计算得到的梅尔谱进行均方误差计算，然后基于损失值进行梯度反向传播更新模型中各组成部分的参数，学习率为0.001，优化器为adam优化器。当模型的损失值基本收敛时，训练结束，从而得到歌声合成模型。
[0172]
在模型推断阶段，内容编码器和音编码器的输入音频，分别是音频a和音频b，基频编码模块的输入是音频a，则歌声合成模型可以将音频a的音更改为音频b，从而得到具备音频b音、音频a内容及旋律的合成音频。需要说明的是，歌声合成模型输出的梅尔谱特征输入到声码器模型中可得到相应的音频信号。常见的声码器模型有hifigan和melgan模型等。
[0173]
另外，为了解决男女生音域不同的问题，可以对基频信息进行编辑，以实现歌曲音调的修改。如：调小或调小基频信息后在进行基频编码。
[0174]
可见，使用本实施例提供的方案可训练得到用于更改音频音但保留音频内容及旋律的模型，可将其他音的歌声转换为目标音，且模型训练时无需对歌声数据进行音素标注，通过音编码器可以转换任意音，通过解码器不但确保合成的歌声不存在跑调的情况，还可以支持歌曲音高的修改。具体应用时，用户可以选择自己演唱过的作品作为训练集，以训练得到将自己的音作为目的音的歌声合成模型，如图4所示。模型训练完毕后，在歌声合成界面选择需要合成的歌曲，便可实现合成自己音的歌曲。
[0175]
下面对本技术实施例提供的一种电子设备进行介绍，下文描述的一种电子设备与
上述实施例的相关实现步骤可以相互参照。
[0176]
进一步的，本技术实施例还提供了一种电子设备。其中，上述电子设备既可以是如图13所示的服务器50，也可以是如图14所示的终端60。图13和图14均是根据一示例性实施例示出的电子设备结构图，图中的内容不能被认为是对本技术的使用范围的任何限制。
[0177]
图13为本技术实施例提供的一种服务器的结构示意图。该服务器50，具体可以包括：至少一个处理器51、至少一个存储器52、电源53、通信接口54、输入输出接口55和通信总线56。其中，所述存储器52用于存储计算机程序，所述计算机程序由所述处理器51加载并执行，以实现前述任一实施例公开的歌声合成中的相关步骤。
[0178]
本实施例中，电源53用于为服务器50上的各硬件设备提供工作电压；通信接口54能够为服务器50创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本技术技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口55，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。
[0179]
另外，存储器52作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统521、计算机程序522及数据523等，存储方式可以是短暂存储或者永久存储。
[0180]
其中，操作系统521用于管理与控制服务器50上的各硬件设备以及计算机程序522，以实现处理器51对存储器52中数据523的运算与处理，其可以是windows server、netware、unix、linux等。计算机程序522除了包括能够用于完成前述任一实施例公开的歌声合成方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。数据523除了可以包括应用程序的更新信息等数据外，还可以包括应用程序的开发商信息等数据。
[0181]
图14为本技术实施例提供的一种终端的结构示意图，该终端60具体可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。
[0182]
通常，本实施例中的终端60包括有：处理器61和存储器62。
[0183]
其中，处理器61可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器61可以采用dsp(digital signal processing，数字信号处理)、fpga(field－programmable gate array，现场可编程门阵列)、pla(programmable logic array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器61也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称cpu(central processing unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器61可以在集成有gpu(graphics processing unit，图像处理器)，gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器61还可以包括ai(artificial intelligence，人工智能)处理器，该ai处理器用于处理有关机器学习的计算操作。
[0184]
存储器62可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器62还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器62至少用于存储以下计算机程序621，其中，该计算机程序被处理器61加载并执行之后，能够实现前述任一实施例公开的由终端
侧执行的歌声合成方法中的相关步骤。另外，存储器62所存储的资源还可以包括操作系统622和数据623等，存储方式可以是短暂存储或者永久存储。其中，操作系统622可以包括windows、unix、linux等。数据623可以包括但不限于应用程序的更新信息。
[0185]
在一些实施例中，终端60还可包括有显示屏63、输入输出接口64、通信接口65、传感器66、电源67以及通信总线68。
[0186]
本领域技术人员可以理解，图14中示出的结构并不构成对终端60的限定，可以包括比图示更多或更少的组件。
[0187]
下面对本技术实施例提供的一种存储介质进行介绍，下文描述的一种存储介质与上述实施例的相关实现步骤可以相互参照。
[0188]
进一步的，本技术实施例还公开了一种存储介质，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现前述任一实施例公开的歌声合成方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容，在此不再进行赘述。
[0189]
需要指出的是，上述仅为本技术的较佳实施例，并不用以限制本技术，凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。
[0190]
本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。
[0191]
本文中应用了具体个例对本技术的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本技术的方法及其核心思想；同时，对于本领域的一般技术人员，依据本技术的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本技术的限制。

技术特征：

1.一种歌声合成方法，其特征在于，包括：提供歌声合成界面；所述歌声合成界面用于接收用户针对目标歌曲的歌曲合成指令；响应于所述歌曲合成指令，提供模型训练界面；所述模型训练界面提供有多个用户音频，以供用户选择；基于用户选择的带有用户音的歌曲，训练得到歌声合成模型；调用所述歌声合成模型将所述目标歌曲中的音更改为所述用户音，得到合成歌曲；在所述歌声合成界面展示所述合成歌曲。2.根据权利要求1所述的方法，其特征在于，还包括：在调用所述歌声合成模型的过程中，在所述歌声合成界面实时显示歌声合成进度。3.根据权利要求1所述的方法，其特征在于，在提供模型训练界面之前，还包括：判断是否已存在所述歌声合成模型；若已存在所述歌声合成模型，则执行所述调用所述歌声合成模型将所述目标歌曲中的音更改为所述用户音，得到合成歌曲；在所述歌声合成界面展示所述合成歌曲的步骤；否则，提供模型训练界面。4.根据权利要求1至3任一项所述的方法，其特征在于，还包括：在所述歌声合成模型训练完成后，利用所述歌声合成模型提取并存储所述用户音，以便在调用所述歌声合成模型时，查询所述用户音。5.一种歌声合成方法，其特征在于，包括：响应于模型训练指令，提供模型训练界面；所述模型训练界面提供有多个用户音频，以供用户选择；基于用户选择的带有用户音的歌曲，训练得到歌声合成模型；提供歌声合成界面，以便用户针对目标歌曲输入歌曲合成指令；响应于所述歌曲合成指令，调用所述歌声合成模型将所述目标歌曲中的音更改为所述用户音，得到合成歌曲；在所述歌声合成界面展示所述合成歌曲。6.根据权利要求5所述的方法，其特征在于，所述模型训练界面提供的多个用户音频为：用户实时录制的歌曲、用户即时上传的歌曲和/或用户以往录制的歌曲。7.一种歌声合成方法，其特征在于，包括：接收客户端发送的歌曲合成请求；确定所述歌曲合成请求指定的歌曲音频和目标音的目标音频；调用预设的歌声合成模型基于所述目标音频的目标频谱、所述歌曲音频的歌曲频谱和歌曲基频构造包括所述目标音的音特征、所述歌曲音频的歌曲内容特征和歌曲基频特征的合成频谱；将所述合成频谱输入预设的声码器，以使所述声码器输出包括所述目标音、所述歌曲音频的歌曲内容和歌曲旋律的合成歌曲。8.根据权利要求7所述的方法，其特征在于，所述调用预设的歌声合成模型基于所述目标音频的目标频谱、所述歌曲音频的歌曲频谱和歌曲基频构造包括所述目标音的音特征、所述歌曲音频的歌曲内容特征和歌曲基频特征的合成频谱，包括：
从所述歌曲音频中提取所述歌曲频谱和所述歌曲基频；从所述目标音频中提取所述目标频谱；将所述歌曲频谱输入所述歌声合成模型中的内容编码器，得到所述歌曲内容特征；将所述目标频谱输入所述歌声合成模型中的音编码器，得到所述音特征；将所述歌曲基频输入所述歌声合成模型中的词嵌入模块，得到所述歌曲基频特征；叠加所述歌曲内容特征、所述音特征和所述歌曲基频特征，并将叠加结果输入所述歌声合成模型中的解码器，得到所述合成频谱。9.根据权利要求8所述的方法，其特征在于，若接收到所述客户端发送的升调或降调请求，则所述将所述歌曲基频输入所述歌声合成模型中的词嵌入模块，得到所述歌曲基频特征之前，还包括：对所述歌曲基频进行升调或降调。10.根据权利要求8所述的方法，其特征在于，所述将所述歌曲频谱输入所述歌声合成模型中的内容编码器，得到所述歌曲内容特征，包括：将所述歌曲频谱输入所述内容编码器，以使所述内容编码器提取所述歌曲频谱中的连续内容特征，并对所述连续内容特征进行矢量量化，得到所述歌曲内容特征。11.根据权利要求8所述的方法，其特征在于，所述将所述目标频谱输入所述歌声合成模型中的音编码器，得到所述音特征，包括：将所述目标频谱输入所述音编码器，以使所述音编码器提取所述目标频谱中的连续音特征，并对所述连续音特征进行均值计算，得到所述音特征。12.根据权利要求8所述的方法，其特征在于，所述将所述歌曲基频输入所述歌声合成模型中的词嵌入模块，得到所述歌曲基频特征，包括：将所述歌曲基频输入所述词嵌入模块，以使所述词嵌入模块将所述歌曲基频映射为以向量表示的所述歌曲基频特征。13.根据权利要求7至12任一项所述的方法，其特征在于，还包括：将所述合成歌曲返回至所述客户端，并进行展示和播放。14.一种歌声合成模型训练方法，其特征在于，包括：接收客户端发送的模型训练请求；确定所述模型训练请求指定的训练集；所述训练集为：用户选择的携带用户音的歌曲集；基于所述训练集进行模型训练，得到所述歌声合成模型。15.根据权利要求14所述的方法，其特征在于，所述基于所述训练集进行模型训练，得到所述歌声合成模型，包括：从所述训练集中获取训练歌曲；从所述训练歌曲中提取可训练频谱和训练基频；将所述可训练频谱输入初始模型中的内容编码器，得到所述训练歌曲的训练内容特征；将所述可训练频谱输入所述初始模型中的音编码器，得到所述训练歌曲的训练音特征；将所述训练基频输入所述初始模型中的词嵌入模块，得到所述训练歌曲的训练基频特
征；叠加所述训练内容特征、所述训练音特征和所述训练基频特征，并将叠加结果输入所述初始模型中的解码器，得到训练合成频谱；计算所述训练合成频谱和所述可训练频谱之间的损失；若所述损失符合预设收敛条件，则输出当前模型作为所述歌声合成模型；否则，基于所述损失更新所述初始模型中的所述内容编码器、所述音编码器、所述解码器和所述词嵌入模块的参数，并从所述训练集中另选训练歌曲迭代训练模型。16.一种电子设备，其特征在于，所述电子设备包括处理器和存储器；其中，所述存储器用于存储计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至15任一项所述的方法。17.一种存储介质，其特征在于，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如权利要求1至15任一项所述的方法。

技术总结

本申请公开了计算机技术领域内的一种歌声合成方法及组件，歌声合成模型训练方法及组件。基于本申请，用户可以自主训练自己的歌声合成模型，使得模型训练更加灵活；用户使用该歌声合成模型将任意歌曲中的音更改为自己的音，同时保留原歌曲中的颤音、滑音和气口等唱歌技巧，就得到了带有用户音的合成歌曲，由此提升了歌曲合成的可操作性和合成质量。相应地，本申请提供的一种歌声合成组件，一种歌声合成模型训练方法及组件，也同样具有上述技术效果。述技术效果。述技术效果。