音频合成方法、装置、设备、计算机可读存储介质及产品与流程

1.本公开涉及人工智能领域，尤其涉及一种音频合成方法、装置、设备、计算机可读存储介质及产品。

背景技术

：
：：2.现有的客服语音合成技术多为text-to-speech(tts)技术，是指从文字转换为语音的技术，通过该技术可以让机器人开口说话。3.tts技术主要包括两个部分：语音合成前端与语音合成后端。语音合成前端主要作用是将合成文本进行预处理并转化为发音的符号化描述，具体对于中文来说，是将合成文本进行预处理并转化为含有韵律信息的音素序列。主要包含文本正则化、正则文本转因素以及韵律层预测等模块。语音合成后端则是将前端输出的发音符号化描述转化为语音波形。4.但是，采用上述方法合成的语音往往音质不高、韵律平淡且合成效果不稳定。进而会导致根据上述合成语音生成的客服语音会影响用户的使用体验。技术实现要素：5.本公开提供一种音频合成方法、装置、设备、计算机可读存储介质及产品，用于解决现有的音频合成方法合成的语音效果不佳，导致用户体验较差的技术问题。6.本公开的第一个方面是提供一种音频合成方法，包括：7.获取待处理的客服语谱图；8.将所述客服语谱图输入至预设的生成对抗网络中的目标生成器内，获得所述目标生成器输出的具有客户预设的个性化特征的目标语谱图；9.通过预设的语音合成工具，根据所述目标语谱图生成具有客户预设的个性化特征的目标音频。10.本公开的第二个方面是提供一种音频合成装置，包括：11.获取模块，用于获取待处理的客服语谱图；12.处理模块，用于将所述客服语谱图输入至预设的生成对抗网络中的目标生成器内，获得所述目标生成器输出的具有客户预设的个性化特征的目标语谱图；13.生成模块，用于通过预设的语音合成工具，根据所述目标语谱图生成具有客户预设的个性化特征的目标音频。14.本公开的第三个方面是提供一种电子设备，包括：处理器，以及与所述处理器通信连接的存储器；15.所述存储器存储计算机执行指令；16.所述处理器执行所述存储器存储的计算机执行指令，以实现如第一方面所述的方法。17.本公开的第四个方面是提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如第一方面所述的方法。18.本公开的第五个方面是提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如第一方面所述的方法。19.本公开提供的音频合成方法、装置、设备、计算机可读存储介质及产品，可以预先训练获得生成对抗网络，其中，该生成对抗网络中的目标生成器能够根据语谱图生成具有用户个性化特征的目标语谱图。从而在获取到待处理的客服语谱图之后，可以将该客服语谱图输入至该目标生成器中，获得具有客户预设的个性化特征的目标语谱图，基于该目标语谱图进行目标音频的生成，从而能够保证生成的目标音频能够满足用户的个性化需求，此外，能够提高生成的目标音频的真实性，进而能够提升用户后续对该目标音频的使用体验。附图说明20.为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。21.图1为本公开基于的系统架构示意图；22.图2为本公开实施例提供的音频合成方法的流程示意图；23.图3为本公开实施例提供的生成对抗网络的结构示意图；24.图4为本公开又一实施例提供的音频合成方法的流程示意图；25.图5为本公开又一实施例提供的音频合成方法的流程示意图；26.图6为本公开实施例提供的音频合成装置的结构示意图；27.图7为本公开实施例提供的电子设备的结构示意图。具体实施方式28.为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例所获得的所有其他实施例，都属于本公开保护的范围。29.名词解释：30.生成对抗网络：生成对抗网络是一种无监督的深度学习模型。31.频谱包络：在一个频率-振幅图中，将每个频率共振峰用平滑的曲线连接起来，这个平滑的曲线就是语音的频谱包络。32.针对上述提及的现有的音频合成方法合成的语音效果不佳，导致用户体验较差的技术问题，本公开提供了一种音频合成方法、装置、设备、计算机可读存储介质及产品。33.需要说明的是，本公开提供的一种音频合成方法、装置、设备、计算机可读存储介质及产品可用于人工智能领域。也可用于除人工智能领域以外的任意领域。本公开提供的一种音频合成方法、装置、设备、计算机可读存储介质及产品对应用领域不作限定。34.现有技术中，一般都是通过tts技术实现目标音频的生成，但是，使用该方法进行音频生成时，往往生成的音频效果不佳，且无法满足用户的个性化需求，导致用户体验不佳。35.在解决上述技术问题的过程中，发明人通过研究发现，为了提升生成的目标音频的质量，可以预先训练生成对抗网络，该生成对抗网络中包括生成器以及判别器。在训练过程中，可以通过生成器生成目标语谱图，判别器用于判别该目标语谱图与用户提供的语谱图进行比对，以促使生成器生成更加贴近于用户提供的语谱图的目标语谱图。根据生成器生成的语谱图生成目标音频。从而能够使得生成的目标音频更加贴近用户提供的音频，使得目标音频满足用户的个性化需求，此外，能够使得目标音频的真实性更高。36.图1为本公开基于的系统架构示意图，如图1所示，本公开基于的系统架构至少包括：数据服务器11以及服务器12，其中，服务器12中设置有音频合成装置。该音频合成装置可采用c/c++、java、shell或python等语言编写；数据服务器12则可为云端服务器或服务器集，其内存储有大量的数据。37.图2为本公开实施例提供的音频合成方法的流程示意图，如图2所示，该方法包括：38.步骤201、获取待处理的客服语谱图。39.本实施例的执行主体为音频合成装置，该音频合成装置可耦合于服务器中。该服务器可以与数据服务器通信连接，从而能够从数据服务器中获取客服语谱图，并根据该客服语谱图实现目标音频的生成。可选地，该服务器也可以与终端设备通信连接，从而能够获取用户通过终端设备发送的客服语谱图，并根据该客服语谱图实现目标音频的生成。40.在本实施方式中，为了实现对目标音频的生成，首先可以获取待处理的客服语谱图。具体地，可以获取预设的客服语音，对客服语音进行预处理操作，将其转化为长度一致的音频文件。针对长度一致的音频文件，可以通过短时傅里叶变换对音频文件进行时频分析，得到该待处理的客服语谱图。41.步骤202、将所述客服语谱图输入至预设的生成对抗网络中的目标生成器内，获得所述目标生成器输出的具有客户预设的个性化特征的目标语谱图。42.在本实施方式中，可以预先训练生成对抗网络，该生成对抗网络中包括生成器以及判别器。在训练过程中，生成器能够根据客服语谱图生成具有客户预设的个性化特征的目标语谱图。判别器能够对生成器生成的目标语谱图进行判别，以监督生成器生成与用户提供的个性化语谱图极为相似的目标语谱图。当生成器能够生成骗过判别器的目标语谱图时，将该生成器确定为目标生成器。43.因此，在获取到客服语谱图之后，可以将该客服语谱图输入至预设的生成对抗网络中的目标生成器内，获取目标生成器输出的具有客户预设的个性化特征的目标语谱图。44.步骤203、通过预设的语音合成工具，根据所述目标语谱图生成具有客户预设的个性化特征的目标音频。45.在本实施方式中，在生成具有客户预设的个性化特征的目标语谱图之后，可以通过预设的语音合成工具，根据目标语谱图生成具有客户预设的个性化特征的目标音频。由于该目标语谱图与用户提供的个性化语谱图相似度较高，因此，基于该目标语谱图生成的目标音频与用户提供的个性化语音的相似度较高，能够满足用户的个性化需求。46.本实施例提供的音频合成方法，可以预先训练获得生成对抗网络，其中，该生成对抗网络中的目标生成器能够根据语谱图生成具有用户个性化特征的目标语谱图。从而在获取到待处理的客服语谱图之后，可以将该客服语谱图输入至该目标生成器中，获得具有客户预设的个性化特征的目标语谱图，基于该目标语谱图进行目标音频的生成，从而能够保证生成的目标音频能够满足用户的个性化需求，此外，能够提高生成的目标音频的真实性，进而能够提升用户后续对该目标音频的使用体验。47.进一步地，在上述任一实施例的基础上，步骤202之前，还包括：48.获取待处理数据集，其中，所述待处理音频数据集中包括多条预设的客服谱图以及多条用户提供的个性化语谱图。49.通过所述待处理数据集对预设的生成对抗网络中的待训练生成器以及待训练判别器进行训练，获得所述目标生成器。50.在本实施例中，在通过目标生成器进行目标语谱图的生成之前，首先需要对生成对抗网络进行训练操作。51.具体地，可以获取待处理数据集，其中，待处理音频数据集中包括多条预设的客服谱图以及多条用户提供的个性化语谱图，该个性化语谱图可以包括用户个性化的语音特征。在获取到待处理数据集之后，可以采用该待处理数据集对预设的生成对抗网络中的待训练生成器以及待训练判别器进行训练，当待训练生成器生成的语谱图能够骗过待训练判别器时，也即待训练判别器对待训练生成器输出的语谱图的判别结果为真时，判定待训练生成器训练完毕，获得目标生成器，后续可以采用该目标生成器进行目标语谱图的生成。52.进一步地，在上述任一实施例的基础上，所述通过所述待处理数据集对预设的生成对抗网络中的待训练生成器以及待训练判别器进行训练，获得所述目标生成器，包括：53.将所述客服语谱图输入至预设的待训练生成器中，获得所述待训练生成器输出的待处理语谱图。54.将所述待处理语谱图与所述个性化语谱图输入至所述待训练判别器中，获得所述待训练判别器输出的所述待处理语谱图与所述个性化语谱图之间的差异信息。55.根据所述差异信息对所述待训练生成器进行调节，直至所述待训练判别器输出的差异信息小于预设的阈值，获得所述目标生成器。56.在本实施例中，在获取到待处理数据集之后，可以将客服语谱图m输入至预设的待训练生成器中，待训练生成器可以根据该客服语谱图生成与用户提供的个性化语谱图相似的待处理语谱图o。57.在此过程中，待训练判别器的损失函数可以如公式1所示：[0058][0059]其中，gab表示生成器ab，do表示从m到o过程中的待训练判别器。[0060]将该待处理语谱图o与用户提供的个性化语谱图n输入至待训练判别器中，待训练判别器能够确定待处理语谱图o与个性化语谱图n之间的差异信息。进而能够根据该差异信息确定待训练生成器当前是否训练完毕。具体地，若差异信息大于预设的阈值，则待训练判别器可以判定待训练生成器生成的待处理语谱图为假。此时，为了提高待训练生成器生成的待处理语谱图的真实性，可以根据该差异信息反向对待训练生成器进行调节，直至待训练判别器输出的差异信息小于预设的阈值，获得目标生成器。反之，若差异信息小于预设的阈值，则待训练判别器可以判定待训练生成器生成的待处理语谱图为真。此时，可以判定待训练生成器能够生成足够真实的待处理语谱图，可以将当前的待训练生成器确定为目标生成器，能够进行后续的目标语谱图的生成。[0061]在上述训练过程中，待训练判别器可以最小化公式2中的损失函数：[0062][0063]其中，em～pdata(m)||[f(gab(m))-m||1]为待训练生成器对应的损失函数；en～pdata(n)[||gab(f(n))-n||1]为目标生成器对应的损失函数。[0064]图3为本公开实施例提供的生成对抗网络的结构示意图，如图3所示，生成对抗网络31中包括待训练生成器32以及待训练判别器33。可以将客服语谱图34输入至预设的待训练生成器32中，获得待训练生成器32输出的待处理语谱图35。将个性化语谱图36输入至所述待训练判别器33中，以使待训练判别器33根据对该待处理语谱图35与个性化语谱图36之间的差异信息对待训练生成器32进行调节操作。[0065]本实施例提供的音频合成方法，通过对生成对抗网络进行训练，从而能够通过生成对抗网络实现将满足用户个性化需求的语音迁移至现有的客服语音，摒弃了传统的文本至语音的转换，使得生成的客服语音更流畅自然。[0066]图4为本公开又一实施例提供的音频合成方法的流程示意图，在上述任一实施例的基础上，如图4所示，步骤201包括：[0067]步骤401、获取语音数据集，所述语音数据集中包括多个预设的客服语音数据，以及多个用户提供的个性化语音数据。[0068]步骤402、将各所述语音数据分割为时间长度一致的待处理语音。[0069]步骤403、通过短时傅里叶变换对各所述待处理语音进行时频分析，获得多条预设的客服谱图以及多条用户提供的个性化语谱图。[0070]步骤404、根据所述多条预设的客服谱图以及多条用户提供的个性化语谱图生成所述待处理数据集。[0071]在本实施例中，为了实现对待处理数据集的获取，首先可以获取语音数据集，其中，该语音数据集中包括多个预设的客服语音数据，以及多个用户提供的个性化语音数据。将各语音数据分割为时间长度一致的待处理语音。其中，该时间长度可以根据实际需求进行设置，本公开对此不做限制。[0072]进一步地，可以通过短时傅里叶变换对各待处理语音进行时频分析，获得多条预设的客服谱图以及多条用户提供的个性化语谱图。其中，短时傅里叶变换可以如公式3所示：[0073][0074]将多条预设的客服谱图以及多条用户提供的个性化语谱图确定为待处理数据集，从而后续可以根据该待处理数据集实现对生成对抗网络的训练操作。[0075]进一步地，在上述任一实施例的基础上，步骤403包括：[0076]在所述短时傅里叶变换中添加汉明窗函数，获得处理后的短时傅里叶变换。[0077]采用所述处理后的短时傅里叶变换对各所述待处理语音进行时频分析。[0078]在本实施例中，考虑到需要适应不同客户各种各样的声音，可以在短时傅里叶变换中添加汉明窗函数，获得处理后的短时傅里叶变换。从而后续可以采用该处理后的短时傅里叶变换对各所述待处理语音进行时频分析。[0079]其中，傅里叶变化所加窗函数为汉明窗，在频率分量多、频谱复杂的情况下表现良好。汉明窗的窗函数如公式4所示：[0080][0081]其中，[0082]本实施例提供的音频合成方法，通过对语音数据集中的语音数据进行数据处理，从而能够将多条预设的客服谱图以及多条用户提供的个性化语谱图确定为待处理数据集，从而后续可以根据该待处理数据集实现对生成对抗网络的训练操作。为后续的目标音频的生成提供了基础。[0083]图5为本公开又一实施例提供的音频合成方法的流程示意图，在上述任一实施例的基础上，如图5所示，步骤203包括：[0084]步骤501、通过预设的波形网络将所述目标语谱图转换为目标时域图。[0085]步骤502、通过预设的world语音合成工具根据所述目标时域图生成具有客户预设的个性化特征的目标音频。[0086]在本实施例中，在获取到目标语谱图之后，可以通过预设的波形网络(wavenet)将目标语谱图转换为目标时域图。wavenet模型最重要的部分是因果卷积。因果卷积的每个卷积层都对前一层进行卷积，卷积核越大，层数越多，时域上的感知能力越强，感知范围越大。在生成过程中，每生成一个点，把该点放到输入层最后一个点继续迭代生成即可。[0087]wavenet的输出层为softmax，作用是求每个采样点的频率，其中，每个采样点的频率可以如公式5所示：[0088][0089]在获取到目标时域图之后，可以采用预设的world语音合成工具根据该目标时域图生成具有客户预设的个性化特征的目标音频。[0090]进一步地，在上述任一实施例的基础上，步骤502包括：[0091]通过预设的dio算法提取所述目标时域图对应的目标基频。[0092]采用预设的cheaptrick算法对所述目标基频进行数据处理，获得所述目标基频对应的频谱包络。[0093]根据所述目标基频、频谱包括以及所述目标时域图生成具有客户预设的个性化特征的目标音频。[0094]在本实施例中，在通过world语音合成工具进行音频合成时，首先需要通过预设的dio算法提取目标时域图对应的目标基频。[0095]fo是一种常用的表示声音的特征，计算基于dio算法。dio算法主要包含以下三个步骤：[0096]1、使用不同的截止频率的低通滤波器，如果滤波后的信号只包含基频，那么它就是一个正弦波。由于事先对f0并不知晓，需要多次试探，所以在这一步中会使用很多不同截止频率的滤波器；[0097]2、计算每一个滤波后的信号中的候选基频以及可信度，由于只包含基频的信号应该是一个正弦波，当正弦波包括四个区间时，四个区间的跨度应该基本相等，可以计算四个跨度的平均值，用平均值的倒数来表示候选基频。同时，计算四个跨度的标准差来作为衡量基频可信度的指标，标准差越大，说明跨度长短差异较大，那么取此频率作为基频的可信度就较低。[0098]3、选取可信度最高的候选基频作为最终的目标基频。[0099]进一步地，world合成工具使用cheaptrick算法来估算频谱包络。语音是一个时序信号，例如对于一个采样频率为16khz的音频文件，意味着在这个音频中，每一秒包含16000个采样点，这些采样点在计算机中以某种数据形式进行存储着(例如常见的有16bit整型)，当我们使用矩形窗函数对一段音频进行处理，它就被划分成多个帧，于是得到了多个子序列，然后对每个子序列进行傅里叶变换操作，就得到了频率-振幅图，将这些图在时间维度上展现出来，就得到了目标基频对应的频谱包络。[0100]主要包括以下三个步骤：[0101]1、对输入目标基频加汉明窗，并对加窗之后的信号计算其功率，获得功率谱，如公式6所示：[0102][0103]2、使用矩形窗函数对功率谱进行平滑化，如公式7所示：[0104][0105]3、计算功率谱的倒谱，并作倒谱提升，如公式8-11所示：[0106][0107][0108][0109]ps(τ)＝γ-1[log(ps(w))]ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ(11)[0110]最终得到的pl(w)即为目标基频对应的频谱包络。[0111]进一步地，可以根据目标基频、频谱包括以及目标时域图生成具有客户预设的个性化特征的目标音频。具体地，aperiodic是与混合激励相关的参数，为了获得自然的声音，激励源不能只使用周期信号，也需要包含一些非周期信号。在world中，aperiodic参数可以直接基于波形、f0、频谱包络来计算得到。这种算法叫做platinum，它的工作流程如下：[0112]对波形添加宽度为2t0的窗函数，并计算得到其频谱x(w)，并将x(w)除以最小相谱sm(w)得到xp(w)，如公式12所示：[0113]xp(t)＝γ-1[xp(w)]ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ(12)[0114]其中，xp(w)的计算流程如公式13-16所示：[0115]sm(w)＝exp(γ[cm(τ)])；ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ(13)[0116][0117]c(τ)＝γ-1[log(pl(w))]；ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ(15)[0118][0119]最终将最小相谱与激励信号卷积得到最终的目标音频。[0120]本实施例提供的音频合成方法，通过根据生成对抗网络中的目标生成器生成的目标语谱图，采用预设的world语音合成工具进行目标音频的生成，从而能够将带有客户音的语音迁移至现有的客服语音，生成目标音频。摒弃了传统的文本至语音的转换，使得生成的客服语音更流畅自然，进而能够提高用户对该目标音频的使用体验。[0121]图6为本公开实施例提供的音频合成装置的结构示意图，如图6所示，该装置包括：获取模块61、处理模块62以及生成模块63。其中，获取模块61，用于获取待处理的客服语谱图。处理模块62，用于将所述客服语谱图输入至预设的生成对抗网络中的目标生成器内，获得所述目标生成器输出的具有客户预设的个性化特征的目标语谱图。生成模块63，用于通过预设的语音合成工具，根据所述目标语谱图生成具有客户预设的个性化特征的目标音频。[0122]进一步地，在上述任一实施例的基础上，所述装置还包括：获取模块，还用于获取待处理数据集，其中，所述待处理音频数据集中包括多条预设的客服谱图以及多条用户提供的个性化语谱图。训练模块，用于通过所述待处理数据集对预设的生成对抗网络中的待训练生成器以及待训练判别器进行训练，获得所述目标生成器。[0123]进一步地，在上述任一实施例的基础上，所述训练模块用于：将所述客服语谱图输入至预设的待训练生成器中，获得所述待训练生成器输出的待处理语谱图。将所述待处理语谱图与所述个性化语谱图输入至所述待训练判别器中，获得所述待训练判别器输出的所述待处理语谱图与所述个性化语谱图之间的差异信息。根据所述差异信息对所述待训练生成器进行调节，直至所述待训练判别器输出的差异信息小于预设的阈值，获得所述目标生成器。[0124]进一步地，在上述任一实施例的基础上，所述获取模块，用于：获取语音数据集，所述语音数据集中包括多个预设的客服语音数据，以及多个用户提供的个性化语音数据。将各所述语音数据分割为时间长度一致的待处理语音。通过短时傅里叶变换对各所述待处理语音进行时频分析，获得多条预设的客服谱图以及多条用户提供的个性化语谱图。根据所述多条预设的客服谱图以及多条用户提供的个性化语谱图生成所述待处理数据集。[0125]进一步地，在上述任一实施例的基础上，所述获取模块，用于：在所述短时傅里叶变换中添加汉明窗函数，获得处理后的短时傅里叶变换。采用所述处理后的短时傅里叶变换对各所述待处理语音进行时频分析。[0126]进一步地，在上述任一实施例的基础上，所述处理模块，用于：通过预设的波形网络将所述目标语谱图转换为目标时域图。通过预设的world语音合成工具根据所述目标时域图生成具有客户预设的个性化特征的目标音频。[0127]进一步地，在上述任一实施例的基础上，所述处理模块，用于：通过预设的dio算法提取所述目标时域图对应的目标基频。采用预设的cheaptrick算法对所述目标基频进行数据处理，获得所述目标基频对应的频谱包络。根据所述目标基频、频谱包括以及所述目标时域图生成具有客户预设的个性化特征的目标音频。[0128]本公开又一实施例还提供了一种电子设备，包括：存储器，处理器；[0129]其中，存储器用于存储所述处理器可执行的指令；[0130]其中，所述处理器用于调用所述存储器中的指令执行如上述任一实施例所述的音频合成方法。[0131]图7为本公开实施例提供的电子设备的结构示意图，如图7所示，该电子设备700可以为终端设备或服务器。其中，终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、个人数字助理(personaldigitalassistant，简称pda)、平板电脑(portableandroiddevice，简称pad)、便携式多媒体播放器(portablemediaplayer，简称pmp)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。图7示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。[0132]如图7所示，电子设备700可以包括处理装置(例如中央处理器、图形处理器等)701，其可以根据存储在只读存储器(readonlymemory，简称rom)702中的程序或者从存储装置708加载到随机访问存储器(randomaccessmemory，简称ram)703中的程序而执行各种适当的动作和处理。在ram703中，还存储有电子设备700操作所需的各种程序和数据。处理装置701、rom702以及ram703通过总线704彼此相连。输入/输出(i/o)接口705也连接至总线704。[0133]通常，以下装置可以连接至i/o接口705：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置706；包括例如液晶显示器(liquidcrystaldisplay，简称lcd)、扬声器、振动器等的输出装置707；包括例如磁带、硬盘等的存储装置708；以及通信装置709。通信装置709可以允许电子设备700与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备700，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。[0134]特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置709从网络上被下载和安装，或者从存储装置708被安装，或者从rom702被安装。在该计算机程序被处理装置701执行时，执行本公开实施例的方法中限定的上述功能。[0135]需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、rf(射频)等等，或者上述的任意合适的组合。[0136]本公开又一实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上述任一实施例所述的音频合成方法。[0137]本公开又一实施例还提供了一种计算机程序产品，包括计算机执行指令，当处理器执行所述计算机执行指令时，实现如上述任一实施例所述的音频合成方法。[0138]上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。[0139]上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例所示的方法。[0140]所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。[0141]本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。[0142]最后应说明的是：以上各实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述各实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。当前第1页12当前第1页12

技术特征：

1.一种音频合成方法，其特征在于，包括：获取待处理的客服语谱图；将所述客服语谱图输入至预设的生成对抗网络中的目标生成器内，获得所述目标生成器输出的具有客户预设的个性化特征的目标语谱图；通过预设的语音合成工具，根据所述目标语谱图生成具有客户预设的个性化特征的目标音频。2.根据权利要求1所述的方法，其特征在于，所述将所述客服语谱图输入至预设的生成对抗网络中的目标生成器内之前，还包括：获取待处理数据集，其中，所述待处理音频数据集中包括多条预设的客服谱图以及多条用户提供的个性化语谱图；通过所述待处理数据集对预设的生成对抗网络中的待训练生成器以及待训练判别器进行训练，获得所述目标生成器。3.根据权利要求2所述的方法，其特征在于，所述通过所述待处理数据集对预设的生成对抗网络中的待训练生成器以及待训练判别器进行训练，获得所述目标生成器，包括：将所述客服语谱图输入至预设的待训练生成器中，获得所述待训练生成器输出的待处理语谱图；将所述待处理语谱图与所述个性化语谱图输入至所述待训练判别器中，获得所述待训练判别器输出的所述待处理语谱图与所述个性化语谱图之间的差异信息；根据所述差异信息对所述待训练生成器进行调节，直至所述待训练判别器输出的差异信息小于预设的阈值，获得所述目标生成器。4.根据权利要求2所述的方法，其特征在于，所述获取待处理数据集，包括：获取语音数据集，所述语音数据集中包括多个预设的客服语音数据，以及多个用户提供的个性化语音数据；将各所述语音数据分割为时间长度一致的待处理语音；通过短时傅里叶变换对各所述待处理语音进行时频分析，获得多条预设的客服谱图以及多条用户提供的个性化语谱图；根据所述多条预设的客服谱图以及多条用户提供的个性化语谱图生成所述待处理数据集。5.根据权利要求4所述的方法，其特征在于，所述通过短时傅里叶变换对各所述待处理语音进行时频分析，包括：在所述短时傅里叶变换中添加汉明窗函数，获得处理后的短时傅里叶变换；采用所述处理后的短时傅里叶变换对各所述待处理语音进行时频分析。6.根据权利要求1-5任一项所述的方法，其特征在于，所述通过预设的语音合成工具，根据所述目标语谱图生成具有客户预设的个性化特征的目标音频，包括：通过预设的波形网络将所述目标语谱图转换为目标时域图；通过预设的world语音合成工具根据所述目标时域图生成具有客户预设的个性化特征的目标音频。7.根据权利要求6所述的方法，其特征在于，所述通过预设的world语音合成工具根据所述目标时域图生成具有客户预设的个性化特征的目标音频，包括：
通过预设的dio算法提取所述目标时域图对应的目标基频；采用预设的cheaptrick算法对所述目标基频进行数据处理，获得所述目标基频对应的频谱包络；根据所述目标基频、频谱包括以及所述目标时域图生成具有客户预设的个性化特征的目标音频。8.一种音频合成装置，其特征在于，包括：获取模块，用于获取待处理的客服语谱图；处理模块，用于将所述客服语谱图输入至预设的生成对抗网络中的目标生成器内，获得所述目标生成器输出的具有客户预设的个性化特征的目标语谱图；生成模块，用于通过预设的语音合成工具，根据所述目标语谱图生成具有客户预设的个性化特征的目标音频。9.一种电子设备，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；所述存储器存储计算机执行指令；所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1-7中任一项所述的方法。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1至7任一项所述的方法。11.一种计算机程序产品，其特征在于，包括计算机程序，该计算机程序被处理器执行时实现权利要求1-7中任一项所述的方法。

技术总结

本公开提供一种音频合成方法、装置、设备、计算机可读存储介质及产品，可用于人工智能领域或其他领域，方法包括：获取待处理的客服语谱图；将所述客服语谱图输入至预设的生成对抗网络中的目标生成器内，获得所述目标生成器输出的具有客户预设的个性化特征的目标语谱图；通过预设的语音合成工具，根据所述目标语谱图生成具有客户预设的个性化特征的目标音频。从而能够保证生成的目标音频能够满足用户的个性化需求，此外，能够提高生成的目标音频的真实性，进而能够提升用户后续对该目标音频的使用体验。用体验。用体验。