语音合成方法及相关装置与流程

1.本技术涉及语音合成领域，具体而言，涉及一种语音合成方法及相关装置。

背景技术：

2.语音合成，又称文语转换(text to speech)技术，用于能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给电子设备安装了人工嘴巴；是一项涉及声学、语言学、数字信号处理、计算机科学等多个学科的技术。
3.当前的主流的端对端语音合成模型(例如，tacotron、durian、fastspeech)，在有语音合成数据集支持下，已经能够生成具有较高自然度的合成语音。然而，研究发现，在日常对话、有声小说等场景中，除了标准的语言数据外，会有很多特殊的口技发音，如惊恐大叫、哈哈大笑、模仿吹风的声音等；但端对端语音合成模型难以对这一类的发音取得很好的合成效果。

技术实现要素：

4.为了克服现有技术中的至少一个不足，本实施例提供一种语音合成方法及相关装置，用于合成口技一类的富语言语音，包括：
5.第一方面，本实施例提供一种语音合成方法，应用于语音合成设备，所述方法包括：
6.获取目标文本序列中各文本音素对应的第一编码以及目标口技的口技音素对应的第二编码；
7.将各所述文本音素对应的第一编码与所述口技音素对应的第二编码拼接成目标编码；
8.将所述目标编码转换为对应的梅尔频谱；
9.根据所述梅尔频谱，生成包括有所述目标口技的合成语音。
10.第二方面，本实施例提供一种语音合成装置，应用于语音合成设备，所述语音合成装置包括：
11.编码模块，用于获取目标文本序列中各文本音素对应的第一编码以及目标口技的口技音素对应的第二编码；
12.所述编码模块，还用于将各所述文本音素对应的第一编码与所述口技音素对应的第二编码拼接成目标编码；
13.语音模块，用于将所述目标编码转换为对应的梅尔频谱；
14.所述语音模块，还用于根据所述梅尔频谱，生成包括有所述目标口技的合成语音。
15.第三方面，本技术提供一种语音合成设备，所述语音合成设备包括处理器以及存储器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，实现所述的语音合成方法。
16.第四方面，本技术提供一种计算机可读存储介质，所述计算机可读存储介质存储
有计算机程序，所述计算机程序被处理器执行时，实现所述的语音合成方法。
17.相对于现有技术而言，本技术具有以下有益效果：
18.本实施例提供的语音合成方法及相关装置中，语音合成设备获取目标文本序列中各文本音素的第一编码，将其与目标口技的口技音素对应的第二编码进行拼接，获得拼接成的目标编码；然后，将目标编码转换为对应的合成语音；因此，相较于仅使用目标文本序列进行语音合成的端对端语音合成模型方法，能够生成包括目标口技的合成语音，使得合成语音在播放时，能够呈现出更好的表达效果。
附图说明
19.为了更清楚地说明本技术实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本技术的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
20.图1为本技术实施例提供的语音合成设备的结构示意图；
21.图2为本技术实施例提供的语音合成方法的流程示意图；
22.图3为本技术实施例提供的声调标识与音素标识的原理示意图；
23.图4为本技术实施例提供的语音合成模型的结构示意图；
24.图5为本技术实施例提供的语音合成装置的机构示意图。
25.图标：120-存储器；130-处理器；140-通信单元；201-编码模块；202-语音模块。
具体实施方式
26.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。
27.因此，以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围，而是仅仅表示本技术的选定实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
28.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。
29.在本技术的描述中，需要说明的是，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。此外，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
30.研究发现，随着深度神经网络技术的发展，提出基于神经网络原理的端对端语音合成模型，例如，tacotron、durian、fastspeech等模型。所谓端对端语音合成模型，表示通
过大量文本形式的样本数据对神经网络模型进行训练后，输入待合成的目标文本序列，使得训练后的神经网络模将其转换为合成语音。
31.示例性的，假定该目标文本序列为“今天天气真好”，则通过端对端语音合成模型将其转为语音形式的“今天天气真好”。甚至一些端对端音合成建模方法还可以在进行语音合成时模拟特定人员的音，或者根据目标文本序列的上下文，合成具有情感彩(例如，开心、伤心、沮丧、愤怒)的合成语音。
32.然而，端对端语音合成模型只能将目标文本序列中的各文本转换为对应的语音，而无法合成用户在阅读目标文本序列时，人为主动加入的口技。
33.示例性的，以有声小说为例，主播在录制有声小说时，为了使得有声小说取得更好的播放效果，会根据小说内容的上下文以口技的方式渲染出小说里面描绘的场景。例如，假定该目标文本序列为“幽深的树林间刮着呼呼的大风，偶尔还能听到乌鸦的啼叫声”，主播在录制该文本序列的有声小说时，为了营造出阴森的氛围，则可能会以口技的方式模仿刮风的声音以及乌鸦叫声。
34.而通过现有端对端语音合成模型将“幽深的树林间刮着呼呼的大风，偶尔还能听到乌鸦的啼叫声”转换为合成语音时，则无法模仿出刮风的声音以及乌鸦的叫声。
35.鉴于此，本实施提供一种应用于语音合成设备的语音合成方法。该方法中，语音合成设备获取目标口技的口技音素对应的第二编码，将其与目标文本序列中各文本音素的第一编码进行拼接，获得拼接成的目标编码；然后，将目标编码转换为对应的合成语音。由于目标编码中携带有与目标口技相关的编码，因此，该合成语音中能够模仿出目标口技的声音效果。
36.其中，在一些实施方式中，该语音合成设备可以是服务器。其中，该服务器可以是单个服务器，也可以是服务器组。服务器组可以是集中式的，也可以是分布式的(例如，服务器可以是分布式系统)。在一些实施例中，服务器相对于用户终端，可以是本地的、也可以是远程的。在一些实施例中，服务器可以在云平台上实现；仅作为示例，云平台可以包括私有云、公有云、混合云、社区云(community cloud)、分布式云、跨云(inter-cloud)、多云(multi-cloud)等，或者它们的任意组合。在一些实施例中，服务器可以在具有一个或多个组件的电子设备上实现。
37.当然，该语音合成设备还可以是用户终端。例如，移动终端、平板计算机、膝上型计算机、或机动车辆中的内置设备等，或其任意组合。在一些实施例中，移动终端可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、或增强现实设备等，或其任意组合。在一些实施例中，智能家居设备可以包括智能照明设备、智能电器设备的控制设备、智能监控设备、智能电视、智能摄像机、或对讲机等，或其任意组合。在一些实施例中，可穿戴设备可包括智能手环、智能鞋带、智能玻璃、智能头盔、智能手表、智能服装、智能背包、智能配件等、或其任何组合。在一些实施例中，智能移动设备可以包括智能手机、个人数字助理(personal digital assistant，pda)、游戏设备、导航设备、或销售点(point of sale，pos)设备等，或其任意组合。
38.为使本技术实施例的目的、技术方案和优点更加清楚，本实施例还提供该语音合成设备的一种结构示意图。如图1所示，该语音合成设备包括存储器120、处理器130、通信单元140。该存储器120、处理器130以及通信单元140各元件相互之间直接或间接地电性连接，
以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
39.其中，该存储器120可以是基于任何电子、磁性、光学或其它物理原理的信息记录装置，用于记录执行指令、数据等。在一些实施方式中，该存储器120可以是，但不限于，易失存储器、非易失性存储器、存储驱动器等。
40.在一些实施方式中，该易失存储器可以是随机存取存储器(random access memory，ram)；在一些实施方式中，该非易失性存储器可以是只读存储器(read only memory，rom)、可编程只读存储器(programmable read-only memory，prom)、可擦除只读存储器(erasable programmable read-only memory，eprom)、电可擦除只读存储器(electric erasable programmable read-only memory，eeprom)、闪存等；在一些实施方式中，该存储驱动器可以是磁盘驱动器、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合等。
41.该通信单元140用于通过网络收发数据。在一些实施方式中，该网络可以包括有线网络、无线网络、光纤网络、远程通信网络、内联网、因特网、局域网(local area network，lan)、广域网(wide area network，wan)、无线局域网(wireless local area networks，wlan)、城域网(metropolitan area network，man)、广域网(wide area network，wan)、公共电话交换网(public switched telephone network，pstn)、蓝牙网络、zigbee网络、或近场通信(near field communication，nfc)网络等，或其任意组合。在一些实施例中，网络可以包括一个或多个网络接入点。例如，网络可以包括有线或无线网络接入点，例如和/或网络交换节点，服务请求处理系统的一个或多个组件可以通过该接入点连接到网络以交换数据和/或信息。
42.该处理器130可能是一种集成电路芯片，具有信号的处理能力，并且，该处理器可以包括一个或多个处理核(例如，单核处理器或多核处理器)。仅作为举例，上述处理器可以包括中央处理单元(central processing unit，cpu)、专用集成电路(application specific integrated circuit，asic)、专用指令集处理器(application specific instruction-set processor，asip)、图形处理单元(graphics processing unit，gpu)、物理处理单元(physics processing unit，ppu)、数字信号处理器(digital signal processor，dsp)、现场可编程门阵列(field programmable gate array，fpga)、可编程逻辑器件(programmable logic device，pld)、控制器、微控制器单元、简化指令集计算机(reduced instruction set computing，risc)、或微处理器等，或其任意组合。
43.考虑到本实施例涉及到语音合成领域，因此，为使本技术实施例的目的、技术方案和优点更加清楚，下面先对本实施涉及的相关专业术语进行解释说明。
44.音素：
45.用于构成单词的基本发音单元。例如，英语的所有发音可以由卡内基梅隆大学提供的39个音素构成；中文的所有发音则可以由全部的声母以及韵母所表征的音素构成。其中，中文的音素包括带音调和未带有音调两种情况。
46.下面以带有音调的音素为例，进行示例性说明。“我”的发音由“w”和“o_3”这两个音素构成；“爱”的发音由“ai_4”这一个音素构成。其中，“o_3”中的“3”表示发3声，“ai_4”中的“4”表示发4声。
47.梅尔频谱：
48.声音信号本是一种一维的时域信号，直观上很难看出频率变化规律。虽然通过傅里叶变换把它变到频域上，可以看出信号的频率分布，但是丢失了时域信息，无法看出频率分布随时间的变化。
49.为了解决该问题，通过短时傅里叶变换(stft)将一段长声音信号分帧、加窗，再对每一帧做傅里叶变换(fft)，最后把每一帧的结果沿另一个维度堆叠起来，得到类似于一幅图的二维信号形式，则得到该长声音信号的声谱图。由于频谱表示了信号在不同频率上的分布，然而人耳对低频信号的区别更加敏感，而对高频信号的区别则不那么敏感，因此，为了得到合适大小的声音特征，往往通过梅尔标度滤波器将生谱图转换为梅尔频谱。
50.韵律：
51.表示汉字发音时的声、韵、调等，能够起到音节起伏转折的效果。按照发声时的停顿时长分为一级韵律、二级韵律以及三级韵律，其中，一级韵律表示说话时字与字之间存在连贯的变调，却无显著的停顿时长。
52.基于上述实施例的相关介绍，下面结合图2所示的方法流程图对本实施例中的语音合成方法进行详细阐述。但应该理解的是，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本技术内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。如图2所示，该方法包括：
53.s101a，获取目标文本序列中各文本音素对应的第一编码以及目标口技的口技音素对应的第二编码。
54.其中，该目标口技可以是模仿风声、鸟叫声、哈哈大笑声、打雷声、敲击声等。也即是说，只要是自然界中能够用嘴模仿的声音，均可以本实施例中的目标口技。
55.示例性的，继续将“幽深的树林间刮着呼呼的大风，偶尔还能听到乌鸦的啼叫声”作为目标文本序列。首先，需要获取目标文本序列中每个文本对应文本音素的第一编码。例如，“幽”的文本音素包括“y”和“ou”，“深”的文本音素包括“sh”和“en”，需要将这些文本音素均编码成处理器能够处理的第一编码。
56.若为了营造阴森的氛围，需要合成语音中包括模仿风声的口技，因此，还需要获取风声所对应口技音素的第二编码。
57.s102a，将各文本音素对应的第一编码与口技音素对应的第二编码拼接成目标编码。
58.s103a，将目标编码转换为对应的梅尔频谱。
59.s104a，根据梅尔频谱，生成包括有目标口技的合成语音。
60.正如上述实施例中关于梅尔频谱的介绍可知，由于梅尔频谱对应适应人类听觉的频率范围，因此，梅尔频谱对于语音合成具有重要意义。鉴于此，本实施例中，语音合成设备将拼接而成的目标编码转换为梅尔频谱，然后，在基于该目标编码的梅尔频谱生成包括目标口技的合成语音。应理解的是，依据梅尔频谱生成合成语音，可以采用现有的成熟技术，因此，本实施例不在进行赘述。例如，可以采用基于神经网络的wavernn，hifigan等模型。
61.由此，语音合成设备获取目标文本序列中各文本音素的第一编码，将其与目标口技的口技音素对应的第二编码进行拼接，获得拼接成的目标编码；然后，将目标编码转换为
对应的合成语音；因此，相较于仅使用目标文本序列进行语音合成的端对端语音合成模型方法，能够生成包括目标口技的合成语音，使得合成语音在播放时，能够呈现出更好的表达效果。
62.研究还发现，对于相同的目标文本序列，在不同位置的上下文或者在不同的场景下对其进行阅读时，会呈现不同的韵律效果，具体表现为和合成语音中的语速、停顿时长等。又或者是对于相同的文本，当处于不同位置的上下文对其进行阅读时，同样会呈现不同的韵律效果。
63.示例性的，以文本“小心”为例，当所处的上下文分别为“小心！咖啡是刚冲的”、“刚下完雨，走路小心一点”。其中，“小心！咖啡是刚冲的”中的“小心”需要表达出急切的情感彩，向别人传达咖啡温度较高信息；因此，“小心”对应合成语音的时长需要短促一些。
64.而“刚下完雨，走路小心一点”中的“小心”则需要表达出关怀的情感彩；因此，“小心”对应合成语音的时长相对要长一些。
65.鉴于此，上述实施例中的步骤s101a可以通过以下实施方式获得取目标文本序列中各文本音素对应的第一编码以及目标口技的口技音素对应的第二编码：
66.s101a-1，获取各文本音素的第一预测时长以及口技音素的第二预测时长。
67.s101a-2，分别根据各文本音素的第一预测时长，将每个文本音素的元编码拼接成文本音素的第一编码。
68.其中，每个文本音素的元编码对应文本音素的最短发音，每个文本音素对应元编码的数量与文本音素的第一预测时长成正相关。
69.s101a-5，根据口技音素的第二预测时长，将口技音素的元编码拼接成口技音素的第二编码。
70.其中，口技音素的元编码对应口音音素的最短发音，口技音素对应元编码的数量与第二预测时长成正相关。
71.示例性的，假定该目标文本序列为“今天天气真好”，其中，对于文本“今”，其文本音素的第一预测时长为300ms，而文本音素的元编码对应的时长为100ms，则需要3个元编码才能拼接成文本“今”的第一编码。
72.同理，对于文本“天”，其文本音素的第一预测时长为200ms，而文本音素的元编码对应的时长为100ms，则需要2个元编码才能拼接成文本“天”的第一编码。
73.正如上述实施例中所介绍的，各文本音素的第一预测时长与对应文本所处的上下文相关；同理，口技音素的第二预测时长同样与目标文本序列的内容以及所处的上下文相关。因此，作为一种实施方式中，该语音合成设备配置有语音合成模型，语音合成模型包括时长预测层。基于该语音合成模型，步骤s101a-1可以通过以下实施方式获得各文本音素的第一预测时长以及口技音素的第二预测时长：
74.s101a-1-1，获取目标文本序列的发音信息。
75.s101a-1-2，将发音信息输入到时长预测层，获得各文本音素的第一预测时长以及口技音素的第二预测时长。
76.如此，通过预先训练的语音合成模型，对各文本当前位置的上下文进行分析，进而预测每个文本的文本音素可能的发音时长。
77.可选地实施方式中，该时长预测层包括第一编码层、筛选层以及预测层。基于这3
个网络层，步骤s101a-1-2可以包括s1-s3这三个子步骤，预测各文本对应文本音素的发音时长：
78.s1，将发音信息输入到第一编码层，获得目标文本中各文本音素的初始编码。
79.s2，将各文本音素的初始编码输入到筛选层，获得各文本音素的元编码。
80.其中，各文本音素的元编码相较于各文本音素的初始编码，去除了一级韵律的编码，一级韵律表示停顿时长低于时长阈值的韵律。应理解的是，由于一级韵律表示说话时字与字之间存在连贯的变调，却无显著的停顿时长，因此，本实施例中可以无需对其发音时长进行预测。
81.s3，将各文本音素的元编码输入到预测层，获得各文本音素的第一预测时长以及口技音素的第二预测时长。
82.其中，该目标文本序列可以是不同国家的语言，例如，中文、日文、韩文、英文等。若该目标文本序列为中文文本序列，则该目标文本序列的发音信息可以包括目标文本序列中每个文本的音素以及声调。为使本技术实施例的目的、技术方案和优点更加清楚，下面提供该语音合成模型一种结构示意图，对时长预测层的工作原理进行示例性说明。
83.如图3所示，继续假定该目标文本序列为“今天天气真好”，则该文本序列中每个文本的音素依次表示为“j-in”、“t-i-an”、“t-i-an”、“q-i”、“zh-en”、“h-ao”；其中，音素标识“j-in”表示文本“今”的音素包括“j”和“in”。
[0084]“今天天气真好”中每个文本的声调依次表示为“1”、“1”、“1”、“4”、“1”、“3”；其中，声调标识“1”表示文本“今”的声调为1声，声调标识“4”表示文本“气”的声调为4声，声调标识“3”表示文本“好”的声调为3声。
[0085]
考虑到直接使用“今天天气真好”的音素以及声调的标识，存在维度过低且无法训练的问题，因此，直接使用文本序列的音素以及声调的标识进行训练的效果不佳。鉴于此，如图4所示，该第一编码层包括嵌入层以及文本编码层，其中，嵌入层用于将目标文本序列的音素标识以及声调标识转换为模型能够识别处理的数据编码；而文本编码层则将音素标识的数据编码进行运算，提取其中的特征，进一步转换为深层语义的初始编码。其中，该文本编码成可以采用dnn(deep neural networks，深度神经网络)和tacotron中的cbhg网络进行实现。tacotron是一种主流的端对端的tts(text to speech，文语转换)神经网络模型，cbhg则是tacotron中用来从序列中提取高层次特征的网络模块。
[0086]
继续参见图4，该语音合成设备将初始编码输入到筛选层，由筛选层识别并去除其中的一级韵律，从而获得“今天天气真好”中各个文本音素的元编码。其中，需要理解的是，本实施例考虑到一级韵律几乎没有发音时长，因此，不对其进行帧展开。
[0087]
然后，该语音合成设备将“今天天气真好”中各个文本音素的元编码输入到预测层进行语义分析，从而确定出各个文本音素的第一预测时长以及目标口技的第二预测时长。其中，由于kaldi工具中集成了隐马尔可夫-深度神经网络(hmm-dnn)等模型，其输出结果具有较高的准确度，因此，本实施例将其用于制作训练样本的时长信息，作为预测层在训练期间输出结果的监督信息。
[0088]
最后，对“今天天气真好”中各个文本音素的元编码，按照各自对应的第一预测时长进行音素帧展开。即分别根据各文本音素的第一预测时长，将每个文本音素的元编码拼接成文本音素的第一编码。
[0089]
另外，研究还发现，即便是同一目标文本序列，由不同的人进行阅读时，所呈现的韵律以及各文本的发音时长同样会存在明显的差异。例如，有些人说话时的语速比较快，而有些人说话时的语速则比较慢。
[0090]
鉴于此，如图4所示，在一些实施方式中，该语音合成设备还可以将各文本音素的元编码以及音编码输入到预测层，获得各文本音素的第一预测时长以及口技音素的第二预测时长。
[0091]
其中，该音编码同样表示通过嵌入层将音标识转换为语音合成模型能够识别处理的编码数据。示例性的，假定该预先训练后的语音合成模型可以模仿出4个主播的合成语音，则可以将这4个主播分别使用不同的符号进行标识。例如，为4个主播分配对应的编号1、2、3、4，将各主播的编号分别作为音标识。
[0092]
由上述实施例可知，本实施例中用于生成合成语音的目标编码包括两部分，一部分为目标文本序列中各文本音素的第一编码，另外一部分是目标口技对应口技音素的第二编码。其中，与第一编码类似，本实施例同样使预先训练的语义合成模型获得目标口技对应口技音素的第二编码。可以继续参见图4，该语音合成模型还包括第二编码层，基于该第二编码层，在步骤s101a-5之前，该语音合成方法还包括：
[0093]
s101a-3，获取目标口技的参考梅尔频谱。
[0094]
其中，为了获得该目标口技的参考梅尔频谱，可以先录制一段目标口技的音频，然后，将目标口技的音频进行短时傅里叶变换，获得该段音频的梅尔频谱，将其作为参考梅尔频谱。
[0095]
示例性，事先录制一段用户模仿风声或者鸟叫声的口技，将其转换为对应的梅尔频谱；当需要在目标文本序列的合成语音中插入风声时，则将模仿风声的口技所对应的梅尔频谱作为参考梅尔频谱；当需要在目标文本序列的合成语音中插入鸟叫声时，则将模仿鸟叫声的口技所对应的梅尔频谱作为参考梅尔频谱。
[0096]
s101a-4，将参考梅尔频谱输入到第二编码层，获得目标口技的口技音素对应的元编码。
[0097]
如此，通过该第二编码层对目标口技的参考梅尔频谱进行分析，从中提取出表示口技音素的元编码。
[0098]
继续参见图4，该语音合成模型还包括解码层，用于将目标编码转换为对应的梅尔频谱，因此，步骤s103a可以包括以下实施方式：
[0099]
s103a-1，将目标编码输入到解码层，获得目标编码的梅尔频谱。
[0100]
如此，通过预先训练的语音合成模型中的解码层，将目标编码转换为对应的梅尔频谱。
[0101]
还应理解的是，本实施例中的语音合成模型是基于人工神经网络的机器学习模型，因此，在模型进行使用之前，需要模型训练设备通过样本数据对待训练模型进行训练，其中，该模型训练设备与语音合成设备既可以是相同的设备也可以是不通过的设备，只要能够为模型训练期间提供足够的算力即刻。鉴于此，本实施例中关于待训练模型的训练方式包括：
[0102]
s101b，获取训练样本。
[0103]
其中，该训练样本包括样本文本序列、样本文本序列对应的声调、样本音以及录
制的样本语音。其中，该样本语音的音与样本音相同，所携带的文本信息与样本文本序列相同，并且样本语音中还包括具有样本音的口技。
[0104]
因此，该样本语音中的梅尔频谱作为待训练模型在训练期间的参考频谱，样本语音中各音素的发音时长作为待训练模型在训练期间的参考时长。
[0105]
s102b，将训练样本输入到待训练模型。
[0106]
其中，该待训练模型与图4所示的语音合成模型具有相同的模型结构，因此，本实施例不再对其进行赘述，可以参见关于图4的详细介绍。
[0107]
s103b，根据待训练模型的时长损失值以及梅尔频谱损失值，调整待训练模型的模型参数，直到待训练模型满足预设收敛条件时，获得语音合成模型。
[0108]
其中，时长损失值表示待训练模型的时长预测层输出的预测时长与训练样本对应参考时长之间的误差，梅尔频谱损失值表示待训练模型输出的梅尔频谱与训练样本对应参考梅尔频谱之间的误差。
[0109]
其中，需要注意的是，本实施例中为了使得该语音合成模型能够用于模仿多种类型的口技，在对待训练模型进行训练时，使用样本口技的口技标识对不同种类的样本口技进行区分。例如，风声的参考梅尔频谱用于文本“风声”进行标识；鸟叫声的参考梅尔频谱用于文本“鸟叫声”进行标识；哈哈大笑的参考梅尔频谱用文本“大笑三声”进行标识。
[0110]
然而，当将样本口技的标识与样本口技的参考梅尔频谱一起输入到第二编码层后，该第二编码层会将样本口技的口技标识视为文本序列，将其转换为文本音素的元编码，从而在样本文本序列的合成语音中引入干扰信息，影响最终的训练效果。
[0111]
示例性的，假定该样本文本序列为“今天天气很好”，样本口技的口技标识为“风声”。若将样本文本序列“今天天气很好”、样本口技的口技标识“风声”以及样本口技的参考梅尔频谱输入到待训练模型中，则输出的合成语音中不仅包括模仿风声的口技，还包括文本“今天天气很好、风声”语音信息。
[0112]
鉴于此，模型训练设备将样本口技的口技标识“风声”以及样本口技的参考梅尔频谱输入到第二编码层，输出的结果不仅包括样本口技的元编码，还包括样本标识“风声”中各文本音素对应的元编码。为避免引入“风声”中各文本音素对应的元编码，模型训练设备将样本标识“风声”中各文本音素对应的元编码全部进行了置0。
[0113]
另外，本实施例将待训练模型训练成语音合成模型之后，使用该语音识别模型时则不再需要输入参考梅尔频谱的口技标识，因此，本实施例中，该语音合成设备在使用语音合成模型时，将口技标识的输入部分全部替换为0。
[0114]
基于与本实施例所提供语音合成方法相同的发明构思，本实施例还提供一种语音合成装置，该语音合成装置包括至少一个可以软件形式存储于存储器120或固化在语音合成设备的操作系统(operating system，简称os)中的软件功能模块。请参照图5，从功能上划分，语音合成装置可以包括：
[0115]
编码模块201，用于获取目标文本序列中各文本音素对应的第一编码以及目标口技的口技音素对应的第二编码。
[0116]
编码模块201，还用于将各文本音素对应的第一编码与口技音素对应的第二编码拼接成目标编码。
[0117]
本实施例中，该编码模块201用于实现图2中的步骤s101a-s102a，关于该编码模块
201的详细描述可以参见步骤s101a-s102a的详细描述。
[0118]
语音模块202，用于将目标编码转换为对应的梅尔频谱。
[0119]
语音模块202，还用于根据梅尔频谱，生成包括有目标口技的合成语音。
[0120]
本实施例中，该编语音模块202用于实现图2中的步骤s103a-s104a，关于该语音模块202的详细描述可以参见步骤s103a-s104a的详细描述。
[0121]
另外，在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。并且，在一些实施方式中，该语音合成装置还可以包括其他软件功能模块，用于该语音合成方法的其他步骤或者子步骤。
[0122]
还应理解的是，以上实施方式如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。
[0123]
因此，本实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时，实现本实施例提供的语音合成方法。其中，该计算机可读存储介质可以是u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0124]
本实施例还提供一种语音合成设备，该语音合成设备可包括处理器130及存储器120。处理器130与存储器120可经由系统总线通信。并且，存储器120存储有计算机程序，处理器通过读取并执行存储器120中与以上实施方式对应的计算机程序，实现本实施例所提供的语音合成方法。
[0125]
应该理解到的是，在上述实施方式中所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本技术的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0126]
以上所述，仅为本技术的各种实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应所述以权利要求的保护范围为准。

技术特征：

1.一种语音合成方法，其特征在于，应用于语音合成设备，所述方法包括：获取目标文本序列中各文本音素对应的第一编码以及目标口技的口技音素对应的第二编码；将各所述文本音素对应的第一编码与所述口技音素对应的第二编码拼接成目标编码；将所述目标编码转换为对应的梅尔频谱；根据所述梅尔频谱，生成包括有所述目标口技的合成语音。2.根据权利要求1所述的语音合成方法，其特征在于，所述获取目标文本序列中各文本音素对应的第一编码以及目标口技的口技音素对应的第二编码，包括：获取各所述文本音素的第一预测时长以及所述口技音素的第二预测时长；分别根据各所述文本音素的第一预测时长，将每个所述文本音素的元编码拼接成所述文本音素的第一编码，其中，每个所述文本音素的元编码对应所述文本音素的最短发音，每个所述文本音素对应元编码的数量与所述文本音素的第一预测时长成正相关；根据所述口技音素的第二预测时长，将所述口技音素的元编码拼接成所述口技音素的第二编码，其中，所述口技音素的元编码对应所述口技音素的最短发音，所述口技音素对应元编码的数量与所述第二预测时长成正相关。3.根据权利要求2所述的语音合成方法，其特征在于，所述语音合成设备配置有语音合成模型，所述语音合成模型包括时长预测层，所述获取各所述文本音素的第一预测时长以及所述口技音素的第二预测时长，包括：获取所述目标文本序列的发音信息；将所述发音信息输入到所述时长预测层，获得各所述文本音素的第一预测时长以及所述口技音素的第二预测时长。4.根据权利要求3所述的语音合成方法，其特征在于，所述时长预测层包括第一编码层、筛选层以及预测层，所述将所述发音信息输入到所述时长预测层，获得各所述文本音素的第一预测时长以及所述口技音素的第二预测时长，包括：将所述发音信息输入到所述第一编码层，获得所述目标文本中各文本音素的初始编码；将各所述文本音素的初始编码输入到所述筛选层，获得各所述文本音素的元编码，其中，各所述文本音素的元编码相较于各所述文本音素的初始编码，去除了一级韵律的编码，所述一级韵律表示停顿时长低于时长阈值的韵律；将各所述文本音素的元编码输入到所述预测层，获得各所述文本音素的第一预测时长以及所述口技音素的第二预测时长。5.根据权利要求3所述的语音合成方法，其特征在于，所述语音合成模型还包括第二编码层，所述方法还包括：获取所述目标口技的参考梅尔频谱；将所述参考梅尔频谱输入到所述第二编码层，获得所述目标口技的口技音素对应的元编码。6.根据权利要求3所述的语音合成方法，其特征在于，所述语音合成模型还包括解码层，所述将所述目标编码转换为对应的梅尔频谱，包括：将所述目标编码输入到所述解码层，获得所述目标编码的梅尔频谱。
7.根据权利要求3所述的语音合成方法，其特征在于，所述语音合成模型的训练方法，包括：获取训练样本；将所述训练样本输入到待训练模型；根据所述待训练模型的时长损失值以及梅尔频谱损失值，调整所述待训练模型的模型参数，直到所述待训练模型满足预设收敛条件时，获得所述语音合成模型；其中，所述时长损失值表示所述待训练模型的时长预测层输出的预测时长与所述训练样本对应参考时长之间的误差，所述梅尔频谱损失值表示所述待训练模型输出的梅尔频谱与所述训练样本对应参考梅尔频谱之间的误差。8.一种语音合成装置，其特征在于，应用于语音合成设备，所述语音合成装置包括：编码模块，用于获取目标文本序列中各文本音素对应的第一编码以及目标口技的口技音素对应的第二编码；所述编码模块，还用于将各所述文本音素对应的第一编码与所述口技音素对应的第二编码拼接成目标编码；语音模块，用于将所述目标编码转换为对应的梅尔频谱；所述语音模块，还用于根据所述梅尔频谱，生成包括有所述目标口技的合成语音。9.一种语音合成设备，其特征在于，所述语音合成设备包括处理器以及存储器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，实现权利要求1-7任意一项所述的语音合成方法。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求1-7任意一项所述的语音合成方法。

技术总结

本申请提供的语音合成方法及相关装置，应用于语音合成领域。其中，语音合成设备获取目标文本序列中各文本音素的第一编码，将其与目标口技的口技音素对应的第二编码进行拼接，获得拼接成的目标编码；然后，将目标编码转换为对应的合成语音；因此，相较于仅使用目标文本序列进行语音合成的端对端语音合成模型方法，能够生成包括目标口技的合成语音，使得合成语音在播放时，能够呈现出更好的表达效果。能够呈现出更好的表达效果。能够呈现出更好的表达效果。