语音拼接方法和语音拼接装置与流程

1.本技术涉及语音合成技术领域，尤其涉及语音拼接方法和语音拼接装置。

背景技术：

2.从文本到语音(text to speech，tts)技术被广泛应用于语音合成领域。对于不同的分句，传统拼接的方法只对各分句对应的语音文件进行简单处理后即对各语音文件进行拼接，如基于波形拼接和基于统计参数建模拼接等，这些方法需要预设语音拼接单元库，或使用复杂的算法对波形衔接处作平滑处理，无法保证拼接处韵律的自然度。

技术实现要素：

3.本技术旨在至少解决现有技术中存在的技术问题之一。为此，本技术提出一种语音拼接方法。
4.本技术还提出一种语音拼接装置。
5.本技术还提出一种电子设备。
6.本技术还提出一种非暂态计算机可读存储介质。
7.本技术还提出一种计算机程序产品。
8.根据本技术第一方面实施例的语音拼接方法，包括：
9.对目标文本的韵律音素序列进行切分，生成多个分句序列，所述韵律音素序列包括与所述目标文本对应的多个音素以及位于相邻所述音素之间的韵律标识符，每个所述分句序列包括至少一个所述音素；
10.分别对所述分句序列进行语音合成，生成多个第一分句语音信息，所述第一分句语音信息包括每一个所述音素和所述韵律标识符对应的第一时长；
11.基于所述第一时长和所述第一分句语音信息对应的分句序列在所述韵律音素序列中的切分顺序，拼接所述多个第一分句语音信息，生成目标语音。
12.根据本技术实施例的语音拼接方法，在将目标文本切分为多个分句序列后并合成各分句序列对应的第一分句语音信息后，基于各分句序列中音素对应的时长对第一分句语音信息中多余音素对应的语音进行截除，从而实现在不需要预设语音拼接单元库且不需要对待拼接语音单元进行平滑处理的基础上，即可提高相邻第一分句语音信息拼接处的自然度与流畅度。
13.根据本技术的一个实施例，所述基于所述第一时长和所述第一分句语音信息对应的分句序列在所述韵律音素序列中的切分顺序，拼接所述多个第一分句语音信息，生成目标语音，包括：
14.基于多个音素中的目标音素对应的第一时长，截去所述第一分句语音信息中与所述目标音素对应的语音，生成第二分句语音信息；
15.基于所述第二分句语音信息对应的分句序列在所述韵律音素序列中的切分顺序，拼接所述第二分句语音信息，生成所述目标语音。
16.根据本技术的一个实施例，所述目标音素包括句首多余音素和句末多余音素中的至少一种，所述基于多个音素中的目标音素对应的第一时长，截去所述第一分句语音信息中与所述目标音素对应的语音，包括：
17.确定所述第一分句语音信息对应的分句序列不为所述目标文本中的第一个分句序列，分别截去所述第一分句语音信息中与所述句首多余音素对应的语音和与所述句末多余音素对应的语音；
18.确定所述第一分句语音信息对应的分句序列为所述目标文本中的第一个分句序列，截去所述第一分句语音信息中与所述句末多余音素对应的语音。
19.根据本技术的一个实施例，在所述生成多个第一分句语音信息之后，且在所述基于所述第一时长和所述第一分句语音信息对应的分句序列在所述韵律音素序列中的切分顺序，拼接所述多个第一分句语音信息之前，所述方法还包括：
20.输出所述第一分句语音信息。
21.根据本技术的一个实施例，在所述对目标文本的韵律音素序列进行切分，生成多个分句序列之前，所述方法还包括：
22.获取所述目标文本的音节、韵律词、韵律短语、语调短语和句末信息；
23.将所述目标文本转化为音素序列；
24.基于所述音节、所述韵律词、所述韵律短语、所述语调短语和所述句末信息中的至少两种，生成所述多个韵律标识符；
25.基于所述多个韵律标识符标记所述音素序列，生成所述韵律音素序列。
26.根据本技术的一个实施例，所述分别对所述分句序列进行语音合成，包括：
27.将所述分句序列输入至目标语音合成模型，获取由所述目标语音合成模型输出的所述第一分句语音信息，其中，
28.所述目标语音合成模型为，以样本韵律音素序列为样本，以与所述样本韵律音素序列对应的样本分句语音为样本标签，训练得到。
29.根据本技术的一个实施例，所述对目标文本的韵律音素序列进行切分，生成多个分句序列，包括：
30.基于多个所述韵律标识符中的至少部分切分所述韵律音素序列，生成所述多个分句序列。
31.根据本技术第二方面实施例的语音拼接装置，包括：
32.第一处理模块，用于对目标文本的韵律音素序列进行切分，生成多个分句序列，所述韵律音素序列包括与所述目标文本对应的多个音素以及位于相邻所述音素之间的韵律标识符，每个所述分句序列包括至少一个所述音素；
33.第二处理模块，用于分别对所述分句序列进行语音合成，生成多个第一分句语音信息，所述第一分句语音信息包括每一个所述音素和所述韵律标识符对应的第一时长；
34.第三处理模块，用于基于所述第一时长和所述第一分句语音信息对应的分句序列在所述韵律音素序列中的切分顺序，拼接所述多个第一分句语音信息，生成目标语音。
35.根据本技术实施例的语音拼接装置，在将目标文本切分为多个分句序列后并合成各分句序列对应的第一分句语音信息后，基于各分句序列中音素对应的时长对第一分句语音信息中多余音素对应的语音进行截除，从而实现在不需要预设语音拼接单元库且不需要
对待拼接语音单元进行平滑处理的基础上，即可提高相邻第一分句语音信息拼接处的自然度与流畅度。
36.根据本技术第三方面实施例的电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述语音拼接方法。
37.根据本技术第四方面实施例的非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语音拼接方法。
38.根据本技术第五方面实施例的计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语音拼接方法。
39.本技术实施例中的上述一个或多个技术方案，至少具有如下技术效果之一：
40.在将目标文本切分为多个分句序列后并合成各分句序列对应的第一分句语音信息后，基于各分句序列中音素对应的时长对第一分句语音信息中多余音素对应的语音进行截除，从而实现在不需要预设语音拼接单元库且不需要对待拼接语音单元进行平滑处理的基础上，即可提高相邻第一分句语音信息拼接处的自然度与流畅度。
41.进一步的，通过将目标文本转化为音素序列，并基于句末信息、语调短语、韵律短语、韵律词和音节中的至少两种所对应的韵律标识符对音素序列进行标记以生成韵律音素序列，能够提供一种更加精细的韵律表征，从而有助于后续切分过程中的切分细腻度与准确性。
42.本技术的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本技术的实践了解到。
附图说明
43.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
44.图1是本技术实施例提供的语音拼接方法的流程示意图之一；
45.图2是本技术实施例提供的语音拼接方法的流程示意图之二；
46.图3是本技术实施例提供的语音拼接装置的结构示意图；
47.图4是本技术实施例提供的电子设备的结构示意图。
具体实施方式
48.下面结合附图和实施例对本技术的实施方式作进一步详细描述。以下实施例用于说明本技术，但不能用来限制本技术的范围。
49.在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本技术实施例的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领
域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
50.下面结合图1-图2描述本技术实施例的语音拼接方法。
51.该语音拼接方法的执行主体可以为语音拼接装置，或者为服务器，或者还可以为用户的终端，包括但不限于手机、平板电脑、pc端、车载终端以及家用智能电器等。
52.如图1所示，该语音拼接方法包括：步骤110、步骤120和步骤130。
53.步骤110、切分目标文本的韵律音素序列，生成多个分句序列，韵律音素序列包括位于相邻音素之间的韵律标识符和与目标文本对应的多个音素，每个分句序列包括至少一个音素；
54.在该步骤中，目标文本为当前用于进行语音合成的文本。
55.韵律音素序列为用于表征目标文本的韵律特征和音素特征的序列。
56.韵律音素序列包括位于相邻音素之间的韵律标识符和与目标文本对应的多个音素。
57.其中，音素可以为一个或多个根据语音的自然属性划分出来的语音单位的组合，语音单位可以为一个汉字对应的拼音、声母或韵母或者一个英文单词、英文音标或英文字母。
58.韵律标识符为用于表征目标文本中每一个音素所对应的韵律特征的标识符，韵律特征包括但不限于：音素对应的声调、音节、韵律词、韵律短语、语调短语、静音以及停顿等特征。
59.其中，用于表征停顿的韵律标识符的细粒度高于用于表征语调短语的韵律的标识符的细粒度，用于表征语调短语的细粒度高于用于表征韵律短语的细粒度，用于表征韵律短语的细粒度高于用于表征韵律词的细粒度，用于表征韵律词的细粒度高于用于表征音节的细粒度。
60.在实际执行过程中，可以用不同的符号表示不同细粒度等级的韵律特征。
61.例如，对于目标文本“上海市今天阴转多云东南风三到四级”，可以将其转化为韵律音素序列：sil shang4#0 hai3#0 shi4#2 jin1#0 tian1#2 yin1#0 zhuan3#1 duo1#0 yun2#3 dong1#0 nan2#0 feng1#2 san1#0 dao4#1 si4#0 ji2#4 sil。
62.可以理解的是，对于该韵律音素序列，韵律标识符可以包括：各相邻的音素之间的数字、符号以及英文字符串；音素可以包括每一个汉字对应的拼音。
63.其中，sil为韵律音素序列中代表句首和句末的静音，#0代表音节、#1代表韵律词、#2代表韵律短语、#3代表语调短语以及#4代表句末，每个音素后面的数字代表该音素的声调，如shang4中的4代表拼音“shang”的声调为第四声。
64.可以理解的是，一整段韵律音素序列是由依次相连的分句序列连接而成。
65.在一些实施例中，步骤110可以包括：基于多个韵律标识符中的至少部分切分韵律音素序列，生成多个分句序列。
66.在该实施例中，对于一整段韵律音素序列，包括有多个音素和多个韵律标识符，多个韵律标识符中包括对应不同细粒度等级的韵律标识符。
67.在实际执行过程中，可以基于实际情况选择合适的细粒度等级作为切分标准，并将该细粒度等级对应的韵律标识符在韵律音素序列中的位置作为切分点，对韵律音素序列
zhuan3#1 duo1#0 yun2#3，“shang4”可以作为一个音素，也可以拆分为“sh”和“ang4”两个音素，每个韵律标识符或音素均对应有一个发音时长。
85.在实际执行过程中，可以先获取第一分句序列中全部的韵律标识符和音素，然后再基于每个韵律标识符和音素获取该韵律标识符和音素对应的第一时长。
86.在一些实施例中，步骤120可以包括：
87.将分句序列输入至目标语音合成模型，获取由目标语音合成模型输出的第一分句语音信息，其中，
88.目标语音合成模型为，以样本韵律音素序列为样本，以与样本韵律音素序列对应的样本分句语音为样本标签，训练得到。
89.在该实施例中，目标语音合成模型可以为端到端语音合成模型。
90.分句序列为一整段韵律音素序列分割成多段得到。
91.该目标语音合成模型的输入值为分句序列，输出值为该分句序列对应的第一分句语音，或第一分句语音对应的高级声学特征。
92.其中，目标语音合成模型为，以样本分句序列为样本，以与样本分句序列对应的样本分句语音为样本标签，训练得到。
93.目标语音合成模型的训练过程与神经网络模型的训练方式类似，在此不做赘述。
94.如图2所示，在实际执行过程中，可以将每个分句序列分别转化为端到端语音合成模型可接收的韵律音素序列，并基于韵律音素序列获取该韵律音素序列中每一个音素以及每一个韵律标识符对应的第一时长。
95.例如，将分句序列1：sil shang4#0 hai3#0 shi4#2 jin1#0 tian1#2 yin1#0 zhuan3#1 duo1#0 yun2#3，转化为端到端语音合成模型可以接收的韵律音素序列1：sil sh ang4#0 h ai3#0 sh i4#2 j in1#0 t ian1#2 y in1#0 zh uan3#1 d uo1#0 y vn2#3 sil eos。
96.然后对韵律音素序列1中的每一个韵律和音素进行语音合成，合成每一个韵律和音素对应的语音或高级声学特征，从而生成第一分句语音或第一分句语音对应的高级声学特征；并计算每个韵律标识符和音素对应的第一时长。
97.根据本技术的一些实施例，在步骤120之后，且在步骤130之前，该方法还可以包括：输出第一分句语音信息。
98.在该实施例中，在生成分句序列对应的第一分句语音信息之后，即可输出该第一分句语音信息。
99.在该实施例中，通过将目标文本切分为多个分句序列，分别对每个分句序列进行语音合成，生成各分句序列对应的第一语音信息，并优先输出目标文本中的第一个分句序列对应的第一语音信息，有效加快系统在接收到网络语音合成服务请求后的反馈速度，缩短用户的等待时间，有助于提高用户的使用体验。
100.步骤130、基于第一分句语音信息对应的分句序列在韵律音素序列中的切分顺序和第一时长，对多个第一分句语音信息进行拼接，生成目标语音。
101.在该步骤中，目标语音为将这个目标文本进行语音合成后所得到的语音。
102.在拼接过程中，需要先基于每个分句序列的首部或尾部多余的第一时长对分句序列对应的分句语音信息进行截除。
103.在第一分句语音信息为第一分句语音的情况下，在合成第一分句语音后，截除第一分句语音中分句序列的首部或尾部多余的音素所对应时长的语音，生成截除后的第一分句语音，依次对相邻的截除后的第一分句语音进行拼接，直至拼接完成全部的截除后的第一分句语音，生成目标语音。
104.在第一分句语音信息为第一分句语音对应的高级声学特征的情况下，在合成第一分句语音对应的高级声学特征后，截除第一分句语音对应的高级声学特征中分句序列的首部或尾部多余的音素所对应时长的高级声学特征，生成截除后的第一分句语音对应的高级声学特征；然后使用声码器对截除后的第一分句语音对应的高级声学特征进行语音合成，以生成截除后的第一分句语音。
105.然后基于各分句序列在目标文本中的切分顺序，依次对相邻的截除后的第一分句语音进行拼接，直至拼接完成全部的截除后的第一分句语音，生成目标语音。
106.在一些实施例中，步骤130可以包括：
107.基于多个音素中的目标音素对应的第一时长，截去第一分句语音信息中与目标音素对应的语音，生成第二分句语音信息；
108.基于第二分句语音信息对应的分句序列在韵律音素序列中的切分顺序，拼接第二分句语音信息，生成目标语音。
109.在该实施例中，与目标音素对应的语音为分句序列中多余的音素，包括但不限于分句序列首部或尾部所对应的不发音的音素。
110.第二分句语音信息为对第一分句语音信息中多余的停顿或静音时长进行截除后所生成的语音信息。
111.其中，第二语音信息可以表现为语音，或者也可以表现为高级声学特征。
112.第二语音信息的表现形式与第一语音信息的表现形式相对应。
113.例如，对韵律音素序列1：sil sh ang4#0 h ai3#0 sh i4#2 j in1#0 t ian1#2 y in1#0 zh uan3#1 d uo1#0 y vn2#3 sil eos，进行语音合成所生成的第一语音信息中，包括sil以及eos等对应时长的语音信息，这些语音信息为静音或停顿等多余的语音信息，则可以基于句末目标音素“sil”和“eos”对应的第一时长，截去第一分句语音信息句末sil以及eos对应的多余的时长，生成第二分句语音信息。
114.然后基于第二分句语音信息对应的分句序列在韵律音素序列中的切分顺序，从第一个分句序列开始，依次拼接相邻的分句序列对应的第二分句语音信息，直至拼接完成全部的分句序列对应的第二分句语音信息。
115.需要说明的是，对于不同表现形式的第二语音信息，其对应的拼接过程也有所区别，将在后续实施例中进行具体说明，在此暂不作赘述。
116.根据本技术实施例提供的语音拼接方法，在将目标文本切分为多个分句序列后并合成各分句序列对应的第一分句语音信息后，基于各分句序列中音素对应的时长对第一分句语音信息中多余的音素对应的语音进行截除，从而实现在不需要预设语音拼接单元库且不需要对待拼接语音单元进行平滑处理的基础上，即可提高相邻第一分句语音信息拼接处的自然度与流畅度。
117.如图2所示，根据本技术的一些实施例，在步骤110之前，该方法还可以包括：
118.获取目标文本的句末信息、语调短语、韵律短语、韵律词和音节；
119.将目标文本转化为音素序列；
120.基于句末信息、语调短语、韵律短语、韵律词和音节中的至少两种，生成多个韵律标识符；
121.基于多个韵律标识符对音素序列进行标记，生成韵律音素序列。
122.在该实施例中，音节是语流中的语音单位，也是人们听觉上最容易分辨出来的语音单位，例如，音节可以为目标文本中的每一个汉字。
123.韵律词是一组在实际语流中联系密切且联在一起发音的音节。
124.韵律短语是介于韵律词和语调短语之间的中等节奏组块，韵律短语中可以包括多个韵律词和语气词，且组成该韵律短语的多个韵律词听起来是共用一个节奏。
125.语调短语为将多个韵律短语按照一定的句调模式连接起来所组成的句子，用于表征较大的停顿。
126.句末信息用于表征每一个长句的结束。
127.例如，对于目标文本“上海市今天阴转多云东南风三到四级”，其中如“上”、“海”以及“市”等每一个汉字均为该目标文本对应的音节；“上海市”、“今天”以及“阴转多云”等单词或由单词组成的短语即为该目标文本对应的韵律短语；而由韵律短语“上海市”、“今天”以及“阴转多云”所组成的句子“上海市今天阴转多云”，则为该目标文本对应的语调短语。
128.在获取得到目标文本的句末信息、语调短语、韵律短语、韵律词和音节等信息后，基于其中的至少两种对目标文本对应的音素序列进行标记，即可生成韵律音素序列。
129.申请人在研发过程中发现，相关技术中，往往是通过采用句子中的标点符号来表征句子的韵律，如在句子中的逗号或句号所在的位置处对句子进行切分，以得到多个分句。该方法一方面无法满足对无标点的文本的切分，另一方面还会导致切分后的两端不均衡，切分效果不佳。
130.而在本技术中，采用句末信息、语调短语、韵律短语、韵律词和音节至少两项来表征句子的韵律，并以此为基准对目标文本进行切分，不会出现在一次整词中间切断的情况，使得切分后得到的分句停顿和韵律均较为自然。
131.音素序列为由目标文本中的各音节所对应的音素(例如拼音、声调或音标)所连接而成的序列。
132.例如，对于目标文本“上海市今天阴转多云东南风三到四级”，可以将其转化为音素序列：shang4 hai3 shi4 jin1 tian1 yin1 zhuan3 duo1 yun2 dong1 nan2 feng1 san1 dao4 si4ji2。
133.韵律标识符为用于表征目标文本中每一个音素所对应的韵律特征的标识符，也即，韵律标识符为用于表征句末信息、语调短语、韵律短语、韵律词和音节的符号。
134.在实际执行过程中，可以采用特殊符号与数字组合的形式或特定字母组合来表示韵律标识符，例如分别用“#0”、“#1”、“#2”、“#3”以及“#4”来表示韵律标识符，不同的组合表征不同的细粒度级别。
135.如：#0代表着音节、#1代表韵律词、#2代表韵律短语、#3代表语调短语以及#4代表句末，在该实施例中，细粒度由小到大依次为：#0＜#1＜#2＜#3＜#4。
136.在得到目标文本对应的音素序列以及韵律标识符后，将韵律标识符插入音素序列中的相应位置，如将用于表征音节的韵律标识符#0插入至音素序列中每一个音节所对应的
拼音之后，将用于表征韵律短语的韵律标识符#2插入至音素序列中每一句韵律短语之后，从而将音素序列转化为韵律音素序列。
137.例如，分别采用#0”、“#1”、“#2”、“#3”以及“#4”对音素序列“shang4 hai3 shi4 jin1 tian1 yin1 zhuan3 duo1 yun2 dong1 nan2 feng1 san1 dao4 si4 ji2”进行标记，从而生成韵律音素序列：sil shang4#0 hai3#0 shi4#2 jin1#0 tian1#2 yin1#0 zhuan3#1 duo1#0 yun2#3 dong1#0 nan2#0 feng1#2 san1#0 dao4#1 si4#0 ji2#4 sil。
138.其中，sil表征句首和句末的静音。
139.根据本技术实施例提供的语音合成方法，通过将目标文本转化为音素序列，并基于句末信息、语调短语、韵律短语、韵律词和音节中的至少两种所对应的韵律标识符对音素序列进行标记以生成韵律音素序列，能够提供一种更加精细的韵律表征，从而有助于提高后续切分过程中的切分细腻度与准确性。
140.下面分别从两个实现角度对步骤130的实现方式进行具体说明。
141.一、第一分句语音信息对应的分句序列不为目标文本中的第一个分句序列。
142.继续参考图2，在一些实施例中，目标音素包括句首多余音素和句末多余音素中的至少一种，基于多个音素中的目标音素对应的第一时长，截去第一分句语音信息中与目标音素对应的语音，可以包括：
143.确定第一分句语音信息对应的分句序列不为目标文本中的第一个分句序列，分别截去第一分句语音信息中与句末多余音素对应的语音和与句首多余音素对应的语音。
144.继续以目标文本“上海市今天阴转多云东南风三到四级”为例，对该实施例进行说明。
145.将目标文本“上海市今天阴转多云东南风三到四级”转化为：
146.端到端语音合成模型可接收的韵律音素序列1：sil sh ang4#0 h ai3#0 sh i4#2 j in1#0 t ian1#2 y in1#0 zh uan3#1 d uo1#0 y vn2#3 sil eos；
147.端到端语音合成模型可接收的韵律音素序列2：sil d ong1#0 n an2#0 f eng1#2 s an1#0 d ao4#1 s i4#0 j i2#4 sil eos。
148.其中端到端语音合成模型可接收的韵律音素序列1为该目标文本中的第一个分句序列，端到端语音合成模型可接收的韵律音素序列2不为该目标文本中的第一个分句序列。
149.在将端到端语音合成模型可接收的韵律音素序列2合成为第一语音信息后，根据端到端语音合成模型可接收的韵律音素序列2中句首和句末多余音素的时长，也即基于句首“sil”的第一时长，在首部截去对应时长语音或高级声学特征，基于句末“sil”和“eos”的第一时长，在尾部截去对应时长语音或高级声学特征，即可生成第二语音信息。
150.二、第一分句语音信息对应的分句序列为目标文本中的第一个分句序列。
151.继续参考图2，在另一些实施例中，目标音素包括句首多余音素和句末多余音素中的至少一种，基于多个音素中的目标音素对应的第一时长，截去第一分句语音信息中与目标音素对应的语音，还可以包括：
152.确定第一分句语音信息对应的分句序列为目标文本中的第一个分句序列，截去第一分句语音信息中与句末多余音素对应的语音。
153.继续以目标文本“上海市今天阴转多云东南风三到四级”为例，对该实施例进行说明。
154.将目标文本“上海市今天阴转多云东南风三到四级”转化为：
155.端到端语音合成模型可接收的韵律音素序列1：sil sh ang4#0 h ai3#0 sh i4#2 j in1#0 t ian1#2 y in1#0 zh uan3#1 d uo1#0 y vn2#3 sil eos；
156.端到端语音合成模型可接收的韵律音素序列2：sil d ong1#0 n an2#0 f eng1#2 s an1#0 d ao4#1 s i4#0 j i2#4 sil eos。
157.其中端到端语音合成模型可接收的韵律音素序列1为该目标文本中的第一个分句序列，端到端语音合成模型可接收的韵律音素序列2不为该目标文本中的第一个分句序列。
158.在将端到端语音合成模型可接收的韵律音素序列1合成为第一语音信息后，根据端到端语音合成模型可接收的韵律音素序列1中句末多余音素的时长，也即基于“sil”和“eos”的第一时长，在尾部截去对应时长语音或高级声学特征，即可生成第二语音信息。
159.根据本技术实施例提供的语音拼接方法，在将目标文本切分为多个分句序列后并合成各分句序列对应的第一分句语音信息后，基于各分句序列中音素对应的时长对第一分句语音信息中多余的音素对应的语音进行截除，从而实现在不需要预设语音拼接单元库且不需要对待拼接语音单元进行平滑处理的基础上，即可提高相邻第一分句语音信息拼接处的自然度与流畅度。
160.下面对本技术实施例提供的语音拼接装置进行描述，下文描述的语音拼接装置与上文描述的语音拼接方法可相互对应参照。
161.如图3所示，该语音拼接装置包括：第一处理模块310、第二处理模块320和第三处理模块330。
162.第一处理模块310，用于切分目标文本的韵律音素序列，生成多个分句序列，韵律音素序列包括位于相邻音素之间的韵律标识符和与目标文本对应的多个音素，每个分句序列包括至少一个音素；
163.第二处理模块320，用于分别对分句序列进行语音合成，生成多个第一分句语音信息，第一分句语音信息包括每一个音素和韵律标识符对应的第一时长；
164.第三处理模块330，用于基于第一分句语音信息对应的分句序列在韵律音素序列中的切分顺序和第一时长，对多个第一分句语音信息进行拼接，生成目标语音。
165.根据本技术实施例提供的语音拼接装置，在将目标文本切分为多个分句序列后并合成各分句序列对应的第一分句语音信息后，基于各分句序列中音素对应的时长对第一分句语音信息中多余的音素对应的语音进行截除，从而实现在不需要预设语音拼接单元库且不需要对待拼接语音单元进行平滑处理的基础上，即可提高相邻第一分句语音信息拼接处的自然度与流畅度。
166.在一些实施例中，第三处理模块330，还用于：
167.基于多个音素中的目标音素对应的第一时长，截去第一分句语音信息中与目标音素对应的语音，生成第二分句语音信息；
168.基于第二分句语音信息对应的分句序列在韵律音素序列中的切分顺序，拼接第二分句语音信息，生成目标语音。
169.在一些实施例中，目标音素包括句首多余音素和句末多余音素中的至少一种，第三处理模块330，还用于：
170.确定第一分句语音信息对应的分句序列不为目标文本中的第一个分句序列，分别
截去第一分句语音信息中与句首多余音素对应的语音和与句末多余音素对应的语音；
171.确定第一分句语音信息对应的分句序列为目标文本中的第一个分句序列，截去第一分句语音信息中与句末多余音素对应的语音。
172.在一些实施例中，该装置还可以包括：
173.第四处理模块，用于在生成多个第一分句语音信息之后，且在基于第一时长和第一分句语音信息对应的分句序列在韵律音素序列中的切分顺序，拼接多个第一分句语音信息之前，输出第一分句语音信息。
174.在一些实施例中，该装置还可以包括：
175.第五处理模块，用于在对目标文本的韵律音素序列进行切分，生成多个分句序列之前，获取目标文本的音节、韵律词、韵律短语、语调短语和句末信息；
176.将目标文本转化为音素序列；
177.基于音节、韵律词、韵律短语、语调短语和句末信息中的至少两种，生成多个韵律标识符；
178.基于多个韵律标识符标记音素序列，生成韵律音素序列。
179.在一些实施例中，第二处理模块320，还可以用于：
180.将分句序列输入至目标语音合成模型，获取由目标语音合成模型输出的第一分句语音信息，其中，
181.目标语音合成模型为，以样本分句序列为样本，以与样本分句序列对应的样本分句语音为样本标签，训练得到。
182.在一些实施例中，第二处理模块310，还可以用于：基于多个韵律标识符中的至少部分切分韵律音素序列，生成多个分句序列。
183.图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(communications interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行语音拼接方法，该方法包括：切分目标文本的韵律音素序列，生成多个分句序列，韵律音素序列包括位于相邻音素之间的韵律标识符和与目标文本对应的多个音素，每个分句序列包括至少一个音素；分别对分句序列进行语音合成，生成多个第一分句语音信息，第一分句语音信息包括每一个韵律标识符和音素对应的第一时长；基于第一分句语音信息对应的分句序列在韵律音素序列中的切分顺序和第一时长，对多个第一分句语音信息进行拼接，生成目标语音。
184.此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
185.进一步地，本技术还提供一种计算机程序产品，所述计算机程序产品包括计算机
程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法实施例所提供的语音拼接方法，该方法包括：切分目标文本的韵律音素序列，生成多个分句序列，韵律音素序列包括位于相邻音素之间的韵律标识符和与目标文本对应的多个音素，每个分句序列包括至少一个音素；分别对分句序列进行语音合成，生成多个第一分句语音信息，第一分句语音信息包括每一个韵律标识符和音素对应的第一时长；基于第一分句语音信息对应的分句序列在韵律音素序列中的切分顺序和第一时长，对多个第一分句语音信息进行拼接，生成目标语音。
186.另一方面，本技术实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的语音拼接方法，该方法包括：切分目标文本的韵律音素序列，生成多个分句序列，韵律音素序列包括位于相邻音素之间的韵律标识符和与目标文本对应的多个音素，每个分句序列包括至少一个音素；分别对分句序列进行语音合成，生成多个第一分句语音信息，第一分句语音信息包括每一个韵律标识符和音素对应的第一时长；基于第一分句语音信息对应的分句序列在韵律音素序列中的切分顺序和第一时长，对多个第一分句语音信息进行拼接，生成目标语音。
187.以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
188.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
189.最后应说明的是：以上实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。
190.以上实施方式仅用于说明本技术，而非对本技术的限制。尽管参照实施例对本技术进行了详细说明，本领域的普通技术人员应当理解，对本技术的技术方案进行各种组合、修改或者等同替换，都不脱离本技术技术方案的精神和范围，均应涵盖在本技术的权利要求范围中。

技术特征：

1.一种语音拼接方法，其特征在于，包括：对目标文本的韵律音素序列进行切分，生成多个分句序列，所述韵律音素序列包括与所述目标文本对应的多个音素以及位于相邻所述音素之间的韵律标识符，每个所述分句序列包括至少一个所述音素；分别对所述分句序列进行语音合成，生成多个第一分句语音信息，所述第一分句语音信息包括每一个所述音素和所述韵律标识符对应的第一时长；基于所述第一时长和所述第一分句语音信息对应的分句序列在所述韵律音素序列中的切分顺序，拼接所述多个第一分句语音信息，生成目标语音。2.根据权利要求1所述的语音拼接方法，其特征在于，所述基于所述第一时长和所述第一分句语音信息对应的分句序列在所述韵律音素序列中的切分顺序，拼接所述多个第一分句语音信息，生成目标语音，包括：基于多个音素中的目标音素对应的第一时长，截去所述第一分句语音信息中与所述目标音素对应的语音，生成第二分句语音信息；基于所述第二分句语音信息对应的分句序列在所述韵律音素序列中的切分顺序，拼接所述第二分句语音信息，生成所述目标语音。3.根据权利要求2所述的语音拼接方法，其特征在于，所述目标音素包括句首多余音素和句末多余音素中的至少一种，所述基于多个音素中的目标音素对应的第一时长，截去所述第一分句语音信息中与所述目标音素对应的语音，包括：确定所述第一分句语音信息对应的分句序列不为所述目标文本中的第一个分句序列，分别截去所述第一分句语音信息中与所述句首多余音素对应的语音和与所述句末多余音素对应的语音；确定所述第一分句语音信息对应的分句序列为所述目标文本中的第一个分句序列，截去所述第一分句语音信息中与所述句末多余音素对应的语音。4.根据权利要求1所述的语音拼接方法，其特征在于，在所述生成多个第一分句语音信息之后，且在所述基于所述第一时长和所述第一分句语音信息对应的分句序列在所述韵律音素序列中的切分顺序，拼接所述多个第一分句语音信息之前，所述方法还包括：输出所述第一分句语音信息。5.根据权利要求1-4任一项所述的语音拼接方法，其特征在于，在所述对目标文本的韵律音素序列进行切分，生成多个分句序列之前，所述方法还包括：获取所述目标文本的音节、韵律词、韵律短语、语调短语和句末信息；将所述目标文本转化为音素序列；基于所述音节、所述韵律词、所述韵律短语、所述语调短语和所述句末信息中的至少两种，生成所述多个韵律标识符；基于所述多个韵律标识符标记所述音素序列，生成所述韵律音素序列。6.根据权利要求1-4任一项所述的语音拼接方法，其特征在于，所述分别对所述分句序列进行语音合成，包括：将所述分句序列输入至目标语音合成模型，获取由所述目标语音合成模型输出的所述第一分句语音信息，其中，所述目标语音合成模型为，以样本韵律音素序列为样本，以与所述样本韵律音素序列
对应的样本分句语音为样本标签，训练得到。7.根据权利要求1-4任一项所述的语音拼接方法，其特征在于，所述对目标文本的韵律音素序列进行切分，生成多个分句序列，包括：基于多个所述韵律标识符中的至少部分切分所述韵律音素序列，生成所述多个分句序列。8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述语音拼接方法。9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述语音拼接方法。10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音拼接方法。

技术总结

本申请涉及语音合成领域，提供一种语音拼接方法和语音拼接装置，语音拼接方法，包括：对目标文本的韵律音素序列进行切分，生成多个分句序列，韵律音素序列包括与目标文本对应的多个音素以及位于相邻音素之间的韵律标识符；分别对分句序列进行语音合成，生成多个第一分句语音信息，第一分句语音信息包括每一个韵律标识符和音素对应的第一时长；基于第一时长和第一分句语音信息对应的分句序列在韵律音素序列中的切分顺序，拼接多个第一分句语音信息，生成目标语音。本申请的语音拼接方法，能够实现在不需要预设语音拼接单元库且不需要对待拼接语音单元进行平滑处理的基础上，即可提高相邻第一分句语音信息拼接处的自然度与流畅度。度。度。