语音播放方法、装置、存储介质及电子设备与流程

1.本公开语音技术领域，具体地，涉及一种语音播放方法、装置、存储介质及电子设备。

背景技术：

2.近年来随着深度学习的发展，基于语音合成技术的语音播放也得到了很大程度上的提高。基于语音合成技术的语音播放是指将输入的文本转换成自然流畅的语音，从而让机器可以开口说话，扩展了人机交互方式，让人机沟通更加方便。
3.然而，相关技术中的基于语音合成技术的语音播放方法，在单次请求的文本数据过大的情况下，例如，几十字或者几百字的情况下，从输入请求的文本数据到播放出语音的等待时间较长，降低人机沟通效率。

技术实现要素：

4.本公开的目的是提供一种语音播放方法、装置、存储介质及电子设备，解决了从输入待合成文本到播放出语音的等待时间较长，降低人机沟通效率的问题。
5.为了实现上述目的，第一方面，本公开提供一种语音播放方法，所述方法包括：
6.对待合成文本对应的音素向量序列中的各个音素向量进行编码处理，得到编码向量序列；
7.对所述编码向量序列进行语音信息的预测处理，得到所述编码向量序列中的各个编码向量对应的语音信息；
8.基于所述编码向量序列中各个编码向量排列的先后顺序以及解码效率，确定各个解码分组以及每个所述解码分组对应的解码顺序，所述解码分组包括至少一个编码向量及其对应的语音信息，所述解码效率表征每次进行解码的编码向量的数量；
9.基于所述解码顺序，对所述各个解码分组进行解码；
10.响应于解码得到首个语音数据，按照解码得到语音数据的顺序，开始对解码得到的语音数据进行播放。
11.在一些实施方式中，所述方法还包括：
12.基于解码效率配置参数，确定所述解码效率，所述解码效率配置参数基于语音播放延时的接受程度确定。
13.在一些实施方式中，所述方法还包括：
14.对所述待合成文本进行音素提取，得到所述待合成文本对应的音素序列；
15.对所述音素序列进行音素嵌入处理，得到所述音素向量序列。
16.在一些实施方式中，所述语音信息包括时长、音高以及音量中一者或者多者的组合。
17.在一些实施方式中，所述对所述音素向量序列中各个音素向量进行编码处理，包括：
18.通过编码器对所述音素向量序列中各个音素向量进行编码处理；
19.所述对所述编码向量序列进行语音信息的预测处理，包括：
20.通过语音信息预测器对所述编码向量序列进行语音信息的预测处理；
21.所述基于所述解码顺序，依次对所述各个解码分组进行解码，包括：
22.基于所述解码顺序，通过解码器依次对所述各个解码分组进行解码；
23.其中，所述编码器、语音信息预测器以及解码器基于携带文本标注的样本语音数据经过联合训练得到。
24.在一些实施方式中，所述方法还包括：
25.获取目标环境中的交互语音；
26.将所述交互语音转换成对应的第一交互文本；
27.获取与所述第一交互文本对应的第一答复文本，所述第一答复文本作为所述待合成文本；或者
28.获取用户输入的第二交互文本；
29.获取与所述第二交互文本对应的第二答复文本，所述第二答复文本作为所述待合成文本。
30.第二方面，本公开还提供一种语音播放装置，所述装置包括：
31.编码模块，用于对待合成文本对应的音素向量序列中的各个音素向量进行编码处理，得到编码向量序列；
32.预测模块，用于对所述编码向量序列进行语音信息的预测处理，得到所述编码向量序列中的各个编码向量对应的语音信息；
33.分组模块，用于基于所述编码向量序列中各个编码向量排列的先后顺序以及解码效率，确定各个解码分组以及每个所述解码分组对应的解码顺序，所述解码分组包括至少一个编码向量及其对应的语音信息，所述解码效率表征每次进行解码的编码向量的数量；
34.解码模块，用于基于所述解码顺序，对所述各个解码分组进行解码；
35.播放模块，用于响应于解码得到首个语音数据，按照解码得到语音数据的顺序，开始对解码得到的语音数据进行播放。
36.第三方面，本公开还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面中方法的步骤。
37.第四方面，本公开还提供了一种电子设备，包括：
38.存储器，其上存储有计算机程序；
39.处理器，用于执行存储器中的计算机程序，以实现第一方面中方法的步骤。
40.通过上述技术方案，由于每次对一个解码分组的向量进行解码，并同时按照解码得到语音数据的顺序进行播放，使得同时解码处理的数据量减小了，降低了解码的负荷，降低了单次解码的解码耗时，使得从输入文本到第一次播放语音的耗时降低，用户也能更快的听到声音，因此，在保证音频质量的同时，缩短了语音播放的等待时间，提高了人机沟通效率。
41.本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
42.附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：
43.图1是本公开一实施例提供的一种语音播放方法的流程示意图。
44.图2是本公开一实施例提供的另一种语音播放方法的流程示意图。
45.图3是本公开一实施例提供的一种深度神经网络模型的结构示意图。
46.图4是本公开一实施例提供的一种语音播放装置的结构示意图。
47.图5是本公开一实施例提供的一种电子设备的结构示意图。
具体实施方式
48.以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。
49.相关技术中，为了保证音频质量以及提高语音合成速度，存在一种非自回归语音合成模型fastspeech2。然而，发明人在实际工程中发现，fastspeech2的语音合成速度是与请求合成的文本数据量成正相关的，也就是说，在请求合成的文本数据量较小时，能够具有较快的语音合成速度，从而使得从输入请求的文本数据到播放出语音的时间能够满足用户需求，而在单次请求的文本数据量较大的情况下，例如，几十字、几百字甚至更多的情况下，从输入请求的文本数据到播放出语音的等待时间较长，高达数秒甚至更长，不再能满足用户需求，降低了人机沟通效率。
50.为了解决上述问题，发明人提出了本公开提供的语音播放方法、装置、存储介质及电子设备，先对待合成文本对应的音素向量序列中的各个音素向量进行编码处理，得到编码向量序列；然后对编码向量序列进行语音信息的预测处理，得到编码向量序列中的各个编码向量对应的语音信息；然后基于编码向量序列中各个编码向量排列的先后顺序以及解码效率，确定各个解码分组以及每个解码分组对应的解码顺序；然后基于解码顺序，对各个解码分组进行解码；然后响应于解码得到首个语音数据，按照解码得到语音数据的顺序，开始对解码得到的语音数据进行播放。
51.由于每次对一个解码分组的向量进行解码，并同时按照解码得到语音数据的顺序进行播放，使得同时解码处理的数据量减小了，降低了解码的负荷，降低了单次解码的解码耗时，使得从输入文本到第一次播放语音的耗时降低，用户也能更快的听到声音，此外，语音数据的播放是从解码得到首个语音数据开始的，并且语音播放本身也是需要占据时间的，且某个解码分组对应的语音数据的播放时长通常是大于该解码分组的解码时长的，这样正好可以在语音输出的时间内继续进行解码，从而不必考虑解码总时长这个条件，因此，采用上述方法，在保证音频质量的同时，缩短了语音播放的等待时间，提高了人机沟通效率。
52.在对本公开实施例进行进一步详细说明之前，对本公开实施例中涉及一些示例性的应用场景进行介绍。
53.该应用场景可以是人机交互场景，在一种示例性的人机交互场景中，用户通过输入交互语音，终端设备在接收到交互语音之后，可以先将交互语音转换对应的交互文本，然后根据交互文本得到对应的答复文本，在得到答复文本之后，终端设备便可以将答复文本
作为待合成文本，然后对待合成文本进行处理，得到语音数据并进行播放，从而完成整个人机交互过程。
54.在另一种示例性的人机交互场景中，用户通过直接输入交互文本，例如，通过按键或者触摸屏的方式输入交互文本，终端设备在接收到交互文本之后，可以根据交互文本得到对应的答复文本，在得到答复文本之后，终端设备便可以将答复文本作为待合成文本，然后对待合成文本进行处理，得到语音数据并进行播放，从而完成整个人机交互过程。
55.请参阅图1，图1是根据本公开一示例性实施例示出的一种语音播放方法的流程图，该方法应用于终端设备，该终端设备可以是智能语音机器人、手机、笔记本、平板电脑、台式计算机、智能音箱、智能电视、可穿戴设备以及车载终端等，如图1所示，该语音播放方法包括步骤s110至步骤s150。
56.具体的：
57.s110，对待合成文本对应的音素向量序列中的各个音素向量进行编码处理，得到编码向量序列。
58.其中，待合成文本是指用于合成语音的文本，待合成文本可以对应有音素向量序列，每个音素向量序列中包括多个音素向量。
59.其中，音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看，音素是从音质角度划分出来的最小语音单位。从生理性质来看，一个发音动作形成一个音素。如“ma”包含“m”、“a”两个发音动作，是两个音素。相同发音动作发出的音就是同一音素，不同发音动作发出的音就是不同音素。如“ma-mi”中，两个“m”发音动作相同，是相同音素，“a”、“i”发音动作不同，则是不同音素。
60.待合成文本对应的音素向量序列中各个音素向量是低维空间的向量表示，能够表达的语言含义特征有限，因此，为了便于后续对待合成文本对应的音素向量序列进行语音合成并播放，以及保证语音质量，可以先对待合成文本对应的音素向量序列中的各个音素向量进行编码处理，得到编码向量序列，编码向量序列中的各个编码向量是高维空间的向量表示，能够表达更多更抽象的语言含义特征。可以理解的是，编码向量序列中的向量的数量与音素向量序列中的向量的数量相同，不同之处在于每个向量的维度不同。此外，在编码向量序列中以及音素向量序列中，各个向量相互之间的排列顺序不变。例如，音素向量序列中的第一个音素向量在编码之后的编码向量序列中依然是排列在第一个的向量，音素向量序列中的第n个音素向量在编码之后的编码向量序列中依然是排列在第n个的向量。
61.在一些实施方式中，对待合成文本对应的音素向量序列中的各个音素向量进行编码处理可以包括以下操作中的至少一个：分别对各个音素向量进行相加操作，分别对各个音素向量进行线性变换操作，分别对各个音素向量进行非线性变换操作，分别对各个音素向量进行点乘操作。
62.s120，对编码向量序列进行语音信息的预测处理，得到编码向量序列中的各个编码向量对应的语音信息。
63.其中，语音信息可以包括时长、音高以及音量中一者或者多者的组合。
64.本公开实施例中，在对编码向量序列进行语音信息的预测处理之后，针对每个编码向量，分别可以得到对应的语音信息。
65.本公开实施例中，由于是对整个编码向量序列进行语音信息的预测处理，因此，预
测得到的语音信息中可以携带有待合成文本中的上下文信息，提高后续播放的语音的质量。
66.例如，假设待合成文本为“你真好学，我也应该向你一样好好学习”，从而得到的语音信息中，可以得到第一个“好”字包括的三个音素“h a o”相较于第二以及第三个“好”字分别包括的三个音素“h a o”的时长更短，音量更大，从而，从语音信息可以反映上下文信息。
67.s130，基于编码向量序列中各个编码向量排列的先后顺序以及解码效率，确定各个解码分组以及每个解码分组对应的解码顺序，解码分组包括至少一个编码向量及其对应的语音信息，解码效率表征每次进行解码的编码向量的数量。
68.可以理解的是，上述步骤s120中，是对整个编码向量序列同时进行语音信息的预测处理，而在步骤s130中，则是将编码向量序列中的各个编码向量按照在编码向量序列中的排列的先后顺序以及解码效率进行分组，以便后续步骤中依次对各个解码分组进行解码。
69.示例性地，假设编码向量序列中依次存在(向量1、向量2、向量3、
……
、向量10)这10个编码向量，且解码效率是每次解码3个编码向量，此时，可以确定共存在4个解码分组，分别是位于第一个解码顺序的解码分组(向量1以及对应的语音信息、向量2以及对应的语音信息、向量3以及对应的语音信息)、位于第二个解码顺序的解码分组(向量4以及对应的语音信息、向量5以及对应的语音信息、向量6以及对应的语音信息)、位于第三个解码顺序的解码分组(向量7以及对应的语音信息、向量8以及对应的语音信息、向量9以及对应的语音信息)以及位于第四个解码顺序的解码分组(向量10以及对应的语音信息)。
70.在一些实施方式中，可以基于解码效率配置参数，确定解码效率，其中，解码效率配置参数基于语音播放延时的接受程度确定。
71.本公开实施例中，用户可以根据自身对语音播放延时的接受程度，设置电子设备对应的解码效率配置参数，从而电子设备便可以基于解码效率配置参数，确定解码效率。
72.可以理解的是，语音播放时延的接受程度越大，解码效率配置参数对应的解码效率相对越高，也即每次解码的编码向量的数量越大，需要说明的是，解码效率高，单次解码的时间越长。
73.此外，需要说明的是，解码效率越高，获得的语音数据的片段数量相对越少，相对可以减少内存读取的数量，节约功耗，而解码效率越低，获得的语音数据的片段数量相对越多，相对增加了内存读取的次数，增加功耗。示例性地，若将每个音素对应的编码向量以及该编码向量对应的语音信息均作为一个解码分组的话，在文本数量为100量级的时候，假设音素为300个，这种情况下，针对该次人机交互过程中的语音数据的存储与读取，会读取300次内存，从而增加了功耗，而若是将5个音素对应的编码向量以及这5个编码向量对应的语音信息作为一个解码分组的话，可以读取60次内存，从而降低功耗。
74.因此，在一些实施方式中，可以在用户对语音播放延时的接受程度范围内，适当增加解码效率。
75.s140，基于解码顺序，依次对各个解码分组进行解码。
76.其中，基于解码顺序，依次对各个解码分组进行解码是指每次对一个解码分组进行解码，当解码完前一个解码分组之后，再对后一个解码分组进行解码。
77.沿用前述示例，先对位于第一个解码顺序的解码分组(向量1以及对应的语音信息、向量2以及对应的语音信息、向量3以及对应的语音信息)进行解码，在解码得到一个语音数据之后，再对位于第二个解码顺序的解码分组(向量4以及对应的语音信息、向量5以及对应的语音信息、向量6以及对应的语音信息)进行解码，再得到一个语音数据，依次类推。
78.s150，响应于解码得到首个语音数据，按照解码得到语音数据的顺序，开始对解码得到的语音数据进行播放。
79.本公开实施例中，在对位于第一个解码顺序的解码分组进行解码，得到第一个语音数据之后，随即便开始按照解码得到语音数据的顺序，对解码得到的语音数据进行播放，从而不必等到解码完所有的解码分组之后，再开始对语音数据进行播放。
80.此外，可以理解的是，由于对编码向量序列中的各个编码向量进行了分组，从而每个解码分组中的编码向量的数量是相对较少的，这样，某个解码分组对应的语音数据的播放时长通常是大于该解码分组的解码时长的，也就是说，在播放第一个解码得到的语音数据的过程中，第二个解码得到的语音数据便已经准备好了，待第一个语音数据播放完成之后，便可以连续的播放第二个语音数据，从而可以保证平稳的播放语音，进一步保证了语音质量。
81.在一些实施方式中，可以使用声码器来对语音数据进行播放。
82.可以理解的是，解码过程是语音合成中较为复杂的过程，相比较于编码过程以及语音信息的预测过程，整个语音合成中大量的时间损耗均是由该过程导致的，而在本公开实施例中，由于不再将编码向量序列中所有的编码向量一次性进行解码，待全部解码完成后再播放语音数据，而是每次对一个解码分组的向量进行解码，并同时按照解码得到语音数据的顺序进行播放，由于同时解码处理的数据量减小了，降低了解码的负荷，降低了单次解码的解码耗时，使得从输入文本到第一次播放语音的耗时降低，用户也能更快的听到声音，此外，虽然每次只解码了一个解码分组，多次解码的解码总时长可能大于一次全部解码的总时长，但是由于本公开实施例中，语音数据的播放是从解码得到首个语音数据开始的，并且语音播放本身也是需要占据时间的，且某个解码分组对应的语音数据的播放时长通常是大于该解码分组的解码时长的，这样正好可以在语音输出的时间内继续进行解码，从而不必考虑解码总时长这个条件，因此，采用上述方法，在保证音频质量的同时，缩短了语音播放的等待时间，提高了人机沟通效率。
83.结合前述内容可知，待合成文本可以是根据交互语音得到，这种情况下，在一些实施方式中，本公开实施例的方法还可以包括步骤：获取目标环境中的交互语音；将交互语音转换成对应的第一交互文本；获取与第一交互文本对应的第一答复文本，第一答复文本作为待合成文本。
84.其中，目标环境是指终端设备当前所处的环境，终端设备在开启麦克风之后，可以对当前所处环境中的语音信息进行采集，进而得到交互语音。
85.可以理解的是，在一些情况下，目标环境中可能只存在用户输入的交互语音，这种情况下，终端设备可以直接将采集的语音作为交互语音。在另一些情况下，目标环境中可能既存在用户输入的交互语音，也存在其他除交互语音之外的杂音，这种情况下，终端设备可以对采集的语音进行干扰去除，从而将去除干扰后的语音作为交互语音。
86.在得到交互语音之后，终端设备可以将交互语音转换成对应的第一交互文本，然
后再获取第一交互文本对应的第一答复文本，进而便可以将第一答复文本作为待合成文本，以便对待合成文本合成转换成语音数据进行播放。
87.其中，第一答复文本可以由服务器根据第一交互文本得到，并由服务器发送到终端设备的，也可以是终端设备自己根据第一交互文本得到的。
88.此外，待合成文本可以是根据交互文本得到，这种情况下，在另一些实施方式中，本公开实施例的方法还可以包括步骤：获取用户输入的第二交互文本；获取与第二交互文本对应的第二答复文本，第二答复文本作为待合成文本。
89.同样地，第二答复文本可以由服务器根据第二交互文本得到，并由服务器发送到终端设备的，也可以是终端设备自己根据第二交互文本得到的。那么在得到第二答复文本之后，终端设备便可以将第二答复文本作为待合成文本，以便对待合成文本合成转换成语音数据进行播放。
90.请参阅图2，图2是根据本公开一示例性实施例示出的一种语音播放方法的流程图，该方法应用于终端设备，该终端设备可以是智能语音机器人、手机、笔记本、平板电脑、台式计算机、智能音箱、智能电视、可穿戴设备以及车载终端等，如图1所示，该语音播放方法包括步骤s210至步骤s270。
91.具体的：
92.s210，对待合成文本进行音素提取，得到待合成文本对应的音素序列。
93.作为一种实施方式，可以使用音素提取算法对待合成文本进行音素提取，从而得到待合成文本对应的音素序列。
94.示例性地，假设待合成文本为“今天真是个好日子”，使用音素提取算法对待合成文本进行音素提取之后，可以得到对应的音素序列为“j i n t i a n z h e n s h i g e h a o r i z i”。
95.需要说明的是，在对待合成文本进行音素提取的时候，为了提高后续播放的语音的准确性，可以按照发音规则进行音素提取，例如，若待合成文本是汉语文本，则根据汉语音素进行提取，若待合成文本是英文文本，则可以根据音标进行音素提取。
96.s220，对音素序列进行音素嵌入处理，得到音素向量序列。
97.其中，对音素序列进行音素嵌入处理，得到音素向量序列可以有多种方式。
98.在一些实施方式中，可以使用预设的音素转换表，对音素序列进行音素嵌入处理，得到音素向量序列。在音素转换表中，每种音素对应一个向量表示，从而通过查表的方式可以得到音素序列对应的音素向量序列。
99.在另一些实施方式中，可以使用预训练神经网络模型对音素序列进行音素嵌入处理，得到音素向量序列。
100.s230，对待合成文本对应的音素向量序列中的各个音素向量进行编码处理，得到编码向量序列。
101.s240，对编码向量序列进行语音信息的预测处理，得到编码向量序列中的各个编码向量对应的语音信息。
102.s250，基于编码向量序列中各个编码向量排列的先后顺序以及解码效率，确定各个解码分组以及每个解码分组对应的解码顺序。
103.s260，基于解码顺序，对各个解码分组进行解码。
104.s270，响应于解码得到首个语音数据，按照解码得到语音数据的顺序，开始对解码得到的语音数据进行播放。
105.其中，上述步骤s230-步骤s270的详细描述可以参考前述步骤s110-s150的详细描述，此处不再赘述。
106.需要说明的是，在一些实施方式中，在本公开实施例中的步骤s230到步骤s260可以由训练得到的深度神经网络模型来执行，其中，如图3所示，该深度神经网络模型可以包括编码器、语音信息预测器、数据寄存器以及解码器，这种情况下，对音素向量序列中各个音素向量进行编码处理，可以包括步骤：通过编码器对音素向量序列中各个音素向量进行编码处理；对编码向量序列进行语音信息的预测处理，可以包括步骤：通过语音信息预测器对编码向量序列进行语音信息的预测处理；基于解码顺序，依次对各个解码分组进行解码，可以包括步骤：基于解码顺序，通过解码器依次对各个解码分组进行解码。
107.其中，数据寄存器可以用于存储解码分组，每个解码分组对应有解码顺序。
108.其中，编码器、语音信息预测器以及解码器可以通过联合训练的方式来进行参数调整。其中，联合训练是指在每次训练中，整体对编码器、语音信息预测器以及解码器的参数进行调整，在联合训练过程中，所采用的训练样本为携带文本标注的样本语音数据。
109.在一些实施方式中，可以对样本语音数据进行梅尔频谱提取，提取得到样本语音数据的梅尔频谱，然后将该样本语音数据对应的文本标注对应的音素向量序列输入深度神经网络模型，在深度神经网络模型中依次经过编码器、语音信息预测器、数据寄存器以及解码器的处理，得到预测梅尔频谱，基于预测梅尔频谱与样本语音数据的梅尔频谱之间的差异，整体对编码器、语音信息预测器以及解码器的参数进行调整，从而完成深度神经网络模型的一次训练。其中，解码器可以是解码得到梅尔频谱的解码器，即此时语音数据则是对应的梅尔频谱。
110.此外，考虑到携带文本标注的样本语音数据可能是通过将样本语音数据输入到语音识别模型得到的，从而文本标注中可能存在一些无意义的符号，或者冗余的信息，因此，为了提高深度神经网络模型训练的准确性，在一些实施方式中，在得到样本数据之后，可以对样本数据携带的文本标注进行无意义符号的剔除，以及冗余信息的剔除。
111.结合前述内容可知，在一些实施方式中，可以基于解码效率配置参数，确定解码效率，那么在确定了解码效率之后，可以把解码效率设置为上述深度神经网络模型中数据寄存器的配置参数。
112.需要说明的是，数据寄存器不参与训练，该参数在训练过程中不会发生变化。
113.下面再通过测试数据来对本公开实施例所提供的语音播放方法效果进行说明，其中，由于在电子设备中，从电子设备接收交互语音或者交互文本到获取待合成文本的过程是相同的，不必进行测试，因此，本公开实施例中，效果主要包括两个方面，一方面是从输入待合成文本到播放语音的等待时间，另一方面是播放的语音数据的质量。
114.通过使用a、b、c三组文本数据进行试验，每组数据量为10，a组数据的单条文字数量小于6；b组数据的单条文字数量在6～15之间；c组数据的单条文字量大于等于15。
115.构建传统的fastspeech2模型，并使用声码器来对语音数据进行播放，使用上述文本数据进行试验。生成的数据作为对照组的数据。
116.构建本公开实施例提出的深度神经网络模型，并使用声码器来对语音数据进行播
放，使用上述文本数据进行试验。生成的数据作为实验组的数据。
117.从输入待合成文本到播放语音的等待时间的对比结果如下：
118.组别对照组实验组a67ms39msb162ms40msc241ms39ms
119.播放的语音数据的质量的对比结果如下：
120.组别对照组实验组a4.20
±
0.054.17
±
0.03b4.08
±
0.074.02
±
0.06c3.97
±
0.053.88
±
0.07
121.通过上述表格分析，使用本公开实施例提出的深度神经网络模型，并使用声码器来对语音数据进行播放，随着文本数量的增加，从输入待合成文本到播放语音的等待时间变化较小，且播放的语音数据的质量与传统的fastspeech2模型，并使用声码器来对语音数据进行播放的质量差异不大，也即，本公开实施例的语音播放方法即使在待合成文本较长，也能够在保证语音播放质量的同时，缩短语音播放的等待时间，提高人机沟通效率。
122.请参阅图4，本公开一示例性实施例还提供一种语音播放装置300，应用于电子设备，该装置300包括编码模块310、预测模块320、分组模块330、解码模块340以及播放模块350：
123.编码模块310，用于对待合成文本对应的音素向量序列中的各个音素向量进行编码处理，得到编码向量序列；
124.预测模块320，用于对编码向量序列进行语音信息的预测处理，得到编码向量序列中的各个编码向量对应的语音信息；
125.分组模块330，用于基于编码向量序列中各个编码向量排列的先后顺序以及解码效率，确定各个解码分组以及每个解码分组对应的解码顺序，解码分组包括至少一个编码向量及其对应的语音信息，解码效率表征每次进行解码的编码向量的数量；
126.解码模块340，用于基于解码顺序，对各个解码分组进行解码；
127.播放模块350，用于响应于解码得到首个语音数据，按照解码得到语音数据的顺序，开始对解码得到的语音数据进行播放。
128.在一些实施方式中，装置300还包括：
129.解码效率确定模块，用于基于解码效率配置参数，确定解码效率，解码效率配置参数基于语音播放延时的接受程度确定。
130.在一些实施方式中，装置300还包括：
131.音素提取模块，用于对待合成文本进行音素提取，得到待合成文本对应的音素序列。
132.音素嵌入模块，用于对音素序列进行音素嵌入处理，得到音素向量序列。
133.在一些实施方式中，语音信息包括时长、音高以及音量中一者或者多者的组合。
134.在一些实施方式中，编码模块还用于通过编码器对音素向量序列中各个音素向量进行编码处理；预测模块，还用于通过语音信息预测器对编码向量序列进行语音信息的预
测处理；解码模块，还用于基于解码顺序，通过解码器依次对各个解码分组进行解码。其中，编码器、语音信息预测器以及解码器基于携带文本标注的样本语音数据经过联合训练得到。
135.在一些实施方式中，装置300还包括：
136.第一获取模块，用于获取目标环境中的交互语音。
137.第一转换模块，用于将交互语音转换成对应的第一交互文本。
138.第二获取模块，用于获取与第一交互文本对应的第一答复文本，第一答复文本作为待合成文本。
139.第三获取模块，用于获取用户输入的第二交互文本。
140.第四获取模块，用于获取与第二交互文本对应的第二答复文本，第二答复文本作为待合成文本。
141.关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
142.图5是根据一示例性实施例示出的一种电子设备400的框图。如图5所示，该电子设备400可以包括：处理器401，存储器402。该电子设备400还可以包括多媒体组件403，输入/输出(i/o)接口404，以及通信组件405中的一者或多者。
143.其中，处理器401用于控制该电子设备400的整体操作，以完成上述的语音播放方法中的全部或部分步骤。存储器402用于存储各种类型的数据以支持在该电子设备400的操作，这些数据例如可以包括用于在该电子设备400上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器402可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(static random access memory，简称sram)，电可擦除可编程只读存储器(electrically erasable programmable read-only memory，简称eeprom)，可擦除可编程只读存储器(erasable programmable read-only memory，简称eprom)，可编程只读存储器(programmable read-only memory，简称prom)，只读存储器(read-only memory，简称rom)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件403可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器402或通过通信组件405发送。音频组件还包括至少一个扬声器，用于输出音频信号。i/o接口404为处理器401和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件405用于该电子设备400与其他设备之间进行有线或无线通信。无线通信，例如wi-fi，蓝牙，近场通信(near field communication，简称nfc)，2g、3g、4g、nb-iot、emtc、或其他5g等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件405可以包括：wi-fi模块，蓝牙模块，nfc模块等等。
144.在一示例性实施例中，电子设备400可以被一个或多个应用专用集成电路(application specific integrated circuit，简称asic)、数字信号处理器(digital signal processor，简称dsp)、数字信号处理设备(digital signal processing device，简称dspd)、可编程逻辑器件(programmable logic device，简称pld)、现场可编程门阵列
(field programmable gate array，简称fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的语音播放方法。
145.在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的语音播放方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器402，上述程序指令可由电子设备400的处理器401执行以完成上述的语音播放方法。
146.在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的语音播放方法的代码部分。
147.以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。
148.另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。
149.此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

技术特征：

1.一种语音播放方法，其特征在于，包括：对待合成文本对应的音素向量序列中的各个音素向量进行编码处理，得到编码向量序列；对所述编码向量序列进行语音信息的预测处理，得到所述编码向量序列中的各个编码向量对应的语音信息；基于所述编码向量序列中各个编码向量排列的先后顺序以及解码效率，确定各个解码分组以及每个所述解码分组对应的解码顺序，所述解码分组包括至少一个编码向量及其对应的语音信息，所述解码效率表征每次进行解码的编码向量的数量；基于所述解码顺序，对所述各个解码分组进行解码；响应于解码得到首个语音数据，按照解码得到语音数据的顺序，开始对解码得到的语音数据进行播放。2.根据权利要求1所述的语音播放方法，其特征在于，所述方法还包括：基于解码效率配置参数，确定所述解码效率，所述解码效率配置参数基于语音播放延时的接受程度确定。3.根据权利要求1所述的语音播放方法，其特征在于，所述方法还包括：对所述待合成文本进行音素提取，得到所述待合成文本对应的音素序列；对所述音素序列进行音素嵌入处理，得到所述音素向量序列。4.根据权利要求1所述的语音播放方法，其特征在于，所述语音信息包括时长、音高以及音量中一者或者多者的组合。5.根据权利要求1所述的语音播放方法，其特征在于，所述对所述音素向量序列中各个音素向量进行编码处理，包括：通过编码器对所述音素向量序列中各个音素向量进行编码处理；所述对所述编码向量序列进行语音信息的预测处理，包括：通过语音信息预测器对所述编码向量序列进行语音信息的预测处理；所述基于所述解码顺序，依次对所述各个解码分组进行解码，包括：基于所述解码顺序，通过解码器依次对所述各个解码分组进行解码；其中，所述编码器、语音信息预测器以及解码器基于携带文本标注的样本语音数据经过联合训练得到。6.根据权利要求1-5任一项所述的语音播放方法，其特征在于，所述方法还包括：获取目标环境中的交互语音；将所述交互语音转换成对应的第一交互文本；获取与所述第一交互文本对应的第一答复文本，所述第一答复文本作为所述待合成文本；或者获取用户输入的第二交互文本；获取与所述第二交互文本对应的第二答复文本，所述第二答复文本作为所述待合成文本。7.一种语音播放装置，其特征在于，包括：编码模块，用于对待合成文本对应的音素向量序列中的各个音素向量进行编码处理，得到编码向量序列；
预测模块，用于对所述编码向量序列进行语音信息的预测处理，得到所述编码向量序列中的各个编码向量对应的语音信息；分组模块，用于基于所述编码向量序列中各个编码向量排列的先后顺序以及解码效率，确定各个解码分组以及每个所述解码分组对应的解码顺序，所述解码分组包括至少一个编码向量及其对应的语音信息，所述解码效率表征每次进行解码的编码向量的数量；解码模块，用于基于所述解码顺序，对所述各个解码分组进行解码；播放模块，用于响应于解码得到首个语音数据，按照解码得到语音数据的顺序，开始对解码得到的语音数据进行播放。8.根据权利要求7所述的语音播放装置，其特征在于，所述装置还包括：解码效率确定模块，用于基于解码效率配置参数，确定所述解码效率，所述解码效率配置参数基于语音播放延时的接受程度确定。9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。10.一种电子设备，其特征在于，包括：存储器，其上存储有计算机程序；处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-6中任一项所述方法的步骤。

技术总结

本公开涉及一种语音播放方法、装置、存储介质及电子设备，方法包括：对待合成文本对应的音素向量序列中的各个音素向量进行编码处理，得到编码向量序列；对所述编码向量序列进行语音信息的预测处理，得到所述编码向量序列中的各个编码向量对应的语音信息；基于所述编码向量序列中各个编码向量排列的先后顺序以及解码效率，确定各个解码分组以及每个所述解码分组对应的解码顺序；基于所述解码顺序，对所述各个解码分组进行解码；响应于解码得到首个语音数据，按照解码得到语音数据的顺序，开始对解码得到的语音数据进行播放。本公开的方法可以在保证音频质量的同时，缩短语音播放的等待时间，提高人机沟通效率。提高人机沟通效率。提高人机沟通效率。