一种音切换方法、装置、设备及介质与流程

1.本技术涉及语音合成技术领域，尤其涉及一种音切换方法、装置、设备及介质。

背景技术：

2.文本到语音(text to speech，tts)系统是按照特定发音人的发音规范，将文本转换成尽可能接近该特定发音人音的合成语音的系统，广泛应用于语音助手、智能家居和地图导航等场景。
3.目前，在tts系统中，由于供应商的升级、更换，或者技术升级等原因，可能发生更换发音人的情况，大多数的tts系统都是在用户使用tts功能时直接切换发音人，由于不同发音人通常具有不同的音，当直接切换发音人时，用户感知比较明显。

技术实现要素：

4.本技术实施例提供了一种音切换方法、装置、设备及介质，用以解决现有技术中的音切换方法存在的用户感知较为明显、tts功能体验较差的问题。
5.本技术实施例提供的技术方案如下：
6.一方面，本技术实施例提供了一种音切换方法，包括：
7.获取目标发音人数据和原始发音人数据；
8.基于各个音变化阶段各自对应的音变化程度，对目标发音人数据和原始发音人数据进行混合，得到各个音变化阶段各自对应的发音人数据；其中，音变化程度表征从原始发音人音到目标发音人音的变化程度；
9.基于各个音变化阶段各自对应的发音人数据，获得各个音变化阶段各自对应的tts系统；
10.基于各个音变化阶段各自对应的音变化程度表征的调用顺序，调用各个音变化阶段各自对应的tts系统以进行音切换。
11.另一方面，本技术实施例提供了一种音切换装置，包括：
12.数据获取单元，用于获取目标发音人数据和原始发音人数据；
13.数据混合单元，用于基于各个音变化阶段各自对应的音变化程度，对目标发音人数据和原始发音人数据进行混合，得到各个音变化阶段各自对应的发音人数据；其中，所述音变化程度表征从原始发音人音到目标发音人音的变化程度；
14.系统获取单元，用于基于各个音变化阶段各自对应的发音人数据，获得各个音变化阶段各自对应的tts系统；
15.系统调用单元，用于基于各个音变化阶段各自对应的音变化程度表征的调用顺序，调用各个音变化阶段各自对应的tts系统以进行音切换。
16.另一方面，本技术实施例提供了一种音切换设备，包括：存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现本技术实施例提供的音切换方法。
17.另一方面，本技术实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令被处理器执行时实现本技术实施例提供的音切换方法。
18.本技术实施例的有益效果如下：
19.本技术实施例中，通过利用各个音变化阶段各自对应的音变化程度，对原始发音人数据和目标发音人数据进行混合，可以获得各个音变化阶段各自对应的发音人数据，从而可以基于各个音变化阶段各自对应的发音人数据，获得各个音变化阶段各自对应的tts系统，进而按照各个音变化阶段各自对应的音变化程度，调用各个音变化阶段各自对应的tts系统时，可以实现从原始发音人音到的目标发音人音的平滑切换，降低发音人切换时的用户感知，提高tts系统的用户体验。
20.本技术的其它特征和优点将在随后的说明书中阐述，并且，部分地可以从说明书中变得显而易见，或者通过实施本技术而了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中特别指出的结构来实现和获得。
附图说明
21.此处所说明的附图用来提供对本技术的进一步理解，构成本技术的一部分，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
22.图1为本技术实施例中音切换方法的总体框架示意图；
23.图2为本技术实施例中音切换方法的概况流程示意图；
24.图3为本技术实施例中音切换方法的具体流程示意图；
25.图4为本技术实施例中音切换装置的功能结构示意图；
26.图5为本技术实施例中音切换设备的硬件结构示意图。
具体实施方式
27.为了使本技术的目的、技术方案及有益效果更加清楚明白，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，并不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
28.为便于本领域技术人员更好地理解本技术，下面先对本技术涉及的技术用语进行简单介绍。
29.1、tts系统，是将输入文本转换成接近发音人真实音的合成语音的系统，本技术实施例中，tts系统可以是应用软件等客户端，也可以是小程序等轻应用。
30.2、音，是表征声音品质的参数，又称为音品，是听觉感受到的声音的特。实际应用中，不同发音人的音各不相同。
31.3、音变化阶段，是指从原始发音人音到目标发音人音历经的各个变化阶段，本技术实施例中，音变化阶段的数目可以是固定值，也可以是根据原始发音人音与目标发音人音之间的差异灵活设定的变量值。
32.4、音变化程度，是表征从原始发音人音到目标发音人音的变化程度，本申
请实施例中，一个音变化阶段对应一个音变化程度。
33.例如，假设音变化阶段的数目为4个，则第一个音变化阶段对应的音变化程度可以是25％，第二个音变化阶段对应的音变化程度可以是50％，第三个音变化阶段对应的音变化程度可以是75％，第四个音变化阶段对应的音变化程度可以是100％，即第四个音变化阶段表征已经完全变化到目标发音人音的最终阶段。
34.5、调用顺序，是按照音变化程度从小到大的顺序确定的表征tts系统被调用的顺序。
35.例如：假设音变化阶段的数目为4个，第一个音变化阶段对应的音变化程度是25％，第二个音变化阶段对应的音变化程度是50％，第三个音变化阶段对应的音变化程度是75％，第四个音变化阶段对应的音变化程度是100％，则第一个音变化阶段对应的音变化程度表征的调用顺序可以是在第二个音变化阶段对应的tts系统之前，第二个音变化阶段对应的音变化程度表征的调用顺序可以是在第三个音变化阶段对应的tts系统之前，第三个音变化阶段对应的音变化程度表征的调用顺序可以是在第四个音变化阶段对应的tts系统之前，第四个音变化阶段对应的音变化程度表征的调用顺序可以是最后一个，也即，本技术实施例中，在基于各个音变化阶段各自对应的音变化程度表征的调用顺序，调用各个音变化阶段各自对应的tts系统时，符合“音变化程度小的tts系统在前被调用，音变化程度大的tts系统在后被调用”即可。
36.需要说明的是，本技术中提及的“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样的用语在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。
37.在介绍了本技术涉及的技术用语后，接下来，对本技术实施例的应用场景和设计思想进行简单介绍。
38.为了解决在用户使用tts系统时直接从原始发音人切换为目标发音人，导致用户感知明显、用户体验较差的问题，本技术实施例中，参阅图1所示，手机、平板电脑、计算机等具有tts功能的音切换设备可以在获取目标发音人数据和原始发音人数据后，基于各个音变化阶段各自对应的音变化程度，对目标发音人数据和原始发音人数据进行混合，得到各个音变化阶段各自对应的发音人数据，并基于各个音变化阶段各自对应的发音人数据，获得各个音变化阶段各自对应的tts系统，以及基于各个音变化阶段各自对应的音变化程度表征的调用顺序，调用各个音变化阶段各自对应的tts系统以进行音切换。这样，通过划分各个音变化阶段并获取各个音变化阶段各自对应的tts系统，可以按照各个音变化阶段各自对应的音变化程度，调用各个音变化阶段各自对应的tts系统，从而可以实现从原始发音人音到目标发音人音的音平滑切换，进而可以降低tts系统切换发音人时的用户感知，提高tts系统的用户体验。
39.在介绍了本技术实施例的应用场景和设计思想之后，下面对本技术实施例提供的技术方案进行详细说明。
40.本技术实施例提供了一种音切换方法，应用于如图1所示的音切换设备，参阅图2所示，本技术实施例提供的音切换方法的概况流程如下：
41.步骤201：获取目标发音人数据和原始发音人数据。
42.在具体实施时，音切换设备可以采集目标发音人的高保真度的目标发音人语音
和目标发音人语音对应的第一文本，并基于采集到的目标发音人的目标发音人语音和目标发音人语音对应的第一文本，得到目标发音人数据。
43.实际应用中，若原始发音人的原始发音人语音和原始发音人语音对应的第二文本存在，则音切换设备可以直接基于原始发音人的原始发音人语音和原始发音人语音对应的第二文本，得到原始发音人数据；若原始发音人的原始发音人语音和原始发音人语音对应的第二文本不存在，则音切换设备可以将目标发音人的第一文本输入原始发音人tts系统，得到第一文本的原始发音人语音后，基于第一文本和第一文本的原始发音人语音，得到原始发音人数据。
44.步骤202：基于各个音变化阶段各自对应的音变化程度，对目标发音人数据和原始发音人数据进行混合，得到各个音变化阶段各自对应的发音人数据；其中，音变化程度表征从原始发音人音到目标发音人音的变化程度。
45.在具体实施时，音切换设备基于各个音变化阶段各自对应的音变化程度，对目标发音人数据和原始发音人数据进行混合时，可以采用但不限于以下方式：
46.首先，音切换设备基于各个音变化阶段各自对应的音变化程度，确定各个音变化阶段各自对应的目标发音人数据量和原始发音人数据量；其中，目标发音人数据量与音变化程度成正比，原始发音人数据量与音变化程度成反比。
47.然后，音切换设备按照各个音变化阶段各自对应的目标发音人数据量和原始发音人数据量，对目标发音人数据和原始发音人数据进行混合，得到各个音变化阶段各自对应的发音人数据。具体的，音切换设备可以采用但不限于以下方式：
48.首先，音切换设备从目标发音人数据中，抽取i*x/n个目标发音人数据作为待混合目标发音人数据；其中，n表征音变化阶段的总数，i表征第i个音变化阶段，x表征第i个音变化阶段对应的发音人数据总数。
49.然后，音切换设备从原始发音人数据中，抽取(n-i)*x/n个原始发音人数据作为待混合原始发音人数据。
50.最后，音切换设备基于待混合目标发音人数据和待混合原始发音人数据，得到第i个音变化阶段对应的发音人数据。
51.步骤203：基于各个音变化阶段各自对应的发音人数据，获得各个音变化阶段各自对应的tts系统。
52.在具体实施时，在一个实施例中，音切换设备可以针对每个音变化阶段，基于该音变化阶段对应的发音人数据，对初始tts系统进行训练，得到该音变化阶段对应的tts系统。具体的，音切换设备可以采用但不限于以下方式：
53.首先，音切换设备将该音变化阶段对应的发音人数据中的各个文本输入初始tts系统，得到各个文本的预测语音。
54.然后，音切换设备基于各个文本的预测语音和标注语音，采用交叉熵损失函数，得到交叉熵损失值。
55.最后，音切换设备基于交叉熵损失值，调整初始tts系统的系统参数，得到该音变化阶段对应的tts系统。
56.在另一个实施例中，音切换设备还可以针对每个音变化阶段，基于该音变化阶段对应的发音人数据，对初始tts系统进行调整，得到该音变化阶段对应的tts系统。
具体的，音切换设备可以采用但不限于以下方式：
57.首先，音切换设备将音变化阶段对应的发音人数据输入初始tts系统，得到初始tts系统的音控制参数的目标值。
58.然后，音切换设备基于初始tts系统的音控制参数的目标值，得到音变化阶段对应的tts系统。
59.值得说的是，在上述两种实施方式中，若训练原始发音人tts系统时使用的tts系统存在，则初始tts系统为训练原始发音人tts系统时使用的tts系统，若训练原始发音人tts系统时使用的tts系统不存在，则初始tts系统为本次训练目标发音人tts系统时使用的tts系统。
60.步骤204：基于各个音变化阶段各自对应的音变化程度表征的调用顺序，调用各个音变化阶段各自对应的tts系统以进行音切换。
61.在具体实施时，在一个实施中，音切换设备可以按照各个音变化阶段各自对应的音变化程度从小到大的顺序，对各个音变化阶段各自对应的tts系统进行排序，得到tts系统序列，在每接收到一个tts系统调用请求时，从tts系统序列中，选取与上一次调用的tts系统相邻的下一个tts系统进行调用。
62.在另一个实施中，音切换设备可以按照各个音变化阶段各自对应的音变化程度从小到大的顺序，对各个音变化阶段各自对应的tts系统进行排序，得到tts系统序列后，在每接收到tts系统调用请求时，确定当前时间与上一次调用tts系统时的时间之间的时间间隔，并基于时间间隔，从tts系统序列包含的以上一次调用的tts系统为起点的各个tts系统中，选取一个tts系统进行调用。
63.具体的，音切换设备确定时间间隔未超过第一阈值时，可以从tts系统序列包含的以上一次调用的tts系统为起点的各个tts系统中，直接选取上一次调用的tts系统进行调用。实际应用中，考虑到短时间内用户对发音人音的记忆比较深刻，音切换设备确定时间间隔未超过第一阈值时，还可以先判断设定时间范围内的tts系统使用频率是否小于频率阈值，例如，先判断当日的tts系统使用频率是否小于1，若是，则确定为当日的首次使用，此种情况下，可以从tts系统序列包含的以上一次调用的tts系统为起点的各个tts系统中，选取上一次调用的tts系统的下一个tts系统进行调用，若否，则确定为当日的非首次使用，此种情况下，可以从tts系统序列包含的以上一次调用的tts系统为起点的各个tts系统中，选取上一次调用的tts系统进行调用。
64.音切换设备确定时间间隔超过第一阈值时，可以从tts系统序列包含的以上一次调用的tts系统为起点的各个tts系统中，直接选取上一次调用的tts系统的下一个tts系统进行调用。实际应用中，考虑到长时间内用户对发音人音的记忆比较模糊，音切换设备确定时间间隔超过第一阈值时，还可以先判断该时间间隔是否超过第二阈值(第二阈值大于第一阈值)，若否，则可以从tts系统序列包含的以上一次调用的tts系统为起点的各个tts系统中，选取上一次调用的tts系统的下一个tts系统进行调用，若是，则可以基于设定选取规则，从tts系统序列包含的在上一次调用的tts系统之后的各个tts系统中，选取一个tts系统进行调用，其中，设定选取规则可以根据实际情况进行灵活设定，例如，设定选取规则可以是tts系统序列包含的在上一次调用的tts系统之后的第二个tts系统，还可以是tts系统序列包含的最后一个tts系统等。
65.下面采用具体应用场景，对本技术实施例提供的音切换方法作进一步详细说明，参阅图3所示，本技术实施例提供的音切换方法的具体流程如下：
66.步骤301：音切换设备采集目标发音人的目标发音人语音和目标发音人语音对应的第一文本，并基于目标发音人语音和目标发音人语音对应的第一文本，得到目标发音人数据。
67.步骤302：音切换设备将目标发音人的第一文本输入原始发音人tts系统，得到第一文本的原始发音人语音后，基于第一文本和第一文本的原始发音人语音，得到原始发音人数据。
68.步骤303：音切换设备基于各个音变化阶段各自对应的音变化程度，确定各个音变化阶段各自对应的目标发音人数据量和原始发音人数据量；其中，目标发音人数据量与音变化程度成正比，原始发音人数据量与音变化程度成反比。
69.步骤304：音切换设备按照各个音变化阶段各自对应的目标发音人数据量和原始发音人数据量，对目标发音人数据和原始发音人数据进行混合，得到各个音变化阶段各自对应的发音人数据。
70.步骤305：音切换设备针对每个音变化阶段，将该音变化阶段对应的发音人数据中的各个文本输入初始tts系统，得到各个文本的预测语音，并基于各个文本的预测语音和标注语音，采用交叉熵损失函数，得到交叉熵损失值，以及基于交叉熵损失值，调整初始tts系统的系统参数，得到该音变化阶段对应的tts系统。
71.步骤306：音切换设备按照各个音变化阶段各自对应的音变化程度从小到大的顺序，对各个音变化阶段各自对应的tts系统进行排序，得到tts系统序列。
72.步骤307：音切换设备每接收到tts系统调用请求时，判断当前时间与上一次调用tts系统时的时间之间的时间间隔是否超过第一阈值，若否，则执行步骤308；若是，则执行步骤309。
73.步骤308：音切换设备判断是否为当日首次使用，若是，则执行步骤310；若否，则执行步骤311。
74.步骤309：音切换设备判断当前时间与上一次调用tts系统时的时间之间的时间间隔是否超过第二阈值，若否，则执行步骤310，若是，则执行步骤312。
75.步骤310：音切换设备从tts系统序列中，选取上一次调用的tts系统的下一个tts系统进行调用。
76.步骤311：音切换设备从tts系统序列中，选取上一次调用的tts系统进行调用。
77.步骤312：音切换设备从tts系统序列包含的在上一次调用的tts系统之后的各个tts系统中，选取一个tts系统进行调用。
78.基于上述实施例，本技术实施例提供了一种音切换装置，应用于如图1所示的音切换设备，参阅图4所示，本技术实施例提供的音切换装置400至少包括：
79.数据获取单元401，用于获取目标发音人数据和原始发音人数据；
80.数据混合单元402，用于基于各个音变化阶段各自对应的音变化程度，对目标发音人数据和原始发音人数据进行混合，得到各个音变化阶段各自对应的发音人数据；其中，音变化程度表征从原始发音人音到目标发音人音的变化程度；
81.系统获取单元403，用于基于各个音变化阶段各自对应的发音人数据，获得各个
音变化阶段各自对应的tts系统；
82.系统调用单元404，用于基于各个音变化阶段各自对应的音变化程度表征的调用顺序，调用各个音变化阶段各自对应的tts系统以进行音切换。
83.在一种可能的实施方式中，获取目标发音人数据和原始发音人数据时，数据获取单元401具体用于：
84.基于目标发音人的第一文本和第一文本的目标发音人语音，得到目标发音人数据；
85.基于原始发音人的第二文本和第二文本的原始发音人语音，得到原始发音人数据。
86.在一种可能的实施方式中，获取目标发音人数据和原始发音人数据时，数据获取单元401具体用于：
87.基于目标发音人的第一文本和第一文本的目标发音人语音，得到目标发音人数据；
88.将第一文本输入原始发音人tts系统，得到第一文本的原始发音人语音，基于第一文本和第一文本的原始发音人语音，得到原始发音人数据。
89.在一种可能的实施方式中，基于各个音变化阶段各自对应的音变化程度，对目标发音人数据和原始发音人数据进行混合，得到各个音变化阶段各自对应的发音人数据时，数据混合单元402具体用于：
90.基于各个音变化阶段各自对应的音变化程度，确定各个音变化阶段各自对应的目标发音人数据量和原始发音人数据量；其中，目标发音人数据量与音变化程度成正比，原始发音人数据量与音变化程度成反比；
91.按照各个音变化阶段各自对应的目标发音人数据量和原始发音人数据量，对目标发音人数据和原始发音人数据进行混合，得到各个音变化阶段各自对应的发音人数据。
92.在一种可能的实施方式中，按照各个音变化阶段各自对应的目标发音人数据量和原始发音人数据量，对目标发音人数据和原始发音人数据进行混合，得到各个音变化阶段各自对应的发音人数据时，数据混合单元402具体用于：
93.从目标发音人数据中，抽取i*x/n个目标发音人数据作为待混合目标发音人数据；其中，n表征音变化阶段的总数，i表征第i个音变化阶段，x表征第i个音变化阶段对应的发音人数据总数；
94.从原始发音人数据中，抽取(n-i)*x/n个原始发音人数据作为待混合原始发音人数据；
95.基于待混合目标发音人数据和待混合原始发音人数据，得到第i个音变化阶段对应的发音人数据。
96.在一种可能的实施方式中，基于各个音变化阶段各自对应的发音人数据，获得各个音变化阶段各自对应的tts系统时，系统获取单元403具体用于：
97.针对每个音变化阶段，基于音变化阶段对应的发音人数据，对初始tts系统进行训练，得到音变化阶段对应的tts系统。
98.在一种可能的实施方式中，基于音变化阶段对应的发音人数据，对初始tts系统
进行训练，得到音变化阶段对应的tts系统时，系统获取单元403具体用于：
99.将音变化阶段对应的发音人数据中的各个文本输入初始tts系统，得到各个文本的预测语音；
100.基于各个文本的预测语音和标注语音，采用交叉熵损失函数，得到交叉熵损失值；
101.基于交叉熵损失值，调整初始tts系统的系统参数，得到音变化阶段对应的tts系统。
102.在一种可能的实施方式中，基于各个音变化阶段各自对应的发音人数据，获得各个音变化阶段各自对应的tts系统时，系统获取单元403具体用于：
103.针对每个音变化阶段，基于音变化阶段对应的发音人数据，对初始tts系统进行调整，得到音变化阶段对应的tts系统。
104.在一种可能的实施方式中，基于音变化阶段对应的发音人数据，对初始tts系统进行调整，得到音变化阶段对应的tts系统时，系统获取单元403具体用于：
105.将音变化阶段对应的发音人数据输入初始tts系统，得到初始tts系统的音控制参数的目标值；
106.基于初始tts系统的音控制参数的目标值，得到音变化阶段对应的tts系统。
107.在一种可能的实施方式中，基于各个音变化阶段各自对应的音变化程度表征的调用顺序，调用各个音变化阶段各自对应的tts系统时，系统调用单元404具体用于：
108.按照各个音变化阶段各自对应的音变化程度从小到大的顺序，对各个音变化阶段各自对应的tts系统进行排序，得到tts系统序列；
109.每接收到tts系统调用请求时，从tts系统序列中，选取与上一次调用的tts系统相邻的下一个tts系统进行调用。
110.在一种可能的实施方式中，基于各个音变化阶段各自对应的音变化程度表征的调用顺序，调用各个音变化阶段各自对应的tts系统时，系统调用单元404具体用于：
111.按照各个音变化阶段各自对应的音变化程度从小到大的顺序，对各个音变化阶段各自对应的tts系统进行排序，得到tts系统序列；
112.每接收到tts系统调用请求时，确定当前时间与上一次调用tts系统时的时间之间的时间间隔，并基于时间间隔，从tts系统序列包含的以上一次调用的tts系统为起点的各个tts系统中，选取一个tts系统进行调用。
113.在一种可能的实施方式中，基于时间间隔，从tts系统序列包含的以上一次调用的tts系统为起点的各个tts系统中，选取一个tts系统进行调用时，系统调用单元404具体用于：
114.若确定时间间隔未超过第一阈值，则确定设定时间范围内的tts系统使用频率小于频率阈值时，从tts系统序列包含的以上一次调用的tts系统为起点的各个tts系统中，选取上一次调用的tts系统进行调用，确定设定时间范围内的tts系统使用频率不小于频率阈值时，从tts系统序列包含的以上一次调用的tts系统为起点的各个tts系统中，选取上一次调用的tts系统的下一个tts系统进行调用。
115.若确定时间间隔超过第一阈值，则确定时间间隔未超过第二阈值时，从tts系统序列包含的以上一次调用的tts系统为起点的各个tts系统中，选取上一次调用的tts系统的下一个tts系统进行调用；确定时间间隔超过第二阈值时，基于设定选取规则，从tts系统序
列包含的在上一次调用的tts系统之后的各个tts系统中，选取一个tts系统进行调用。
116.需要说明的是，本技术实施例提供的音切换装置400解决技术问题的原理与本技术实施例提供的音切换方法相似，因此，本技术实施例提供的音切换装置400的实施可以参见本技术实施例提供的音切换方法的实施，重复之处不再赘述。
117.在介绍了本技术实施例提供的音切换方法和装置之后，接下来，对本技术实施例提供的音切换设备进行简单介绍。
118.参阅图5所示，本技术实施例提供的音切换设备500至少包括：处理器501、存储器502和存储在存储器502上并可在处理器501上运行的计算机程序，处理器501执行计算机程序时实现本技术实施例提供的音切换方法。
119.本技术实施例提供的音切换设备500还可以包括连接不同组件(包括处理器501和存储器502)的总线503。其中，总线503表示几类总线结构中的一种或多种，包括存储器总线、外围总线、局域总线等。
120.存储器502可以包括易失性存储器形式的可读介质，例如随机存储器(random access memory，ram)5021和/或高速缓存存储器5022，还可以进一步包括只读存储器(read only memory，rom)5023。
121.存储器502还可以包括具有一组(至少一个)程序模块5024的程序工具5025，程序模块5024包括但不限于：操作子系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。
122.音切换设备500也可以与一个或多个外部设备504(例如键盘、遥控器等)通信，还可以与一个或者多个使得用户能与音切换设备500交互的设备通信(例如手机、电脑等)，和/或，与使得音切换设备500与一个或多个其它音切换设备500进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(input/output，i/o)接口505进行。并且，音切换设备500还可以通过网络适配器506与一个或者多个网络(例如局域网(local area network，lan)，广域网(wide area network，wan)和/或公共网络，例如因特网)通信。如图5所示，网络适配器506通过总线503与音切换设备500的其它模块通信。应当理解，尽管图5中未示出，可以结合音切换设备500使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(redundant arrays of independent disks，raid)子系统、磁带驱动器以及数据备份存储子系统等。
123.需要说明的是，图5所示的音切换设备500仅仅是一个示例，不应对本技术实施例的功能和使用范围带来任何限制。
124.下面对本技术实施例提供的计算机可读存储介质进行介绍。本技术实施例提供的计算机可读存储介质存储有计算机指令，计算机指令被处理器执行时实现本技术实施例提供的音切换方法。具体地，该计算机指令可以内置或者安装在音切换设备500中，这样，音切换设备500就可以通过执行内置或者安装的计算机指令实现本技术实施例提供的音切换方法。
125.此外，本技术实施例提供的音切换方法还可以实现为一种程序产品，该程序产品包括程序代码，当该程序产品可以在音切换设备500上运行时，该程序代码用于使音切换设备500执行本技术实施例提供的音切换方法。
126.本技术实施例提供的程序产品可以采用一个或多个可读介质的任意组合，其中，可读介质可以是可读信号介质或者可读存储介质，而可读存储介质可以是但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合，具体地，可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、ram、rom、可擦式可编程只读存储器(erasable programmable read only memory，eprom)、光纤、便携式紧凑盘只读存储器(compact disc read-only memory，cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
127.本技术实施例提供的程序产品可以采用cd-rom并包括程序代码，还可以在计算设备上运行。然而，本技术实施例提供的程序产品不限于此，在本技术实施例中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
128.应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本技术的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
129.此外，尽管在附图中以特定顺序描述了本技术方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。
130.尽管已描述了本技术的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。
131.显然，本领域的技术人员可以对本技术实施例进行各种改动和变型而不脱离本技术实施例的精神和范围。这样，倘若本技术实施例的这些修改和变型属于本技术权利要求及其等同技术的范围之内，则本技术也意图包含这些改动和变型在内。

技术特征：

1.一种音切换方法，其特征在于，包括：获取目标发音人数据和原始发音人数据；基于各个音变化阶段各自对应的音变化程度，对所述目标发音人数据和所述原始发音人数据进行混合，得到所述各个音变化阶段各自对应的发音人数据；其中，所述音变化程度表征从原始发音人音到目标发音人音的变化程度；基于所述各个音变化阶段各自对应的发音人数据，获得所述各个音变化阶段各自对应的tts系统；基于所述各个音变化阶段各自对应的音变化程度表征的调用顺序，调用所述各个音变化阶段各自对应的tts系统以进行音切换。2.如权利要求1所述的音切换方法，其特征在于，获取目标发音人数据和原始发音人数据，包括：基于目标发音人的第一文本和所述第一文本的目标发音人语音，得到所述目标发音人数据；基于原始发音人的第二文本和所述第二文本的原始发音人语音，得到所述原始发音人数据。3.如权利要求1所述的音切换方法，其特征在于，获取目标发音人数据和原始发音人数据，包括：基于目标发音人的第一文本和所述第一文本的目标发音人语音，得到所述目标发音人数据；将所述第一文本输入原始发音人tts系统，得到所述第一文本的原始发音人语音，基于所述第一文本和所述第一文本的原始发音人语音，得到所述原始发音人数据。4.如权利要求1所述的音切换方法，其特征在于，基于各个音变化阶段各自对应的音变化程度，对所述目标发音人数据和所述原始发音人数据进行混合，得到所述各个音变化阶段各自对应的发音人数据，包括：基于所述各个音变化阶段各自对应的音变化程度，确定所述各个音变化阶段各自对应的目标发音人数据量和原始发音人数据量；其中，所述目标发音人数据量与所述音变化程度成正比，所述原始发音人数据量与所述音变化程度成反比；按照所述各个音变化阶段各自对应的目标发音人数据量和原始发音人数据量，对所述目标发音人数据和所述原始发音人数据进行混合，得到所述各个音变化阶段各自对应的发音人数据。5.如权利要求4所述的音切换方法，其特征在于，按照所述各个音变化阶段各自对应的目标发音人数据量和原始发音人数据量，对所述目标发音人数据和所述原始发音人数据进行混合，得到所述各个音变化阶段各自对应的发音人数据，包括：从所述目标发音人数据中，抽取i*x/n个目标发音人数据作为待混合目标发音人数据；其中，n表征音变化阶段的总数，i表征第i个音变化阶段，x表征第i个音变化阶段对应的发音人数据总数；从所述原始发音人数据中，抽取(n-i)*x/n个原始发音人数据作为待混合原始发音人数据；基于所述待混合目标发音人数据和所述待混合原始发音人数据，得到第i个音变化
阶段对应的发音人数据。6.如权利要求1-5任一项所述的音切换方法，其特征在于，基于所述各个音变化阶段各自对应的发音人数据，获得所述各个音变化阶段各自对应的tts系统，包括：针对每个音变化阶段，基于所述音变化阶段对应的发音人数据，对初始tts系统进行训练，得到所述音变化阶段对应的tts系统。7.如权利要求6所述的音切换方法，其特征在于，基于所述音变化阶段对应的发音人数据，对初始tts系统进行训练，得到所述音变化阶段对应的tts系统，包括：将所述音变化阶段对应的发音人数据中的各个文本输入所述初始tts系统，得到所述各个文本的预测语音；基于所述各个文本的预测语音和标注语音，采用交叉熵损失函数，得到交叉熵损失值；基于所述交叉熵损失值，调整所述初始tts系统的系统参数，得到所述音变化阶段对应的tts系统。8.如权利要求1-5任一项所述的音切换方法，其特征在于，基于所述各个音变化阶段各自对应的发音人数据，获得所述各个音变化阶段各自对应的tts系统，包括：针对每个音变化阶段，基于所述音变化阶段对应的发音人数据，对初始tts系统进行调整，得到所述音变化阶段对应的tts系统。9.如权利要求8所述的音切换方法，其特征在于，基于所述音变化阶段对应的发音人数据，对初始tts系统进行调整，得到所述音变化阶段对应的tts系统，包括：将所述音变化阶段对应的发音人数据输入所述初始tts系统，得到所述初始tts系统的音控制参数的目标值；基于所述初始tts系统的音控制参数的目标值，得到所述音变化阶段对应的tts系统。10.如权利要求1-5任一项所述的音切换方法，其特征在于，基于所述各个音变化阶段各自对应的音变化程度表征的调用顺序，调用所述各个音变化阶段各自对应的tts系统，包括：按照所述各个音变化阶段各自对应的音变化程度从小到大的顺序，对所述各个音变化阶段各自对应的tts系统进行排序，得到tts系统序列；每接收到tts系统调用请求时，从所述tts系统序列中，选取与上一次调用的tts系统相邻的下一个tts系统进行调用。11.如权利要求1-3任一项所述的音切换方法，其特征在于，基于所述各个音变化阶段各自对应的音变化程度表征的调用顺序，调用所述各个音变化阶段各自对应的tts系统，包括：按照所述各个音变化阶段各自对应的音变化程度从小到大的顺序，对所述各个音变化阶段各自对应的tts系统进行排序，得到tts系统序列；每接收到tts系统调用请求时，确定当前时间与上一次调用tts系统时的时间之间的时间间隔，并基于所述时间间隔，从所述tts系统序列包含的以上一次调用的tts系统为起点的各个tts系统中，选取一个tts系统进行调用。12.如权利要求11所述的音切换方法，其特征在于，基于所述时间间隔，从所述tts系统序列包含的以上一次调用的tts系统为起点的各个tts系统中，选取一个tts系统进行调
用，包括：若确定所述时间间隔未超过第一阈值，则确定设定时间范围内的tts系统使用频率小于频率阈值时，从所述tts系统序列包含的以上一次调用的tts系统为起点的各个tts系统中，选取所述上一次调用的tts系统进行调用，确定所述设定时间范围内的tts系统使用频率不小于频率阈值时，从所述tts系统序列包含的以上一次调用的tts系统为起点的各个tts系统中，选取所述上一次调用的tts系统的下一个tts系统进行调用；若确定所述时间间隔超过所述第一阈值，则确定所述时间间隔未超过第二阈值时，从所述tts系统序列包含的以上一次调用的tts系统为起点的各个tts系统中，选取所述上一次调用的tts系统的下一个tts系统进行调用；确定所述时间间隔超过所述第二阈值时，基于设定选取规则，从所述tts系统序列包含的在上一次调用的tts系统之后的各个tts系统中，选取一个tts系统进行调用。13.一种音切换装置，其特征在于，包括：数据获取单元，用于获取目标发音人数据和原始发音人数据；数据混合单元，用于基于各个音变化阶段各自对应的音变化程度，对所述目标发音人数据和所述原始发音人数据进行混合，得到所述各个音变化阶段各自对应的发音人数据；其中，所述音变化程度表征从原始发音人音到目标发音人音的变化程度；系统获取单元，用于基于所述各个音变化阶段各自对应的发音人数据，获得所述各个音变化阶段各自对应的tts系统；系统调用单元，用于基于所述各个音变化阶段各自对应的音变化程度表征的调用顺序，调用所述各个音变化阶段各自对应的tts系统以进行音切换。14.一种音切换设备，其特征在于，包括：存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-12任一项所述的音切换方法。15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令被处理器执行时实现如权利要求1-12任一项所述的音切换方法。

技术总结

本申请公开了一种音切换方法、装置、设备及介质，应用于语音合成技术领域，用以解决现有技术在切换TTS系统的发音人时存在的用户感知明显、用户体验较差的问题。具体为：获取目标发音人数据和原始发音人数据；基于各个音变化阶段的音变化程度，对目标发音人数据和原始发音人数据进行混合，得到各个音变化阶段的发音人数据；基于各个音变化阶段的发音人数据，获得各个音变化阶段的TTS系统；基于各个音变化阶段的音变化程度表征的调用顺序，调用各个音变化阶段的TTS系统，从而可以实现从原始发音人音到的目标发音人音的平滑切换，进而可以降低TTS系统切换发音人时的用户感知，提高TTS系统的用户体验。提高TTS系统的用户体验。提高TTS系统的用户体验。