语音合成模型训练方法、装置、电子设备和计算机可读存储介质与流程

1.本发明涉及数据处理技术领域，具体而言，涉及一种语音合成模型训练方法、装置、电子设备和计算机可读存储介质。

背景技术：

2.目前，家居场景中的电子设备如智能设备可以感知声学环境状态的变化，对用户的问题进行内容合理的回答。例如，智能设备在监测到用户发出指示信息“开启微波炉”的情况下，控制微波炉开启并语音播报“微波炉已开启”，完成对指示信息的响应。但是，经研究发现，智能设备语音播报的内容很多时候无法被用户准确接收，如在嘈杂环境下所播报的语音被环境声淹没，使得用户无法准确接收到所播报的语音，影响了智能家居场景中的人机交互顺畅度，无法满足实际应用需求。

技术实现要素：

3.法国耳鼻喉科医生爱蒂安
·
伦巴德于1909年经研究发现，在有噪声环境下进行交流的时候，说话人不得不主动改变发声方式，提高声音的效果，希望使对方能听清。经研究发现，即使同一个人发相同的语音，在不同环境下的语音特征也有所不同，改变的特征包括提高声音的音高、音调、响度及共振峰特征等。这种现象称为lombard effect(伦巴德效应)。有鉴于此，发明人得出，用户准确接收到合理内容如上述“微波炉已开启”的语音播报的前提是：智能设备能够在不同的声学环境下，改变发声方式，主动提高合成语音的清晰度与自然度。因此发明人就此进行了研究，进而提出一种能够使得智能设备在家居场景类型为嘈杂类型时也能“模仿”人类在lombard effect下主动改变发声方式的这种变化，合成具有对应场景声学风格的语音数据进行播报的语音合成模型训练方法，以确保在嘈杂家居环境下与用户语音交互的顺畅度。我们在此对于合成具备更好辨识度、自然度和可懂度的语音称为lombard speech(伦巴德语音)。
4.本发明的目的之一包括，例如，提供了一种语音合成模型训练方法、装置、电子设备和计算机可读存储介质，以至少部分地提高合成语音的清晰度。
5.本发明的实施例可以这样实现：
6.第一方面，本发明实施例提供一种语音合成模型训练方法，包括：
7.获得待输出文本信息和家居场景对应的训练风格嵌入信息；其中，所述训练风格嵌入信息表征与所述家居场景对应的场景声学风格；
8.根据所述待输出文本信息和训练风格嵌入信息得到与所述家居场景对应的待合成声音预测特征；
9.对所述待合成声音预测特征进行合成，获得待输出语音数据。
10.基于待输出文本信息和训练风格嵌入信息两个维度，实现对家居场景对应的声学特征的可靠预测，输出具有lombard speech声学风格的待合成声音预测特征，进而对待合
成声音预测特征进行合成，可以提升合成的语音与家居场景的匹配度，确保智能设备播报语音的清晰度，从而确保所播报的语音能够被用户准确接收到。
11.第二方面，本发明实施例提供一种语音合成模型训练装置，包括：
12.信息获得模块，用于获得待输出文本信息和家居场景对应的训练风格嵌入信息，根据所述待输出文本信息和训练风格嵌入信息得到与所述家居场景对应的待合成声音预测特征；其中，所述训练风格嵌入信息表征与所述家居场景对应的场景声学风格；
13.待输出语音数据合成模块，用于对所述待合成声音预测特征进行合成，获得待输出语音数据。
14.基于待输出文本信息和训练风格嵌入信息两个维度，实现对家居场景对应的声学特征的可靠预测，输出具有lombard speech声学风格的待合成声音预测特征，进而对待合成声音预测特征进行合成，可以提升合成的语音与家居场景的匹配度，确保智能设备播报语音的清晰度，从而确保所播报的语音能够被用户准确接收到。
15.第三方面，本发明实施例提供一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现前述实施方式任一项所述的语音合成模型训练方法。相应地，该电子设备包括语音合成模型训练方法中的有益效果。
16.第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质包括计算机程序，所述计算机程序运行时控制所述计算机可读存储介质所在电子设备执行前述实施方式任一项所述的语音合成模型训练方法。相应地，该计算机可读存储介质包括语音合成模型训练方法中的有益效果。
17.为使本发明实施例的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。
附图说明
18.为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
19.图1示出了本发明实施例提供的一种应用场景示意图。
20.图2示出了本发明实施例提供的一种语音合成模型训练方法的流程示意图。
21.图3示出了本发明实施例提供的一种语音合成模型的训练架构示意图。
22.图4示出了本发明实施例提供的一种场景声学风格提取器训练方法的流程示意图。
23.图5示出了本发明实施例提供的一种场景声学风格提取器的训练架构示意图。
24.图6示出了本发明实施例提供的一种场景声学风格提取器训练方法的另一流程示意图。
25.图7示出了本发明实施例提供的一种场景声学风格提取器的另一训练架构示意图。
26.图8示出了本发明实施例提供的一种场景声学风格提取器训练方法的另一流程示
意图。
27.图9示出了本发明实施例提供的一种场景声学风格提取器的又一训练架构示意图。
28.图10示出了本发明实施例提供的一种场景声学风格提取器训练方法的又一流程示意图。
29.图11示出了本发明实施例提供的一种参考编码器的示意图之一。
30.图12示出了本发明实施例提供的一种参考编码器的示意图之二。
31.图13示出了本发明实施例提供的一种参考编码器的示意图之三。
32.图14示出了本发明实施例提供的一种场景声学风格提取器的又一训练架构示意图。
33.图15示出了本发明实施例提供的一种第一场景分类模型训练方法的流程示意图。
34.图16示出了本发明实施例提供的一种第一场景分类模型训练方法的另一流程示意图。
35.图17示出了本发明实施例提供的一种声学特征预测模型训练方法的流程示意图。
36.图18示出了本发明实施例提供的一种声学特征预测模型的训练架构示意图。
37.图19示出了本发明实施例提供的一种语音合成方法的流程示意图。
38.图20示出了本发明实施例提供的一种语音合成方法的实现原理示意图。
39.图21示出了本发明实施例提供的一种语音合成方法的另一实现原理示意图。
40.图22示出了本发明实施例提供的一种场景声学风格提取器的实现原理示意图。
41.图23示出了本发明实施例提供的一种场景声学风格提取器的另一实现原理示意图。
42.图24示出了本发明实施例提供的一种声学特征预测模型的实现原理示意图。
43.图25示出了本发明实施例提供的一种语音合成方法的实现原理示意图。
44.图26示出了本发明实施例提供的另一种合成输出响应语音数据的实现原理示意图。
45.图27示出了本发明实施例提供的一种第一语音合成装置的示例性结构框图。
46.图28示出了本发明实施例提供的一种第二语音合成装置的示例性结构框图。
47.图29示出了本发明实施例提供的一种场景分类模型训练装置的示例性结构框图。
48.图30示出了本发明实施例提供的一种场景声学风格提取器训练装置的示例性结构框图。
49.图31示出了本发明实施例提供的一种声学特征预测模型训练装置的示例性结构框图。
50.图32示出了本发明实施例提供的一种语音合成模型训练装置的示例性结构框图。
51.图标：图标：100-电子设备；110-存储器；120-处理器；130-通信模块；140-第一语音合成装置；141-信息确定模块；142-响应语音数据合成模块；150-第二语音合成装置；151-预测声学特征获得模块；152-信息合成模块；160-场景分类模型训练装置；161-环境声学特征获得模块；162-场景分类网络训练模块；170-场景声学风格提取器训练装置；171-嘈杂环境声学特征获得模块；172-场景声学风格提取器训练模块；180-声学特征预测模型训练装置；181-数据获得模块；182-声学特征预测模型训练模块；190-语音合成模型训练装
置；191-信息获得模块；192-待输出语音数据合成模块。
具体实施方式
52.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
53.因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
54.需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。
55.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，若无特殊说明，则在随后的附图中不再对其进行重复定义和解释。
56.需要说明的是，在不冲突的情况下，本发明的实施例中的特征可以相互结合。
57.请参照图1，是本实施例提供的一种电子设备100的方框示意图，本实施例中的电子设备100可以为能够进行信息交互和处理的多种处理设备。例如，电子设备100可以为能够与用户进行语音交互的智能设备。又例如，电子设备可以为能够进行模型训练及语音合成的服务器、处理平台等。
58.电子设备100可以包括存储器110、处理器120及通信模块130。所述存储器110、处理器120及通信模块130各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
59.其中，存储器110用于存储程序或者数据。所述存储器110可以是，但不限于，随机存取存储器(random access memory，ram)，只读存储器(read only memory，rom)，可编程只读存储器(programmable read-only memory，prom)，可擦除只读存储器(erasable programmable read-only memory，eprom)，电可擦除只读存储器(electric erasable programmable read-only memory，eeprom)等。
60.处理器120用于读/写存储器110中存储的数据或程序，并执行相应地功能。
61.通信模块130用于通过所述网络建立所述电子设备100与其它通信终端之间的通信连接，并用于通过所述网络收发数据。
62.应当理解的是，图1所示的结构仅为电子设备100的结构示意图，所述电子设备100还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。例如，在电子设备100为能够与用户进行语音交互的智能设备的情况下，电子设备100还可以包括语音模块，电子设备100能够通过语音模块进行语音收集和输出。
63.在日常生活中，各种各样的噪声充斥在家居场景中，人们往往需要在嘈杂环境下进行交流。经研究发现，在嘈杂环境下交流时，说话者会主动改变其声音的音高或弯曲度以
克服周围的噪音，提高语音清晰度，这就是lombard effect。随着智能家居的兴起，如何提高人机交互顺畅度，达到更好地为人类服务的目的，成为本领域所关注的问题。
64.有鉴于此，发明人对如何提高电子设备如智能设备在嘈杂声学环境所播报语音的清晰度进行了研究，进而提出一种语音合成模型训练方法，通过“模仿”人类在lombard effect下主动改变发声方式的交流模式进行语音合成模型训练。针对不同家居场景，训练能够合成具有对应场景声学特征的语音数据的语音合成模型，进而通过训练好的语音合成模型能够合成具备较好自然度和清晰度的lombard speech，确保在嘈杂家居环境下与用户语音交互的顺畅度。
65.请参阅图2，为本发明示例性的一个实施例所提供的一种语音合成模型训练方法的流程示意图，可以由图1所示电子设备100执行，例如可以由电子设备100中的处理器120执行。该语音合成模型训练方法包括s110、s120和s130。
66.s110，获得待输出文本信息和家居场景对应的训练风格嵌入信息。
67.s120，根据待输出文本信息和训练风格嵌入信息得到与家居场景对应的待合成声音预测特征；
68.s130，对待合成声音预测特征进行合成，获得待输出语音数据。
69.s110至s130可以有多种实现方式，例如，请参阅图3，可以将家居场景在嘈杂声学环境下的声学特征输入场景声学风格提取器，获得家居场景对应的训练风格嵌入信息。其中，训练风格嵌入信息表征与家居场景对应的场景声学风格。将训练风格嵌入信息与待输出文本信息作为声学特征预测网络的输入，获得与家居场景对应的待合成声音预测特征。对待合成声音预测特征进行合成，获得待输出语音数据。
70.请参阅图4，训练风格嵌入信息可以通过s210和s220得到。
71.s210，获得家居场景在嘈杂声学环境下的声学特征。
72.s210，将嘈杂声学环境下的声学特征输入场景声学风格提取器，获得家居场景对应的训练风格嵌入信息。其中，训练风格嵌入信息表征与家居场景对应的场景声学风格。
73.本实施例中的场景声学风格可以包括一种或多种属性，例如，可以包括音调、声音强度、语速、情感等属性中的任意一项或者任意两项以上的组合。
74.其中，可以灵活划分家居场景，并收集家居场景在嘈杂声学环境下的声学特征。例如，可以选择经常出现嘈杂声音的厨房、客厅、洗手间分别作为家居场景并进行嘈杂声学环境下的声学特征收集。又例如，还可以选择家庭锻炼健身房、多媒体影音室、书房等分别作为家居场景并进行嘈杂声学环境下的声学特征收集。
75.可以理解的是，家居场景划分越细，则可以根据各细分家居场景分别准备更多的语音，支持选取更多的声学特征做分类，使用嘈杂声学环境下的声学特征对场景声学风格提取器进行训练，得到的训练风格嵌入信息越精细，所表征的每种家居场景对应的场景声学风格越细腻。相应地，使用训练好的场景声学风格提取器所确定的家居场景对应的场景风格嵌入信息越细腻，电子设备使用场景风格嵌入信息合成的响应语音数据越清晰、自然。
76.家居场景在嘈杂声学环境下的声学特征基于嘈杂家居场景下的lombard speech得到。例如，可以收集嘈杂家居场景下的lombard speech并进行声学特征提取，如使用声学特征提取模块进行声学特征提取，得到家居场景在嘈杂声学环境下的声学特征。
77.嘈杂家居场景下的lombard speech可以通过多种方式得到。示例性地，可以在各
种家居场景的环境声的干扰下，录制用户的讲话语音，作为场景声学风格提取器的训练数据。例如，可以使志愿者们头戴可移动式耳机，耳机播放不同家居场景的环境声，环境噪声诱使志愿者改变声音，便可以捕捉到不同家居场景下的lombard speech，作为场景声学风格提取器的训练数据。
78.为了提升训练效果，获得的嘈杂家居场景下的声学特征可以尽可能丰富。例如，可以通过增加志愿者的数量、每个志愿者在每种嘈杂家居场景下的讲话量等，增加在每种嘈杂家居场景下捕捉到的lombard speech，进而提高获得的嘈杂家居场景下的声学特征的丰富性。
79.通过尽可能丰富、全面地获得家居场景对应的lombard speech，进行声学特征提取，得到家居场景在嘈杂声学环境下的声学特征，输入场景声学风格提取器进行训练，能够有效提升场景声学风格提取器提取到的训练风格嵌入信息的准确性，相应地，使用训练好的场景声学风格提取器所确定的家居场景对应的场景风格嵌入信息越准确、可靠。
80.本实施例中，嘈杂声学环境下的声学特征可以为多种。例如，声学特征可以为包络(spectral envelope)、声音的基本频率(fundamental frequency，f0)、声学能量、声谱图如：线性声谱图(linear spectrogram)、梅尔频率倒谱系数(mel frequency cepstrum coefficient，mfcc)、梅尔频谱图(mel spectrogram)等。
81.在一种实现方式中，训练风格嵌入信息可以仅基于lombard speech进行。例如，可以针对每种家居场景，收集嘈杂家居场景下的lombard speech并进行声学特征提取，得到家居场景在嘈杂声学环境下的声学特征，将嘈杂声学环境下的声学特征输入场景声学风格提取器，提取对应的场景声学风格特征的嵌入表征(训练风格嵌入信息)。
82.场景声学风格提取器可以有多种实现方式。示例性地，请参阅图5和图6，场景声学风格提取器可以包括：参考编码器、第一注意力模块和全连接层。其中，s220，将嘈杂声学环境下的声学特征输入场景声学风格提取器，获得家居场景对应的训练风格嵌入信息的步骤可以通过s221、s222和s223实现。
83.s221，将家居场景在嘈杂声学环境下的声学特征输入参考编码器，获得参考嵌入信息。
84.s222，将参考嵌入信息输入第一注意力模块，获得注意力权重。
85.s223，将注意力权重输入全连接层，获得训练风格嵌入信息。
86.基于该种方式，通过将家居场景在嘈杂声学环境下尽可能丰富、全面的声学特征输入场景声学风格提取器，便可得到训练风格嵌入信息，实现对场景声学风格提取器的训练。
87.在另一种实现方式中，训练风格嵌入信息可以基于lombard speech，以及第一场景分类模型输出的场景类型信息得到。
88.示例性地，在将家居场景在嘈杂声学环境下的声学特征输入场景声学风格提取器的情况下，还可以获得家居场景的环境声学特征，将家居场景的环境声学特征输入第一场景分类模型，获得家居场景对应的场景类型信息，将场景类型信息输入场景声学风格提取器进行融合，即引入场景类型信息进行场景声学风格提取器的学习。
89.为了提高融合便捷性和效率，可以将场景类型信息以权重的形式输入场景声学风格提取器进行融合。
90.例如，在第一场景分类模型为vgg16网络的情况下，场景类型信息为作为vgg16网络输出的softmax概率值对应的第一场景类型权重。将家居场景的环境声学特征输入第一场景分类模型，获得家居场景对应的场景类型信息的步骤，可以包括：将家居场景的环境声学特征输入vgg16网络，获得softmax概率值；确定与softmax概率值对应的第一场景类型权重；将第一场景类型权重作为场景类型信息。
91.其中，可以预先设置softmax概率值与第一场景类型权重的对应关系，相应地，确定与softmax概率值对应的第一场景类型权重的步骤可以包括：根据softmax概率值与第一场景类型权重的对应关系，确定与softmax概率值对应的第一场景类型权重。
92.当然，在场景分类模型为vgg16网络的情况下，也可以获得标签值。
93.请参阅图7和图8，在场景声学风格提取器包括参考编码器、第一注意力模块和全连接层的情况下，图4中所示的步骤s220，即将嘈杂声学环境下的声学特征输入场景声学风格提取器，获得家居场景对应的训练风格嵌入信息的步骤可以通过s224、s225和s226实现。
94.s224，将家居场景在嘈杂声学环境下的声学特征输入参考编码器，获得参考嵌入信息。
95.s225，将参考嵌入信息输入第一注意力模块，获得注意力权重。
96.在将第一场景类型权重作为场景类型信息的情况下，相应地，将场景类型信息输入场景声学风格提取器进行融合的步骤通过s226实现。
97.s226，将注意力权重与第一场景类型权重输入全连接层进行加权，以获得训练风格嵌入信息。
98.又例如，在第一场景分类模型为resnet网络的情况下，场景类型信息为作为resnet网络输出的标签值对应的第二场景类型权重。将家居场景的环境声学特征输入第一场景分类模型，获得家居场景对应的场景类型信息的步骤，可以包括：将家居场景的环境声学特征输入resnet网络，获得家居场景的标签值；确定与标签值对应的第二场景类型权重；将第二场景类型权重作为场景类型信息。
99.其中，可以预先设置标签值与第二场景类型权重的对应关系，相应地，确定与标签值对应的第二场景类型权重的步骤可以包括：根据标签值与第二场景类型权重的对应关系，确定与标签值对应的第二场景类型权重。
100.请参阅图9和图10，在场景声学风格提取器包括参考编码器、第一注意力模块和全连接层的情况下，s220，将嘈杂声学环境下的声学特征输入场景声学风格提取器，获得家居场景对应的训练风格嵌入信息的步骤可以通过s227、s228和s229实现。
101.s227，将家居场景在嘈杂声学环境下的声学特征输入参考编码器，获得参考嵌入信息。
102.s228，将参考嵌入信息输入第一注意力模块，获得注意力权重。
103.在将第二场景类型权重作为场景类型信息的情况下，相应地，将场景类型信息输入场景声学风格提取器进行融合的步骤通过s229实现。
104.s229，将注意力权重与第二场景类型权重输入全连接层进行加权，以获得训练风格嵌入信息。
105.以上关于训练风格嵌入信息的获取流程，以及场景声学风格提取器的实现结构仅为示例，训练风格嵌入信息的获取流程和场景声学风格提取器的实现结构还可以为其他，
本实施例在此不作一一举例说明。基于上述流程，便可实现对场景声学风格提取器的训练。
106.上述关于训练风格嵌入信息的获取流程的举例说明中，将家居场景在嘈杂声学环境下的声学特征输入参考编码器，获得参考嵌入信息的步骤可以包括：将可变长度lombard speech的声学特征(家居场景在嘈杂声学环境下的声学特征)输入参考编码器，参考编码器将可变长度lombard speech的声学特征压缩成固定长度的参考嵌入信息如固定大小的向量。该参考嵌入信息用以编码一段音频整体的声学风格。
107.参考编码器可以有多种实现结构，本实施例进行以下举例说明。
108.例如，如图11所示，参考编码器可以包括卷积神经网络(convolutional neural networks，cnn)、双向长短时记忆循环神经网络(包括：后向循环神经网络(backward lstm)及前向循环神经网络(forward lstm))和映射层。
109.将家居场景在嘈杂声学环境下的声学特征输入cnn提取出进一步的声学特征，将进一步的声学特征输入双向长短时记忆循环神经网络，得到和上下文有关的声学特征，将和上下文有关的声学特征输入映射层，输出固定长度的参考嵌入信息，编码一段音频整体的声学风格。如用户在每种家居场景下的lombard speech声学风格。
110.可以理解的是，若对具有相似环境声学特征的不同家居场景进行了区分，相应地，参考编码器对具有相似环境声学特征的不同家居场景在嘈杂声学环境下的声学特征进行处理，可以实现对具有相似环境声学特征的不同家居场景对应的声学风格的细化处理。
111.又例如，如图12所示，参考编码器可以包括第一预训练模型输出层、cnn和映射层。第一预训练模型可以参考audio word2vec的实现，主要由一个序列到序列的自动编码器实现，audio word2vec中主要是循环神经网络(recurrent neural network，rnn)的结构，第一预训练模型输出层输出预训练向量，使用audio word2vec的目的是为了获得更好的对声学特征的表达。再通过两至三个卷积神经网络，提取出进一步的声学特征，再通过两至三个全连接网络作为映射层，映射到预定义的维度上。
112.又例如，如图13所示，参考编码器可以包括第二预训练模型输出层、双向长短时记忆循环神经网络和映射层。第二预训练模型可以参考无监督预训练模型(wav2vec)的实现，主要由基于cnn的编码器实现，第二预训练模型输出层输出预训练向量，使用wave2vec的目的是为了获得更好的对声学特征的表达。再通过双向长短时记忆循环神经网络提取出进一步的和上下文有关的声学特征，进而通过两至三个全连接网络作为映射层，映射到预定义的维度上。
113.使用第一预训练模型和第二预训练模型可以获得更多关于声音特征的表达。
114.第一注意力模块可以通过多种方式获得注意力权重。示例性地，可以基于音调、声音强度、语速、情感等属性进行排列组合形成声学风格标记集合，在第一注意力模块获得注意力权重的过程中，从声学风格标记集合中随机调用一组声学风格标记进行嵌入。每个声学风格标记可以包括音调、声音强度、语速、情感等属性中的一种或多种。嵌入的声学风格标记的个数可以灵活设置，例如，可以设置为一个、三个、五个、十个等，用以表示场景声学风格提取器的训练数据中少量且不同的声学维度，如音调、声音强度、语速、情感等属性中的一种或多种。将参考嵌入信息作为第一注意力模块的查询信息，第一注意力模块学习参考嵌入信息与嵌入的该组声学风格标记中每个声学风格标记间的相似性度量。第一注意力模块进而输出一组组合权重(注意力权重)，这些组合权重表示每个声学风格标记对参考嵌
入信息的贡献。相应地，场景声学风格提取器输出的训练风格嵌入信息可能为与音调、声音强度、语速、情感等属性中任意一项或多项相关的信息。例如，在某一家居场景为客厅的情况下，客厅对应的训练风格嵌入信息可能包括提高音调、增加声音强度、提高语速。
115.本实施例中，训练风格嵌入信息可以有多种呈现方式。例如，训练风格嵌入信息可以为音调、声音强度、语速、情感等属性的具体赋值。又例如，训练风格嵌入信息可以为在某一正常语音的基础上，对音调、声音强度、语速、情感等属性的调整值。其中，正常语音可以为在安静场景下发出的语音。
116.请结合参阅图14，在引入场景类型信息如softmax概率值或标签值获得训练风格嵌入信息，进行场景声学风格提取器训练的情况下，可以通过风格嵌入调节器将softmax概率值和标签值处理为能够被全连接层识别及使用的信息。例如，通过风格嵌入调节器确定与softmax概率值对应的第一场景类型权重，确定与标签值对应的第二场景类型权重。该种情况下，嘈杂声学环境下的声学特征所属的家居场景为已知。
117.在场景类型信息为标签值的情况下，全连接层可以使用标签值对应的第二场景类型权重与注意力权重相乘，仅保留一个声学风格标记作为相应家居场景对应的训练风格嵌入信息，可以判断该家居场景下某个声学风格标记在哪个属性影响力更大。训练时可以支持手动定义多组权重参数，在推断时直接调用，从而提高训练效率。
118.在场景类型信息为softmax概率值的情况下，全连接层可以使用softmax概率值对应的第一场景类型权重与注意力权重相乘，对嵌入的每个声学风格标记对参考嵌入信息的贡献再次进行平衡，使得场景声学风格提取器不仅能够学习到相应家居场景下lombard speech的声学风格，还能学习到不同家居场景对声学风格的影响。
119.为了提高训练风格嵌入信息的获取效率，加快收敛，在另一种实现方式中，还可以调用第二场景分类模型，该第二场景分类模型能够对嘈杂声学环境下的声学特征所属家居场景类型进行指示。通过将家居场景在嘈杂声学环境下的声学特征输入第二场景分类模型，获得家居场景对应的场景类型指示信息，从而可以根据场景类型指示信息对场景声学风格提取器进行训练反馈。例如，在将嘈杂声学环境下的声学特征输入场景声学风格提取器，对场景声学风格提取器进行训练过程中，将嘈杂声学环境下的声学特征输入第二场景分类模型，第二场景分类模型输出场景类型指示信息，将该场景类型指示信息传递至场景声学风格提取器，对场景声学风格提取器进行训练反馈，从而协助收敛，提高训练风格嵌入信息的获取效率。本实施例中，在调用第二场景分类模型对场景声学风格提取器进行训练反馈的情况下，输入第二场景分类模型的在嘈杂声学环境下的声学特征与输入场景声学风格提取器的在嘈杂声学环境下的声学特征可以相同或者不同，只要输入场景声学风格提取器的家居场景在嘈杂声学环境下的声学特征，以及输入第二场景分类模型的家居场景在嘈杂声学环境下的声学特征对应于相同家居场景即可。
120.第一场景分类模型和第二场景分类模型可以通过多种方式训练得到。请结合参阅图15，为本发明实施例提供的一种第一场景分类模型训练方法的流程示意图，可以由图1所示电子设备100执行，例如可以由电子设备100中的处理器120执行。该第一场景分类模型训练方法包括s310和s320。
121.s310，获得多种家居场景的环境声学特征。
122.s320，将多种家居场景的环境声学特征输入场景分类网络进行训练，获得与每种
家居场景对应的场景类型信息。
123.其中，可以灵活划分家居场景，并收集家居场景的环境声学特征。例如，可以选择经常出现嘈杂声音的厨房、客厅、洗手间分别作为家居场景并进行家居场景的环境声学特征收集。又例如，还可以选择家庭锻炼健身房、多媒体影音室、书房等分别作为家居场景并进行家居场景的环境声学特征收集。通过对家居场景的精细划分，使用不同家居场景的环境声学特征对场景分类网络进行训练，获得与每种家居场景对应的场景类型信息，基于场景类型信息便可实现对家居场景类型的判断。
124.为了提升训练效果，获得的每种家居场景的环境声学特征可以尽可能丰富，例如，每种家居场景的环境声学特征可以包括位于该种家居场景中的各家居设备单独的环境声学特征，以及位于该种家居场景中的各家居设备至少两两排列组合的环境声学特征。示例性地，在家居场景为厨房的情况下，厨房的环境声学特征可以包括厨房中的各家居设备如抽油烟机、洗碗机、燃气灶、锅碗瓢盆等单独的环境声学特征，以及厨房中的抽油烟机、洗碗机、燃气灶、锅碗瓢盆等两个、三个、四个等排列组合的环境声学特征。
125.通过尽可能丰富、全面地获得家居场景的环境声学特征，输入场景分类网络进行训练，能够有效提升训练得到的第一场景分类模型的灵敏度和可靠性。例如，通过将家居设备单独的环境声学特征输入场景分类网络进行训练，使得后续基于某些特定家居设备的环境声学特征便可直接确定家居场景的类型。示例性地，基于马桶冲水声的声学特征，可以直接确定家居场景为洗手间。又例如，通过将每种家居场景中各家居设备多种排列组合的环境声学特征输入场景分类网络进行训练，可以实现对具有相似环境声学特征的不同家居场景的可靠区分。示例性地，厨房和洗手间都可能夹杂水流的声学特征，然而，结合炒锅炒菜声音的声学特征便可以确定家居场景为厨房。
126.请结合参阅图16，在一种实现方式中，s310，获得多种家居场景的环境声学特征，可以通过s311和s312实现。
127.s311，获得多种家居场景的环境声学数据。
128.s312，对环境声学数据进行声学特征提取，得到多种家居场景的环境声学特征。
129.其中，可以通过多种方式进行声学特征提取，例如，可以通过声学特征提取模块对环境声学数据进行声学特征提取。本实施例中的环境声学数据为家居场景中的各家居设备使用中所产生的声学数据，未包括人声。
130.场景分类网络可以灵活选择，例如，可以为设定的深度学习网络。示例性地，场景分类网络可以为深度卷积神经网络，如vgg16网络、resnet网络等。根据场景分类网络的不同，能够获得不同的场景类型信息。示例性地，在场景分类网络为vgg16网络的情况下，s320中，将环境声学特征输入vgg16网络，获得的场景类型信息为softmax概率值(当然，也可以获得如one-hot编码的标签值)。在场景分类网络为resnet网络的情况下，s320中，将环境声学特征输入resnet网络，获得的场景类型信息为标签值如one-hot编码(当然，获得的场景类型信息也可为softmax概率值)。
131.基于上述设计，根据表征家居场景类型的标签值，便可确定家居场景的环境声学特征具体所属的家居场景类型，或者根据表征家居场景属于各类型的softmax概率值，便可确定家居场景风格的不同权重组合，从而实现家居场景识别粒度的细化，提高家居场景识别准确性，还可以更好地“指导”场景风格嵌入的提取。
132.基于第一场景分类模型对家居场景的细化分类，可以对家居场景下的场景声学风格作更为细致的划分。并且还可以更好地“指导”场景风格嵌入的提取。示例性地，在家居场景包括厨房、客厅和洗手间三种的情况下，场景声学风格提取器可以结合第一场景分类模型针对厨房、客厅和洗手间分别进行场景声学风格提取。
133.为了更为清楚地阐述本发明实施例中的第一场景分类模型训练方法，现以下述场景为例进行举例说明。
134.在家居场景包括厨房、客厅和洗手间三种的情况下，对位于厨房中的各家居设备单独产生的环境声学数据，两个排列组合、三个排列组合、四个排列组合等产生的环境声学数据进行收集，将收集到的厨房中的所有环境声学数据作为第一声学数据集合。对位于客厅中的各家居设备单独产生的环境声学数据，两个排列组合、三个排列组合、四个排列组合等产生的环境声学数据进行收集，将收集到的客厅中的所有环境声学数据作为第二声学数据集合。对位于洗手间中的各家居设备单独产生的环境声学数据，两个排列组合、三个排列组合、四个排列组合等产生的环境声学数据进行收集，将收集到的洗手间中的所有环境声学数据作为第三声学数据集合。
135.提取第一声学数据集合中的环境声学数据的声学特征，得到第一声学特征集合。提取第二声学数据集合中的环境声学数据的声学特征，得到第二声学特征集合。提取第三声学数据集合中的环境声学数据的声学特征，得到第三声学特征集合。
136.设定厨房对应的场景类型信息为第一类型，客厅对应的场景类型信息为第二类型，洗手间对应的场景类型信息为第三类型。
137.将第一声学特征集合中的声学特征输入场景分类网络的情况下，将第一类型作为场景分类网络的目标输出。将第二声学特征集合中的声学特征输入场景分类网络的情况下，将第二类型作为场景分类网络的目标输出。将第三声学特征集合中的声学特征输入场景分类网络的情况下，将第三类型作为场景分类网络的目标输出。基于此对场景分类网络进行训练，直至达到收敛条件，则得到所需的第一场景分类模型。
138.收敛条件可以灵活设置，例如，可以为获得与每种家居场景对应的场景类型信息的准确率达到预设值，示例性地，可以将第一声学特征集合、第二声学特征集合和第三声学特征集合中的声学特征划分为训练数据和测试数据，基于训练数据对场景分类网络进行训练，直至输入测试数据后得到目标输出的准确率达到预设值，判定达到收敛条件，获得所需的第一场景分类模型。又例如，可以为训练次数达到设定量。本实施例对此不作限制。
139.采用上述场景分类模型训练方法得到第一场景分类模型后，基于第一场景分类模型便可识别出环境声学特征具体所属的家居场景或者家居场景风格的权重组合。例如，若将某一家居场景的环境声学特征输入场景分类模型，场景分类模型输出第一类型，根据第一类型便可确定该环境声学特征属于厨房。
140.将多种家居场景的环境声学特征输入训练好的第一场景分类模型后，第一场景分类模型输出场景类型相关信息，如标签值或softmax概率值。第一场景分类模型输出的场景类型信息可以作为场景声学风格提取器的输入，结合进行场景声学风格提取器的训练、使用。
141.本发明实施例还提供一种第二场景分类模型训练方法，包括：获得多种家居场景在嘈杂声学环境下的声学特征，将多种家居场景在嘈杂声学环境下的声学特征输入场景分
类网络进行训练，获得与每种家居场景对应的场景类型指示信息。
142.第二场景分类模型采用多种家居场景在嘈杂声学环境下的声学特征作为输入，相应地，第二场景分类模型能够对嘈杂声学环境下的声学特征所属家居场景类型进行指示。
143.由于第二场景分类模型与第一场景分类模型训练过程的差异点仅在于二者的输入数据不同，由于输入数据不同，输出数据存在差异。第二场景分类模型输出的场景类型指示信息用于作为场景声学风格提取器的训练反馈，如根据场景类型指示信息对场景声学风格提取器的全连接层进行训练反馈，以加快收敛。第一场景分类模型输出的场景类型信息用于进行加权，如将场景类型信息与注意力权重输入场景声学风格提取器的全连接层进行加权。第二场景分类模型的可选结构和训练原理可以参阅上述第一场景分类模型的相关描述，因而在此不作赘述。
144.在将家居场景在嘈杂声学环境下的声学特征输入场景声学风格提取器，获得家居场景对应的训练风格嵌入信息的过程中，可以选择调用第一场景分类模型，也可以选择调用第二场景分类模型，还可以选择调用第一场景分类模型和第二场景分类模型，或者均不调用第一场景分类模型和第二场景分类模型。
145.请参阅图17，待合成声音预测特征可以通过s410和s420获得。
146.s410，获得待输出文本信息和家居场景对应的训练风格嵌入信息。
147.s420，将待输出文本信息和训练风格嵌入信息输入声学特征预测网络，获得与家居场景对应的待合成声音预测特征。
148.家居场景对应的训练风格嵌入信息可以通过前述场景声学风格提取器获得，在此不作赘述。
149.本实施例中，巧妙地引入家居场景对应的训练风格嵌入信息作为新的语音合成考虑维度，将待输出文本信息和训练风格嵌入信息均输入声学特征预测网络，获得与家居场景对应的待合成声音预测特征，实现对声学特征预测模型的训练。该待合成声音预测特征具有lombard speech声学风格。基于待输出文本信息和训练风格嵌入信息两个维度，可以实现对家居场景对应的声学特征的可靠预测，输出具有lombard speech声学风格的预测声学特征。
150.在一种实现方式中，可以收集安静场景下用户发出的语音作为正常语音，使用正常语音与训练风格嵌入信息联合训练声学特征预测网络，获得与家居场景对应的待合成声音预测特征。例如，在训练风格嵌入信息为提高音调、增加声音强度、提高语速的情况下，使用正常语音与训练风格嵌入信息联合训练声学特征预测网络，获得的待合成声音预测特征可能包括在正常语音的基础上将音量、声音强度、语速分别提高设定值。
151.声学特征预测网络可以有多种实现方式，为了提高待合成声音预测特征的自然度，可以选用tacotron作为声学特征预测网络。
152.请结合参阅图18，在一种实现方式中，声学特征预测网络可以包括：编码器、第二注意力模块及解码器。相应地，s420，将待输出文本信息和训练风格嵌入信息输入声学特征预测网络，获得与家居场景对应的待合成声音预测特征的步骤可以通过以下方式实现：将待输出文本信息输入编码器，获得固定长度的字符嵌入信息；将固定长度的字符嵌入信息与训练风格嵌入信息输入第二注意力模块，获得对齐后的声学特征与字符信息；将对齐后的声学特征与字符信息输入解码器，获得待合成声音预测特征。
153.在选用tacotron作为声学特征预测网络的情况下，将对齐后的声学特征与字符信息输入解码器，解码器输出的待合成声音预测特征可以为线性谱(linear spectrum)或者梅尔谱(mel spectrum)或其他声码器适用的声学特征。
154.获得待合成声音预测特征后，可以采用语音合成器件对待合成声音预测特征进行合成，获得待输出语音数据。语音合成器件可以为声码器，相应地，可以采用声码器作为语音合成器件对声学特征预测网络输出的待合成声音预测特征进行合成，将待合成声音预测特征输入声码器，得到待输出语音数据。
155.通过对语音合成模型的训练，将家居场景在嘈杂声学环境下的声学特征和响应文本内容信息输入训练好的语音合成模型后，语音合成模型便可输出包含响应文本内容信息的输出响应语音数据，该输出响应语音数据为具备较好自然度和清晰度的lombard speech。
156.请参阅图19，为本发明实施例提供的一种语音合成方法的流程示意图，可以由图1所示电子设备100执行，例如可以由电子设备100中的处理器120执行。该语音合成方法包括s510、s520和s530。
157.s510，确定家居场景对应的场景风格嵌入信息；其中，场景风格嵌入信息表征与家居场景对应的场景声学风格。
158.s520，根据响应文本内容信息与场景风格嵌入信息确定家居场景对应的预测声学特征。
159.s530，对预测声学特征进行合成，获得输出响应语音数据。
160.在一种实现方式中，电子设备可以为智能家居场景中的智能设备，智能设备通过s510至s530合成的输出响应语音数据为具有lombard effect的lombard speech，智能设备在嘈杂家居场景下输出该输出响应语音数据从而能够清晰地传递至用户，确保交互顺畅度。在另一种实现方式中，电子设备可以为服务器，该服务器可以与智能家居场景中的智能设备通信连接，服务器通过s510至s530合成的输出响应语音数据为具有lombard effect的lombard speech，服务器将合成的输出响应语音数据发送至智能设备，智能设备在嘈杂家居场景下播放该输出响应语音数据从而能够清晰地传递至用户，确保交互顺畅度。
161.s510至s530可以有多种实现方式，例如，可以通过训练好的场景声学风格提取器确定家居场景对应的场景风格嵌入信息。又例如，可以通过训练好的声学特征预测模型确定家居场景对应的预测声学特征。
162.请结合参阅图20，在一种实现方式中，电子设备可以调用训练好的场景声学风格提取器，获得家居场景在嘈杂声学环境下的声学特征，将家居场景在嘈杂声学环境下的声学特征输入场景声学风格提取器，获得家居场景对应的场景风格嵌入信息。电子设备可以调用训练好的声学特征预测模型，将响应文本内容信息和场景风格嵌入信息作为声学特征预测模型的输入，获得与家居场景对应的预测声学特征，进而合成输出响应语音数据。
163.请结合参阅图21，在另一种实现方式中，电子设备可以调用训练好的场景声学风格提取器和第一场景分类模型，将家居场景的环境声学特征输入第一场景分类模型，获得家居场景对应的场景类型信息，将场景类型信息输入场景声学风格提取器进行融合，如将场景类型信息和家居场景在嘈杂声学环境下的声学特征共同作为场景声学风格提取器的输入，场景声学风格提取器输出家居场景对应的场景风格嵌入信息。电子设备可以调用训
练好的声学特征预测模型，将响应文本内容信息和场景风格嵌入信息作为声学特征预测模型的输入，获得与家居场景对应的预测声学特征，进而合成输出响应语音数据。
164.本实施例中，场景声学风格提取器、声学特征预测模型、第一场景分类模型和第二场景分类模型的训练过程可以参阅语音合成模型训练方法中的相应描述，在此不作赘述。训练得到的场景声学风格提取器、声学特征预测模型、第一场景分类模型和第二场景分类模型可以单独运行，也可以按照需求使用不同搭配方式进行组合运行。
165.例如，在语音合成过程中，可以调用训练好的场景声学风格提取器和声学特征预测模型。请参阅图22，场景声学风格提取器可以包括：参考编码器、第一注意力模块和全连接层。在仅将家居场景在嘈杂声学环境下的声学特征作为场景声学风格提取器的输入的情况下，可以通过以下方式获得家居场景对应的场景风格嵌入信息：将家居场景在嘈杂声学环境下的声学特征输入参考编码器，获得参考嵌入信息；将参考嵌入信息输入第一注意力模块，获得注意力权重；将注意力权重输入全连接层，获得场景风格嵌入信息。将响应文本内容信息和场景风格嵌入信息作为声学特征预测模型的输入，从而获得与家居场景对应的预测声学特征，对预测声学特征进行合成，进而获得输出响应语音数据。
166.又例如，在语音合成过程中，可以调用训练好的场景声学风格提取器、第一场景分类模型和声学特征预测模型。请参阅图23，场景声学风格提取器可以包括：参考编码器、第一注意力模块和全连接层。在将场景类型信息和家居场景在嘈杂声学环境下的声学特征共同作为场景声学风格提取器的输入的情况下，相应地，可以通过以下方式获得家居场景对应的场景风格嵌入信息：将家居场景在嘈杂声学环境下的声学特征输入参考编码器，获得参考嵌入信息；将参考嵌入信息输入第一注意力模块，获得注意力权重；将注意力权重与场景类型信息输入全连接层进行加权，以获得场景风格嵌入信息。将响应文本内容信息和场景风格嵌入信息作为声学特征预测模型的输入，从而获得与家居场景对应的预测声学特征，对预测声学特征进行合成，进而获得输出响应语音数据。
167.当第一场景分类模型为vgg16网络时，可以将家居场景的环境声学特征输入vgg16网络，获得softmax概率值；确定与softmax概率值对应的第一场景类型权重；将第一场景类型权重作为场景类型信息。其中，可以根据softmax概率值与第一场景类型权重的对应关系，确定与softmax概率值对应的第一场景类型权重。
168.相应地，通过将注意力权重与第一场景类型权重输入全连接层进行加权，以获得场景风格嵌入信息。
169.当第一场景分类模型为resnet网络时，可以将家居场景的环境声学特征输入resnet网络，获得家居场景的标签值；确定与标签值对应的第二场景类型权重；将第二场景类型权重作为场景类型信息。其中，可以根据标签值与第二场景类型权重的对应关系，确定与标签值对应的第二场景类型权重。
170.相应地，通过将注意力权重与第二场景类型权重输入全连接层进行加权，以获得场景风格嵌入信息。
171.本实施例中，将家居场景在嘈杂声学环境下的声学特征作为场景声学风格提取器的输入，或者将家居场景在嘈杂声学环境下的声学特征和上述第一场景分类模型输出的场景类型信息均作为场景声学风格提取器的输入，场景声学风格提取器从而输出场景风格嵌入信息。场景声学风格提取器输出的场景风格嵌入信息可以作为下述声学特征预测模型的
输入。
172.请结合参阅图24，声学特征预测模型可以包含编码器、第二注意力模块及解码器。相应地，将响应文本内容信息与场景风格嵌入信息作为声学特征预测模型的输入，获得与家居场景对应的预测声学特征可以通过以下方式实现：将响应文本内容信息输入编码器，获得固定长度的字符嵌入信息；将固定长度的字符嵌入信息与场景风格嵌入信息输入第二注意力模块，获得对齐后的声学特征与字符信息；将对齐后的声学特征与字符信息输入解码器，获得家居场景对应的预测声学特征。
173.本实施例中，将响应文本内容信息与场景风格嵌入信息作为声学特征预测模型的输入，声学特征预测模型从而输出预测声学特征，基于该预测声学特征进而可以合成具有lombard effect的输出响应语音数据，使得电子设备在嘈杂家居场景下播放该输出响应语音数据能够被用户可靠接收到，从而确保了智能家居场景中的人机交互顺畅度，更好地满足实际应用需求。
174.在一种实现方式中，可以采用语音合成器件进行输出响应语音数据的合成。如图25所示，可以采用声码器作为语音合成器件对声学特征预测模型输出的预测声学特征进行合成，将预测声学特征输入声码器，获得包含响应文本内容信息的输出响应语音数据。本实施例中，声码器可以灵活选择，例如，在预测声学特征为linear spectrum的情况下，可以选用griffin-lim作为频谱转波形的声码器，也可以选用wavenet作为声码器。又例如，在预测声学特征为mel spectrum的情况下，可以选用wavenet作为声码器。
175.以上对本发明实施例中的语音合成方法的可选实施例进行了描述，在其他实现方式中，基于相同的设计构思：通过“模仿”人类在lombard effect下主动改变发声方式的交流模式，针对不同家居场景，合成具有对应场景声学特征的语音数据进行播报，通过合成具备较好自然度和清晰度的lombard speech，确保在嘈杂家居环境下与用户语音交互的顺畅度。本发明实施例中的语音合成方法还可以有其他实现方式。
176.在另一种实现方式中，请参阅图26，可以将伦巴德语音输入伦巴德语音生成模型，基于伦巴德语音生成模型对伦巴德语音进行学习，使得伦巴德语音生成模型能够根据响应文本内容信息直接得到输出响应语音数据。基于该种伦巴德语音生成模型，智能设备无需训练和调用第一场景分类模型、第二场景分类模型、场景声学风格提取器和声学特征预测模型，直接将响应文本内容信息输入该伦巴德语音生成模型，便可得到与家居场景对应的输出响应语音数据。
177.本实施例中，可以采用语音合成器件对预测声学特征进行合成，获得输出响应语音数据。在一种实现方式中，语音合成器件可以为声码器，将预测声学特征输入声码器，进而得到输出响应语音数据。
178.为了更为清楚地阐述本发明实施例中的语音合成方法，现以下述场景为例进行举例说明。
179.电子设备为智能设备，智能设备位于家居场景中，可以与用户进行语音交互，如播放输出响应语音数据。智能设备中装载有第一场景分类模型、第二场景分类模型、场景声学风格提取器和声学特征预测模型。
180.智能设备判断用户是否进行了预先配置，若判定用户进行了预先配置，则按照预先配置生成输出响应语音数据；若判定用户未进行预先配置，智能设备则接收周围的声音，
并判断接收到的声音仅为家居场景的环境声，还是嘈杂声学环境下的用户语音。
181.若判定接收到的声音仅是家居场景的环境声，则调用第一场景分类模型，将家居场景的环境声输入第一场景分类模型，获得家居场景对应的场景类型信息，如标签值或softmax概率值，对家居场景分类。
182.若判定接收到的声音是嘈杂声学环境下的用户语音，智能设备调用场景声学风格提取器和第二场景分类模型。智能设备在第一场景分类模型未获得该家居场景对应的场景类型信息的情况下，将嘈杂声学环境下的用户语音输入场景声学风格提取器和第二场景分类模型，生成对应的场景风格嵌入信息。智能设备在第一场景分类模型已获得该家居场景对应的场景类型信息的情况下，将嘈杂声学环境下的用户语音以及该家居场景对应的场景类型信息输入场景声学风格提取器，生成对应的场景风格嵌入信息。
183.其中，在将嘈杂声学环境下的用户语音输入场景声学风格提取器之前，还可以进行去噪处理，将去噪后的声音输入场景声学风格提取器，以进一步提高场景风格嵌入信息提取的准确性。
184.智能设备在监测到用户发出问话的情况下，判断是否已获得该家居场景对应的场景风格嵌入信息，若判定已获得该家居场景对应的场景风格嵌入信息，调用基于待输出文本信息和场景风格嵌入信息训练得到的声学特征预测模型，将响应文本内容信息和该家居场景对应的场景风格嵌入信息输入声学特征预测模型，生成相应家居场景下lombard speech的预测声学特征，经过声码器合成输出响应语音数据。若判定未获得该家居场景对应的场景风格嵌入信息，调用伦巴德语音生成模型，将响应文本内容信息输入伦巴德语音生成模型，生成相应家居场景下lombard speech的预测声学特征，经过声码器合成输出响应语音数据。智能设备对合成的输出响应语音数据进行播报，从而能够以具有相应家居场景下的声学风格的语音与用户进行交互。所播报的语音为具备较好自然度和清晰度的lombard speech，从而能够确保语音交互的顺畅度。可以理解的是，上述语音交互流程可以根据用户需求重复执行。
185.为了执行上述实施例及各个可能的方式中的相应步骤，下面给出一种语音合成装置的实现方式。请参阅图27，图27为本发明实施例提供的一种第一语音合成装置140的功能模块图，该第一语音合成装置140可以应用于图1所示电子设备100。需要说明的是，本实施例所提供的第一语音合成装置140，其基本原理及产生的技术效果和上述语音合成方法实施例相同，为简要描述，本实施例部分未提及之处，可参考上述的语音合成方法实施例中相应内容。该第一语音合成装置140包括信息确定模块141和响应语音数据合成模块142。
186.其中，信息确定模块141用于确定家居场景对应的场景风格嵌入信息，以及根据响应文本内容信息与所述场景风格嵌入信息确定所述家居场景对应的预测声学特征；其中，所述场景风格嵌入信息表征与所述家居场景对应的场景声学风格。
187.响应语音数据合成模块142用于对所述预测声学特征进行合成，获得输出响应语音数据。
188.请结合参阅图28，本发明实施例还给出了第二语音合成装置150的实现方式。第二语音合成装置150包括：预测声学特征获得模块151和信息合成模块152。
189.其中，预测声学特征获得模块151用于将响应文本内容信息输入声学特征预测模型，得到与家居场景对应的预测声学特征。
190.信息合成模块152用于对所述预测声学特征进行合成，获得输出响应语音数据。
191.为了执行上述实施例及各个可能的方式中的相应步骤，下面给出一种场景分类模型训练装置的实现方式。请参阅图29，图29为本发明实施例提供的一种场景分类模型训练装置160的功能模块图，该场景分类模型训练装置160可以应用于图1所示电子设备100。需要说明的是，本实施例所提供的场景分类模型训练装置160，其基本原理及产生的技术效果和上述场景分类模型训练方法实施例相同，为简要描述，本实施例部分未提及之处，可参考上述场景分类模型训练方法实施例中的相应内容。该场景分类模型训练装置160包括环境声学特征获得模块161和场景分类网络训练模块162。
192.其中，环境声学特征获得模块161用于获得多种家居场景的环境声学特征。
193.场景分类网络训练模块162用于将所述多种家居场景的环境声学特征输入场景分类网络进行训练，获得与每种所述家居场景对应的场景类型信息。
194.为了执行上述实施例及各个可能的方式中的相应步骤，下面给出一种场景声学风格提取器训练装置的实现方式。请参阅图30，图30为本发明实施例提供的一种场景声学风格提取器训练装置170的功能模块图，该场景声学风格提取器训练装置170可以应用于图1所示电子设备100。需要说明的是，本实施例所提供的场景声学风格提取器训练装置170，其基本原理及产生的技术效果和上述场景声学风格提取器训练方法实施例相同，为简要描述，本实施例部分未提及之处，可参考上述场景声学风格提取器训练方法实施例中的相应内容。该场景声学风格提取器训练装置170包括嘈杂环境声学特征获得模块171和场景声学风格提取器训练模块172。
195.其中，嘈杂环境声学特征获得模块171用于获得家居场景在嘈杂声学环境下的声学特征。
196.场景声学风格提取器训练模块172用于将所述家居场景在所述嘈杂声学环境下的声学特征输入场景声学风格提取器，获得所述家居场景对应的训练风格嵌入信息；其中，所述训练风格嵌入信息表征与所述家居场景对应的场景声学风格。
197.为了执行上述实施例及各个可能的方式中的相应步骤，下面给出一种声学特征预测模型训练装置的实现方式。请参阅图31，图31为本发明实施例提供的一种声学特征预测模型训练装置180的功能模块图，该声学特征预测模型训练装置180可以应用于图1所示电子设备100。需要说明的是，本实施例所提供的声学特征预测模型训练装置180，其基本原理及产生的技术效果和上述声学特征预测模型训练方法实施例相同，为简要描述，本实施例部分未提及之处，可参考上述声学特征预测模型训练方法实施例中的相应内容。该声学特征预测模型训练装置180包括数据获得模块181和声学特征预测模型训练模块182。
198.其中，数据获得模块181用于获得待输出文本信息和家居场景对应的场景风格嵌入信息。
199.声学特征预测模型训练模块182用于将所述待输出文本信息和训练风格嵌入信息输入声学特征预测网络，获得与所述家居场景对应的待合成声音预测特征。
200.为了执行上述实施例及各个可能的方式中的相应步骤，下面给出一种语音合成模型训练装置的实现方式。请参阅图32，图32为本发明实施例提供的一种语音合成模型训练装置190的功能模块图，该语音合成模型训练装置190可以应用于图1所示电子设备100。需要说明的是，本实施例所提供的语音合成模型训练装置190，其基本原理及产生的技术效果
和上述语音合成模型训练方法实施例相同，为简要描述，本实施例部分未提及之处，可参考上述语音合成模型训练方法实施例中的相应内容。该语音合成模型训练装置190包括信息获得模块191和待输出语音数据合成模块192。
201.其中，信息获得模块191用于获得待输出文本信息和家居场景对应的场景风格嵌入信息，根据所述待输出文本信息和场景风格嵌入信息得到与所述家居场景对应的待合成声音预测特征；其中，所述训练风格嵌入信息表征与所述家居场景对应的场景声学风格。
202.待输出语音数据合成模块192用于对所述待合成声音预测特征进行合成，获得待输出语音数据。
203.信息获得模块191用于通过以下步骤获得家居场景对应的训练风格嵌入信息：获得所述家居场景在嘈杂声学环境下的声学特征；将所述家居场景在所述嘈杂声学环境下的声学特征输入场景声学风格提取器，获得所述家居场景对应的训练风格嵌入信息。
204.信息获得模块191还用于：将所述家居场景的环境声学特征输入第一场景分类模型，获得所述家居场景对应的场景类型信息；将所述场景类型信息输入所述场景声学风格提取器进行融合。
205.当所述第一场景分类模型为vgg16网络时，所述信息获得模块191用于通过以下步骤将所述家居场景的环境声学特征输入第一场景分类模型，获得所述家居场景对应的场景类型信息：将所述家居场景的环境声学特征输入所述vgg16网络，获得softmax概率值；确定与所述softmax概率值对应的第一场景类型权重；将所述第一场景类型权重作为所述场景类型信息。
206.场景声学风格提取器包括：参考编码器、第一注意力模块和全连接层；所述信息获得模块191用于通过以下步骤将所述家居场景在所述嘈杂声学环境下的声学特征输入场景声学风格提取器，获得所述家居场景对应的训练风格嵌入信息：将所述家居场景在嘈杂声学环境下的声学特征输入所述参考编码器，获得参考嵌入信息；将所述参考嵌入信息输入所述第一注意力模块，获得注意力权重；将所述注意力权重与所述第一场景类型权重输入所述全连接层进行加权，以获得所述训练风格嵌入信息。
207.信息获得模块191用于通过以下步骤确定与所述softmax概率值对应的第一场景类型权重：根据softmax概率值与第一场景类型权重的对应关系，确定与所述softmax概率值对应的第一场景类型权重。
208.当所述第一场景分类模型为resnet网络时，所述信息获得模块191用于通过以下步骤将所述家居场景的环境声学特征输入第一场景分类模型，获得所述家居场景对应的场景类型信息：将所述家居场景的环境声学特征输入所述resnet网络，获得所述家居场景的标签值；确定与所述标签值对应的第二场景类型权重；将所述第二场景类型权重作为所述场景类型信息。
209.场景声学风格提取器包括：参考编码器、第一注意力模块和全连接层；所述信息获得模块191用于通过以下步骤将所述家居场景在所述嘈杂声学环境下的声学特征输入场景声学风格提取器，获得所述家居场景对应的训练风格嵌入信息：将所述家居场景在嘈杂声学环境下的声学特征输入所述参考编码器，获得参考嵌入信息；将所述参考嵌入信息输入所述第一注意力模块，获得注意力权重；将所述注意力权重与所述第二场景类型权重输入所述全连接层进行加权，以获得所述训练风格嵌入信息。
210.信息获得模块191用于通过以下步骤确定与所述标签值对应的第二场景类型权重：根据标签值与第二场景类型权重的对应关系，确定与所述标签值对应的第二场景类型权重。
211.信息获得模块191还用于通过以下步骤训练得到所述第一场景分类模型：获得多种家居场景的环境声学特征；将所述多种家居场景的环境声学特征输入场景分类网络进行训练，获得与每种所述家居场景对应的场景类型信息。
212.场景声学风格提取器包括：参考编码器、第一注意力模块和全连接层；所述信息获得模块191用于通过以下步骤将所述家居场景在所述嘈杂声学环境下的声学特征输入场景声学风格提取器，获得所述家居场景对应的训练风格嵌入信息：将所述家居场景在嘈杂声学环境下的声学特征输入所述参考编码器，获得参考嵌入信息；将所述参考嵌入信息输入所述第一注意力模块，获得注意力权重；将所述注意力权重输入所述全连接层，获得训练风格嵌入信息。
213.信息获得模块191还用于：将所述家居场景在嘈杂声学环境下的声学特征输入第二场景分类模型，获得所述家居场景对应的场景类型指示信息；根据所述场景类型指示信息对所述场景声学风格提取器进行训练反馈。
214.信息获得模块191还用于通过以下步骤训练得到所述第二场景分类模型：获得多种家居场景在嘈杂声学环境下的声学特征；将所述多种家居场景在嘈杂声学环境下的声学特征输入场景分类网络进行训练，获得与每种所述家居场景对应的场景类型指示信息。
215.信息获得模块191用于通过以下步骤根据所述待输出文本信息和训练风格嵌入信息得到与所述家居场景对应的待合成声音预测特征：将所述待输出文本信息和训练风格嵌入信息作为声学特征预测网络的输入，获得与所述家居场景对应的待合成声音预测特征。
216.声学特征预测网络包含编码器、第二注意力模块及解码器；所述信息获得模块191用于通过以下步骤将所述待输出文本信息和训练风格嵌入信息作为声学特征预测网络的输入，获得与所述家居场景对应的待合成声音预测特征：将所述待输出文本信息输入所述编码器，获得固定长度的字符嵌入信息；将所述固定长度的字符嵌入信息与所述训练风格嵌入信息输入所述第二注意力模块，获得对齐后的声学特征与字符信息；将所述对齐后的声学特征与字符信息输入所述解码器，获得与所述家居场景对应的待合成声音预测特征。
217.待输出语音数据合成模块192用于通过以下步骤对所述待合成声音预测特征进行合成，获得待输出语音数据：采用声码器对所述待合成声音预测特征进行合成，获得待输出语音数据。
218.待合成声音预测特征为linear spectrum，所述声码器为griffin-lim或者wavenet；或者，所述待合成声音预测特征为mel spectrum，所述声码器为wavenet。
219.在上述基础上，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括计算机程序，所述计算机程序运行时控制所述计算机可读存储介质所在电子设备执行上述语音合成模型训练方法。
220.本发明实施例中，合成的输出响应语音数据为具备较好自然度和清晰度的lombard speech，能够确保语音交互的顺畅度，提升用户使用感。
221.在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图
显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
222.另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。
223.所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
224.以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

技术特征：

1.一种语音合成模型训练方法，其特征在于，包括：获得待输出文本信息和家居场景对应的训练风格嵌入信息；其中，所述训练风格嵌入信息表征与所述家居场景对应的场景声学风格；根据所述待输出文本信息和训练风格嵌入信息得到与所述家居场景对应的待合成声音预测特征；对所述待合成声音预测特征进行合成，获得待输出语音数据。2.根据权利要求1所述的语音合成模型训练方法，其特征在于，所述家居场景对应的训练风格嵌入信息通过以下步骤获得：获得所述家居场景在嘈杂声学环境下的声学特征；将所述家居场景在所述嘈杂声学环境下的声学特征输入场景声学风格提取器，获得所述家居场景对应的训练风格嵌入信息。3.根据权利要求2所述的语音合成模型训练方法，其特征在于，还包括：获得所述家居场景的环境声学特征；将所述家居场景的所述环境声学特征输入第一场景分类模型，获得所述家居场景对应的场景类型信息；将所述场景类型信息输入所述场景声学风格提取器进行融合。4.根据权利要求3所述的语音合成模型训练方法，其特征在于，当所述第一场景分类模型为vgg16网络时，所述场景类型信息为作为所述vgg16网络输出的softmax概率值对应的第一场景类型权重。5.根据权利要求3所述的语音合成模型训练方法，其特征在于，当所述第一场景分类模型为resnet网络时，所述场景类型信息为作为所述resnet网络输出的标签值对应的第二场景类型权重。6.根据权利要求2所述的语音合成模型训练方法，其特征在于，还包括：将所述家居场景在嘈杂声学环境下的声学特征输入第二场景分类模型，获得所述家居场景对应的场景类型指示信息；根据所述场景类型指示信息对所述场景声学风格提取器进行训练反馈。7.根据权利要求1所述的语音合成模型训练方法，其特征在于，所述根据所述待输出文本信息和训练风格嵌入信息得到与所述家居场景对应的待合成声音预测特征的步骤，包括：将所述待输出文本信息和训练风格嵌入信息作为声学特征预测网络的输入，获得与所述家居场景对应的待合成声音预测特征。8.一种语音合成模型训练装置，其特征在于，包括：信息获得模块，用于获得待输出文本信息和家居场景对应的训练风格嵌入信息，根据所述待输出文本信息和训练风格嵌入信息得到与所述家居场景对应的待合成声音预测特征；其中，所述训练风格嵌入信息表征与所述家居场景对应的场景声学风格；待输出语音数据合成模块，用于对所述待合成声音预测特征进行合成，获得待输出语音数据。9.一种电子设备，其特征在于，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1至7任一项所述的语音合
成模型训练方法。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括计算机程序，所述计算机程序运行时控制所述计算机可读存储介质所在电子设备执行权利要求1至7任一项所述的语音合成模型训练方法。

技术总结

本发明的实施例提供了一种语音合成模型训练方法、装置、电子设备和计算机可读存储介质，涉及数据处理技术领域，方法包括：获得待输出文本信息和家居场景对应的训练风格嵌入信息，根据待输出文本信息和训练风格嵌入信息得到与家居场景对应的待合成声音预测特征，对待合成声音预测特征进行合成，获得待输出语音数据，从而合成与家居场景适配、具备较好清晰度的语音。的语音。的语音。