文本到语音模型和个性化模型生成的话音的受控训练和使用的制作方法

文本到语音模型和个性化模型生成的话音的受控训练和使用

背景技术：

1.文本到语音(tts)模型是被配置成将任意文本转换成听起来是人类的语音数据的模型。有时被称为话音字体的tts模型通常包括前端模块、声学模型和声码器。前端模块被配置成完成文本归一化(例如，将单位符号转换成可读单词)并且通常将文本转换成对应的音素序列。声学模型被配置成将输入的文本(或经转换的音素)转换成频谱序列，而声码器被配置成将频谱序列转换成语音波形数据。此外，声学模型决定文本将如何被发音(例如，以什么话音)。
2.源声学模型被配置为在多说话者数据上进行训练的多说话者模型。在一些情形中，使用目标说话者数据对源声学模型进一步完善或适配。通常，声学模型是依赖于说话者的，这意味着声学模型是直接在来自特定目标说话者的说话者数据上被训练的，或者通过使用来自特定目标说话者的说话者数据来完善源声学模型。
3.在经过良好训练的情况下，该模型能够将任何文本转换成接近地模仿目标说话者如何说话的语音，即，以相同的话音音和类似的韵律。用于tts模型的训练数据通常包括在特定目标说话者说话的同时对该特定说话者进行录音所获得的音频数据以及对应于该音频数据的文本集(即，目标说话者为了产生该音频数据所说的内容的文本表示)。
4.在一些实例中，用于训练tts模型的文本由语音识别模型和/或自然语言理解模型生成，该语音识别模型和/或自然语言理解模型被具体地配置成识别和解读语音并且提供在音频数据中被识别出的单词的文本表示。在其他实例中，说话者被给予要大声朗读的预定稿件，其中该预定稿件和对应的音频数据被用于训练tts模型。
5.最初，需要几千小时来构建源声学模型。接着，需要大量的训练数据来针对一种特定风格正确地训练tts模型。在一些实例中，源声学模型针对特定话音的训练/完善可能需要数百个有时数千个句子的语音训练数据。因而，为了针对多种不同话音正确地训练(诸)tts模型，必须针对不同目标说话者话音中的每一者收集成比例的训练数据量。这是一种用于记录和分析每种期望风格的数据的极端耗时且成本高昂的过程。此外，数据收集还具有重大的数据隐私挑战，例如在不违反用户数据隐私共享设置的情况下收集足够的数据。
6.由于上述挑战，大多数市售的tts模型只能以一种或几种预编程话音读出文本。这些预编程话音通常会听起来是合成的或计算机化的。鉴于以上，存在对用于生成训练数据和训练模型(包括此类模型的部署)以供tts模型以个性化话音产生语音数据的改进的系统和方法。
7.本文中所要求保护的主题不限于解决任何缺点或仅在诸如以上所描述的环境那样的环境中操作的各实施例。相反，提供本背景仅用于解说其中可实践本文中所描述的一些实施例的一个示例性技术领域。

技术实现要素：

8.所公开的实施例涉及用于文本到语音(tts)模型和个性化模型生成的话音的受控训练和使用的实施例。在一些实例中，所公开的实施例包括训练tts模型以用于以个性化话
音生成语音数据。在一些实例中，所生成的语音数据被用于进一步训练机器学习模型以供以个性化话音进行文本到语音(tts)转换。另外，一些实施例涉及用于生成针对特定用户简档的个性化话音的系统和方法。
9.一些实施例包括用于获得包括自然语音数据的第一训练数据集的方法和系统。在这些实施例中，计算系统标识特定用户简档并通过至少验证第一训练数据集对应于该特定用户简档来验证对使用第一训练数据集来训练tts机器学习模型的授权。计算系统然后用第一训练数据集来训练该tts机器学习模型，该模型被配置成以个性化话音生成音频。tts机器学习模型被训练成以对应于特定用户简档的个性化话音生成音频。在一些实例中，第一训练数据集包括通过用户读预设文本话语来记录的初始自然语音数据集以及从对应于该用户的使用日志中获得的第二自然语音数据集。
10.在一些实例中，所公开的各实施例涉及用于使用tts机器学习模型来以个性化话音生成tts数据的实施例。在此类实例中，计算系统接收使用个性化话音来生成文本到语音数据的用户请求。在访问与个性化话音相关联的许可数据后，计算系统确定该许可数据授权或限制如所请求的对个性化话音的使用。在确定许可数据授权如所请求的对个性化话音的使用之际，使用该个性化话音来生成文本到语音数据，或替代地，在确定许可数据限制如所请求的对个性化话音的使用之际，不生成文本到语音数据，除非接收到授权对个性化话音的使用的后续许可数据。
11.提供本公开内容以便以简化的形式介绍以下在具体实施方式中还描述的概念的选集。本概述并不旨在标识所要求保护的主题的关键特征或必要特征，亦非旨在用于帮助确定所要求保护的主题的范围。
12.附加特征和优点将在以下描述中阐述，且部分会从描述中显而易见，或者可以通过实践本文中的示教来习得。本发明的特征和优点可借助于在所附权利要求书中特别指出的工具和组合来实现和获得。本发明的特征将从以下描述和所附权利要求书中变得更完全的显见，或者可以通过如下文所阐述的本发明的实践来习得。
附图说明
13.为了描述可获得以上记载的及其他优点和特征的方式，将参照各具体实施例呈现以上简述的主题的更具体描述，各具体实施例在附图中例示。理解这些附图仅描述典型的实施例，因此不应被视为限制本发明的范围，各实施例将通过使用附图以附加的具体性和细节来描述和解释，附图中：
14.图1例示了其中纳入了计算系统和/或被用于执行所公开的各实施例的所公开的各方面的计算环境。所例示的计算系统被配置成用于文本到语音生成和机器学习模型训练，并且包括(诸)硬件存储设备和多个机器学习引擎。该计算系统与(诸)远程/第三方系统通信。
15.图2例示了用于训练机器学习模型以生成针对目标说话者的个性化语音数据的过程流图的一个实施例。
16.图3例示了根据本文所公开的各实施例的神经tts模型的示例配置的一实施例。
17.图4例示了示出生成训练数据并且训练神经tts模型的高级视图的过程流程图的一实施例。
18.图5例示了具有与用于训练tts机器学习模型以便以个性化话音生成语音数据的各种方法相关联的多个动作的示图的实施例。
19.图6例示了具有与用于获得训练数据以训练机器学习模型以用于以个性化话音进行tts生成的各种方法相关联的多个动作的示图的实施例。
20.图7例示了具有与用于从对应于用户的使用日志中获得第二自然语音数据集的方法相关联的多个动作的流程图的一个实施例。
21.图8例示了与用于标识从其获得输入文本的源的方法相关联的多个动作的流程图的一个实施例。
22.图9例示了用于授权或限制使用个性化话音来生成tts语音数据的请求的多个动作的流程图的一个实施例。
23.图10例示了具有用于训练机器学习模型以便以个性化话音生成tts语音数据并确认机器学习模型在其上训练的训练数据的多个动作的流程图的一个实施例。
24.图11例示了具有与用于训练机器学习模型以用于自然语言理解任务的各种方法相关联的多个动作(诸如授权对训练数据的使用，该训练数据被配置成训练神经tts模型以便以个性化话音生成tts数据)的流程图的一个实施例。
具体实施方式
25.所公开的实施例涉及用于文本到语音(tts)模型和个性化模型生成的话音的受控训练和使用的实施例。在一些实例中，所公开的实施例包括训练tts模型以用于以个性化话音生成语音数据。
26.在一些实例中，所生成的语音数据被用于进一步训练机器学习模型以供以个性化话音进行文本到语音(tts)转换。
27.另外，一些实施例具体涉及用于生成针对特定用户简档的个性化话音以及用于管理对该用户简档的使用的系统和方法。
28.现在将注意力转向图1，图1例示了可包括和/或被用于实现所公开的发明的各方面的计算系统110的各组件。如图所示，计算系统包括多个机器学习(ml)引擎、模型、以及与机器学习引擎和模型的输入与输出相关联的数据类型。
29.首先将注意力转向图1，图1例示了作为计算环境100的一部分的计算系统100，计算环境100还包括与计算系统110(经由网络130)通信的(诸)远程/第三方系统120。计算系统110被配置成训练用于语音识别、自然语言理解、文本到语音、以及更具体地训练神经tts机器学习模型以生成个性化语音数据的多个机器学习模型。计算系统110还被配置成生成训练数据，该训练数据被配置成用于训练机器学习模型以生成用于由个性化话音表征的目标说话者的语音数据。附加地或替换地，计算系统被配置成运行经训练的机器学习模型以用于文本到语音的生成。
30.计算系统110例如包括一个或多个处理器112(诸如一个或多个硬件处理器)和存储计算机可执行指令118的存储140(即(诸)硬件存储设备)，其中存储140能够容纳任何数目的数据类型以及任何数目的计算机可执行指令118，计算系统110被配置成藉由该计算机可执行指令118在计算机可执行指令118由该一个或多个处理器112执行时来实现所公开的各实施例的一个或多个方面。计算系统110还被示为包括(诸)用户接口和(诸)输入/输出
(i/o)设备116。
31.存储140被示为单个存储单元。然而，将领会，在一些实施例中，存储140是被分布到若干分开的且有时是远程和/或第三方的系统120的分布式存储。在一些实施例中，系统110还可包括分布式系统，其中一个或多个系统110组件由彼此远离并且各自执行不同任务的不同的分立系统来维护/运行。在一些实例中，多个分布式系统执行用于实现所公开的功能性的类似和/或共享任务，诸如在分布式云环境中。
32.在一些实施例中，存储140被配置成存储以下一者或多者：自然语音数据141、使用日志142、用户简档143、个性化话音144、许可数据145、神经tts模型146、合成语音数据147、可执行指令118或文本话语148。
33.在一些实例中，存储140包括用于实例化或执行计算系统110中示出的模型和/或引擎中的一者或多者的计算机可执行指令118。在一些实例中，该一个或多个模型被配置为机器学习模型或经机器学习的模型。在一些实例中，该一个或多个模型被配置为深度学习模型和/或算法。在一些实例中，该一个或多个模型被配置为引擎或处理系统(例如，集成在计算系统110内的计算系统)，其中每一引擎(即模型)包括一个或多个处理器(例如，硬件处理器112)和对应的计算机可执行指令118。
34.在一些实施例中，自然语音数据141包括从目标说话者获得的电子内容/数据。在一些实例中，自然语音数据141包括音频数据、文本数据和/或视觉数据。附加地或替换地，在一些实施例中，自然语音数据141包括对应于从其收集数据的特定说话者的元数据(即，属性、信息、说话者标识符等)。在一些实施例中，该元数据包括与说话者的身份相关联的属性、说话者和/或说话者的声音的特性、和/或关于在何地、何时和/或如何获得说话者数据的信息。
35.在一些实施例中，自然语音数据141和/或源说话者数据是原始数据，其中语音数据是从目标说话者或一组目标说话者实时记录的。附加地或替代地，在一些实施例中，自然语音数据141包括经处理数据(例如，对应于目标说话者的说话者数据的波形格式)。例如，语音数据(即，音频数据)是从先前记录的音频文件和/或视频文件中提取的，诸如通过语音识别模型识别的语音。在此类实例中，语音识别模型通过授权的第三方应用(诸如个人助理设备)、听觉搜索查询、所记录的音频消息以及由语音识别模型识别的一般对话来收集并存储来自说话者的语音数据。
36.该数据可针对特定应用、跨许多应用、针对特定设备和/或跨用户的所有设备随时间聚集。在一些实施例中，应用包括网络、移动和/或桌面应用。在一些实施例中，所提及的设备包括启用语音的设备，诸如但不限于个人助理设备、启用音频的扬声器、移动电话、智能设备、物联网(iot)设备、膝上型计算机和/或能够收听、识别和记录来自特定和/或多个说话者的自然语音数据的任何设备。
37.在一些实施例中，自然语音数据141被收集并存储为使用日志(例如，使用日志142)的一部分。使用日志142中所包括的每一使用日志对应于特定用户。在一些实施例中，该使用日志从单个应用收集语音数据。在一些实施例中，用户授权使用日志存储来自多个源和/或应用的数据。例如，用户能够授权存储并使用从诸如cortana之类的虚拟个人助理应用收集到的数据。在此类实例中，用户对虚拟个人助理说话以进行网络搜索、搜索、发送文本消息、发送、以及其他语音实现的查询和动作。随着用户持续使用虚
拟助理，越来越多的语音数据被收集并被添加至与该用户的用户简档143相关联的使用日志143中。该数据然后可被用作训练数据以将神经tts模型146训练成适配该用户的话音。
38.在一些实例中，使用日志142包括音频数据、文本数据和/或视觉数据。附加地或替换地，在一些实施例中，使用日志142包括对应于从其收集数据的特定说话者的元数据(即，属性、信息、说话者标识符等)。在一些实施例中，该元数据包括与说话者的身份相关联的属性、说话者和/或说话者的声音的特性、和/或关于在何地、何时和/或如何获得说话者数据的信息。应领会，使用日志142在一些实例中包括实时记录的语音数据、从先前存储的文件中提取的语音数据、元数据、或其组合。
39.在一些实施例中，数据库包括包含关于用户的信息的用户简档143的数据库。这些用户简档143可特定于特定说话者并且可包括与这些特定说话者相关联的特定语音属性。在一些实施例中，用户简档143包括自然语音数据141、如被包括在使用日志142中的语音数据、对应于该用户简档的用户的个性化话音144、许可数据145和/或合成语音数据147。在一些实施例中，用户简档142包括从用户简档142的用户创作的内容和/或该用户接收到的内容中收集到的文本话语148。
40.在一些实施例中，如图1所示，硬件存储设备140被配置成存储一个或多个个性化话音144的数据库。在一些实例中，个性化话音144是对应于特定说话者的语音数据(即，训练数据)的数据集，其中神经tts模型能够在个人语音数据上训练，以使该神经tts模型(例如，声码器或话音字体)被配置成以个性化话音144生成语音数据。在一些实例中，个性化话音144被配置为可被应用于系统以生成由个性化话音144表征的语音数据的数据模型。在一些实例中，个性化话音144包括与用户相关联的元数据。在一些实施例中，个性化话音144被链接到对应的许可数据(例如，元数据包括许可数据)。
41.在一些实施例中，个性化话音144进一步包括用以标识关于个性化话音的特定属性(包括母语、第二语言、用户性别、话音韵律质量、话音音质量、或其他描述性特征)的标签。在一些实例中，个性化话音包括关于音高、语调、语速、说话风格、情感描述等的特性。在其中个性化话音144的数据库被授权由特定用户使用的一些实例中，用户能够基于匹配用户用来在数据库中进行搜索的查询的标签(或其他标识符)来搜索并选择特定个性化话音144。
42.在一些实施例中，许可数据145包括与用户的自然语音数据141、使用日志142、个性化话音144、合成语音数据147和/或文本话语148相关联的用户指定的授权和/或限制。例如，用户指示在何时、在何处、和如何收集自然语音数据141、自然语音数据141被存储在何处、以及在何时、在何处和如何使用自然语音数据141。以类似方式，主用户确定计算系统和/或副用户能够用来访问和利用与该主用户相关联的数据和/或模型的参数。应领会，个性化话音144被配置成听起来接近目标说话者的自然说话话音。在一些实例中，个性化话音144由说话者的音特性来表征。附加地或，个性化话音144由说话者的韵律风格来表征。
43.在一些实施例中，计算系统可访问多个不同应用，诸如文字处理、、文档创建、文档消费、文稿校对，其中计算系统能够基于与个性化话音144相关联的许可数据145来以个性化话音144大声朗读来自这些应用的文本内容。在一些实施例中，计算系统可访问容纳在特定应用内的多个功能，其中计算系统能够根据对应的许可数据145来大声朗读用于各种功能的文本。
44.在一些实施例中，个性化话音144对应于在自然语音数据141和/或合成语音数据147上训练的神经tts模型，其中该神经tts模型被配置成以个性化话音144输出语音数据。在一些实施例中，硬件存储设备140存储神经tts模型146，该神经tts模型146被配置为是能被训练的或者被训练成将输入的文本转换成语音数据的神经网络。例如，包含一个或多个句子(例如，特定数目的机器可识别单词)的的一部分被应用于该神经tts模型，其中该模型能够识别单词或单词的一部分(例如，音素)并且被训练成产生与该音素或单词相对应的声音。
45.在一些实施例中，硬件存储设备140存储神经tts模型146，该神经tts模型146被配置为是能训练的或者被训练成将输入的文本转换成语音数据的神经网络。例如，包含一个或多个句子(例如，特定数目的机器可识别单词)的的一部分被应用于该神经tts模型，其中该模型能够识别单词或单词的一部分(例如，音素)并且被训练成产生与该音素或单词相对应的声音。
46.在一些实施例中，神经tts模型146被适配成用于特定目标说话者。例如，目标说话者数据(例如，自然语音数据141)包括音频数据，该音频数据包括从目标说话者获得和/或记录的说出的单词和/或短语。神经tts模型300的一个示例在下文参考图3更详细地描述。
47.在一些实例中，自然语音数据141被格式化为训练数据，其中神经tts模型146在目标说话者训练数据上被训练(或被预训练)，以使得神经tts模型146能够基于输入文本(例如，文本话语148)来以目标说话者的个性化话音产生语音数据。在一些实例中，文本话语148是来自语言模型的计算机生成的文本。在一些实例中，文本话语148是从诸如报纸、文章、书本和/或其他公开源等第三方源提取的。在一些实例中，文本话语148由特定用户创作。在一些实例中，文本话语148是从与特定应用(诸如媒体幻灯片放映应用、应用、日历应用、文档创建器、电子表格应用等)相关联的特定应用和/或内容内提取的。
48.在一些实施例中，神经tts模型146是独立于说话者的，这意味着该模型基于目标说话者数据集(例如，自然语音数据141和/或使用日志142)之一或其组合来产生任意语音数据。在一些实施例中，神经tts模型146是多说话者神经网络，这意味着该模型被配置成产生对应于多个分立说话者/说话者简档的语音数据。在一些实施例中，神经tts模型146是依赖于说话者的，这意味着该模型被配置成产生主要针对特定目标说话者的合成语音数据147。
49.在一些实施例中，神经tts模型146被进一步训练和/或适配成使得该模型在包括和/或基于自然语音数据141和合成语音数据147的组合的训练数据上被训练，以使得神经tts模型146被配置成以目标说话者的个性化话音产生语音数据。在一些实施例中，合成语音数据147包括来自用户的由神经tts模型146生成的个人内容，包括以该用户的个性化话音或该用户可访问的另一话音叙述的power-point幻灯片、word文档、、或者可被叙述以供用户或授权第三方在听觉上消费的其他基于文本的内容。
50.在一些实例中，用户能够从个性化话音144的数据库中选择特定个性化话音，其中神经tts模型146被配置成基于一个或多个个性化话音144来将输入文本转换成语音数据。应领会，当其他用户为他们的个性化话音创建的相关联的许可数据145允许第三方用户访问和利用对应于这些其他用户的个性化话音144时，用户能够访问和利用对应于这些其他用户的个性化话音144。
51.用于存储(诸)机器学习(ml)引擎150的附加存储单元在图1中被演示地呈现为存储多个机器学习模型和/或引擎。例如，计算系统110包括以下一者或多者：数据检索引擎151、数据汇编引擎152、授权引擎153、训练引擎154、评定/评估引擎155、实现引擎156、完善引擎157或解码引擎158，这些引擎被个别地和/或共同地配置成实现本文描述的不同功能性。
52.例如，在一些实例中，数据检索引擎151被配置成定位和访问数据检索引擎151可以从中提取要被用作训练数据的数据集或数据子集的包括一个或多个数据类型的数据源、数据库、和/或存储设备。在一些实例中，数据检索引擎151从数据库和/或硬件存储设备接收数据，其中数据检索引擎151被配置成重新格式化或以其他方式扩增接收到的数据以供被用作训练数据。附加地或替换地，数据检索引擎151与包括远程/第三方数据集和/或数据源的远程/第三方系统(例如，远程/第三方系统120)通信。在一些实例中，这些数据源包括音视频服务，该音视频服务记录要在跨说话者样式传递应用中被使用的语音、文本、图像、和/或视频。
53.在一些实施例中，数据检索引擎151访问电子内容，包括自然语音数据141、使用日志142、用户简档143、个性化话音144、许可数据145、合成语音数据147和/或文本话语148。
54.在一些实施例中，数据检索引擎151是智能引擎，该智能引擎能够学习最优数据集提取过程以及时的方式提供足量数据以及检索最适于机器学习模型/引擎将针对其被训练的期望应用的数据。例如，数据检索引擎151可以学习哪些数据库和/或数据集将生成将一模型(例如，针对特定查询或特定任务)进行训练以提高该模型在期望的自然语言理解应用中的准确性、效率和功效的训练数据。
55.在一些实例中，数据检索引擎151定位、选择和/或存储所记录的原始源数据(例如，自然语音数据)，其中数据检索引擎151与计算系统110中包括的一个或多个其他ml引擎和/或模型(例如，数据汇编引擎152、授权引擎153、训练引擎154等)通信。在此类实例中，与数据检索引擎151通信的其他引擎能够接收已经从一个或多个数据源检索(即，提取、拉取等)的数据，以使得接收到的数据被进一步扩增和/或应用于下游过程。例如，在一些实施例中，数据检索引擎151与数据汇编引擎152通信。
56.在一些实施例中，数据汇编引擎152被配置成用于汇编数据类型并将原始数据配置为可用于训练本文描述的任一机器学习模型的训练数据。汇编模型有益地聚集数据以促进模型训练的效率和准确性的提升。在一些实施例中，汇编引擎152被配置成接收说话者数据(例如，自然语音数据141)并且将原始说话者数据转换成波形数据。
57.在一些实施例中，汇编引擎152被配置成选择、过滤和汇编来自包括第三方系统120的多个源的数据。在一些实施例中，汇编引擎152负责随时间聚集数据并将关于用户的数据汇编成特定使用日志142。另外，汇编引擎152被配置成收集并存储包括关于使用日志142中的语音数据的相关信息的元数据。
58.在一些实施例中，ml引擎存储150包括授权引擎153，其被配置成管理许可数据(例如，许可数据145)并促成对使用原始数据(例如，自然语音数据)和/或对应的数据模型(诸如个性化话音144)的授权或限制。在一些实例中，授权引擎153被配置成授权或限制从用户收集自然语音数据141，其中授权引擎153被进一步配置成验证正从其收集数据的用户的身份以确保数据隶属于正确的用户简档。一些实施例中，授权引擎153被配置成促成针对特定
用户请求和/或在某些应用内的对个性化话音144的使用。
59.在一些实施例中，评定引擎155与数据检索引擎151、汇编引擎152或授权引擎153中的一者或多者通信。在此类联网实施例中，评定引擎155被专门配置成评定和评估计算系统功能和对应方法的数据和处理步骤。例如，评定引擎151在一些实例中被配置成确保经由预设文本话语直接记录和/或经由使用日志142收集的自然语音数据151满足或超过预定音频数据质量阈值。附加地或替代地，评定引擎155被配置成相较于神经tts模型146在其上训练的自然语音数据141来评估由神经tts模型146生成的合成语音数据147。
60.在一些实施例中，训练引擎154与数据检索引擎151、汇编引擎152或评定引擎155中的一者或多者通信。在此类实施例中，训练引擎154被配置成从数据检索引擎151、数据汇编引擎152和/或授权引擎153接收一个或多个训练数据集。在接收到与特定应用或任务相关的训练数据之后，训练引擎154在该训练数据上针对特定的自然语言理解应用、语音识别应用、语音生成应用、和/或个性化话音应用来训练一个或多个模型。在一些实施例中，训练引擎154被配置成经由无监督训练或有监督训练来训练模型。
61.在一些实施例中，基于由授权引擎153访问的许可数据145，训练引擎154能够适配训练过程和方法，以使得训练过程产生被配置成生成反映用户指定的数据隐私参数的专用训练数据的经训练模型。在一些实施例中，授权引擎153还使得用户能够删除与该用户的简档相关联的数据，包括自然语音数据、合成数据、使用日志和/或该用户的个性化话音。在响应于接收到删除请求而删除该用户的任何或全部简档数据之前，在一些实例中系统将基于确认与该请求一起接收到的用户认证信息来验证该删除请求来自实际用户。在一些实例中，在授权未得到验证的情况下，系统将不删除任何用户简档数据。在一些实例中，该系统还将在使用用户的任何个性化话音数据之前验证授权被做出/准予或先前被存储在许可数据145中以此方式，训练引擎154防止非授权用户使用另一用户的个性化话音或相关联的数据来训练模型。
62.在一些实施例中，训练引擎154被配置成通过训练数据(例如，自然语音数据141)来训练模型(例如，神经tts模型146，同样参见图3的模型300)，以使得机器学习模型被配置成如根据本文所描述的各实施例那样从任意文本生成语音。在一些实施例中，训练引擎154被配置成使该系统被配置成使用个性化音频来训练个性化语音识别系统以提高语音识别的准确率。
63.在一些实施例中，计算系统110包括完善引擎157。在一些实例中，完善引擎157与训练引擎通信。完善引擎157被配置成通过以下操作来完善神经tts模型(例如，神经tts模型146)：使用由经预训练的神经tts模型生成的自然语音数据141和合成语音数据147来使得模型组件(或子模型)适配目标说话者。
64.在一些实施例中，完善引擎157被配置成通过采用编码器和解码器之间的反馈环路来完善神经tts模型146的编码器/解码器网络。神经tts模型146接着通过迭代地最小化将输入文本转变成语音数据以及将语音数据转变回文本数据所带来的重构损耗来被训练和完善。在一些实施例中，完善引擎157还被配置成完善和/或优化计算系统110中包括的机器学习引擎/模型中的任一者或组合以促进该引擎/模型的效率、功效、以及准确性的提升。在一些实施例中，完善引擎157利用来自语音评估260和/或语音评定230(参见图2)的数据输出来确保合成语音数据147紧密地匹配特定用户的个性化话音144的对应自然语音数据
141。
65.在一些实施例中，计算系统110包括被配置成编码和解码数据的解码引擎158(或编码-解码引擎)。一般来说，解码器是从编码器取得特征图、向量、和/或张量并且生成与预期输入的最佳匹配的神经网络。在一些实施例中，编码/解码引擎158被配置成对输入到神经tts模型146的文本进行编码并且解码该编码以将输入文本转换成梅尔频谱。(参见图3)。在一些实施例中，编码/解码引擎158被配置成对参考音频进行编码以作为梅尔频谱生成过程的一部分。(参见图4)。
66.在一些实施例中，计算系统110包括实现引擎156，实现引擎156与计算系统110中包括的模型和/或ml引擎150中的任一者(或全部模型/引擎)通信，以使得实现引擎156被配置成实现、发起、或运行多个ml引擎150的一个或多个功能。在一个示例中，实现引擎156被配置成运行数据检索引擎151，以使得数据检索引擎151在恰适的时间检索能够生成用于训练引擎154的训练数据的数据。
67.在一些实施例中，实现引擎156促进ml引擎150中的一者或多者之间的通信过程和通信定时。在一些实施例中，实现引擎156被配置成实现声音转换模型以生成频谱图数据。附加地或替换地，实现引擎156被配置成通过经由神经tts模型146将输入文本(例如，文本话语148)转换成语音数据(例如，合成语音数据147)来执行自然语言理解任务。
68.在一些实施例中，计算系统与包括一个或多个处理器122以及一个或多个计算机可执行指令124的远程/第三方系统120通信。在一些实例中，可以预期远程/第三方系统120进一步包括容纳能够被用作训练数据(例如，外部说话者数据)的数据库。附加地或替换地，远程/第三方系统120包括在计算系统110外部的机器学习系统。在一些实施例中，远程/第三方系统120是软件程序或应用。
69.现在将注意力转向图2，图2例示了训练机器学习模型以生成针对目标说话者的个性化语音数据的过程流图的一个实施例。如该附图中示出的，应用客户端210与应用服务220通信。应用服务220与语音评定230、话音训练服务240和tts服务250通信。话音训练服务240与语音评估260和个性化存储270通信。tts服务150也与个性化存储270通信。应领会，语音评定230、话音训练服务240、tts服务250、语音评估260和个性化270被容纳在遵循azure speech的“看不见(eyes-off)”系统中，其中人类用户看不到或不可访问在该遵循的系统内的不同服务之间共享的数据。以此方式，用户数据是受保护的并且对第三方用户和/或应用保持私密，除非用户和/或应用已获得来自用户的必要许可。
70.在一些实施例中，应用客户端210是以下一者或多者：microsoft office应用(诸如word、powerpoint、excel、m365和/或outlook)、第三方应用、启用语音的设备、语音记录器、文本生成器和/或包括可通过文本转语音技术创建和/或消费的内容的其他应用。在一些实施例中，应用服务220是可以在应用客户端210内访问的功能。例如，媒体幻灯片放映生成器包括用以创建和/或共享包括自动生成的叙述的幻灯片的功能。在一些实例中，用户可能希望叙述用该用户自己的话音，而不必手动记录幻灯片中包括的每个文本话语。
71.用户可经由话音训练服务240(例如，训练引擎154)来生成个性化话音，话音训练服务240能够使用本文描述的方法用对应于该用户的语音数据来训练神经tts机器学习模型。在一些实施例中，话音训练服务240收集和汇编用于针对用户的个性化话音的数据模型。在话音训练服务240将用户语音数据的各部分包括到数据模型中之前，语音数据经由语
音评定服务230来评定。语音评定服务230被配置成评定语音数据的质量是否满足或超过预定质量阈值。
72.在tts服务250在个性化话音数据模型上被训练后，tts服务250能够基于从应用服务220和/或应用客户端210接收到的文本话语来以个性化话音生成语音数据。tts服务250在一些实例中在用户输入或以其他方式提供文本话语时实时地执行语音数据生成。在一些实例中，tts服务250接收供转换成语音数据的批量文本话语。
73.在个性化后，由tts服务250生成合成语音数据，语音数据通过话音训练服务240被中继至语音或mos评估服务，其中合成语音数据被与来自用户的原始的自然语音数据相比较。在确定合成语音数据不匹配原始的自然语音数据之际，在一些实例中话音训练服务240收集更多语音数据以进一步训练tts服务250。
74.在一些实施例中，一旦合成语音满足或超过通过将该合成语音与自然语音相比较来确定的质量阈值，话音训练服务240就输出个性化话音144以供存储在个性化存储270中。个性化存储270被配置成存储多个个性化话音144，每个个性化话音对应于特定用户并与用户确定的许可设置相关联。
75.系统200适用于其中的其他应用包括生产力场景，诸如以发送者的话音大声朗读、网页、word文档、大声朗读以便对文档进行文稿校对、以及朗读从不同语言翻译而来的文本，以上所有生产力场景都在维护用户数据隐私的同时进行。另外，在一些应用中，用户利用存储在个性化存储270中的该用户自己的个性化话音来生成音频和/或视听内容。
76.现在将注意力转向图3，图3例示的可被训练的tts机器学习模型的一个示例是包括文本编码器320和解码器340的神经tts模型300。在一些实例中，注意330被该模型用来在该模型的各层引导并告知编码-解码过程。神经tts模型300能够以梅尔频谱或其他频谱生成输出(例如，语音波形数据)，以使得所生成的输出是基于输入文本310的语音数据。梅尔频谱350(即，合成语音数据)由特定用户的个性化话音来表征。
77.现在参考图4，图4例示了话音模型的示例文本到语音组件的一个实施例。例如，tts模块400被示为具有编码器-解码器网络(例如，被配置成对音素数据432进行编码的变换器编码器430以及被配置成解码由多个编码器输出的经编码数据的解码器460)，该编码器-解码器网络具有注意层440。文本到语音模块400被配置成接收多种数据类型，包括来自源说话者的参考音频412(例如，自然语音数据141)以及对应于目标说话者的说话者id。使用说话者id和/或参考音频410来验证说话者的身份。在一些实施例中，计算系统能够使用说话者查表(lut)来标识特定目标说话者，该说话者lut被配置成存储对应于多个目标说话者的多个说话者id以及相关联的目标说话者数据(包括目标说话者梅尔频谱数据)。
78.在一些实施例中，说话者验证系统410被配置成从在参考音频412中检测到的语音中提取一个或多个特征向量。所提取的(诸)特征被与先前存储的对应于特定说话者的特征相比较，其中每个说话者具有该计算系统可用来标识该说话者并验证其身份的至少一个独特特征。特征向量是在多维空间中表示的，以使得每个向量都是不同说话者。说话者验证412然后获得对所提取的特征向量的说话者嵌入并在编码-解码过程期间对该说话者嵌入进行编码。
79.在一些实施例中，说话者验证410还被配置成接收其他类型的标识信息，包括生物
辨识数据、授权令牌或口令，系统将该标识信息与先前存储的标识信息(本地的和/或来自远程认证系统)进行比较。该验证步骤确保参考音频412对应于正确用户并且该系统的用户具有在训练和语音数据生成过程中使用该参考音频412的许可。
80.系统400还被配置成经由语言环境嵌入420来接收语言环境id 422。语言环境id 422被配置为标识要在tts过程期间编码哪个语言构造(例如，英语、西班牙语等)的语言向量。另外，系统400被配置成经由变换器编码器430来接收音素数据432(例如，音素)。音素表示将从中生成语音数据的文本。
81.基于图4所示的输入，tts模块400能够基于从参考音频41和说话者嵌入442获得的数据来生成由个性化话音表征的频谱图数据(例如，梅尔频谱数据462)。在一些实施例中，频谱图数据基于从目标说话者数据中提取的数据(例如，音素数据、音高轮廓和/或能量轮廓)由目标说话者的韵律风格来表征。
82.在一些实施例中，tts模块400被配置成将来自目标说话者(例如，源说话者)的第一语言的语音数据转换成第二语言的语音，同时以目标说话者的个性化话音维持相同的声学特征。换言之，经转换的语音模仿目标说话者的话音，但包括母语为第二语言的发音。语言经由语言环境id 422以及表示第一语言的语言环境嵌入422和表示第二语言的语言环境嵌入444来标识。
83.在一些实施例中，其中tts模块400在特定说话者的声音(例如，说话者的话音的声学特征)以及该特定说话者的典型语音内容(例如，音素信息、单词序列、词汇、其他语言信息)上训练。在此类实例中，说话者的个性化话音144指的是语音数据的声学质量以及说话者的语言选择。由此，在一些实施例中，输入文本(例如，文本话语148)被施加到神经tts模块，其中tts模块400被配置成基于初始输入文本来将第一语言的语音数据转换成说话者的个性化语言(例如，典型的单词选择、单词排序、方言转换等)，其中经转换/经编辑的文本话语维持目标说话者的个性化话音144的相同声学特征。例如，在一些实施例中，神经tts模块400识别原始文本话语中包括的问候语并用对该特定说话者更典型的问候语来替换该问候语。在编辑文本话语后，经编辑的文本话语然后由神经tts模块400以该说话者的个性化话音144“大声说出”。
84.注意力现在转向图5，图5例示了包括与各示例性方法相关联的各种动作(动作510、动作520、动作530、动作540、动作550a、动作550b、动作550c、动作560a、动作560b、动作560c)的流程图500，这些动作可由计算系统110实现以获得训练数据并训练机器学习模型以用于文本到语音数据生成，诸如举例而言通过以个性化话音将文本变换成语音数据。
85.所例示的第一动作包括通过至少验证第一训练数据集对应于特定用户简档来验证对使用该第一训练数据集来训练训练tts机器学习模型(例如，神经tts模型146和/或神经tts模型300)的授权的动作(动作530)。随后，计算系统用第一训练数据集来训练被配置成以个性化话音生成音频的tts机器学习模型，以使得该tts机器学习模型被训练成以对应于特定用户简档的个性化话音(例如，个性化话音144)生成音频(动作540)。
86.在一些实例中，使用在第一训练数据集上训练的tts机器学习系统来用该tts机器学习模型的个性化话音生成合成语音数据(例如，合成语音数据147)(动作550a)。另外，在一些实例中，获得包括由tts机器学习模型生成的个性化合成语音的第二训练数据集(动作550b)。此后，通过在第二训练数据集上训练tts机器学习模型来完善该tts机器学习(动作
550c)。
87.附加地或替代地，在第一训练数据集上训练tts机器学习模型后，计算系统标识从其获得输入文本(例如，文本话语148)的源(动作560a)。将该输入文本施加到tts机器学习模型(动作560b)并且基于该输入文本来生成语音数据(动作560c)。语音数据由个性化话音来表征。
88.参照图5中描述的动作，将领会这些动作能够按与流程图500中显式地示出的排序不同的排序执行。例如，虽然动作510和520可以彼此并行执行，但在一些替代实施例中，动作210和220依次执行。此外，在一些实施例中，动作560a、560b和560c在动作550c之后依次进行。替代地，动作550a、550b和550c与动作560a、560b和560c并行执行。
89.还将领会，生成tts语音数据的动作可由执行上述动作(例如，动作510-560c)的同一计算机设备来进行，或替代地由同一分布式系统中的一个或多个不同计算机设备来进行。。
90.现在将注意力转向图6，图6例示了也可由计算系统110实现并且可被执行以作为获得第一训练数据集的上述动作(动作610)的一部分的各种动作(动作620、动作630、动作640、动作650、动作660)的示图600。例如，所提及的一种用于获得第一训练数据集的技术包括获得通过用户朗读预设文本话语来记录的初始自然语音数据集的动作(动作620)。在一些实例中，在获得初始自然语音数据集后，计算系统在使用所获得的数据来构建个性化话音和/或用该数据来训练/完善任何模型之前确认从其获得该初始自然语音数据集的用户的身份以确保该用户对应于特定用户简档(动作640)。在一些实施例中，对该初始自然语音数据集的获得(即，实时记录动态语句)也表明用户同意后续通过该记录来构建个性化话音。
91.与获得第一训练数据集相关联的另一动作包括从对应于该用户的使用日志(例如，使用日志142)获得第二自然语音数据集(动作630)。在一些实施例中，动作630与动作620并行(如所示)执行或依次(例如，在动作620之前或之后)执行。随后，计算系统验证自然语音数据满足或超过预定阈值(动作650)。在一些实例中，在确定初始自然语音数据集未满足或未超过预定阈值之际，生成对用户重新记录预设文本话语(例如，文本话语148)的请求。
92.现在将注意力转向图7，图7例示了包括各种附加动作(动作720、动作730、动作740和动作750)的示图700，这些附加动作类似于图6的相关联的动作630，与所提及的从使用日志获得第二自然语音数据集的动作(动作710)相关联并且可由计算系统110的组件来实现。
93.如图7所示，与动作710相关联的动作包括以下动作：通过聚集在预定时间量内从被用户授权收集和共享自然语音数据的一个或多个应用收集的自然语音数据(例如，自然语音数据141)来汇编使用日志(例如，使用日志143)(动作720)以及标识该使用日志中的一个或多个说话者(动作730)以及来自该一个或多个说话者的特定说话者(动作740)。值得注意的是，该特定说话者对应于特定用户简档(例如，用户简档143)。随后，从该使用日志中所标识的特定说话者获得要被包括在第二自然语音数据集中的自然语音数据(动作750)。
94.现在将注意力转向图8，图8例示了与标识从其获得输入文本的源的动作(动作810)以及可以在标识从其获得输入文本的源(动作810)时执行的对应附加动作(动作820和830)相关联的示图800。例如，这些附加动作包括以下动作：获得从被对应于个性化话音(例
如，个性化话音144)的用户授权的源获得的输入文本(例如，文本话语148)(动作820)以及附加地或替代地，从第三方(例如，第三方系统120和/或对应于用户简档143的用户)创作的源获得该输入文本，其中对应于个性化话音的用户已授权将从由第三方创作的源获得的输入文本用于使用个性化话音来生成语音数据(动作830)。
95.现在将注意力转向图9，图9例示了包括各种动作(动作910、动作920、动作930、动作940和动作950)的流程图900，这些动作与用于授权或限制使用个性化话音来生成tts语音数据的请求的示例性方法相关联并且可由计算系统(诸如以上参照图1描述的计算系统110)实现。
96.所例示的第一个动作包括计算系统(例如，计算系统110)接收使用个性化话音(例如，个性化话音144)来生成文本到语音数据(例如，合成语音数据147)的用户请求的动作(动作910)。在接收到该请求之前或之后，计算系统访问与个性化话音相关联的许可数据(例如，许可数据145)，该许可数据包括对使用该个性化话音的用户指定的授权(动作920)。应领会，动作910和920也可并行执行(如所示)或者如先前提到的，这些动作可以彼此依次执行。
97.该许可数据授权或限制如所请求的对个性化话音的使用(动作930)。在确定许可数据授权如所请求的对个性化话音的使用之际，计算系统使用该个性化话音来生成文本到语音数据，或者替代地，在确定该许可数据限制如所请求的对个性化话音的使用之际，计算系统抑制使用该个性化话音来生成文本到语音数据，除非接收到授权对该个性化话音的使用的后续许可数据(动作940)。
98.流程图900还包括以下动作：在确定许可数据限制如所请求的对个性化话音的使用之际，计算机系统为对应于该个性化话音的用户生成已做出使用该个性化话音的被限制请求的通知(动作950)。
99.现在将注意力转向图10，图10包括标识与图9的动作920相对应的用于访问与个性化话音相关联的许可数据的动作(动作1010)以及可以在实现动作1010时执行的一个附加动作的示图1000。如所述，该附加动作包括：在确定许可数据授权或限制对个性化话音的使用(动作930)之前确定对使用个性化话音的用户指定的授权包括基于特定tts场景、应用、应用内的特定功能和/或用于生成语音数据的文本内容的授权(动作1020)。
100.现在将注意力转向图11，图11例示了包括与用于训练机器学习模型以用于自然语言理解任务的各种方法相关联的各种动作(动作1110、动作1120、动作1130、动作1140、动作1150、动作1160和/或动作1170)(例如，授权使用被配置成训练神经tts模型以便以个性化话音生成tts数据的训练数据)的流程图1100，这些动作可由计算系统110实现。
101.首先例示的动作包括获得包括自然语音数据(例如，自然语音数据141)的第一训练数据集的动作(动作1110)以及标识特定用户简档(例如，用户简档143)的动作(动作1120)。下一动作包括计算系统然后通过至少验证第一训练数据集对应于该特定用户简档来验证对使用第一训练数据集来训练tts机器学习模型的授权(动作1130)。
102.在一些实施例中，通过确认从其获得初始自然语音数据集的用户的身份以确保该用户对应于该特定用户简档来验证授权(动作1140)。在一些实例中，计算系统通过从用户收集生物辨识数据并将收集到的生物辨识数据与所存储的对应于该特定用户简档的生物辨识数据进行比较来确认该用户的身份(动作1150)。
103.附加地或替代地，在一些实施例中，计算系统通过向用户请求包括口令和/或安全令牌的一个或多个用户凭证并将所请求的一个或多个用户凭证与所存储的对应于该特定用户简档的用户凭证相比较来确认该用户的身份(动作1160)。在动作1130后，用第一训练数据集来训练该tts机器学习模型，该模型被配置成以个性化话音生成音频。例如，tts机器学习模型被训练成以对应于特定用户简档的个性化话音生成音频(动作1170)。
104.鉴于上文，将领会所公开的实施例提供了胜过用于生成被配置成训练机器学习模型以用于专门以个性化话音生成文本到语音数据的机器学习训练数据的常规系统和方法的许多技术优势。在一些实例中，文本到语音生成消除了对以下操作的需求：记录来自目标说话者的巨量数据以构建针对目标说话者的准确的个性化话音。此外，提供了一种用于以高效且快速的方式生成频谱图数据和对应的文本到语音数据的系统。这与只使用目标说话者数据的常系统(其中难以产生大量训练数据)形成对比。
105.在一些实例中，所公开的实施例提供了胜过用于训练机器学习模型以执行文本到语音数据生成的常规系统和方法的技术优势。例如，通过经由本文描述的方法来训练tts模型，tts模型能够被快速训练以便以目标说话者的个性化话音产生语音数据。此外，该方法增加了先前由于数据隐私控制和身份验证而不可访问的自然语音数据的源的可用性和对该源的访问。
106.本发明的各实施例可以包括或利用包括计算机硬件的专用或通用计算机(例如，计算系统110)，这将在以下做出进一步讨论。本发明范围内的各实施例还包括用于携带或存储计算机可执行指令和/或数据结构的物理介质和其他计算机可读介质。这些计算机可读介质可以是通用或专用计算机系统能够访问的任何可用介质。存储计算机可执行指令(例如，图1的组件118)的计算机可读介质(例如，图1的存储140)是排除传输介质的物理硬件存储介质/设备。在一个或多个载波中携带计算机可执行指令的计算机可读介质是传输介质。由此，作为示例而非限制，本发明的各实施例可包括至少两种完全不同类型的计算机可读介质：物理计算机可读存储介质/设备以及传输计算机可读介质。
107.物理计算机存储介质/设备是硬件并且包括ram、rom、eeprom、cd-rom或其他光盘存储(诸如cd、dvd等)、磁盘存储或其他磁存储设备、或可用于存储计算机可执行指令或数据结构形式的所需程序代码装置且可由通用或专用计算机访问的任何其他硬件。
[0108]“网络”(例如，图1的网络130)被定义为允许在计算机系统和/或模块和/或其他电子设备之间传输电子数据的一个或多个数据链路。当信息通过网络或另一个通信连接(硬连线、无线、或者硬连线或无线的组合)传输或提供给计算机时，该计算机将该连接适当地视为传输介质。传输介质可包括可用于携带计算机可执行指令或数据结构形式的所需程序代码装置且可由通用或专用计算机访问的网络和/或数据链路。以上介质的组合也被包括在计算机可读介质的范围内。
[0109]
此外，在到达各种计算机系统组件之后，计算机可执行指令或数据结构形式的程序代码装置可从传输计算机可读介质自动转移到物理计算机可读存储介质(或者相反)。例如，通过网络或数据链路接收到的计算机可执行指令或数据结构可被缓存在网络接口模块(例如，“nic”)内的ram中，并且然后最终被传送到计算机系统ram和/或计算机系统处的较不易失的计算机可读物理存储介质。因此，计算机可读物理存储介质可被包括在同样(或甚至主要)利用传输介质的计算机系统组件中。
[0110]
计算机可执行指令包括，例如使通用计算机、专用计算机、或专用处理设备执行某一功能或某组功能的指令和数据。计算机可执行指令可以是例如二进制代码、诸如汇编语言之类的中间格式指令、或甚至源代码。尽管用结构特征和/或方法动作专用的语言描述了本主题，但可以理解，所附权利要求书中定义的主题不必限于上述特征或动作。相反，上述特征和动作是作为实现权利要求的示例形式而公开的。
[0111]
本领域的技术人员将理解，本发明可以在具有许多类型的计算机系统配置的网络计算环境中实践，这些计算机系统配置包括个人计算机、台式计算机、膝上型计算机、消息处理器、手持式设备、多处理器系统、基于微处理器的或可编程消费电子设备、网络pc、小型计算机、大型计算机、移动电话、pda、寻呼机、路由器、交换机等等。本发明也可在其中通过网络链接(或者通过硬连线数据链路、无线数据链路，或者通过硬连线和无线数据链路的组合)的本地和远程计算机系统两者都执行任务的分布式系统环境中实施。在分布式系统环境中，程序模块可以位于本地和远程存储器存储设备二者中。
[0112]
替换地或附加地，本文中所描述的功能性可以至少部分地由一个或多个硬件逻辑组件来执行。例如、但非限制，可使用的硬件逻辑组件的说明性类型包括现场可编程门阵列(fpga)、程序专用的集成电路(asic)、程序专用的标准产品(assp)、片上系统系统(soc)、复杂可编程逻辑器件(cpld)、等等。
[0113]
本发明可以不背离其本质特征的情况下体现为其他具体形式。所描述的实施例在所有方面都应被认为仅是说明性而非限制性的。因此，本发明的范围由所附权利要求书而非前述描述指示。落入权利要求书的等效方案的含义和范围内的所有改变都被权利要求书的范围所涵盖。

技术特征：

1.一种用于训练被配置成以个性化话音生成语音数据的文本到语音(tts)机器学习模型的计算机实现的方法，所述方法由包括至少一个硬件处理器的计算系统实现，并且所述方法包括：所述计算系统获得包括自然语音数据的第一训练数据集；所述计算系统标识特定用户简档；所述计算系统通过至少验证所述第一训练数据集对应于所述特定用户简档来验证对使用所述第一训练数据集来训练所述tts机器学习模型的授权；以及所述计算系统用所述第一训练数据集来训练被配置成以所述个性化话音生成音频的所述tts机器学习模型，以使得所述tts机器学习模型被训练成以对应于所述特定用户简档的所述个性化话音生成音频。2.如权利要求1所述的方法，其中获得所述第一训练数据集进一步包括：获得通过用户朗读预设文本话语来记录的初始自然语音数据集；以及从对应于所述用户的使用日志获得第二自然语音数据集，所述第一训练数据集包括所述初始自然语音数据集和所述第二自然语音数据集。3.如权利要求2所述的方法，其中验证授权包括所述计算系统确认从其获得所述初始自然语音数据集的用户的身份以确保所述用户对应于所述特定用户简档。4.如权利要求2所述的方法，所述使用日志通过以下操作来汇编：对在预定时间量内从被所述用户授权收集并共享自然语音数据的一个或多个应用收集的自然语音数据进行聚集。5.如权利要求4所述的方法，进一步包括：所述计算系统标识所述使用日志中包括的一个或多个说话者；所述计算系统标识来自所述一个或多个说话者的特定说话者，所述特定说话者对应于所述特定用户简档；以及所述计算系统从所述特定说话者获得要被包括在所述第二自然语音数据集中的自然语音数据。6.如权利要求2所述的方法，进一步包括：在获得所述初始自然语音数据集和所述第二自然语音数据集后，所述计算系统验证所述自然语音数据满足或超过预定质量阈值；以及所述计算系统过滤所述自然语音数据以使得所述第一训练数据集只包括满足或超过所述预定质量阈值的自然语音数据。7.如权利要求6所述的方法，进一步包括：在确定所述初始自然语音数据集未满足或未超过所述预定质量阈值之际，所述计算系统生成对所述用户重新记录所述预设文本话语的请求。8.如权利要求1所述的方法，进一步包括：所述计算系统使用在所述第一训练数据集上训练的所述tts机器学习模型来用所述tts机器学习模型的所述个性化话音生成合成语音；所述计算系统获得包括由所述tts机器学习模型生成的个性化合成语音的第二训练数据集；以及所述计算系统通过在所述第二训练数据集上训练所述tts机器学习模型来完善所述
tts机器学习模型。9.如权利要求1所述的方法，进一步包括：所述计算系统标识从其获得输入文本的源；所述计算系统将所述输入文本施加至所述tts机器学习模型；以及所述计算系统基于所述输入文本来生成语音数据，所述语音数据由所述个性化话音来表征。10.如权利要求9所述的方法，所述输入文本是从由对应于所述个性化话音的用户创作的源获得的。11.如权利要求9所述的方法，所述输入文本是从由第三方创作的源获得的，其中对应于所述个性化话音的用户已授权将从由所述第三方创作的源获得的输入文本用于使用所述个性化话音来生成语音数据。12.如权利要求1所述的方法，进一步包括：在多个训练数据集上训练所述tts机器学习模型，其中每一训练数据集对应于独特的个性化话音，以使得所述tts机器学习模型被配置成以一个或多个独特的个性化话音输出语音数据。13.一种用于使用文本到语音(tts)机器学习模型来以个性化话音生成tts数据的计算机实现的方法，所述方法由包括至少一个硬件处理器的计算系统实现，并且所述方法包括：所述计算系统接收使用所述个性化话音来生成文本到语音数据的用户请求；所述计算系统访问与所述个性化话音相关联的许可数据，所述许可数据包括对使用所述个性化话音的用户指定的授权；所述计算系统确定所述许可数据授权或限制如所请求的对所述个性化话音的使用；以及在确定所述许可数据授权如所请求的对所述个性化话音的使用之际，所述计算系统使用所述个性化话音来生成文本到语音数据，或者替代地，在确定所述许可数据限制如所请求的对所述个性化话音的使用之际，所述计算系统抑制使用所述个性化话音来生成文本到语音数据，除非接收到授权对所述个性化话音的使用的后续许可数据。14.如权利要求13所述的方法，进一步包括：在确定所述许可数据限制如所请求的对所述个性化话音的使用之际，所述计算机系统为对应于所述个性化话音的用户生成已做出使用所述个性化话音的被限制请求的通知。15.如权利要求13所述的方法，其中对使用所述个性化话音的用户指定的授权包括基于特定tts场景、应用、应用内的特定功能、和/或用于生成语音数据的文本内容的授权。16.如权利要求13所述的方法，其中所述tts机器学习模型被配置成将作为对所述tts机器学习模型的输入而被包括的用第一语言书写的文本翻译成用第二语言书写的文本，所述tts机器学习模型被配置成使用来自被翻译成所述第二语言的文本的个性化话音来生成语音数据。17.一种被配置成生成针对特定用户简档的个性化话音的计算系统，其中所述计算系统包括：一个或多个处理器；以及存储计算机可执行指令的一个或多个计算机可读硬件存储设备，所述计算机可执行指
令被构造成由所述一个或多个处理器执行以使得所述计算系统至少：标识包括自然语音音频数据的第一训练数据集；标识特定用户简档；通过至少验证所述第一训练数据集对应于所述特定用户简档来验证对使用所述第一训练数据集来训练所述tts机器学习模型的授权；以及用所述第一训练数据集来训练被配置成以所述个性化话音生成音频的tts机器学习模型，以使得所述tts机器学习模型被训练成以对应于所述特定用户简档的所述个性化话音生成音频。18.如权利要求17所述的计算系统，所述计算机可执行指令能由所述一个或多个处理器执行以进一步使得所述计算系统通过确认从其获得初始自然语音数据集的用户的身份以确保所述用户对应于所述特定用户简档来验证授权。19.如权利要求18所述的计算系统，其中确认从其获得所述初始自然语音数据集的用户的身份以确保所述用户对应于所述特定用户简档进一步包括通过从所述用户收集生物辨识数据并将收集到的生物辨识数据与所存储的对应于所述特定用户简档的生物辨识数据进行比较来确认所述用户的身份。20.如权利要求18所述的计算系统，其中确认从其获得所述初始自然语音数据集的用户的身份以确保所述用户对应于所述特定用户简档进一步包括通过向所述用户请求包括口令和/或安全令牌的一个或多个用户凭证并将所请求的一个或多个用户凭证与所存储的对应于所述特定用户简档的用户凭证相比较来确认所述用户的身份。

技术总结

系统被配置成通过以下操作来以个性化话音生成文本到语音数据：在从特定用户收集的自然语音数据上训练文本到语音机器学习模型，确认从其收集数据的用户的身份，以及授权来自用户的使用个性化话音来生成新语音数据的请求。系统被进一步配置成用所生成的个性化语音数据来将机器学习模型训练为神经文本到语音模型。型。型。

技术研发人员：

赵晟 L

受保护的技术使用者：

微软技术许可有限责任公司

技术研发日：

2020.11.03

技术公布日：

2022/8/22

本文发布于:2024-09-21 12:37:59，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/1/26703.html

上一篇：一种车载语音识别性能的调试测试系统及方法与流程

下一篇：一种便于安装的照明组的制作方法

标签：数据语音话音所述

留言与评论（共有 0 条评论）