用无序实体训练端到端口语理解系统的制作方法

1.本技术总体涉及计算机和计算机应用、口语理解、编码器、解码器、注意力模型、语音识别，尤其涉及口语理解系统中无序实体的训练。

背景技术：

2.口语理解(slu)系统传统上是自动语音识别(asr)系统与自然语言理解(nlu)系统的级联，前者将语音转换为文本，后者随后解释文本的含义。一般来说，asr和此类传统slu系统使用逐字转录(verbatim transcripts)进行训练。缺点在于在逐字转录中准确转录每个单词的成本。

技术实现要素：

3.给出本公开的提要是为了帮助理解在端到端的口语理解系统中用不一定按实体在语音中说出的顺序给出的实体进行训练的计算机系统和方法，而无意限制本公开或本发明。应当理解，本公开的各个方面和特征可以在某些情况下可以有益地单独使用，或在其它情况下与本公开的各个方面和特征结合使用。因此，可以对计算机系统和/或其操作方法进行变化和修改，以实现不同的效果。
4.一方面，一种计算机实现的方法可包括接收语音和与所述语音相关联的含义表示对，其中，所述含义表示至少包括与所述语音相关联的语义实体，并且其中，所述语义实体的说出顺序(spoken order)不一定是已知的，例如是未知的。该方法还可包括使用对准技术将所述语义实体重新排序成所述语音的说出顺序。该方法还可包括使用语音和具有重新排序后的语义实体的含义表示对来训练口语理解机器学习模型。
5.另一方面，一种计算机实现的方法可包括接收语音和与所述语音相关联的含义表示对，其中，所述含义表示至少包括与所述语音相关联的语义实体，并且其中，所述语义实体的说出顺序不一定是已知的，例如是未知的。该方法还可包括使用对准技术将所述语义实体重新排序成所述语音的说出顺序，其中，所述对准技术包括与混合语音识别模型一起使用的声学关键词识别。该方法还可包括使用语音和具有重新排序后的语义实体的含义表示对具有重新排序后的语义实体的所述语音和含义表示对来训练口语理解机器学习模型。
6.另一方面，一种计算机实现的方法可包括接收语音和与所述语音相关联的含义表示对，其中，所述含义表示至少包括与所述语音相关联的语义实体，并且其中，所述语义实体的说出顺序不一定是已知的，例如是未知的。该方法还可包括使用对准技术将所述语义实体重新排序成所述语音的说出顺序，其中，所述对准技术包括使用从注意力模型导出的时间标记。该方法还可包括使用语音和具有重新排序后的语义实体的含义表示对来训练口语理解机器学习模型。
7.另一方面，一种计算机实现的方法可包括接收语音和与所述语音相关联的含义表示对，其中，所述含义表示至少包括与所述语音相关联的语义实体，并且其中，所述语义实体的说出顺序不一定是已知的，例如是未知的。该方法还可包括使用对准技术将所述语义
实体重新排序成所述语音的说出顺序。该方法还可包括使用语音和具有重新排序后的语义实体的含义表示对来训练口语理解机器学习模型。该方法还可包括扩充所接收的语音和含义表示对，以包括所述语义实体的随机顺序序列变体。口语理解机器学习模型的训练可包括使用扩充后的语音和含义表示对，对口语理解机器学习模型进行预训练，以及使用重新排序的语义实体，对经过预训练的口语理解机器学习模型进行训练。
8.一方面，一种计算机实现的方法可包括接收语音和与所述语音相关联的含义表示对，其中，所述含义表示至少包括与所述语音相关联的语义实体，并且其中，所述语义实体的说出顺序不一定是已知的，例如是未知的。该方法还可包括使用对准技术将所述语义实体重新排序成所述语音的说出顺序。该方法还可包括使用语音和具有重新排序后的语义实体的含义表示对来训练口语理解机器学习模型。包括向经过训练的口语理解机器学习模型输入给定语音，其中，经过训练的口语理解机器学习模型输出包括与所述给定语音相关联的意向标签和语义实体的集合预测。
9.另一方面，一种计算机实现的方法可包括接收训练数据。训练数据可包括语音和与所述语音相关联的含义表示对。所述含义表示至少包括与所述语音相关联的语义实体，其中，所述语义实体的说出顺序是未知的，例如不一定是已知的。该方法还可包括通过扰乱所述语义实体以创建所述语义实体的随机顺序序列变体来扩充所述训练数据。该方法还可包括使用扩充后的训练数据对口语理解机器学习模型进行预训练，其中，在训练的不同时期使用所述语义实体的不同随机顺序序列变体。可将所述口语理解机器学习模型预训练得针对给定输入语音而输出与所述给定输入语音相关联的意向标签和语义实体。。
10.另一方面，一种计算机实现的方法可包括接收训练数据。训练数据可包括语音和与所述语音相关联的含义表示对。所述含义表示至少包括与所述语音相关联的语义实体，其中，所述语义实体的说出顺序是未知的，例如不一定是已知的。该方法还可包括通过扰乱所述语义实体以创建所述语义实体的随机顺序序列变体来扩充所述训练数据。该方法还可包括使用扩充后的训练数据对口语理解机器学习模型进行预训练，其中，在训练的不同时期使用所述语义实体的不同随机顺序序列变体。可将所述口语理解机器学习模型预训练得针对给定输入语音而输出与所述给定输入语音相关联的意向标签和语义实体。该方法还可包括使用按字母顺序排列的所述语义实体来对经过预训练的口语理解机器学习模型进行微调。
11.也可提供一种至少包括处理器和存储器设备的系统，其中至少一个处理器或一个或多个处理器可以被配置为执行本文描述的任何一种或多种方法。
12.也可提供存储可由机器执行的指令程序以执行本文描述的一种或多种方法的计算机可读存储介质。
13.下面结合附图详细说明各实施例的结构和操作。在附图中，同样的参考号指示相同或功能相似的元素。
附图说明
14.图1是实施例中的端到端(e2e)口语理解(slu)系统的示意图。
15.图2示出了实施例中的与示例关键词中的组成音素对应的hmm。
16.图3示出了实施例中的一个示例注意力图。
17.图4是例示实施例中的训练端到端(e2e)口语理解(slu)机器学习模型的方法的流程图。
18.图5是例示另一实施例中的训练端到端(e2e)口语理解(slu)机器学习模型的方法的示意图。
19.图6是显示在一个实施例中能训练口语理解机器学习模型或系统的系统的组件的示意图。
20.图7示出了可实施根据一个实施例的系统的计算机或处理系统的示意图。
21.图8描述了一个实施例中的云计算环境。
22.图9示出了在本发明实施例中云计算环境提供的一组功能抽象层。
具体实施方式
23.在一个或多个实施例中，可以提供系统，方法和技术，其可改进端到端口语理解的训练。图1是例示实施例中端到端(e2e)口语理解(slu)系统的示意图。e2e slu系统可以包括一个或多个计算机实现的组件，例如在一个或多个硬件处理器上实现和/或运行的或与一个或多个硬件处理器耦合的组件。例如，一个或多个硬件处理器可包括可编程逻辑器件、微控制器、存储器设备和/或其他硬件组件，这些组件可以被配置用于执行本公开中描述的相应任务。耦合的存储器设备可以被配置得选择性地存储可由一个或多个硬件处理器执行的指令。处理器可以是中央处理单元(cpu)、图形处理单元(gpu)、现场可编程门阵列(fpga)、专用集成电路(asic)、另一个合适的处理组件或设备，或上述的一种或多种组合。处理器可与存储器设备耦合。该存储器设备可以包括随机存取存储器(ram)、只读存储器(rom)或另一存储器设备，并且可以存储数据和/或用于实现与本文中描述的方法和/或系统相关联的各种功能的处理器指令。处理器可执行存储在存储器中或从另一计算机设备或介质接收的计算机指令。
24.端到端(e2e)slu系统无需通过中间文本转录(text transcript)就可以直接处理语音输入。这些slu系统可以在一组实体和发声级意向(utterance-level intents)上而不是在逐字转录上进行训练，从而大大降低数据收集成本。在本文公开的一个或多个实施例中，本文所述的系统、方法和技术允许e2e slu系统使用其中实体或语义不一定按说出顺序给出的训练数据来处理训练。
25.在端到端(e2e)口语理解(slu)系统中，输入可以是语音(如音频或声学信号)，输出可以是含义表示。例如，语音102可以输入到slu模块104，其可以包括诸如神经网络或深度学习模型的机器学习模型，例如但不限于递归神经网络转换器(transducer)(rnn-t)和/或基于注意力的(attention-based)编码器/解码器。slu模块104可以输出语音的含义表示106，例如一个或多个意向(intents)和实体。
26.例如，口语理解(slu)模块104可以提供对应于输入语音的含义表示，例如意向(intent)检测和实体。在一个方面，slu系统在提供输出时，无需提供每个单词，或输入的发音方式(例如，实体的顺序、单词选择)。slu模块104提供的输出示例包括:
27.完整转录+语义标签:(int-flight)i would like to make a reservation for a flight to denver(b-tocity)from philadelphia(b-fromcity)on this coming sunday(b-departdate)(我想预订星期日从费城飞往丹佛的航班)；
so i need a flight reservation but i also want to have a stop in las vegas.”(我目前在雷诺，下一次客户会议在达拉斯，所以需要预订机票，但我也想在拉斯维加斯停留。)
45.表2中示出了上述语音或表达的实体集合和意图的示例。在一个或多个实施例中，本发明的系统、方法和/或技术可以改进e2e slu模型以执行对语义实体集合的预测。上述所有示例总体具有相同的含义，因此可以将它们映射到相同的简化含义表示：实体集合和发声级意图，其示例如表2所示。
46.表2
47.intent(意向)flight(航班)fromloc.city_name(出发地.城市名)reno(雷诺)stoploc.city_name(经停地.城市名)las vegas(拉斯维加斯)toloc.city_name(目的地.城市名)dallas(达拉斯)
48.在图1所示的e2e slu系统中，可以使用语义实体和发声级意向来进行进行训练，而无需逐字转录。要建模的实体集合，可以按说出顺序(例如，实体在相应的语音中被说出的顺序)给出，或者可以不指定顺序。
49.asr技术产生逐字转录和目标词(targets word)，以保证单词准确性。slu系统试图从发声中推断出正确的含义(例如，表2)，而不必在意实体顺序或单词选择等因素。例如，在实施例中，虽然还可以训练slu模型以输出诸如完整转录的所有口语单词，但是slu模型的成功可以通过slu提取的语义标签和值的集合来确定。衡量slu模型成功的示例指标可以是f1得分。如果slu模型输出所有单词，那么也可将slu模型用作asr，这种slu模型的成功可以单词错误率(word error rate)即wer来衡量。在一个方面，相比于序列预测问题，可以将slu可以视为集合预测问题。
50.可以灵活地在不同类型的基本事实(ground truth)上对端到端序列到序列(end-to-end sequence-to-sequence)模型进行训练。对于语音识别来说，训练数据是带有逐字转录的语音，如表3中的示例(0)所示。为了训练slu模型，使用实体标签对句子进行注释，如表3中的示例(1)所示，同时还使用表示整个发声的意向的标签。在表3中的示例(2)中，为了训练，实体是以自然说出顺序呈现的。表3中的示例(2)与示例(1)的不同之处在于排除了所有不属于实体的单词。实体可以被认为是更重要的关键短语；但是，其他词语也起着重要作用。例如，“to”(到)和“from”(从)对于确定城市为目的地城市还是出发城市来说显然至关重要。slu模型可以不输出此类词语，但与这些词语对应的语音信号可有助于slu模型输出正确的实体标签。
51.表3
[0052][0053]
在一个方面，如果训练数据中实体集合的说出顺序是未知的，则可以将该任务视为集合预测(set prediction)任务。由于训练序列到序列(sequence-to-sequence)模型需要目标输出序列，在示例(3)中，可以用按标签名称(例如stoploc.city名称)的字母顺序排序的实体来将基本事实标准化。
[0054]
在级联的slu系统中，经典的asr或nlu模型可能难以用这种类型的数据进行训练，但这种数据类型可能非常丰富，收集的成本也会更低。考虑人类代理与客户交谈以进行旅行预订，代理同时执行例如填写web表单或其他数据库事务记录的操作，这些表单或记录可以转换为像示例(3)中那样的基本事实。为了单独训练asr和nlu，对语音数据进行准确的逐字转录(verbatim transcription)可能需要人类转录人员5-10倍的实际时间，外加对实体进行标记的额外成本。相比之下，包含实体集合的交易记录可以从帮助客户的过程中获得，并且可能不会产生额外的成本。
[0055]
在一个方面，可以对slu系统进行训练，以预测来自语音的一组实体。在实施例中，一个或多个语音模型为诸如但不限于递归神经网络(rnn)-转换器(rnn-ts)、诸如具有lstm编码器和/或conformer编码器的基于注意力的编码器-解码器模型。由于单调的输入-输出对准约束，rnn-t很可能难以从实体不是按说出顺序排列的基本事实中学习。基于注意力的模型很可能表现得更好，因为它能关注语音信号的可能不连续的相关部分。如下文更全面地描述的那样，在一个或多个实施例中，对于集合预测，可以将数据扩充(data augmentation)和实体的显式对准用作提高性能的方法。
[0056]
在一个方面中，本文公开的一种或多种建模技术可处理输出标签侧的各种语义实体和意向序列。在一个方面，不需要假定slu训练标签序列是说出顺序的。例如，本文公开的系统和方法可以将目标输出序列视为一个集合。
[0057]
在一个方面，本文公开的数据扩充方法是在输出标签级执行的。e2e slu系统产生的输入语音信号的含义，可以表示为实体集合和意向，例如不必是完整的逐字转录。定位这样的一组slu标志(tokens)可以用类似于关键词搜索的方式来处理，其中要在口语发声中检测到特定单词或单词集合。本文公开的系统和/或方法能解决的另一个问题是，在没有明确的关键词搜索步骤的情况下，slu模型如何能够自动执行此任务或发现slu标志。在一个或多个实施例中，系统和/或方法可以为训练声学模型而实施基于集合的数据扩充和/或集
合重新排序。
[0058]
在一个方面，端到端模型直接将声学特征序列映射到符号序列，而不需要条件独立性假设(conditional independence assumptions)。由于输入和目标序列长度而存在的对准问题，可根据端到端方法而不同地进行处理。可用于slu的模型的示例包括以下用于语音识别的模型。可以使用或改造其他模型。
[0059]
rnn转换器模型
[0060]
rnn-t引入特殊的blank(空白)符号和点阵结构，用以对准输入和输出序列。这些模型可以包括三个不同的子网:转录网络(transcription network)、预测网络和联合网络。所述转录网络产生声学嵌入(acoustic embeddings)，而预测网络类似于语言模型，因为其以模型产生的先前非blank符号为条件。联合网络将两个嵌入输出结合起来，以产生包括blank的输出符号上的后后验分布(posterior distribution)。可以用两个步骤创建基于rnn-t的slu模型:构造asr模型；然后，通过转移学习(transfer learning)将其调整成slu模型。在第一个步骤中，在大量通用asr数据上对模型进行预训练，以允许模型有效地学习如何将语音转录成文本。由于预训练步骤中的目标仅是图形/语音标志(graphemic/phonetic tokens)，在用slu数据调整模型之前，添加语义标签作为额外的输出目标。通过调整预测网络的输出层和嵌入层的大小来集成这些新的slu标签，以包括额外的符号。新网络参数是随机初始化的，而其余部分是从预先训练的网络初始化的。一旦网络被修改后，就按与训练asr模型的类似的步骤在slu数据上对其进行训练。
[0061]
基于注意力的lstm编码器-解码器模型
[0062]
此模型在不引入任何显式隐藏变量的情况下估算序列后验概率。对准问题是通过与输出序列同步地用可训练的注意力机制对输入流动态地压缩输入流而内部处理的。该模型能够处理非单调对准的问题。rnn-t和注意力编码器-解码器模型的结构相似。基于注意力的模型还包含基于lstm的编码器网络以生成声学嵌入。单头lstm解码器包含类语言模型的组件，以及将声学嵌入和符号序列嵌入组合成上下文向量以预测下一个符号的注意力模块。可以使用与关于rnn-t所描述的相同的步骤来进行将基于注意力的编码器-解码器asr模型到slu的调整。
[0063]
基于注意力的conformer编码器-解码器模型
[0064]
在实施例中，可以将注意力机制添加到编码器-解码器模型的编码器。conformer是卷积神经网络(convolutional neural network)与基于自注意力的变换器(self-attention based transformer)的组合，能实现语音识别结果。在注意力模型的实施例中，编码器可以是conformer。在另一实施例中，解码器可以是conformer。
[0065]
在各种实施例中，可以使用与以未指定的顺序(例如，不一定按说出顺序)给出的基本事实语义实体配对的语音，例如使用其中以未指定的顺序提供语义实体的数据，来训练(例如如图1所示的)端到端口语理解(slu)系统。在实施例中，可以提供一个或多个slu对准方法来推断训练数据中的语义实体的说出顺序，以准备说出顺序的数据。在实施例中，可以提供数据扩充的补充方法，其中在模型预训练期间语义实体是以随机顺序呈现的，以使模型对基本事实中的实体排序的可变性脱敏(desensitize)。
[0066]
有利地，本文公开的系统和方法可降低进行注释的成本，例如，训练数据的基本事实可以是说出顺序未知或未指定的语义实体。在实施例中，即使在训练期间提供的语义实
体可能是不按说出顺序排列的，也可以使用诸如基于注意力的编码器-解码器模型或递归神经网络转换器(rnn-t)模型的端对端模型，可以用它们对不直接与语音信号中存在的声学事件相关联的语义标签建模。有利地，例如，本文公开的系统和方法可允许使用rnn-ts之类的单调(非重排序的)模型，这些模型可以用于asr和slu，即使在训练数据的实体的说出顺序未知的情况下也可以提高slu性能(f1得分)，例如，将slu性能提高到与在完整转录或按说出顺序排列的实体上训练的slu的类似的性能。
[0067]
在实施例中，本文公开的slu对准方法可以包括推断说出顺序并将语义实体集合重新排序为说出顺序以用于slu模型训练。在实施例中，本文公开的基于集合的数据扩充技术可以包括创建说出的实体(spoken entities)的随机顺序变体(random order variations)，以使slu模型对用于训练的基本事实中的实体的顺序更鲁棒。
[0068]
对于slu对准，可以有不同的方法。在实施例中，一种用于查实体集合的潜在的(underlying)说出顺序的slu对准方法可以使用用于关键词搜索的过程。进行声学关键词识别时，可以使用多种(例如两种)声学模型的组合。例如，要搜索的关键词是由其潜在的语音字符串(phonetic string)建模的，而所有非关键词的语音都是由垃圾模型建模的。例如，使用传统的混合asr模型，可以为被搜索的关键词构建作为与关键词中的组成音素对应的隐马尔可夫模型(hmm)的级联的模型。音素(phone)是音位(phoneme)(实际声音)的语音表示(phonetic representation)。垃圾模型可以由用于有声语音(vocal speech)和包括静音的背景音的通用音素来表示。然后，该方法可以将这些模型按顺序串在一起:首先是垃圾模型，然后是关键词模型，最后是垃圾模型，然后用asr模型来强制对准发声和关键词模型。该slu对准方法的实施例可用于将语义实体按说出顺序排列，以例如改进slu的集合预测。
[0069]
图2显示了与示例关键词中的组成音素对应的hmm。例如用混合asr模型将集合重新排序为说出顺序，可以包含显式的基于关键词搜索的对准。在实施例中，对于每个实体值，为了寻近似时间，对准方法可以构造hmm(垃圾-关键词-垃圾)并例如为实体值"newark"执行强制对准(vn＝发声噪声)。在图2中，204、206、208、210处的示例关键词(实体值)由204、206、208、210处的组成音素表示。噪声在202和212处表示。使用每个实体的时间信息，该对准方法可以按说出顺序对它们进行重新排序。
[0070]
例如，考虑如下的给定集合的示例:
[0071][0072]
根据口语发声“i would like to make a reservation for a flight to denver from philadelphia on sunday”(我想预订星期日从费城飞往丹佛的航班)，可以将该集合重新排序为如下的说出顺序:
[0073]
说出顺序:int-flight denver b-tocity philadelphia b-fromcity sunday b-departdate。
[0074]
在另一实施例中，slu对准方法可以使用注意力值。在本实施例中，可以使用注意
力来执行隐式的内部对准。注意力模型能处理非说出顺序的slu实体，并且单头注意力可以对声学特征流中相应时间位置处的口语标志(spoken tokens)有清晰的焦点。基于这个观察，可以估计slu短语的说出顺序。然后，该方法可以在短语的说出顺序是未知的情况下用启发式(heuristic)来估计每个slu短语的平均时间位置，并计算每个slu短语的平均时间位置，由此可以重新确立短语的说出顺序。
[0075]
例如，在本实施例中，slu对准方法可以包括在基于字母顺序的基本事实上训练注意力模型，以及使用注意力图来确定每个slu短语的平均时间位置。在实施例中，当短语的说出顺序未知时，以下的启发式估计每个slu短语的平均时间位置:
[0076][0077]
其中，α
t,n
表示在每个声学帧t处第n个输出标志的注意力。设第i个slu短语(包括口语bpe标志和实体标签)在输出序列中从位置ni开始，结束于n
i+1-1，并且设ni仅包含bpe(口语)标志的位置。图3显示了一个示例注意力图，其中x轴是语音信号内的时间(对应于t)，y轴包含bpe标志和实体标签的序列(对应于n，从上到下)，α
t,n
的值由像素的暗度表示。在图3中，显示了“i would like to make a reservation for a flight to denver from philadelphia on this coming sunday”的注意力图，其中基本事实是按标签名称的字母顺序排列的实体。仅考虑口语标志，等式1计算每个slu短语的平均时间位置，由此可以重新确立短语的语音顺序。
[0078]
对于集合预测(set prediction)问题，可以向系统和/或方法提供不知道说出顺序的实体的集合。集合预测问题是指预测给定语音发声或输入语音发声的含义表示，其可以包括意向和实体。例如，可以将基本事实数据(给定不知道说出顺序的实体的集合)用于训练slu模型，例如序列到序列模型。在实施例中，为了训练序列到序列模型，该系统和/或方法可任意地选择通过对标签名称(例如fromcity)按字母顺序进行排序来对实体顺序进行标准化。为了进一步提高鲁棒性，该系统和/或方法可以使用或实施将用于预训练各种e2e模型的基本事实中的实体和意向标签的顺序进行随机化的数据扩充。在这个预训练阶段期间，模型可以在每个时期(epoch)以不同版本的基本事实来呈现。作为举例，以下例示实体和意向标签的随机化顺序，它们可用于例如预训练在不同时期使用的不同排序的序列(例如，每个时期使用一种排序的序列，即不同于在另一个时期使用的序列):sunday(b-departdate)philadelphia(b-fromcity)denver(b-tocity)int_flight；philadelphia(b-fromcity)int_flight sunday(b-departdate)denver(b-tocity)；int_flight denver(b-tocity)sunday(b-departdate)philadelphia(b-fromcity)；等等。在这些集合的示例格式中，实体标签在括号中显示，位于实体值之后。预训练阶段之后可以紧接着微调阶段，在微调阶段，模型在具有按字母顺序排列的实体的基本事实上进行训练。在预训练阶段将模型暴露于多个基本事实与语音之间实体顺序不匹配的实例，可以使模型在微调期间更好地学习。
[0079]
在一个或多个实施例中，系统和/或方法可以训练口语理解系统。slu训练数据可作为无序的一组语义实体(如标签和值)提供。在一个或多个实施例中，系统和/或方法可以使用slu对准技术对无序语义实体集合重新排序。在实施例中，slu对准技术将数据重新排序为说出顺序包括基于声学关键词的对准方案，该对准方案适于与混合语音识别模型一起
使用。在实施例中，slu对准技术将数据重新排序为说出顺序使用从端到端slu模型的注意力机制派生的时间标记。在一个或多个实施例中，在用于对数据进行对准和重新排序之前，可以在slu数据(具有无序的语义实体的集合)上对注意力模型进行训练。例如如果slu数据具有与原始语音模型的声学不匹配，例如噪声语音，这可能是有用的。在一个或多个实施例中，系统和/或方法可以使用所述重排序的数据来训练slu系统。在一个或多个实施例中，系统和/或方法可以用针对语义实体的基于集合的数据扩充方案来预训练slu模型。在实施例中，基于集合的数据扩充方法可以在可用训练数据中随机化实体和意向标签的顺序。在一个或多个实施例中，系统和/或方法可以训练slu系统，该系统和/或方法在使用基于集合的数据扩充方案对其进行预训练之后，使用经重新排序的数据来训练slu系统。
[0080]
一个或多个slu模型可使用例如可能可用的基本事实数据进行训练。例如，可基于特定应用(例如，特定域)的特定于应用的数据语料库来训练一个或多个slu模型。
[0081]
例如，在实施例中的示例实现，可以使用诸如航空旅行信息系统(atis)之类的数据来训练(例如图1的104所示的)slu模型，atis是可公开获得的语言数据联盟(ldc)语料库。例如，可以有下采样到8khz的4976个训练音频文件(～9.64小时，355个说话人)和893个测试音频文件(～1.43小时，355个说话人)。在本示例中，在实施例中，为了更好地训练e2e模型，可以使用速度/节拍扰乱来创建语料库的额外副本，从而导致～140小时的训练时间。在示例中，在实施例中，为了模拟真实世界操作条件，可以通过向干净的记录添加信噪比(snr)在5-15db之间的街道噪声来创建第二个噪声atis语料库。还可以通过数据扩充将这个～9.64小时的噪声训练数据扩展至～140小时。也可以通过用5db snr的附加街道噪声破坏原有的干净测试集合来准备相应的噪声测试集合。在实施例中，在示例例中，意向识别性能可以通过意向准确度来测量，而槽填充性能可以用f1得分来测量。当使用语音输入而不是文本时，单词也会被预测并可能会出现错误。真阳性(true positive)可同时有实体标签和值才正确。例如，如果引用是toloc.city name:new york，但解码的输出是toloc.city name:york，那么在实施例中，可以对假阴性(false negative)和假阳性二者都进行计数。进行评分不需要了解实体的顺序，因此可适用于“实体集”预测。
[0082]
以下是根据各种实施例实施slu的用例实例。在实施例中，可以用rnn-t模型来实现slu。在一个示例中，用于slu的rnn-t模型可以在独立于任务的asr数据上进行预训练。例如，可以使用根据可用语料库中的数据训练的asr模型。可以训练连接主义时间分类(ctc)声学模型并将其用于初始化rnn-t模型的转录网络。例如，rnn-t模型可以具有一个转录网络，其包含6个双向lstm层，每个方向每层有640个单元。预测网络是具有768个单元的单个单向lstm层。联合网络将来自转录网络的最后一层的1280维的堆叠编码器向量和768维的预测网嵌入各自投射到256维，将它们进行乘法组合，并应用双曲正切。在此之后，将输出投射到对应于45个字符加上blank的46个罗技(logits)，其后紧跟一个softmax层。该模型总共有57m参数。这些模型可以在pytorch中训练20个时期。其他设计和实施选择、超参数(hyperparameters)是可能的。在slu适应改造期间，新的网络参数被随机初始化，而网络的其余部分则从预训练的网络中复制。根据实体/意向任务，可以将额外的输出节点(例如，151)作为实体/意向目标添加到预训练网络。
[0083]
在另一实施例中，可以使用基于注意力的lstm编码器-解码器slu模型来实现slu。在实施例中，基于注意力的e2e模型可以具有6层双向lstm编码器和2层单向lstm解码器，并
对用实体和意向标签增强的约600个bpe单元的后验概率进行建模。每个lstm层中的节点数可以为每个方向768个。解码器的第一lstm仅对嵌入的预测符号序列操作，第二lstm用单头附加位置感知注意力机制来处理声和符号信息。将退出率(dropout rate)和退出-连接率(drop-connect rate)在编码器中设定为0.3，在解码器中设定为0.15。此外，也可以将具有0.10概率的zoneout应用于解码器的在第二lstm层。总体而言，模型可以包含57m的参数。对于asr预训练，可以使用标准switchboard-300语料库，并且可以通过adamw在450k个更新步骤中以192个序列的批量对模型进行优化。可以在约100k个步骤中以16个序列的批量进行slu微调。其他设计和实施选择、超参数是可能的。
[0084]
在另一实施例中，可以使用基于注意力的conformer编码器-解码器slu模型来实现slu。在实施例中，为了向编码器增加自注意力，可以将lstm编码器替换为conformer编码器。总体而言，模型可以包含68m的参数。其他设计和实施选择、超参数是可能的。
[0085]
使用以下各项:1)用于将asr模型改编为slu模型的、带有语义标签的完整逐字转录；2)仅包含自然说出顺序的实体的基本事实；3)使用数据扩充和/或一个或多个预对准方法的、包含未知说出顺序的实体的基本事实，为slu模型训练单独进行了各种实验。实验表明，可以用本文描述的一种或多种方法来训练准确的slu模型，即使基本事实实体具有未知的说出顺序。
[0086]
例如，一种方法可以应用数据扩充，其中，该方法可以在预训练阶段使模型暴露于具有各种随机排序的实体的基本事实，接着按字母顺序排列的实体进行微调。例如，在rnn-t模型中，随机顺序扩充可以提高诸如在噪声条件下的性能。例如，数据扩充可以帮助模型补偿在训练期间需要处理的各种噪声类型。在处理声学噪声以及标签不匹配时，数据扩充有助于更好地调整模型。通过数据扩充引入的各种数据可以改进模型。例如，对于基于注意力的编码器-解码器模型，例如在清净和嘈杂条件下使用随机顺序数据扩充，均能观察到一致的改进。同样，使用conformer编码器，在清净和嘈杂条件下均可看到改进。
[0087]
该方法还可以通过将实体与语音对准来推断实体的说出顺序，然后使用这个基本事实来训练slu模型。在实施例中，为了对准，一种方法可以基于混合asr模型。在另一实施例中，为了对准，一种方法可以基于注意力模型。对于rnn-t模型来说，推断实体的说出顺序和在对准的基本事实上的训练有助于提高性能。对于基于注意力的编码器-解码器模型和conformer编码器，在对准的基本事实上的训练中也可观察到改进。
[0088]
在实施例中，数据扩充方法和预对准(pre-alignment)方法二者均可用于训练slu模型，其中，方法可以用在随机顺序的实体上预先训练的模型初始化，然后在重新排序的基本事实上应用微调。实验也显示了slu模型的性能改进，例如，在诸如基于注意力的编码器-解码器模型、conformer编码器、rnn-t的不同类型的模型中以及在清净和嘈杂的条件下的性能改进。
[0089]
口语理解(slu)系统可以确定输入语音信号的含义，而例如语音识别则旨在生成逐字转录。端到端(e2e)语音建模可仅在收集成本低于逐字转录的语义实体上训练。这个集合预测问题可具有未指定的实体顺序。一个或多个实施例中的系统和/或方法改进e2e模型，诸如rnn转换器和基于注意力的编码器-解码器，以便能够使用其中训练实体序列不一定按说出顺序排列的训练数据。在一个或多个实施例中，当实体的说出顺序未知时，该系统和方法利用数据扩充技术和基于隐式注意力的对准方法来推断说出顺序，可以改进e2e模
型。
[0090]
图4是例示实施例中的训练端到端口语理解机器学习模型的方法的流程图。该方法可以由一个或多个计算机处理器(例如，硬件处理器)执行或在一个或多个计算机处理器上实现。在402，该方法可以包括接收训练数据，例如，语音和与该语音相关联的含义表示对。所述含义表示可至少包括与该语音相关联的语义实体，其中所述语义实体的说出顺序是未知的。上文在表2中示出了与语音相关联的含义表示的示例。所述含义表示还可以包括与该语音相关联的意向标签。该语音可以声音、声学或音频信号的形式被接收。
[0091]
在404，该方法可以包括使用对准技术将语义实体重新排序为语音的说出顺序。在实施例中，本文公开的slu对准可以使用模型来推断说出顺序并重新调整训练数据。在实施例中，对准技术可以包括与混合语音识别模型一起使用的声学关键词识别。例如，如上面参考图2所述，对准技术的实施例可以包括使用具有隐马尔可夫模型(hmm)的混合asr。hmm混合asr的声学模型可以将输入语音或单词转换为语音序列。图2中示出了示例关键字的语音序列。在实施例中，该方法可以包括，对于语音中的每个关键词(例如语义实体)，生成具有以发声噪声(vocalized noise)为界的顺序的语音单元的hmm模型。该方法可以将hmm模型(例如，顺序的语音单元)与语音对准，并提取或获取语音中该关键词的近似时间或时间位置。然后，可以将语音中的关键词(例如语义实体)按照它们在语音中的时间位置进行排序，例如按时间的顺序进行排序(时间越早，次序越靠前)。这样，该方法可以推断语音中的语义实体的说出顺序。这个推断的语义实体的说出顺序，可以用于训练slu模型。
[0092]
在另一实施例中，对准技术包括使用从注意力模型中导出的时间标记。首先可以将注意力模型调整得适应域slu数据:与其中语义实体的顺序未知的基本事实配对的语音。例如，可以对基于注意力的语音识别模型或slu模型进行建模和/或运行基于注意力的语音识别模型或slu模型，由此可以生成注意力图。例如，可以按字母顺序训练注意力模型生成并使用注意力图，以推断说出顺序。图3中显示了注意力图的示例。注意力图显示了假设为在语音中的每个标志的随着时间的推移的注意力值。例如，显示了在语音识别中常用的字节对编码(bpe—byte pair encoding)子字(sub-word)单元。例如，解码“d@@en@@ver”允许构造单词“denver”。参考图3中所示的示例图，“sunday”在8秒的时间标记左右出现，“philadelphia”在6到8秒的时间标记左右出现，“denver”在4到6秒的时间标记之间出现。使用注意力图，可以计算出特定单词或语义实体的最大或平均时间标记或时间标记。例如，对于“sunday”，可以提取“sunday”的语音单元的所有假设时间位置，并对其进行平均，以生成该单词的近似时间标记。可以根据这些时间标记或标记来推断关键词的时间(例如，语义实体)。例如，可以根据语义实体的时间标记来对语义实体进行排序(例如，按递增的时间标记进行排序)。按语音的说出顺序排序的语义实体可用于训练slu模型。
[0093]
在一个方面，该语音可以包括噪声语音数据，并且可调整注意力模型以适用噪声语音数据。
[0094]
在406，该方法可以包括使用语音和具有重新排序后的语义实体的含义表示对来训练口语理解机器学习模型。在作为输入的语音和作为基本事实输出的含义表示上训练口语理解机器学习模型，以便能够针对给定的新语音，预测对应于新语音或与新语音相关联的含义表示。该含义表示例如包括意向标签和语义实体，它们可以代表该语音的含义。
[0095]
在实施例中，该方法还可以包括扩充所接收的语音和含义表示对，以包括语义实
tocity)；
[0107]
int_flight denver(b-tocity)sunday(b-departdate)philadelphia(b-fromcity)。
[0108]
在506，可以用扩充后的训练数据对口语理解机器学习模型(例如，神经网络模型)进行预训练，其中，可在不同训练时期使用语义实体的不同随机顺序序列变体。例如，在进行训练时，在每个时期可以使用不同的实体和意向标签的随机化顺序。可以将口语理解机器学习模型预训练得针对给定的输入语音而输出与该给定的输入语音相关联的意向标签和语义实体。
[0109]
在508，可以用按字母顺序排列的语义实体，进一步对经过预训练的口语理解机器学习模型进行微调。例如，微调可以包括用训练数据的按字母顺序排列的语义实体(作为基本事实数据的一部分接收的)来对口语理解机器学习模型进行再训练。例如，继续上面的示例，可以用如下的字母顺序的实体(例如，可按字母顺序来排列实体标签)对经过预训练的slu ml模型进行微调:{int_flight sunday(b-departdate)philadelphia(b-fromcity)denver(b-tocity)}。
[0110]
在实施例中，在510，可以用新的输入，例如新的语音发声，来运行经过预训练的口语理解机器学习模型，以便经过预训练的口语理解机器学习模型输出含义表示(例如，诸如意向标签和实体标签的slu标签以及它们的值)。在实施例中，例如，如参考图4所述的那样，可以用说出顺序的含义表示序列来进一步训练经过预训练的口语理解机器学习模型。在另一个方面，用于进行预训练的数据扩充可以仅使用字母排序，例如没有随机顺序序列变体。可以使用数据扩充的任何一个或多个组合。
[0111]
在实施例中，该方法还可以包括使用对准技术将语义实体重新排序为语音的说出顺序，以及使用具有按说出顺序重新排序后的语义实体训练数据，进一步训练经过预训练的口语理解机器学习模型，例如如参考图4的404和406所描述的那样。例如，可以执行与混合语音识别模型一起使用的声学关键词识别，以如上所述地按说出顺序对语义实体进行重新排序。在另一实施例中，例如，可以用从注意力模型导出的时间标记来按说出顺序对语义实体进行重新排序。在实施例中，可以调整注意力模型以适用于slu标签(例如语义实体)。
[0112]
图6是示出在一个实施例中可以训练口语理解机器学习模型或系统的系统组件的示意图。一个或多个硬件处理器602，诸如中央处理单元(cpu)、图形处理单元(gpu)和/或现场可编程门阵列(fpga)、专用集成电路(asic)和/或者另一个处理器，可以与存储器设备604耦合，并生成预测模型和推荐通信机会。存储器设备604可包括随机存取存储器(ram)、只读存储器(rom)或另一存储器设备，并可存储用于实现与本文所述方法和/或系统相关联的各种功能的数据和/或处理器指令。一个或多个处理器602可以执行存储在存储器604中的或从另一计算机设备或介质接收的计算机指令。例如，存储器设备604可以存储用于一个或多个硬件处理器602的操作的指令和/或数据，并且可以包括操作系统和其他指令和/或者数据程序。一个或多个硬件处理器602可以接收训练数据，例如，训练数据可包括语音和与语音对应的含义表示(例如意图标签和/或语义实体)对。例如，一个或多个硬件处理器602可以按对应语音的语音顺序对语义实体进行重新排序，并用该语音和具有重新排序的语义实体的语义表示对，来生成和/或训练口语理解机器学习模型。口语理解机器学习模型可以被训练得在给定输入语音的情况下预测或输出与给定输入语音对应的或相关联的意
义表示(例如，意图标签和语义实体)。训练数据可以存储在存储设备606中，或者通过网络接口608从远程设备接收，并且可以临时加载到存储器设备604中，用于构建或生成学习模型，即口语理解机器学习模型。学习模型可以存储在存储器设备604上，例如，用于由一个或多个硬件处理器602运行。一个或更多硬件处理器602可以与诸如网络接口608的接口设备耦合，以例如通过网络与远程系统通信，可以与输入/输出接口610耦合，以与诸如键盘、鼠标、显示器之类的输入和/或输出设备和/或其他设备通信。
[0113]
图7示出了可以实现一个实施例中的系统的示例计算机或处理系统的示意图。计算机系统只是适当处理系统的一个示例，并非要对本文所述方法的实施例的使用范围或功能提出任何限制。所示的处理系统可以与许多其他通用或专用计算系统环境或配置一起运行。可能适合与图7所示的处理系统一起使用的众所周知的计算系统、环境和/或配置的示例可以包括但不限于个人计算机系统、服务器计算机系统、瘦客户端、厚客户端、手持或笔记本设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、，包括上述任何系统或设备等的网络pc、小型计算机系统、大型机计算机系统和分布式云计算环境。
[0114]
可以在计算机系统运行的计算机系统可执行指令(诸如程序模块)的一般语境中描述计算机系统。一般来说，程序模块可以包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。该计算机系统可在分布式云计算环境中实施，其中任务由通过通信网络链接的远程处理设备执行。在分布式云计算环境中，程序模块可位于本地和远程的包括内存存储设备的计算机系统存储介质中。
[0115]
计算机系统的组件可以包括但不限于一个或多个处理器或处理单元12、系统存储器16和将各种系统组件(包括系统存储器16)耦合到处理器12的总线14。处理器12可以包括执行本文所述方法的模块30。模块30可编程到处理器12的集成电路中，或从存储器16、存储设备18或网络24或其组合加载。
[0116]
总线14可以代表几种总线结构中的一种或多种，包括内存总线或内存控制器、外围总线、加速图形端口以及使用各种总线架构中的任何一种的处理器或本地总线。例如但非限定，此类架构包括工业标准架构(isa)总线、微通道架构(mca)总线、增强isa(eisa)总线、视频电子标准协会(vesa)本地总线和外围组件互连(pci)总线。
[0117]
计算机系统可以包括各种计算机系统可读介质。此类介质可以是计算机系统可访问的任何可用介质，并且可以包括易失性和非易失性介质、可移动和不可移动介质。
[0118]
系统存储器16可以包括易失性存储器形式的计算机系统可读介质，诸如随机存取存储器(ram)和/或高速缓存或其他。计算机系统还可以包括其他可移动/不可移动、易失性/非易失性计算机系统存储介质。仅作为示例，可以提供存储系统18用于读取和写入不可移动、非易失性磁介质(例如，“硬盘驱动器”)。尽管未示出，但可以提供用于读取和写入可移动非易失性磁盘(例如“软盘”)的磁盘驱动器，以及用于读取或写入可移动、非易失的光盘(例如cd-rom、dvd-rom或其他光学介质)的光盘驱动器。在这种情况下，每个都可以通过一个或多个数据媒体接口连接到总线14。
[0119]
计算机系统还可以与诸如键盘、定点设备、显示器28之类的一个或多个外部设备26通信；与使用户能够与计算机系统交互的一个或多个设备通信；和/或与使计算机系统能够与一个或多个其他计算设备通信的任何设备(例如网卡、调制解调器等)通信。这种通信可以通过输入/输出(i/o)接口20发生。
[0120]
计算机系统还可通过网络适配器22与诸如局域网(lan)、通用广域网(wan)和/或公共网络(例如互联网)之类的一个或多个网络24通信。如图所示，网络适配器22通过总线14与计算机系统的其他组件通信。应当明白，尽管未显示，其他硬件和/或软件组件也可与计算机系统结合使用。示例包括但不限于：微码、设备驱动程序、冗余处理单元、外部磁盘驱动器阵列、raid系统、磁带机和数据存档存储系统等。
[0121]
应当理解，虽然本公开包括关于云计算的详细描述，但是本文给出的教导的实现不限于云计算环境。相反，本发明的实施例能够结合现在已知的或以后开发的任何其他类型的计算环境来实现。云计算是服务交付的模型，用于使得能够方便地、按需地网络访问可配置计算资源(例如，网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池，所述可配置计算资源可以以最小的管理努力或与所述服务的提供者的交互来快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。
[0122]
特性如下：
[0123]
按需自助服务：云消费者可以单方面地根据需要自动地提供计算能力，诸如服务器时间和网络存储，而不需要与服务的提供者的人类交互。
[0124]
广泛的网络接入：能力可通过网络获得并且通过标准机制接入，该标准机制促进异构瘦客户机平台或厚客户机平台(例如，移动电话、膝上型计算机和pda)的使用。
[0125]
资源池化：提供者的计算资源被池化以使用多租户模型来服务于多个消费者，其中不同的物理和虚拟资源根据需要动态地指派和重新指派。存在位置独立性的感觉，因为消费者通常不具有对所提供的资源的确切位置的控制或了解，但可能能够以较高抽象级别(例如，国家、州或数据中心)指定位置。
[0126]
快速弹性：能够快速和弹性地提供能力，在一些情况下自动地快速缩小和快速释放以快速放大。对于消费者而言，可用于供应的能力通常显得不受限制并且可以在任何时间以任何数量购买。
[0127]
测量的服务：云系统通过在适合于服务类型(例如，存储、处理、带宽和活动用户账户)的某个抽象级别处利用计量能力来自动控制和优化资源使用。可以监视、控制和报告资源使用，为所利用的服务的提供者和消费者提供透明度。
[0128]
服务模型如下：
[0129]
软件即服务(saas)：提供给消费者的能力是使用在云基础设施上运行的提供者的应用。可通过诸如web浏览器(例如，基于web的)之类的瘦客户端接口从不同客户端设备访问应用。消费者不管理或控制包括网络、服务器、操作系统、存储或甚至单独的应用能力的底层云基础设施，可能的例外是有限的用户特定应用配置设置。
[0130]
平台即服务(paas)：提供给消费者的能力是将消费者创建的或获取的使用由提供商支持的编程语言和工具创建的应用部署到云基础设施上。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施，但是对所部署的应用和可能的应用托管环境配置具有控制。
[0131]
基础设施即服务(iaas)：提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其他基本计算资源，所述软件可以包括操作系统和应用。消费者不管理或控制底层云基础设施，而是具有对操作系统、存储、所部署的应用的控制以及对所选联网组件(例如，主机防火墙)的可能受限的控制。
[0132]
部署模型如下：
[0133]
私有云：云基础架构仅为组织运作。它可以由组织或第三方管理，并且可以存在于场所内或场所外。
[0134]
社区云：云基础架构被若干组织共享并支持共享了关注(例如，任务、安全要求、策略、和合规性考虑)的特定社区。它可以由组织或第三方管理，并且可以存在于场所内或场所外。
[0135]
公共云：使云基础架构对公众或大型行业组可用，并且由出售云服务的组织拥有。
[0136]
混合云：云基础架构是两个或更多个云(私有、社区或公共)的组合，这些云保持唯一实体但通过使数据和应用能够移植的标准化或专有技术(例如，云突发以用于云之间的负载平衡)绑定在一起。
[0137]
云计算环境是面向服务的，集中于无状态、低耦合、模块化和语义互操作性。云计算的核心是包括互连节点网络的基础设施。
[0138]
现在参见图8，描述了说明性云计算环境50。如图所示，云计算环境50包括云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点10，本地计算设备诸如例如个人数字助理(pda)或蜂窝电话54a、台式计算机54b、膝上型计算机54c和/或汽车计算机系统54n。节点10可彼此通信。它们可以物理地或虚拟地分组(未示出)在一个或多个网络中，诸如如上所述的私有云、社区云、公共云或混合云、或其组合。这允许云计算环境50提供基础设施、平台和/或软件作为云消费者不需要为其维护本地计算设备上的资源的服务。应当理解，图8中所示的计算装置54a-n的类型仅旨在是说明性的，并且计算节点10和云计算环境50可通过任何类型的网络和/或网络可寻址连接(例如，使用网络浏览器)与任何类型的计算机化装置通信。
[0139]
现在参见图9，示出了由云计算环境50(图8)提供的一组功能抽象层。应提前理解，图9中所示的组件、层和功能仅旨在是说明性的，本发明的实施例不限于此。如图所示，提供以下层和对应功能：
[0140]
硬件和软件层60包括硬件和软件组件。硬件组件的示例包括：大型机61；基于risc(精简指令集计算机)架构的服务器62；服务器63；刀片服务器64；存储设备65；以及网络和联网组件66。在一些实施例中，软件组件包括网络应用服务器软件67和数据库软件68。
[0141]
虚拟化层70提供抽象层，从该抽象层可以提供虚拟实体的以下示例：虚拟服务器71；虚拟存储器72；虚拟网络73，包括虚拟专用网络；虚拟应用和操作系统74；以及虚拟客户端75。
[0142]
在一个示例中，管理层80可以提供以下描述的功能。资源供应81提供用于在云计算环境内执行任务的计算资源和其他资源的动态采购。计量和定价82在云计算环境内利用资源时提供成本追踪，并为这些资源的消费开账单或发票。在一个示例中，这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证，以及为数据和其他资源提供保护。用户门户83为消费者和系统管理员提供对云计算环境的访问。服务水平管理84提供云计算资源分配和管理，使得满足所需的服务水平。服务水平协议(sla)规划和履行85提供根据sla预期未来需求的云计算资源的预安排和采购。
[0143]
工作负载层90提供可以利用云计算环境的功能的示例。可以从该层提供的工作负荷和功能的示例包括：地图和导航91；软件开发和生命周期管理92；虚拟教室教学交付93；
数据分析处理94；交易处理95；口语理解模型处理96。
[0144]
本发明可以是任何可能的技术细节集成水平的系统、方法、和/或计算机程序产品。计算机程序产品可包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质。
[0145]
计算机可读存储介质可以是可保留和存储供指令执行设备使用的指令的有形设备。计算机可读存储介质可以是，例如但不限于，电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储介质的更具体示例的非穷尽列表包括以下各项：便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式紧凑盘只读存储器(cd-rom)、数字通用盘(dvd)、记忆棒、软盘、诸如穿孔卡或具有记录在其上的指令的槽中的凸出结构之类的机械编码设备、以及上述各项的任何合适的组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，穿过光纤电缆的光脉冲)或通过电线发射的电信号。
[0146]
本文所述的计算机可读程序指令，可以从计算机可读存储介质下载到相应的计算/处理设备，或者通过网络(例如，互联网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
[0147]
用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或以一种或多种编程语言的任何组合编写的源代码或目标代码，这些编程语言包括面向对象的编程语言(如java、smalltalk、c++等)和常规的过程编程语言(如“c”编程语言或类似的编程语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可通过任何类型的网络(包括局域网(lan)或广域网(wan))连接至用户计算机，或者可连接至外部计算机(例如，使用互联网服务提供商通过互联网)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令，以便执行本发明的各方面。
[0148]
本文参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图来描述本发明的各个方面。应当理解，流程图和/或框图的每个框以及流程图和/或框图中各框的组合，都可以通过计算机可读程序指令实现。
[0149]
这些计算机可读程序指令可被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的或多个框中指定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置、和/或其他设备以特定方式工作，从而，其中存储有指令的计算机可读存储介
质包括包含实现流程图和/或框图的框中规定的功能/动作的方面的指令的制造品。
[0150]
也可将计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的处理，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图中的或多个方框中规定的功能/动作。
[0151]
附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此，流程图或框图中的每个框可表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些备选实现中，框中标注的功能可以不按照图中标注的顺序发生。例如，取决于所涉及的功能，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以以相反的顺序执行。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。
[0152]
这里使用的术语仅用于描述特定实施例，而非对本发明进行限制。如本文所用，单数形式“一”、“一个”和“该”意在包括复数形式，除非上下文另有明确表示。如本文所用，术语“或”是一个包容性算子，可以指“和/或”，除非上下文另有明确表示。还将进一步理解，本文中使用的术语“包括”、“包含”、“含”、“含有”、“有”、“具有”，可规定存在所陈述的特征、整数、步骤、操作、元素和/或组件，但不排除存在或添加一个或多个其他特征、整数、步骤、操作、元素、组件和/或其组合。如本文所用，“在一个实施例”中的短语不一定指同一实施例，尽管它可以。如本文所用的短语“在一个实施例中”，不一定指同一实施例，尽管也可以指同一实施例。如本文所用的短语“在另一实施例中”，不一定指不同的实施例，尽管也可以指不同的实施例。此外，实施例和/或实施例的组件可以彼此自由组合，除非它们是互斥的。
[0153]
以下权利要求中的所有装置或步骤加功能元件(如果有的话)的对应结构、材料、动作和等同物旨在包括用于与如特别要求权利保护的其他要求保护的元件组合执行功能的任何结构、材料或动作。本发明的描述是为了说明和描述的目的而给出的，但并不旨在是穷尽性的或受限于所公开形式的本发明。在不背离本发明的范围和精神的情况下，许多修改和变体对于本领域普通技术人员将是显而易见的。选择和描述实施例是为了最好地解释本发明的原理和实际应用，并且使本领域的其他普通技术人员能够理解本发明的具有适合于预期的特定用途的各种修改的各种实施例。

技术特征：

1.一种计算机实现的方法，包括:接收语音和与所述语音相关联的含义表示对，所述含义表示至少包括与所述语音相关联的语义实体，其中，所述语义实体的说出顺序是未知的；使用对准技术将所述语义实体重新排序成所述语音的说出顺序；以及使用所述语音和具有重新排序后的语义实体的含义表示对来训练口语理解机器学习模型。2.如权利要求1所述的方法，其中，所述对准技术包括与混合语音识别模型一起使用的声学关键词识别。3.如权利要求1所述的方法，其中，所述对准技术包括使用从注意力模型导出的时间标记。4.如权利要求3所述的方法，其中，所述语音包括噪声语音数据，并且所述注意力模型适于所述噪声语音数据。5.如权利要求1所述的方法，还包括扩充所接收的语音和含义表示对，以包括所述语义实体的随机顺序序列变体，并且其中，所述训练包括:使用扩充后的语音和含义表示对，对口语理解机器学习模型进行预训练；以及使用重新排序的语义实体，对经过预训练的口语理解机器学习模型进行训练。6.如权利要求1所述的方法，还包括扩充所接收的语音和含义表示对，以包括所述语义实体的随机顺序序列变体，并且其中，所述训练包括:使用扩充后的语音和含义表示对，对口语理解机器学习模型进行预训练；使用按字母顺序排列的所述语义实体，对经过预训练的口语理解机器学习模型进行微调；以及使用重新排序的语义实体，对经过微调的口语理解机器学习模型进行训练。7.如权利要求1所述的方法，其中，所述口语理解机器学习模型包括神经网络。8.如权利要求1所述的方法，还包括向经过训练的口语理解机器学习模型输入给定语音，其中，经过训练的口语理解机器学习模型输出包括与所述给定语音相关联的意向标签和语义实体的集合预测。9.一种系统，包括:处理器；与处理器耦合的存储装置；处理器被配置得至少:接收包括语音和与所述语音相关联的含义表示对的训练数据，所述含义表示至少包括与所述语音相关联的语义实体，其中，所述语义实体的说出顺序是未知的；通过扰乱所述语义实体以创建所述语义实体的随机顺序序列变体来扩充所述训练数据；以及使用扩充后的训练数据对口语理解机器学习模型进行预训练，其中，在训练的不同时期使用所述语义实体的不同随机顺序序列变体，其中，将所述口语理解机器学习模型预训练得针对给定输入语音而输出与所述给定输入语音相关联的意向标签和语义实体。10.如权利要求9所述的系统，其中，处理器还被配置得使用按字母顺序排列的所述语义实体，对经过预训练的口语理解机器学习模型进行微调。
11.如权利要求9所述的系统，其中，处理器还被配置得:使用对准技术将所述语义实体重新排序成所述语音的说出顺序；以及使用所述语音和具有重新排序后的语义实体的含义表示对来进一步训练经过预训练的口语理解机器学习模型。12.如权利要求11所述的系统，其中，所述对准技术包括与混合语音识别模型一起使用的声学关键词识别。13.如权利要求11所述的系统，其中，所述对准技术包括使用从注意力模型导出的时间标记。14.如权利要求13所述的系统，其中，所述语音包括噪声语音数据，并且所述注意力模型适于所述噪声语音数据。15.如权利要求9所述的系统，其中，所述口语理解机器学习模型包括神经网络。16.一种计算机程序产品，包括其中体现的程序指令，所述程序指令可由设备读取以使设备执行如权利要求1至8的任何之一所述的方法。

技术总结

公开了一种计算机实现的方法、系统和计算机程序产品。根据实施例，可以接收训练数据，训练数据可包括语音和与所述语音相关联的含义表示对，作为基本事实数据。含义表示至少包括与语音相关联的语义实体，其中语义实体的说出顺序是未知的。可以使用对准技术，可以将训练数据中的含义表示的语义实体重新排序成相关联的语音的说出顺序。可以使用语音和具有重新排序后的语义实体的含义表示对对来训练口语理解机器学习模型。可扰乱所接收的训练数据中的含义表示，例如语义实体，以创建与语音相关联的语义实体的随机顺序序列变体。扰乱的含义表示与关联的语音一起可以扩充训练数据。表示与关联的语音一起可以扩充训练数据。表示与关联的语音一起可以扩充训练数据。