用于语音识别的方法、装置、设备和存储介质与流程

1.本公开的示例实施例总体涉及计算机技术领域，特别地涉及用于语音识别的方法、装置、设备和计算机可读存储介质。

背景技术：

2.语音识别(automatic speech recognition，asr)指的是将语音信号转化为机器可识别的输入，例如自然语言文本。随着人工智能技术的发展，已经研究和开发出机器学习模型来实现语音识别任务，使得语音识别技术能够逐渐应用于日常生活。在一些特定的应用场景中，例如医疗、驾驶等，往往对语音识别准确率有着更高的要求。因此，基于领域的语音识别优化成为非常重要的优化方向。

技术实现要素：

3.在本公开的第一方面，提供了一种语音识别方法。该方法包括：基于待识别语音对应的音频特征信息和文本特征信息来确定待识别语音的候选识别结果的中间置信度得分；利用第一语言关联关系，基于文本特征信息来确定候选识别结果的第一语言置信度得分；利用第二语言关联关系，基于文本特征信息来确定候选识别结果的第二语言置信度得分；以及基于第一语言置信度得分与第二语言置信度得分的比较结果以及中间置信度得分，确定候选识别结果的目标置信度得分。
4.在本公开的第二方面，提供了一种用于语音识别的装置。该装置包括：中间得分确定模块，被配置为基于待识别语音对应的音频特征信息和文本特征信息来确定待识别语音的候选识别结果的中间置信度得分；第一语言得分确定模块，被配置为利用第一语言关联关系，基于文本特征信息来确定候选识别结果的第一语言置信度得分；第二语言得分确定模块，被配置为利用第二语言关联关系，基于文本特征信息来确定候选识别结果的第二语言置信度得分；以及目标得分确定模块，被配置为基于第一语言置信度得分与第二语言置信度得分的比较结果以及中间置信度得分，确定候选识别结果的目标置信度得分。
5.在本公开的第三方面，提供了一种电子设备。该设备包括：至少一个处理单元；以及至少一个存储器，至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。指令在由至少一个处理单元执行时使设备执行第一方面的方法。
6.在本公开的第四方面，提供了一种计算机可读存储介质。该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现第一方面的方法。
7.应当理解，该部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。
附图说明
8.结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面
将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：
9.图1示出了能够在其中实现本公开的实施例的示例环境的示意图；
10.图2示出了根据本公开的一些实施例的语音识别架构的框图；
11.图3示出了根据本公开的一些实施例的语音识别的过程的流程图；
12.图4a和图4b示出根据本公开的一些实施例的模型训练过程的流程图；
13.图5示出了根据本公开的一些实施例的语音识别过程的流程图；
14.图6示出了根据本公开的一些实施例的用于语音识别的装置的框图；以及
15.图7示出了其中可以实施本公开的一个或多个实施例的电子设备的框图。
具体实施方式
16.下面将参照附图更详细地描述本公开的实施例。虽然附图中示出了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反，提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。
17.在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“一些实施例”应当理解为“至少一些实施例”。下文还可能包括其他明确的和隐含的定义。
18.可以理解的是，本技术方案所涉及的数据(包括但不限于数据本身、数据的获得或使用)应当遵循相应法律法规及相关规定的要求。
19.可以理解的是，在使用本公开各实施例公开的技术方案之前，均应当根据相关法律法规通过适当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
20.例如，在响应于接收到用户的主动请求时，向用户发送提示信息，以明确地提示用户，其请求执行的操作将需要获得和使用到用户的个人信息，从而使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。
21.作为一种可选的但非限制性的实现方式，响应于接收到用户的主动请求，向用户发送提示信息的方式，例如可以是弹窗的方式，弹窗中可以以文字的方式呈现提示信息。此外，弹窗中还可以承载供用户选择“同意”或“不同意”向电子设备提供个人信息的选择控件。
22.可以理解的是，上述通知和获得用户授权过程仅是示意性的，不对本公开的实现方式构成限定，其他满足相关法律法规的方式也可应用于本公开的实现方式中。
23.如本文中所使用的，术语“模型”可以从训练数据中学习到相应的输入与输出之间的关联关系，从而在训练完成后可以针对给定的输入，生成对应的输出。模型的生成可以基于机器学习技术。深度学习是一种机器学习算法，通过使用多层处理单元来处理输入和提供相应输出。神经网络模型是基于深度学习的模型的一个示例。在本文中，“模型”也可以被称为“机器学习模型”、“学习模型”、“机器学习网络”或“学习网络”，这些术语在本文中可互换地使用。
[0024]“神经网络”是一种基于深度学习的机器学习网络。神经网络能够处理输入并且提供相应输出，其通常包括输入层和输出层以及在输入层与输出层之间的一个或多个隐藏层。在深度学习应用中使用的神经网络通常包括许多隐藏层，从而增加网络的深度。神经网络的各个层按顺序相连，从而前一层的输出被提供作为后一层的输入，其中输入层接收神经网络的输入，而输出层的输出作为神经网络的最终输出。神经网络的每个层包括一个或多个节点(也称为处理节点或神经元)，每个节点处理来自上一层的输入。
[0025]
通常，机器学习大致可以包括三个阶段，即训练阶段、测试阶段和应用阶段(也称为推理阶段)。在训练阶段，给定的模型可以使用大量的训练数据进行训练，不断迭代更新参数值，直到模型能够从训练数据中获得一致的满足预期目标的推理。通过训练，模型可以被认为能够从训练数据中学习从输入到输出之间的关联(也称为输入到输出的映射)。训练后的模型的参数值被确定。在测试阶段，将测试输入应用到训练后的模型，测试模型是否能够提供正确的输出，从而确定模型的性能。在应用阶段，模型可以被用于基于训练得到的参数值，对实际的输入进行处理，确定对应的输出。
[0026]
图1示出了能够在其中实现本公开的实施例的示例环境100的示意图。在图1的环境100中，期望训练和使用这样的语音识别模型，用于实现语音识别任务。
[0027]
如图1所示，环境100包括模型训练系统110和模型应用系统120。在图1的示例实施例，模型训练系统110被配置利用训练数据来训练语音识别模型105。训练数据可以包括多个语音样本112-1、112-2、
……
112-n以及对应的文本样本114-1、114-2、
……
114-n，其中n为大于等于1的整数。为便于讨论，语音样本统称为或单独称为语音样本112，文本样本统称为或单独称为文本样本114。语音样本112与对应文本样本114可以组成语音-文本样本对，其中文本样本114可以指示语音样本112的语音识别结果。
[0028]
在训练前，语音识别模型105的参数值可以是被初始化的，或者是可以通过预训练过程而获得经预训练的参数值。经过训练过程，语音识别模型105的参数值被更新和调整。在训练完成后，语音识别模型105具有训练后的参数值。基于这样的参数值，语音识别模型105能够实现从语音确定文本类型的语音识别结果。
[0029]
在图1中，模型应用系统120接收输入的待识别语音132。模型应用系统120可以被配置为利用训练后的语音识别模型105来执行对待识别语音132的语音识别，以获得语音识别结果134。语音识别结果134可以包括文本序列。
[0030]
在图1中，模型训练系统110和模型应用系统120可以是任何具有计算能力的系统，例如各种计算设备/系统、终端设备、服务器等。终端设备可以是任意类型的移动终端、固定终端或便携式终端，包括移动手机、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、媒体计算机、多媒体平板、或者前述各项的任意组合，包括这些设备的配件和外设或者其任意组合。服务器包括但不限于大型机、边缘计算节点、云环境中的计算设备，等等。
[0031]
应当理解，图1示出的环境中的部件和布置仅是示例，适于用于实现本公开所描述的示例实施例的计算系统可以包括一个或多个不同的部件、其他部件和/或不同的布置方式。例如，虽然被示出为是分离的，但模型训练系统110和模型应用系统120可以集成在相同系统或设备。本公开的实施例在此方面不受限制。
[0032]
应当理解，仅出于示例性的目的描述环境100中各个元素的结构和功能，而不暗示
对于本公开的范围的任何限制。
[0033]
如前文提及的，在一些领域中往往对语音识别准确率有着更高的要求。如果采用通用场景下的训练数据来训练通用语音识别模型，那么该模型可能无法对特定场景下的语音进行准确识别，例如可能会将专业词汇(例如，医疗专业词汇或驾驶命令等)识别为发音相近的通用词汇。
[0034]
为了提高特定领域下的语音识别准确度，一种可能的方案是利用特定领域的训练数据来训练语音识别模型，使得该语音识别模型具备准确识别特定领域下的语音的能力。然而，困难在于如何获得特定领域的足够语音-文本样本对。此外，由于语音识别模型的训练开销(计算资源开销和时间成本)往往比较大，针对不同领域训练多个语音识别模型会极大地增加成本。
[0035]
语言模型能够从文本角度来表征语言关联关系。虽然可能未被明确包括在语音识别模型中，但语音识别模型也可以被认为具有能够表征语言关联关系的部分。然而，基于通用文本样本训练出的语音识别模型对于特定领域下的文本的语言关联关系表征并不良好。当前，还提出了利用特定领域下的轻量文本样本来训练外部语言模型(language model，lm)，并使该领域特定的语言模型来改进通用语音识别模型对于特定领域中的准确识别。
[0036]
然而，关于领域特定的外部语言模型如何影响语音识别模型的识别结果，一些方案提出直接将外部语言模型计算出的候选识别结果的置信度得分加和到语音识别结果计算出的置信度得分，从而用于衡量候选识别结果是否可以被作为最终的语音识别结果。还有一些方案提出从语音识别模型计算出的置信度得分中预估出属于内部语言模型的得分，然后用外部的领域特定语言模型的置信度得分来替换内部语言模型的得分，从而得到候选识别结果的最终置信度得分。
[0037]
然而，经过分析研究和实验发现，由于外部语言模型是基于特定领域内的文本样本训练生成的，往往对于领域外的文本或通用文本集合的覆盖度不高。如果不加辨别，使外部语言模型的得分直接影响到语音识别结果，这将会严重影响到语音识别模型对涉及通用语音的识别准确率。
[0038]
在本公开的示例实施例中，提供了一种改进的语音识别方案。根据该方案，基于待识别语音对应的音频特征信息和文本特征信息来确定待识别语音的候选识别结果的中间置信度得分，并且还利用第一语言关联关系来确定候选识别结果的第一语言置信度得分，该语言置信度得分可以不依赖于音频特征信息来确定。利用第二语言关联关系，基于文本特征信息确定候选识别结果的第二语言置信度得分。基于第一语言置信度得分与第二语言置信度得分的比较结果以及中间置信度得分，来确定候选识别结果的目标置信度得分。
[0039]
根据该方案，综合考虑了由不同语言关联关系确定的语言置信度得分，选择性地使不同语言关联关系能够干预语音识别结果，从而提升语音识别准确率。在一些实施例中，如果其中某个语言关联关系是针对特定领域确定的，那么还可以在特定领域取得识别准确率的大幅上升，同时也不影响通用场景识别准确率。
[0040]
以下将继续参考附图描述本公开的一些示例实施例。
[0041]
图2示出了根据本公开的一些实施例的语音识别架构200的框图。如图2所述，该语音识别架构200包括语音识别模型210和领域特定语言模型220。在一些实施例中，语音识别模型210和领域特定语言模型220可以被配置为实现端到端的语音识别。
[0042]
语音识别模型210能够表征语音与文本的关联关系，用于实现从语音到文本的转化。语音识别模型210的模型输入为待识别语音205，模型输出为候选识别结果(例如包括文本)的置信度得分。领域特定语言模型220可以用于实现对文本序列的预测。在机器学习领域，语言模型能够用于表征语言关联关系，从而能够用于预测字符(词)序列产生的概率，判断一个语言序列是否为正常语句。在文本生成的任务中，语言关联关系或语言模型也可以被定义为：给定一个文本单元或多个文本单元，通过语言关联关系或语言模型，可以预测出语言学上有意义的下一个文本单元。在本公开的一些实施例中，领域特定语言模型220可以执行文本生成任务，其模型输入为一个或多个文本单元，模型输出为所预测的下一个文本单元的置信度得分。
[0043]
此外，语音识别架构200还包括融合模块230，其被配置为控制领域特定语言模型220的输出对语音识别结果的影响，并确定待识别语音205对应的语音识别结果235。
[0044]
图3示出了根据本公开的一些实施例的语音识别过程300。在一些实施例中，如下文将提及的，过程300可以利用图2的语音识别架构200来实现，并且过程300可以被实现在图1的模型应用系统120处。在其他实施例中，过程300还可以利用其它语音识别结构来实现。
[0045]
在框310，模型应用系统120基于待识别语音对应的音频特征信息和文本特征信息来确定待识别语音的候选识别结果的中间置信度得分。也就是说，可以从针对待识别语音可获得的多方面的信息，包括声学和文本方面的特征信息，来确定候选识别结果的置信度得分，即是否能够作为待识别语音的识别结果。在一些实施例中，候选识别结果可以包括文本。
[0046]
在一些实施例中，可以利用语音与文本的关联关系，基于音频特征信息和文本特征信息来确定候选识别结果的中间置信度得分。在一些实施例中，可以利用语音识别模型210，基于音频特征信息和文本特征信息来确定候选识别结果的中间置信度得分，其中语音识别模型210能够表征语音与文本之间的关联关系。语音识别模型210可以基于适合实现语音识别的任何模型结构来构建。作为示例，语音识别模型210可以基于连接时序分类(connectionist temporal classification，ctc)模型结构、基于注意力机制(attention-based)模型结构、递归神经网络(recurrent neural network，rnn)模型结构，等等。
[0047]
在模型应用阶段，语音识别模型210是经训练的模型。在一些实施例中，语音识别模型210可以被训练为通用语音识别模型，从而能够对通用场景下的语音识别具有较高准确度。图4a示出根据本公开的一些实施例的针对语音识别模型210的模型训练过程400的流程图。过程400例如可以被实现在图1的模型训练系统110处实现。
[0048]
在框410，模型训练系统110获得语音-文本样本对，每个语音-文本样本对可以包括语音以及对应的文本。语音可以作为模型输入，文本作为模型输出的基准值，用于判断模型当前误差，以便进行模型参数值的调整。语音-文本样本对可以是从任何适当数据源可获得的语音-文本样本对。
[0049]
在框420，模型训练系统110利用所获得的语音-文本样本对来训练语音识别模型210。在一些实施例中，语音-文本样本对与通用场景相关，而不需要针对特定领域。利用这样的训练数据，所训练的语音识别模型210能够对通用场景下的语音具有较高的准确度。模型训练系统110可以利用任何适当的模型训练算法来训练语音识别模型210，本公开的实施
例在此方面不受限制。
[0050]
在框430，在训练完成后，模型训练系统110获得经训练的语音识别模型210，以提供到模型应用系统120处使用。
[0051]
语音识别可以认为是序列到序列的转换过程，即语音序列到文本序列的转化过程。语音序列对应于待识别语音，其可以包括按任何适当的划分粒度划分的多个语音单元。在执行语音识别时，语音识别模型210可以按顺序针对识别各个语音单元，提取语音单元的音频特征信息，也称为音频特征信息，并确定对应的文本单元。
[0052]
返回参考图3，在一些实施例中，待识别语音205可以经过一些预处理后被输入到语音识别模型210。在一些实施例中，语音识别模型210可以迭代地执行语音识别。在语音识别过程中，候选识别结果可以包括针对待识别语音所预测的一个或多个文本单元。在本文中，文本单元是识别的基本组成单元，其例如可以是音素、字符、词等。
[0053]
在一些实施例中，在迭代过程中，先前识别出的一个或多个文本单元可以作为先验信息被用作模型输入，进一步确定下一个文本单元，从而可以影响识别结果。也就是说，确定在已知先前的一个或多个文本单元为条件的情况下，从语音中识别出下一文本单元的概率。在一些实施例中，每一步迭代中可以考虑前一步或多步识别出的文本单元。下文中将参考图5更详细讨论这样的迭代过程。
[0054]
语音识别模型210可以通过特征提取，提取待识别语音的一个或多个语音单元的音频特征信息，并提取候选识别结果的文本特征信息(也称为文本特征信息)。音频特征信息是从声学角度来表征语音中的特征信息，以提供对于语音识别的有用信息。文本特征信息从语言角度来表征候选识别结果的特征信息。
[0055]
在一些实施例中，基于各种模型结构构造的语音识别模型210可以被认为包含特征提取部分或编码器(encoder)，以及预测器(predictor)或解码器(decoder)。特征提取部分或编码器用于执行特征提取，以确定音频特征信息和文本特征信息。预测器或解码器被配置为处理所提取的文本特征信息，以获得模型输出。
[0056]
语音识别模型210基于音频特征信息和文本特征信息来确定当前的候选识别结果的置信度得分(在文本中，为讨论方便，称为“中间置信度得分”)。该中间置信度得分是从音频和文本特征两个方面来综合衡量语音识别模型210关于候选识别结果的置信度确定，即确定候选识别结果是否是待识别语音的正确识别结果或部分正确识别结果(在未识别到语音序列末尾的情况下)。如果中间置信度得分越高，意味着语音识别模型210确定候选识别结果与待识别语音相对应的概率越高。反之，如果中间置信度得分越高，意味着语音识别模型210确定候选识别结果与待识别语音相对应的概率越低。
[0057]
在框320，模型应用系统120利用第一语言关联关系，基于文本特征信息来确定候选识别结果的第一语言置信度得分。通过语言关联关系，可以从文本角度，衡量候选识别结果在语言方面的置信度得分，例如是否从语言方面能够准确反映待识别语音中所包含的信息。
[0058]
在一些实施例中，第一语言关联关系可以是基于通用场景下的文本样本确定的关联关系。用于确定语言关联关系的文本样本也称为词典或词库。在一些实施例中，可以至少利用用于训练语音识别模型210的语音-文本样本对中的文本样本来确定第一语言关联关系。在一些实施例中，可以利用语音识别模型210中能够表征语言关联关系的部分来确定第
一语言置信度得分。
[0059]
对于语音识别模型210，由于该模型也考虑了候选识别结果的文本信息，通常可以理解为其具有内部语言模型，用于从语言角度准确生成语音对应的文本序列。取决于语音识别模型210的结构，这样的内部语言模型可以是显示配置的，或者可以是隐式存在的。在本公开的实施例中，期望能够利用语音识别模型210外部的领域特定语言模型220来促进对特定领域的准确语音识别。因此，在一些实施例中，提出了确定语音识别模型210关于当前的候选识别结果所给出的语言置信度得分。具体地，该语言置信度得分基于候选识别结果的文本特征信息来确定，而不基于音频特征信息。第一语言置信度得分是从文本特征这个方面来综合衡量语音识别模型210关于候选识别结果的置信度确定，即确定候选识别结果是否是待识别语音的正确识别结果或部分正确识别结果(在未识别到语音序列末尾的情况下)。
[0060]
在一些实施例中，文本特征信息和音频特征信息可以被认为是在语音识别模型210的特征提取部分或解码器部分生成的，因此语音识别模型210的特征提取部分或解码器部分能够表征第一语言关联关系。在一些实施例中，可以通过排除音频特征信息，将文本特征信息输入到后续的预测器部分或解码器部分，来生成第一语言置信度得分。如果第一语言置信度得分越高，意味着语音识别模型210从文本角度确定候选识别结果与待识别语音相对应的概率越高。反之，如果第一语言置信度得分越高，意味着语音识别模型210从文本角度确定候选识别结果与待识别语音相对应的概率越低。
[0061]
在框330，模型应用系统120利用第二语言关联关系，基于文本特征信息来确定候选识别结果的第二语言置信度得分。
[0062]
在一些实施例中，第二语言关联关系可以指示特定的目标领域中的语言关联关系。第二语言关联关系与第一语言关联关系不同，并且可以基于与第一语言关联关系不同的文本样本来确定。第二语言关联关系可以基于特定的目标领域中的文本样本来确定。在一些实施例中，第二语言关联关系可以由语言模型来表征，例如可以由领域特定语言模型220来表征。领域特定语言模型220是独立于语音识别模型的语言模型。领域特定语言模型220可以基于适合实现语言模型结构来构建。作为示例，领域特定语言模型220可以基于统计语言模型，例如n元(n-gram)语言模型，或者神经网络语言模型，例如rnn语言模型，等等。
[0063]
在模型应用阶段，领域特定语言模型220是经训练的模型。图4b示出根据本公开的一些实施例的针对领域特定语言模型220的模型训练过程402的流程图。过程402例如可以被实现在图1的模型训练系统110处实现。
[0064]
在框450，模型训练系统110获得与目标领域相关的文本样本。在框440，模型训练系统110利用所获得的文本样本来训练领域特定语言模型220。基于与目标领域相关的文本样本，可以使领域特定语言模型220能够被训练为用于针对该目标领域执行更准确的文本序列生成。目标领域可以根据具体应用需要设置，例如医疗、驾驶等。相比于要使用特定领域下的音频和文本样本对，特定领域中的文本样本更容易获得。此外，相比于训练领域特定的语音识别模型，领域特定的语言模型的训练开销和训练难度更小。
[0065]
由于只需要利用领域内文本来确定语言关联关系，例如训练领域特定语言模型，本公开的实施例可以在仅需少量资源的情况下，快速优化新的领域，具有很强的实用性和扩展性。在一些应用中，根据需要，可以训练与不同领域相关的多个领域特定语言模型，这
些领域特定语言模型可以共享通用的语音识别模型。
[0066]
在框460，在训练完成后，模型训练系统110获得经训练的领域特定语言模型220，以提供到模型应用系统120处使用。通过过程402所训练的领域特定语言模型220能够表征特定目标领域下的语言关联关系。
[0067]
继续返回参考图3，在一些实施例中，与语音识别模型210中的内部语言模型相比，领域特定语言模型220基于相同的文本特征信息来确定当前的候选识别结果的第二语言置信度得分。这样，领域特定语言模型220基于特定领域内知识来衡量当前的候选识别结果是否是待识别语音的正确识别结果或部分正确识别结果(在未识别到语音序列末尾的情况下)。如果第二语言置信度得分越高，意味着领域特定语言模型220确定候选识别结果与待识别语音相对应的概率越高。反之，如果第二语言置信度得分越高，意味着领域特定语言模型220确定候选识别结果与待识别语音相对应的概率越低。
[0068]
在一些实施例中，模型应用系统120还可以确定待识别语音205是否与领域特定语言模型220所针对的目标领域相关。例如，可以通过明确指示或者通过其他辅助信息来确定待识别语音205是否与目标领域相关。如果确定待识别语音205与目标领域相关，利用领域特定语言模型220来确定第二语言置信度得分。在一些实施例中，如果存在多个领域特定语言模型，可以确定待识别语音205相关的领域，并从多个领域特定语言模型中选择对应领域的语言模型来确定候选识别结果的第二语言置信度得分。
[0069]
在框340，模型应用系统120基于第一语言置信度得分与第二语言置信度得分的比较结果以及中间置信度得分，确定候选识别结果的目标置信度得分。具体地，模型应用系统120可以利用语音识别架构200中的融合模块230来确定候选识别结果的目标置信度得分。候选识别结果的目标置信度得分可以用于进一步确定待识别语言205的最终语音识别结果235。
[0070]
在本公开的实施例中，将利用通用领域下的第一语言关联关系确定的第一语言置信度得分与特定领域下的第二语言关联关系确定的第二语言置信度模型相比较，比较结果会干预候选识别结果的最终置信度得分。具体地，通过比较，可以确定第二语言关联关系(例如，领域特定语言模型)关于候选识别结果是否具有比第一语言关联关系(例如，语音识别模型)更高的语言置信度。进而，可以利用更高的语言置信度得分来确定当前候选识别结果的最终置信度得分，并影响待识别语音的最终语音识别结果。
[0071]
根据本公开的实施例，通过将不同语言关联关系对候选识别结果的语言置信度得分进行融合，能够充分考虑对特定领域的识别优化和对通用领域的准确识别，这可以提高在特定场景中对特定领域语音和通用语音的识别准确度。
[0072]
具体地，在一些实施例中，如果比较结果指示第二语言关联关系关于候选识别结果具有比第一语言关联关系更高的语言置信度，从中间置信度得分中去除第一语言置信度得分，得到部分置信度得分。部分置信度得分指的是去除了语音识别模型210中语言或文本特征影响的那部分得分。然后，通过组合部分置信度得分和第二语言置信度得分，来确定目标置信度得分。在一些实施例中，如果比较结果指示第二语言关联关系关于候选识别结果具有比第一语言关联关系更低的语言置信度，将中间置信度得分确定为候选识别结果的目标置信度得分。
[0073]
在一些实施例中，还可以对第一语言置信度得分和第二语言置信度得分进行加
权，然后对加权结果进行比较以及确定目标置信度得分。这在下文中会详细介绍。
[0074]
为更好理解，下文将详细讨论针对按序列迭代执行的语音识别中第t步语音识别。图5示出了根据本公开的一些实施例的语音识别过程500的流程图。为便于讨论，分别利用语音识别模型210和领域特定语言模型220来表征不同的语言关联关系。
[0075]
在过程500中，第t-1步目标识别结果502可以作为语音识别模型210和领域特定语言模型220的模型输入。第t-1步目标识别结果502例如可以包括针对待识别语音205预测的第t-1个文本单元。在一些实施例中，还可以将第t-2个文本单元或更多之前已预测的文本单元作为第t-1步目标识别结果502，输入到语音识别模型210和领域特定语言模型220。
[0076]
语音识别模型210按正常语音识别过程，确定第t步的候选识别结果的中间置信度得分512(表示为amscore)，该得分考虑了待识别语音205的音频特征信息，并且还考虑了第t步的候选识别结果(以及第t-1步目标识别结果502)的文本特征信息。第t步的候选识别结果例如可以包括针对待识别语音205预测出的第t个文本单元。
[0077]
此外，通过约束语音识别模型210的预测器或解码器的输入，使在不考虑音频特征信息的情况下，基于文本特征信息来确定第t步的候选识别结果的语言置信度得分514(表示为interlmscore)，即上文所谓的“第一语言置信度得分”。
[0078]
领域特定语言模型220可以在第t-1步目标识别结果502的条件下，确定第t步候选识别结果的语言置信度得分522(表示为extlmscore)，即上文所谓的“第二语言置信度得分。
[0079]
在框530，对语言置信度得分514interlmscore和语言置信度得分522extlmscore执行得分比较，例如在语音识别架构200的融合模块230处执行得分比较。
[0080]
在一些实施例中，可以直接比较语言置信度得分514interlmscore和语言置信度得分522extlmscore。如果语言置信度得分522extlmscore超过语言置信度得分514interlmscore，融合模块230可以确定领域特定语言模型220关于第t步的候选识别结果具有比语音识别模型210更高的语言置信度。如果语言置信度得分522extlmscore未超过(例如，小于等于)语言置信度得分514interlmscore，融合模块230可以确定领域特定语言模型220关于候选识别结果具有比语音识别模型210更低的语言置信度。
[0081]
在一些实施例中，可以利用第一权值(表示为λ1)和第二权值(表示为λ2)来分别对语言置信度得分514interlmscore和语言置信度得分522extlmscore进行加权，得到第一加权置信度得分(表示为λ
1*
interlmscore)和第二加权置信度得分(λ2*extlmscore)。然后，将第一加权置信度得分和第二加权置信度得分相比较来确定比较结果。通过加权，可以消除或降低领域特定语言模型220和语音识别模型210中的内部语言模型对候选识别结果的打分差异。例如，如果语音识别模型210中的内部语言模型倾向于对多数候选识别结果给出较高置信度得分，那么这将影响到确定目标置信度得分的效果。
[0082]
在一些实施例中，所使用的权值λ1和λ2可以与第二语言关联关系和第一语言关联关系的确定过程一起被确定，例如通过领域特定语言模型220和语音识别模型210的训练过程来确定。在一些实施例中，如果要将领域特定语言模型220和语音识别模型210结合使用，可以利用另外的训练数据来对这两个模型进行联合训练，以便至少调整权值λ1和λ2。
[0083]
在一些实施例中，如果λ2*extlmscore超过λ
1*
interlmscore，融合模块230可以确定领域特定语言模型220关于候选识别结果具有比语音识别模型210更高的语言置信度。如
果λ2*extlmscore未超过λ
1*
interlmscore，融合模块230可以确定领域特定语言模型220关于候选识别结果具有比语音识别模型210更低的语言置信度。
[0084]
在一些实施例中，如果确定领域特定语言模型220关于候选识别结果具有比语音识别模型210更高的语言置信度，例如λ2*extlmscore超过λ
1*
interlmscore，在框540，融合模块230确定第t步的目标置信度得分为p＝amscore+λ2*extlmscore-λ1*interlmscore。
[0085]
如果确定领域特定语言模型220关于候选识别结果具有比语音识别模型210更低的语言置信度，在框550，融合模块230确定第t步候选识别结果的目标置信度得分为p＝amscore。
[0086]
在一些实施例中，第t步的目标置信度得分可以被确定为如下：
[0087]
p＝amscore+max(0,λ2*extlmscore-λ1*interlmscore)(1)
[0088]
在确定第t步候选识别结果的目标置信度得分后，在框560，可以基于目标置信度得分确定第t步的目标识别结果。例如，在第t步可以确定多个候选识别结果的目标置信度得分，并将目标置信度得分较高的候选识别结果作为第t步的目标识别结果。基于第t步的目标识别结果，可以确定待识别语音205对应的语音识别结果235。
[0089]
应当理解，图5示出了语音识别的具体示例。根据配置的模型结果，在每次迭代中语音识别模型210和领域特定模型220的输入可以不同，可以考虑更多其他信息，这些可以根据具体应用来设置。本公开的实施例在此方面不受限制。
[0090]
图6示出了根据本公开的一些实施例的用于语音识别的装置600的示意性结构框图。装置600可以被实现为或者被包括在模型应用系统120中。装置600中的各个模块/组件可以由硬件、软件、固件或者它们的任意组合来实现。
[0091]
如图所示，装置600包括中间得分确定模块610，被配置为基于待识别语音对应的音频特征信息和文本特征信息来确定候选识别结果的中间置信度得分。装置600还包括第一语言得分确定模块620，被配置为利用第一语言关联关系，基于文本特征信息来确定候选识别结果的第一语言置信度得分，以及第二语言得分确定模块630，被配置为利用第二语言关联关系，基于文本特征信息来确定候选识别结果的第二语言置信度得分。装置600还包括目标得分确定模块640，被配置为基于第一语言置信度得分与第二语言置信度得分的比较结果以及中间置信度得分，确定候选识别结果的目标置信度得分。
[0092]
在一些实施例中，中间得分确定模块610被配置为利用语音识别模型，基于音频特征信息和文本特征信息来确定候选识别结果的中间置信度得分。
[0093]
在一些实施例中，第一语言得分确定模块620被配置为利用语音识别模型中表征第一语言关联关系的部分，基于文本特征信息来确定候选识别结果的第一语言置信度得分。
[0094]
在一些实施例中，第二语言得分确定模块630被配置为利用领域特定语言模型，基于文本特征信息来确定候选识别结果的第二语言置信度得分，领域特定语言模型表征第二语言关联关系。
[0095]
在一些实施例中，目标得分确定模块640包括：第一确定模块，被配置为如果比较结果指示第二语言关联关系关于候选识别结果具有比第一语言关联关系更高的语言置信度，从中间置信度得分中去除第一语言置信度得分，得到部分置信度得分，以及通过组合部分置信度得分和第二语言置信度得分，来确定目标置信度得分；以及第二确定模块，被配置
为如果比较结果指示第二语言关联关系关于候选识别结果具有比第一语言关联关系更低的语言置信度，将中间置信度得分确定为目标置信度得分。
[0096]
在一些实施例中，装置600还包括：加权模块，被配置为利用第一权值和第二权值来分别加权第一语言置信度得分和第二语言置信度得分，得到第一加权置信度得分和第二加权置信度得分；以及比较结果确定模块，被配置为通过将第一加权置信度得分和第二加权置信度得分相比较来确定比较结果。
[0097]
在一些实施例中，比较结果确定模块包括：第一结果指示确定模块，被配置为如果第二加权置信度得分超过第一加权置信度得分，确定比较结果指示第二语言关联关系关于候选识别结果具有比第一语言关联关系更高的语言置信度；以及第二结果指示确定模块，被配置为如果第二加权置信度得分未超过第一加权置信度得分，确定比较结果指示第二语言关联关系关于候选识别结果具有比第一语言关联关系更低的语言置信度。
[0098]
在一些实施例中，第一权值和第二权值与第二语言关联关系和第一语言关联关系的确定过程一起被确定。
[0099]
在一些实施例中，语音识别模型基于与通用场景相关的语音和文本样本对来训练。在一些实施例中，领域特定语言模型基于与目标领域相关的文本样本来训练。
[0100]
在一些实施例中，第二语言关联关系指示目标领域中的语言关联关系。在一些实施例中，第二语言得分确定模块630包括：领域确定模块，被配置为确定待识别语音与目标领域是否相关；以及基于领域的语言得分确定模块，被配置为如果确定待识别语音与目标领域相关，利用第二语言关联关系来确定第二语言置信度得分。
[0101]
在一些实施例中，装置600还包括：识别结果确定模块，被配置为基于候选识别结果的目标置信度得分，确定待识别语音的语音识别结果。
[0102]
图7示出了其中可以实施本公开的一个或多个实施例的电子设备700的框图。应当理解，图7所示出的电子设备700仅仅是示例性的，而不应当构成对本文所描述的实施例的功能和范围的任何限制。图7所示出的电子设备700可以用于实现图1的模型应用系统120和/或模型训练系统110。电子设备700可以包括或被实现为图6的装置600。
[0103]
如图7所示，电子设备700是通用计算设备的形式。电子设备700的组件可以包括但不限于一个或多个处理器或处理单元710、存储器720、存储设备730、一个或多个通信单元740、一个或多个输入设备750以及一个或多个输出设备760。处理单元710可以是实际或虚拟处理器并且能够根据存储器720中存储的程序来执行各种处理。在多处理器系统中，多个处理单元并行执行计算机可执行指令，以提高电子设备700的并行处理能力。
[0104]
电子设备700通常包括多个计算机存储介质。这样的介质可以是电子设备700可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器720可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(ram))、非易失性存储器(例如，只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、闪存)或它们的某种组合。存储设备730可以是可拆卸或不可拆卸的介质，并且可以包括机器可读介质，诸如闪存驱动、磁盘或者任何其他介质，其可以能够用于存储信息和/或数据(例如用于训练的训练数据)并且可以在电子设备700内被访问。
[0105]
电子设备700可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图7中示出，可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或
写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中，每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。存储器720可以包括计算机程序产品725，其具有一个或多个程序模块，这些程序模块被配置为执行本公开的各种实施例的各种方法或动作。
[0106]
通信单元740实现通过通信介质与其他电子设备进行通信。附加地，电子设备700的组件的功能可以以单个计算集或多个计算机器来实现，这些计算机器能够通过通信连接进行通信。因此，电子设备700可以使用与一个或多个其他服务器、网络个人计算机(pc)或者另一个网络节点的逻辑连接来在联网环境中进行操作。
[0107]
输入设备750可以是一个或多个输入设备，例如鼠标、键盘、追踪球等。输出设备760可以是一个或多个输出设备，例如显示器、扬声器、打印机等。电子设备700还可以根据需要通过通信单元740与一个或多个外部设备(未示出)进行通信，外部设备诸如存储设备、显示设备等，与一个或多个使得用户与电子设备700交互的设备进行通信，或者与使得电子设备700与一个或多个其他电子设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(i/o)接口(未示出)来执行。
[0108]
根据本公开的示例性实现方式，提供了一种计算机可读存储介质，其上存储有计算机可执行指令，其中计算机可执行指令被处理器执行以实现上文描述的方法。根据本公开的示例性实现方式，还提供了一种计算机程序产品，计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括计算机可执行指令，而计算机可执行指令被处理器执行以实现上文描述的方法。
[0109]
这里参照根据本公开实现的方法、装置、设备和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。
[0110]
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
[0111]
可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
[0112]
附图中的流程图和框图显示了根据本公开的多个实现的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图
中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0113]
以上已经描述了本公开的各实现，上述说明是示例性的，并非穷尽性的，并且也不限于所公开的各实现。在不偏离所说明的各实现的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实现的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文公开的各个实现方式。

技术特征：

1.一种语音识别方法，包括：基于待识别语音对应的音频特征信息和文本特征信息来确定所述待识别语音的候选识别结果的中间置信度得分；利用第一语言关联关系，基于所述文本特征信息来确定所述候选识别结果的第一语言置信度得分；利用第二语言关联关系，基于所述文本特征信息来确定所述候选识别结果的第二语言置信度得分；以及基于所述第一语言置信度得分与所述第二语言置信度得分的比较结果以及所述中间置信度得分，确定所述候选识别结果的目标置信度得分。2.根据权利要求1所述的方法，其中确定所述候选识别结果的中间置信度得分包括：利用语音识别模型，基于所述音频特征信息和所述文本特征信息来确定所述候选识别结果的中间置信度得分。3.根据权利要求2所述的方法，其中确定所述候选识别结果的第一语言置信度得分包括：利用所述语音识别模型中表征所述第一语言关联关系的部分，基于所述文本特征信息来确定所述候选识别结果的第一语言置信度得分。4.根据权利要求1所述的方法，其中确定所述候选识别结果的第二语言置信度得分，包括：利用领域特定语言模型，基于所述文本特征信息来确定所述候选识别结果的第二语言置信度得分，所述领域特定语言模型表征所述第二语言关联关系。5.根据权利要求1所述的方法，其中确定所述候选识别结果的目标置信度得分包括：如果所述比较结果指示所述第二语言关联关系关于所述候选识别结果具有比所述第一语言关联关系更高的语言置信度，从所述中间置信度得分中去除所述第一语言置信度得分，得到部分置信度得分，以及通过组合所述部分置信度得分和所述第二语言置信度得分，来确定所述目标置信度得分；以及如果所述比较结果指示所述第二语言关联关系关于所述候选识别结果具有比所述第一语言关联关系更低的语言置信度，将所述中间置信度得分确定为所述目标置信度得分。6.根据权利要求1所述的方法，还包括：利用第一权值和第二权值来分别加权所述第一语言置信度得分和所述第二语言置信度得分，得到第一加权置信度得分和第二加权置信度得分；以及通过将所述第一加权置信度得分和所述第二加权置信度得分相比较来确定所述比较结果。7.根据权利要求6所述的方法，其中确定所述比较结果包括：如果所述第二加权置信度得分超过所述第一加权置信度得分，确定所述比较结果指示所述第二语言关联关系关于所述候选识别结果具有比所述第一语言关联关系更高的语言置信度；以及如果所述第二加权置信度得分未超过所述第一加权置信度得分，确定所述比较结果指示所述第二语言关联关系关于所述候选识别结果具有比所述第一语言关联关系更低的语
言置信度。8.根据权利要求6所述的方法，其中所述第一权值和所述第二权值与所述第二语言关联关系和所述第一语言关联关系的确定过程一起被确定。9.根据权利要求2所述的方法，其中所述语音识别模型基于与通用场景相关的语音和文本样本对来训练。10.根据权利要求4所述的方法，其中所述领域特定语言模型基于与目标领域相关的文本样本来训练。11.根据权利要求1所述的方法，其中所述第二语言关联关系指示目标领域中的语言关联关系，并且其中确定所述第二语言置信度得分包括：确定所述待识别语音与所述目标领域是否相关；以及如果确定所述待识别语音与所述目标领域相关，利用所述第二语言关联关系来确定所述第二语言置信度得分。12.根据权利要求1所述的方法，还包括：基于所述候选识别结果的所述目标置信度得分，确定所述待识别语音的语音识别结果。13.一种用于语音识别的装置，包括：中间得分确定模块，被配置为基于待识别语音对应的音频特征信息和文本特征信息来确定待识别语音的候选识别结果的中间置信度得分；第一语言得分确定模块，被配置为利用第一语言关联关系，基于所述文本特征信息来确定所述候选识别结果的第一语言置信度得分；第二语言得分确定模块，被配置为利用第二语言关联关系，基于所述文本特征信息来确定所述候选识别结果的第二语言置信度得分；以及目标得分确定模块，被配置为基于所述第一语言置信度得分与所述第二语言置信度得分的比较结果以及所述中间置信度得分，确定所述候选识别结果的目标置信度得分。14.一种电子设备，包括：至少一个处理单元；以及至少一个存储器，所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令，所述指令在由所述至少一个处理单元执行时使所述设备执行根据权利要求1至12中任一项所述的方法。15.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据权利要求1至12中任一项所述的方法。

技术总结

根据本公开的实施例，提供了用于语音识别的方法、装置、设备和存储介质。该方法包括基于待识别语音对应的音频特征信息和文本特征信息来确定待识别语音的候选识别结果的中间置信度得分，并且利用第一语言关联关系，基于文本特征信息来确定候选识别结果的第一语言置信度得分。该方法还包括利用第二语言关联关系，基于文本特征信息来确定候选识别结果的第二语言置信度得分。该方法还包括基于第一语言置信度得分与第二语言置信度得分的比较结果以及中间置信度得分，确定候选识别结果的目标置信度得分。以此方式，可以提升对特定领域和通用领域的语音识别准确率。通用领域的语音识别准确率。通用领域的语音识别准确率。