语音识别方法、训练方法、装置、电子设备及存储介质与流程

1.本发明涉及语音识别技术领域，尤其涉及一种语音识别方法、训练方法、装置、电子设备及存储介质。

背景技术：

2.在语音识别技术(automatic speech recognition，asr)中，主要采用字错率(charactererror rate，cer)、词错率(word error rate，wer)等性能指标评价asr算法性能。
3.在训练语音识别模型时，可以基于语音识别模型的识别语音样本的预测文本，然后对比预测文本和参考文本，获得评价指标参数，基于评价指标参数确定asr算法的性能评价指标，但是这些性能评价指标难以差异化衡量预测文本给用户理解带来的影响，导致偏差较大的识别文本被误认为正确文本输出。

技术实现要素：

4.根据本公开的一方面，提供了一种语音识别方法，包括：
5.获取目标语音，基于语音识别模型确定目标语音的识别文本，所述语音识别模型通过下述方式训练得到：
6.利用所述语音识别模型预测语音样本的预测文本，响应于所述语音识别模型的性能评价指标满足迭代条件，更新所述语音识别模型的模型参数，所述性能评价指标用于衡量语音样本的预测文本相对标准文本的错误率，所述性能评价指标的参数包括所述预测文本含有的统计对象的识别量化参数和语义差异参数，当所述统计对象识别正确时，所述识别量化参数包括识别正确量化数据，当所述统计对象识别错误时，所述识别量化参数包括编辑操作的编辑量化数据，所述语义差异参数用于校正所述编辑量化数据。
7.根据本公开的另一方面，提供一种训练方法，包括：
8.利用语音识别模型预测语音样本的预测文本；
9.响应于所述语音识别模型的性能评价指标满足迭代条件，更新所述语音识别模型的模型参数；
10.其中，所述性能评价指标用于衡量语音样本的预测文本相对标准文本的错误率，所述性能评价指标的参数包括所述预测文本含有的统计对象的识别量化参数和语义差异参数，当所述统计对象识别正确时，所述识别量化参数包括识别正确量化数据，当所述统计对象识别错误时，所述识别量化参数包括编辑操作的编辑量化数据，所述语义差异参数用于校正所述编辑量化数据。
11.根据本公开的另一方面，提供了一种语音识别装置，包括：
12.获取模块，用于获取目标语音；
13.识别模块，用于基于语音识别模型确定目标语音的识别文本，所述语音识别模型通过下述方式训练得到：
14.利用所述语音识别模型预测语音样本的预测文本，响应于所述语音识别模型的性能评价指标满足迭代条件，更新所述语音识别模型的模型参数，所述性能评价指标用于衡量语音样本的预测文本相对标准文本的错误率，所述性能评价指标的参数包括所述预测文本含有的统计对象的识别量化参数和语义差异参数，当所述统计对象识别正确时，所述识别量化参数包括识别正确量化数据，当所述统计对象识别错误时，所述识别量化参数包括编辑操作的编辑量化数据，所述语义差异参数用于校正所述编辑量化数据。
15.根据本公开的另一方面，提供一种训练装置，包括：
16.预测模块，用于利用语音识别模型预测语音样本的预测文本；
17.更新模块，用于响应于所述语音识别模型的性能评价指标满足迭代条件，更新所述语音识别模型的模型参数，所述性能评价指标用于衡量语音样本的预测文本相对标准文本的错误率，所述性能评价指标的参数包括所述预测文本含有的统计对象的识别量化参数和语义差异参数，当所述统计对象识别正确时，所述识别量化参数包括识别正确量化数据，当所述统计对象识别错误时，所述识别量化参数包括编辑操作的编辑量化数据，所述语义差异参数用于校正所述编辑量化数据。
18.根据本公开的另一方面，提供了一种电子设备，包括：
19.处理器；以及，
20.存储程序的存储器；
21.其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据本公开示例性实施例所述的方法。
22.根据本公开的另一方面，提供了一种非瞬时计算机可读存储介质，所述非瞬时计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行根据本公开示例性实施例所述的方法。
23.本公开示例性实施例中提供的一个或多个技术方案中，语音识别模型在训练阶段时，当统计对象识别错误，该识别量化参数包括编辑操作的编辑量化数据，且语义差异参数用于校正编辑量化数据，因此，当基于编辑量化数据和识别正确量化数据确定性能评价指标的过程中，可以利用语义差异数据校正编辑量化数据，使得校正后编辑量化数据不仅可以反映预测文本和标准文本的客观性差异，还可以从语义理解的角度反映预测文本和标准文本的主观性差异。基于此，基于校正后编辑量化数据和识别正确量化数据确定性能评价指标后，利用性能评价指标评价语音样本的预测文本相对标准文本的错误率时，性能评价指标可以分辨语义偏差对识别结果带来的影响，因此，本公开示例性实施例的方法使用的性能评价指标可以差异化衡量预测文本给用户理解带来的影响，避免语义偏差较大的识别文本被误认为正确文本输出。
附图说明
24.在下面结合附图对于示例性实施例的描述中，本公开的更多细节、特征和优点被公开，在附图中：
25.图1示出了本公开示例性实施例描述的各种方法的示例系统的示意图；
26.图2示出了本公开示例性实施例的训练方法的示例流程图；
27.图3示出了本公开示例性实施例的语音识别方法的示例流程图；
28.图4示出了本公开示例性实施例的情感偏移和语义偏移对词错率的影响示意图；
29.图5示出了本公开示例性实施例的语音识别装置的功能模块示意性框图；
30.图6示出了根据本公开示例性实施例的训练装置的功能模块示意性框图；
31.图7示出了根据本公开示例性实施例的芯片的示意性框图；
32.图8示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
33.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。
34.应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/ 或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
35.本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
36.需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。
37.本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。
38.在介绍本公开实施例之前首先对本公开实施例中涉及到的相关名词作如下释义：
39.语音识别技术，也被称为自动语音识别(automatic speech recognition，asr)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入
40.分词是指将连续的字序列按照一定的规范重新组合成词序列的过程，其包括英文分词和中文分词，英文分词时，英文单词之间是以空格作为自然分界符，中文语句中的词没有一个形式上的分界符。将中文的汉字序列切分成有意义的词，就是中文分词。本公开示例性实施例对文本进行分词的结果被称为分词。
41.编辑距离，是由苏联数学家弗拉基米尔
·
莱温斯坦在1965年提出，通过计算两个字符串互相转换所需要的最小编辑数来描述两个字符串的差异，编辑操作包括替换，删除，插入，当前被广泛用于字错率计算，脱氧核糖核酸(deoxyribonucleic acid，dna)序列比对，拼写检测等领域。
42.字错率(character error rate，cer)用来评价预测文本与标准文本之间字错率。词错率(word error rate,wer)是一项用于评价asr性能的重要指标，用来评价预测文本与标准文本之间的词错误率。
43.词性标注又称词类标注或者简称标注，是指为分词结果中的每个单词标注一个正
确的词性的程序，也即确定每个词是名词、动词、形容词或其他词性的过程。这种过程是由词性标注器的算法完成。
44.文本情感分析(sentiment analysis)也称为意见挖掘，是指利用自然语言处理和文本挖掘技术，对带有情感彩的主观性文本进行分析、处理和抽取的过程。
45.反向传播算法，是一种使用梯度下降法优化神经网络的网络参数，它根据神经网络计算出的值和期望值计算损失函数的值，然后再计算损失函数对模型参数的偏导，最后更新网络参数。
46.模型参数包括权重参数和偏置参数，权重参数表示超平面的斜率，偏置参数表示超平面的截距。
47.本公开示例性实施例提供一种语音识别方法及训练方法，其所使用的语音识别模型在训练阶段的性能评价指标不仅可以衡量语音样本的预测文本相对于标准文本的识别错误率，还可以差异化的体现语义干扰对识别错误率的影响，从而保证差异化衡量预测文本给用户理解带来的影响，避免语义偏差较大的识别文本被误认为正确文本输出。
48.图1示出了根据本公开示例性实施例提供的方法示例出的系统架构示意图。如图1所示，本公开示例性实施例提供的系统架构100包括：用户设备110、执行设备120以及数据存储系统130。
49.如图1所示，上述用户设备110可以通过通信网络与执行设备120通信。该通信网络可以为有线通信网络或无线通信网络。有限通信网络可以为基于电力线载波技术的通信网络，无线通信网络可以为局域无线网络或广域无线网络。局域无线网络可以为wifi无线网络、zigbee无线网络、移动通信网络或卫星通信网络等。
50.如图1所示，上述用户设备110可以包括电脑、手机或者信息处理中心等智能终端，用户设备110可以作为语音识别的发起端，向执行设备120发起请求。执行设备120可以为云服务器、网络服务器、应用服务器以及管理服务器等具有数据处理功能的服务器，用以实施声纹识别方法。服务器内可以配置深度学习处理器，深度学习处理器可以是单核深度学习处理器(deep learning processor-singlecore，dlp-s)，也可以为多核深度学习处理器(deep learning processor-multicore，dlp-m)。dlp-m是在dlp-s的基础上进行的多核扩展，将多个dlp-s通过片上网络(network-on-chip，noc)进行互联、多播、核间同步等协议进行核间通信。
51.如图1所示，上述数据存储系统130可以是一个统称，包括本地存储以及存储历史数据的数据库，数据库可以在执行设备120上，也可以在其它网络服务器上，还可以在数据存储系统130上。该数据存储系统130可以与执行设备120分立，也可以集成在执行设备 120内。数据存储系统130不仅可以输入用户设备110上传的数据，还可以存储程序指令、神经元数据等，这些神经元数据可以是经过训练的数据。除此之外，数据存储系统130也可以将执行设备120处理得到的处理结果(如预处理待识别的目标语音、中间处理结果或者识别文本)等存储入数据存储系统130。
52.在实际应用中，如图1所示，上述用户设备110可以具有语音采集功能，使得用户设备110不仅可以通过交互接口向执行设备120发起请求，还可以采集待识别的目标语音，并通过通信网络向执行设备120发送待识别的目标语音。基于此，执行设备120在实施语音识别方法时，所识别的目标语音不仅可以从数据存储系统130获取，还可以通过通信网络从用
户设备110获取。另外，在执行设备120实施语音识别方法时，其声纹识别结果不仅可以通过通信网络反馈至用户设备110，还可以保存在数据存储系统130。
53.相关技术中，语音识别技术已经被广泛地应用在各种语音交互场景中，语音识别算法经常使用字错率、词错率等性能评价指标衡量语音识别模型的性能，这些性能评价指标越小，语音识别模型的性能也就越好。
54.考虑到语种的差异性，同一性能评价指标在不同语种的语音识别模型的性能评价中有可能存在一定的差异性。例如：对于英文来说，字错率与词错率相同，均是以单词为单位，评价预测文本相对标准文本的错误率，针对于中文来说，字错率是以汉字为单位评价预测文本相对标准文本的错误率。词错率是以中文分词为单位评价预测文本相对标准文本的错误率。
55.在实际应用中，字错率和词错率的计算公式相同，其均可以使用编辑距离统计预测文本和标准文本之间的编辑量化参数，也就是编辑操作次数。示例性的，编辑操作次数可以包括替换操作次数、删除操作次数和插入操作次数，接着利用采用式一可以确定性能评价指标。
56.上述性能评价指标可以为字错率，也可以为词错率，在中文语音识别场景下，当性能评价指标为字错率，可以以单个汉字为统计对象(一个标点符号可以被认为是一个以汉字为单位的统计对象)，统计预测文相对标准文本之间的编辑量化参数；当性能评价指标为词错率，可以以中文词组为统计对象(一个标点符号可以被认为是一个以词组为单位的统计对象)，统计预测文本相对标准文本的编辑操作的编辑量化参数。
[0057][0058]
其中，本公开示例性实施例中wer指定的是性能评价指标，不区分以字为最小单位还是以词为最小单位的统计对象的性能评价指标，s表示将预测文本转写为标准文本时发生的最小替换数量(也就是替换操作数量)，或者将预测文本编辑为标准文本时需要替换的最小统计对象数量，d表示将预测文本转写为标准文本时发生的最小删除数量(也就是删除操作次数)，或者将预测文本编辑为标准文本时需要删除的最小统计对象数量，i表示将预测文本转写为标准文本时发生的最小插入数量(也就是插入操作次数)，或者将预测文本编辑为标准文本时需要插入的最小统计对象数量，c表示预测文本识别正确的字数，或者说预测文本中不需要变化的统计对象的最大数量。
[0059]
当统计对象为词时，s可以表示为将预测文本编辑为标准文本时需要替换的最小词数， d可以表示为将预测文本编辑为标准文本时需要删除的最小词数，i可以表示为将预测文本编辑为标准文本时需要插入的最小词数，c可以表示为预测文本中不需要变化的最大词数。
[0060]
从式一可以看出，使用式一评价字错率、词错率等性能评价指标时，性能评价指标可以反映预测文本所含有的统计对象识别错误率，但是性能评价指标在一些情况下难以“真实公正”的表征语音样本的预测文本相对标准文本的错误率。
[0061]
当预测文本所含有的统计对象识别错误时，有些识别错误可以忽略，有些识别错误该识别错误的统计对象有可能造成用户主观上理解偏差，这些理解偏差有可能造成用户错误理解预测文本的含义，甚至导致用户产生不必要的负面情绪，从而影响用户理解体验。
[0062]
本公开示例性实施例提供的语音识别方法所涉及到的语音识别模型在训练阶段所采用的性能评价指标为改进后的性能评价指标，其沿着符合用户主观判断的引入了语义差异参数，使得性能评价指标可以充分反映语义差异为语音识别模型所带来的性能影响，从而保证训练后的语义识别模型可以差异化衡量预测文本给用户理解带来的影响，避免语义偏差较大的识别文本被误认为正确文本输出。
[0063]
本公开示例性实施例提供的语音识别方法所涉及的语音识别模型可以通过上述执行设备中的服务器进行训练。基于此，本公开示例性实施例还提供一种训练方法，该训练方法可以由服务器或者服务器中的芯片执行。为了方便理解，本公开示例性实施例采用用户设备与服务器交互的方式描述本公开示例性实施例的训练方法。
[0064]
图2示出了本公开示例性实施例的训练方法的示例流程图。如图2所示，本公开示例性实施例的方法可以包括：
[0065]
步骤201：用户设备发送语音样本至服务器。用户设备可以作为语音样本的采集端进行语音样本采集，并将采集到的语音样本通过通信网络上传到执行设备所包括的服务器内。
[0066]
步骤202：服务器利用语音识别模型预测语音样本的预测文本。例如：服务器读取数据存储系统所保存的语音识别模型的神经元数据，并以语音样本为神经元数据的输入，最终获得语音样本的预测样本。
[0067]
步骤203：服务器响应于语音识别模型的性能评价指标满足迭代条件，更新语音识别模型的模型参数。本公开示例性实施例的性能评价指标可以用于衡量语音样本的预测文本相对标准文本的错误率，可以采用如下方式示例获得：
[0068]
服务器基于语音样本的预测文本和标准文本进行性能评价指标参数统计，获得性能评价指标的参数，基于性能评价指标的参数确定性能评价指标。
[0069]
本公开示例性实施例的标准文本是语音样本的参考文本，可以看作语音样本的真实文本，其可以是人工标注的标准文本，也可以是通过训练后的语音识别模型输出的识别文本，且被证明识别文本与输入语音匹配。
[0070]
在实际应用中，响应于性能评价指标满足迭代条件，更新语音识别模型的模型参数。该迭代条件可以是性能评价指标小于预设性能评价参数，如果性能评价指标大于或等于预设性能评价指标，则说明性能评价指标满足迭代条件，可以采用反向传播算法更新语音识别模型的模型参数，该模型参数可以为权重，也可以包括偏移值，或者既包括权重又包括偏移值。
[0071]
示例性的，本公开示例性实施例的性能评价指标的参数可以包括预测文本含有的统计对象的识别量化参数和语义差异参数，该语义差异参数可以校正识别量化参数，从而保证基于校正后识别量化参数确定的性能评价指标可以差异化衡量预测文本给用户理解带来的影响，避免语义偏差较大的识别文本被误认为正确文本输出。
[0072]
例如：当统计对象识别正确时，识别量化参数包括识别正确量化数据，当统计对象识别错误时，识别量化参数包括编辑操作的编辑量化数据，语义差异参数用于校正编辑量化数据。
[0073]
本公开示例性实施例的语音识别方法可以由电子设备或电子设备中的芯片执行，该电子设备可以为服务器或用户设备。当电子设备为服务器，语音识别模型被部署在服务
器端，当电子设备为用户设备，语音识别模型被部署在用户设备。下面结合附图描述本公开的方法。应理解，本公开示例性实施例的训练方法和语音识别方法所涉及的相关内容可以相互参考，至于训练方法和语音识别方法的具体过程，则可以参考相关技术，不作为重点描述，
[0074]
图3示出了本公开示例性实施例的语音识别方法的流程图。如图3所示，本公开示例性实施例的语音识别方法可以包括：
[0075]
步骤301：获取目标语音。该目标语音可以是通过用户设备的语音采集器进行采集，用户设备可以对所采集的目标语音进行预处理，预处理可以包括：将目标语音的模拟信号进行等间隔采样、量化和编码，从而获得目标语音的数字信号。同时，在将目标语音的模拟信号转换为数字信号前，可以对目标语音进行滤波，避免为语音识别引入不必要的干扰。在此基础上，可以对目标语音的数字信号进行预加重处、分帧、加窗和端点检测等处理，
[0076]
步骤302：基于语音识别模型确定目标语音的识别文本，语音识别模型可以通过下述方式训练得到：利用语音识别模型预测语音样本的预测文本，响应于语音识别模型的性能评价指标满足迭代条件，更新语音识别模型的模型参数，性能评价指标可以用于衡量语音样本的预测文本相对标准文本的错误率，该性能评价指标的参数包括预测文本含有的统计对象的识别量化参数和语义差异参数。应理解，该语音识别模型可以为各种可以实现语音识别的模型，如汉语语言模型(又称n-gram模型)、循环神经网络等，具体架构可以参考相关技术，此处不作详细说明。
[0077]
本公开示例性实施例的预测文本所包括的统计对象可以为一个，也可以为多个，具体与预测文本的长短有关。
[0078]
当统计对象的数量为一个，该预测文本可以包括一个统计对象的识别量化参数和语义差异参数。当统计对象的数量为多个，该预测文本可以包括多个统计对象的识别量化参数和语义差异参数。
[0079]
以中文语音识别场景为例，在训练阶段的预测文本为“你吃了吗？”，当统计对象的单位为汉字，其统计对象也就是汉字数量为7个，分别为“今”、“天”、“你”、“吃”、“了”、“吗”和“？”，其每个汉字或标点均包括识别量化参数和语义差异参数。当统计对象的单位为词组，其统计对象也就是词组数量为5个，分别为“今天”、“你”、“吃了”、“吗”和“？”。其每个词组或标点均包括识别量化参数和语义差异参数。
[0080]
在训练阶段，对于预测文本所含有的统计对象来说，其要么识别正确要么识别错误。当统计对象识别正确时，该识别量化参数可以包括识别正确量化数据，当统计对象识别错误时，该识别量化参数可以包括编辑操作的编辑量化数据，该语义差异参数可以用于校正编辑量化数据。
[0081]
示例性的，本公开示例性实施例的识别正确量化数据可以是针对统计对象识别时，该统计识别正确的字数，或者说预测文本中不需要变化的统计对象的最大数量。本公开示例性实施例的编辑量化数据可以参考前文的编辑量化参数或者说编辑操作次数的相关描述。
[0082]
在此基础上，当基于编辑量化数据和识别正确量化数据确定性能评价指标的过程中，可以利用语义差异数据校正编辑量化数据，使得校正后编辑量化数据不仅可以反映预测文本和标准文本的客观性差异，还可以从语义理解的角度反映预测文本和标准文本的主
观性差异。基于此，基于校正后编辑量化数据和识别正确量化数据确定性能评价指标后，利用性能评价指标评价语音样本的预测文本相对标准文本的错误率时，性能评价指标可以分辨语义偏差对识别结果带来的影响，因此，本公开示例性实施例的方法可以差异化衡量预测文本给用户理解带来的影响，避免语义偏差较大的识别文本被误认为正确文本输出。
[0083]
在实际应用中，本公开示例性实施例的性能评价指标由第一参数和第二参数确定，性能评价指标和第一参数正相关，性能评价指标与第二参数负相关。例如：该性能评价指标可以等于第一参数和第二参数的比例。假设第一参数为m，第二参数为n，则性能评价指标＝m/n，其中，m、n均为大于或等于1的整数。
[0084]
本公开示例性实施例的第一参数和第二参数可以均与语义差异参数正相关，可以设定第一参数由编辑量化数据和语义差异参数确定，第二参数由编辑量化数据、识别正确量化数据和语义差异参数确定。
[0085]
在一种可能的实现方式中，本公开示例性实施例的语义差异参数校正编辑量化数据的方式可以是加性方式(即加和方式)，此时，性能评价指标在式一的基础上采用加性方式引入语义差异参数，语义差异参数可以在加性方式下利用语义差异参数校正编辑量化参数，然后利用校正后编辑量化参数确定第一参数，语义差异参数可以在加性方式下利用语义差异参数校正编辑量化数据和识别正确量化数据，基于校正后编辑量化数据和校正后识别正确量化数据确定第二参数。此时，性能评价指标满足式二：
[0086][0087]e总
表示各个编辑操作的编辑对象的语义差异参数之和，其可以看作惩罚项的形式存在在式二中。
[0088]
在实际应用中，考虑到单个汉字难以判断所要表达的语义，因此，如果统计对象为以字为最小单位的统计对象，若属于同一分词的编辑对象共享语义差异参数。而统计对象为以分词为最小单位的统计对象，属于不同分词的编辑对象的语义差异参数可以彼此独立。
[0089]
示例性的，本公开示例性实施例的编辑对象可以是指编辑操作前后所涉及的编辑对象，基于此，编辑对象可以包括编辑前对象和编辑后对象。而编辑操作的实质可以包括替换操作、删除操作和插入操作，其目的是将预测文本转写为标准文本，因此，编辑对象所属分词可以包括编辑前对象在预测文本中所属分词和编辑后对象在标准样本中的所属分词。
[0090]
当编辑操作为替换操作，编辑对象可以包括替换前对象和替换后对象。替换前对象可以是预测文本中需要进行替换操作的统计对象，此时，替换前对象所属分词可以是预测文本经过分词操作后需要替换的统计对象所属的分词。替换后对象可以是预测文本中替换统计对象的替换内容。此时，替换后对象所属分词实质为标准文本经过分词操作后替换后对象所属的分词。
[0091]
举例说明，预测文本hyp＝“我说经验我们去哪玩？”，其分词结果为[
‘
我’，
‘
说’，
‘
经验’，
‘
我们’，
‘
去’，
‘
哪’，
‘
玩’，
‘
？’]，标准文本ref＝“我说今夜我们去哪玩？”，其分词结果为[
‘
我’，
‘
说’，
‘
今夜’，
‘
我们’，
‘
去’，
‘
哪’，
‘
玩’，
‘
？’]。
[0092]
若统计对象为以字为最小单位的统计对象，对比预测文本hyp和标准文本ref可知，编辑操作的编辑对象包括的替换前对象包括“经”和“验”，替换后对象包括“今”和“夜”，
需要将“经”替换为“今”，将“验”替换为“夜”，可见，需要经过两次替换操作，将预测文本hyp编辑为标准文本ref，第一次替换操作和第二次替换操作的替换前对象所属分词均为“经验”，第一次替换操作和第二次替换操作的替换后对象所属分词均为“今夜”，因此，“经”和“验”共享同一语义差异参数。
[0093]
若统计对象为以词为最小单位的统计对象，对比预测文本hyp的分词结果和标准文本 ref的分词结果可知，需要将预测文本hyp中的“经验”替换为“今夜”，从而将预测文本 hyp编辑为标准文本ref。基于此，替换操作的次数为1次，且该次替换操作的编辑对象包括的替换前对象为“经验”，替换后对象为“今夜”，替换前对象为“经验”所属分词为“经验”，替换后对象为“今夜”所属分词。
[0094]
至于删除操作和插入操作，由于删除操作是针对预测文本所含有的需要删除的统计对象，因此，删除对象可以包括删除前对象，也就是预测文本所含有的需要删除的统计对象。而插入操作，由于插入操作是针对标准样本所含有的需要向预测文本插入的内容，因此，插入对象可以包括插入后对象，也就是标准样本所含有的需要向预测文本插入的内容。
[0095]
示例性的，本公开示例性实施例的语义差异参数校正编辑量化数据时，可以根据语义差异参数的属性有侧重的校正编辑量化数据。并且，在校正编辑量化数据时，可以是单一角度或者多种角度侧重校正编辑量化数据。
[0096]
在实际应用中，识别错误所带来的影响有时候可以被忽略，但是有时候无法忽略，导致用户理解出现严重的负面效果，如可以带来语义偏移、情感偏移等语义理解差异。基于此，本公开示例性实施例的语义差异参数可以从句法分析的角度，为编辑量化参数引入语义偏移所带来的影响，还可以从情感分析的角度，为编辑量化参数引入情感偏移所带来的影响，也可以从句法分析和情感分析的角度，为编辑量化参数引入语义偏移和情感偏移所带来的影响。
[0097]
以词错率为例，表一示出了情感偏移和语义偏移对词错率的影响表。图4示出了本公开示例性实施例的情感偏移和语义偏移对词错率的影响示意图。应理解，表一中wer表示词错率，wer后的加号越多，说明词错率也就越高。
[0098]
表一情感偏移和语义偏移对词错率的影响表
[0099][0100]
图4中曲线a表示在情感毫无偏移的情况下语义偏移对词错率影响曲线，曲线b表示在情感适量偏移的情况下语义偏移对词错率影响曲线，曲线c表示在情感极度偏移的情况下语义偏移对词错率影响曲线。通过表1和图4中曲线a、曲线b和曲线c可知，对于语义偏移程度确定的词组来说，其情感偏移程度越大，对应的词错率也就越高，对于情感偏移程度确定的词组来说，其语义偏移程度越大，对应的词错率也就越高。
[0101]
在一种可选方式中，本公开示例性实施例的语义差异参数从句法分析的角度，为
编辑量化参数引入语义偏移所带来的影响时，该语义量化参数可以包括编辑操作的编辑重要度。编辑操作的编辑重要度可以体现语义错误为用户理解带来的理解错误程度。
[0102]
上述编辑操作的编辑重要度以及编辑操作的编辑对象所属分词的语义限定级别正相关。也就是说，当识别错误的统计对象所属分词的语义限定作用越大，对于统计对象的重要性也就越高。
[0103]
本公开示例性实施例的语义限定级别可以由识别错误的统计对象所属分词词性决定。基于此，可以对预测文本进行分词，获得分词，分词数量与分词方式和预测文本的长度有关。从技术的角度来说，分词方式可以是基于词典的分词方式、基于统计的分词方式和基于规则的分词等。从分词工具的角度来说，分词方式可以分为lac分词和jieba分词等。同时，分词工具还可以对分词的词性进行标注，从而获得各个分词词性。
[0104]
在一种示例中，可以基于规则的方式确定分词词性与语义限定级别的关系。例如：可以设定语义限定级别与分词词性的第一映射关系。对于识别错误的统计对象，可以基于该统计对象所属的分词词性从第一映射关系查到对应的语义限定级别。应理解，一个语义限定级别可以对应一个分词词性，也可以是多个分词词性。
[0105]
举例来说，可以采用4-level梯度进行分类表设定第一映射关系所包括的语义限定级别与分词词性的映射关系。表二示出了语义限定级别与分词词性的4-level梯度分类表。其中，表二所示出的词性标签与词性含义示例性的参考lac分词词性对照表。
[0106]
表二语义限定级别与分词词性的4-level梯度分类表
[0107][0108]
表二所示的语义限定级别与分词词性的4-level梯度分类表定义了语义限定级别与分词词性的对应关系，其将语义限定级别分为四级，每级语义限定级别对应一个分词类别。语义限定级别越低，其语义限定级别指标越小，分词类别的语义限定程度越低。
[0109]
例如：第一级语义限定级别对应的分词类别为冗余词，其几乎没有语义限定程度，因此，第一级语义限定级别的语义限定级别量化值为0；第二级语义限定级别对应的分词类别为弱限定词，其对语义有轻微的限定，因此，第二级语义限定级别的语义限定级别量化值为1；第三级语义限定级别对应的分词类别为强限定词，其对语义有比较明显的限定，因此，第三级语义限定级别的语义限定级别量化值为2；第四级语义限定级别对应的分词类别为核心词，其对语义限定特别明显，因此，第四级语义限定级别的语义限定级别量化值为3。由此可见，语义限定级别越高，其对应的语义限定级别量化值也就越高，二者呈现正相关关系。而由于编辑操作的编辑重要度与编辑操作的编辑对象所属分词的语义限定级别正相关，因此，可以通过语义限定级别量化值确定语义限定级别编辑操作的编辑重要度。
[0110]
在一种示例中，可以基于神经网络模型识别的方式确定分词词性与语义限定级别的关系。该神经网络模型可以为基于自注意力机制的transformer神经网络模型，也可以为循环网络模型(recurrent neural network，rnn)或者长短期记忆网络(long short-term memory， lstm)。
[0111]
在训练阶段，可以以分词语义(即分词结果)、分词词性和语义限定级别的标注量化值作为神经网络模型的输入，利用神经网络模型基于分词语义和分词词性确定语义限定级别的量化预测值，接着利用损失函数确定量化预测值和标注量化值的损失，若损失小于预设损失，则说明神经网络模型训练结束，否则说明需要采用反向传播算法更新神经网络模型的模型参数。损失函数可以根据实际情况选择，此处不作限定。
[0112]
在推理阶段，可以将文本分词结果(预测文本或者标准文本)包括的多个分词结果及其分词结果构件为分词编码序列，该分词编码序列的每个分词编码包括分词和该分词的词性。以循环神经网络或长短期记忆网络为例，将分词编码序列输入循环神经网络，利用循环神经网络分析分词编码序列所含有的分词编码之间的长期依赖性，利用长期依赖性确定各个分词编码含有的分词的语义限定程度的量化值。
[0113]
举例来说，对于“我说今夜我们去哪里玩？”，其分词结果[
‘
我’，
‘
说’，
‘
今夜’，
‘
我们’，
‘
去’，
‘
哪’，
‘
玩’，
‘
？’]。
[0114]
当基于规则的方式确定分词词性与语义限定级别的关系时，可以参考表二查询得到分词结果[
‘
我’，
‘
说’，
‘
今夜’，
‘
我们’，
‘
去’，
‘
哪’，
‘
玩’，
‘
？’]含有的各个分词的语义限定级别量化值，具体结果参考表三。
[0115]
表三基于规则的方式确定的分词限定等级的量化值
[0116]
分词内容分词词性标签语义限定等级的量化值我r1说v2今夜t3我们r1去v2哪r1玩v2？w0
[0117] 当基于神经网络模型识别的方式确定分词词性与语义限定级别的关系值时，可以以分词结果和分词结果的词性作为神经网络模型的输入值，预测分词结果所含有的各个分词的语义限定级别量化值。
[0118]
以循环神经网络为例，基于分词结果[
‘
我’，
‘
说’，
‘
今夜’，
‘
我们’，
‘
去’，
‘
哪’，
‘
玩’，
‘
？’]构建分词编码序列{x1，x2，x3，x4，x5，x6，x7，x8}，x1为“我”的分词编码，x2为“说”的分词编码，x3为“今夜”的分词编码，x4为“去”的分词编码，x5为“哪”的分词编码，x6为“我们”的分词编码，x7为“玩”的分词编码，x8为“？”的分词编码。这些分词编码均包括分词以及分词对应的词性。表四示出了基于神经网络模型识别的方式确定的各个分词的语义限定级别量化值。
[0119]
表四基于神经网络模型识别的方式确定的各个分词的语义限定级别量化值
[0120]
分词内容分词词性标签语义限定等级的量化值我r1说v3今夜t3
我们r1去v1哪r1玩v2？w0
[0121]
对比表三和表四可以发现，分词结果相同的情况下，基于规则的方式和基于神经网络模型识别的方式确定的各个分词的语义限定级别量化值存在一定的差异。这是因为基于神经网络模型识别的方式确定分词的语义限定级别量化值时，不仅考虑了“说”的语义和词性，还考虑了分词在“我说今夜我们去哪里玩？”这段语句的长期依赖关系，从而使得分词的语义限定级别量化值更加接近其在“我说今夜我们去哪里玩？”这段语句的实际语义限定级别。
[0122]
当编辑操作的编辑重要度以及识别错误的统计对象所属分词的语义限定级别正相关时，这种正相关可以为线性正相关，也可以非线性正相关。例如：p表示编辑操作的编辑重要度，lev表示识别错误的统计对象所属分词的语义限定级别，以lev作为自变量，p作为因变量，p与lev之间的关系满足二次函数或者高次函数的关系。利用这种二次函数或高次函数关系，可以放大语义限定级别对于编辑重要度的影响，基于此，利用编辑重要度校正编辑量化数据时，可以使得编辑量化数据更容易体现语义偏移所带来的影响，从而保证预测文本在语义偏移的情况下，可以很容易的通过性能评价指标反映出语义偏移错误。下面按照编辑操作的类别，对编辑操作的编辑重要度进行说明。
[0123]
当编辑操作为替换操作，第i个替换操作的编辑重要度p
si
满足式三：
[0124][0125]
lev(w
si
)表示第i个替换操作的替换前对象所属分词的语义限定级别量化值，lev(w
si
)'表示第i个替换操作的替换后对象的语义限定级别量化值，n表示语义限定级别的总级数，i 为将预测文本转写为标准文本所需进行的替换操作序号，i表示大于或等于0，且小于或等于替换操作的总次数。可见，所有替换操作的编辑重要度之和
[0126]
在实际应用中，上述替换操作的总次数可以根据预测文本与标准文本的差异确定。例如：当替换操作的总次数等于0，说明预测文本所含有的所有统计对象均无需进行替换。当替换操作的总次数等于预测文本所含有的统计对象的总数，说明预测文本所含有的统计对象均需要进行替换。从式三可知，本公开示例性实施例的第i个替换操作的编辑重要度p
si
实质将替换前对象和替换后对象的语义限定级别均考虑在内，并将二者进行平均化，从而更为全面的评估第i个替换操作的编辑重要度p
si
，进而提高替换操作的编辑重要度准确性。
[0127]
当编辑操作为替换操作，第j个删除操作的编辑重要度p
dj
满足式四：
[0128][0129]
lev(w
dj
)表示第j个删除操作的删除对象所属分词的语义限定级别量化值，n表示语义限定级别的总级数，j为将预测文本转写为标准文本所需进行的删除操作序号，j表示大于或等于0，且小于或等于删除操作的总次数。可见，所有删除操作的编辑重要度之和
[0130]
在实际应用中，上述删除操作的总次数可以根据预测文本与标准文本的差异确定。例如：当删除操作的总次数等于0，说明预测文本所含有的所有统计对象均无需进行删除。考虑到不可能存在统计对象全部删除的情况，删除操作的总次数小于预测文本所含有的统计对象的总数。
[0131]
当编辑操作为插入操作，第k个插入操作的编辑重要度p
ik
满足式四：
[0132][0133]
lev(w
ik
)表示第k个插入操作的插入对象所属分词的语义限定级别量化值，n表示语义限定级别的总级数，k为将预测文本转写为标准文本所需进行的插入操作序号，k表示大于或等于0，且小于或等于插入操作的总次数。k为将预测文本转写为标准文本所需进行的插入操作序号，k表示大于或等于0，且小于或等于插入操作的总次数。可见，所有插入操作的编辑重要度之和
[0134]
当插入操作的总次数等于0，说明标准文本所含有的所有统计对象均无需插入到预测文本中。考虑到不可能存在标准文本所含有的统计对象均需要插入到预测文本的情况，插入操作的总次数小于标准文本所含有的统计对象的总数。
[0135]
本公开示例性实施例在性能评价指标衡量语音样本的预测文本相对标准文本的错误率时，如果利用编辑操作的编辑重要度校正编辑量化数据，可以将替换操作的编辑重要度看作最小替换数量s的惩罚项，可以将删除操作的编辑重要度看作最小删除数量d的惩罚项，可以将插入操作的编辑重要度看作最小插入数量i的惩罚项。举例来说，如果只考虑利用编辑操作的编辑重要度校正编辑量化数据，那么式二中的e
总
可以满足式六：
[0136][0137]
将式六代入式二，可以获得只考虑利用编辑操作的编辑重要度校正编辑量化数据时，性能评价指标wer满足式七：
[0138]
[0139]
若预测文本转写为标准文本时，如果没有进行任何替换操作，式七中如果没有进行任何删除操作，式七中如果没有进行任何插入操作，式七中
[0140]
在一种可选方式中，本公开示例性实施例的语义差异参数从情感分析的角度，为编辑量化参数引入情感偏移所带来的影响，该语义量化参数可以包括编辑操作的情感差异数据。编辑操作的情感差异数据可以体现语义错误为用户理解带来的把负面情绪。
[0141]
上述编辑操作的情感差异数据包括编辑操作的编辑前对象的情感量化数据和编辑操作的编辑后对象的情感量化数据的差值。情感量化数据可以通过文本情感分析的方式确定，并以情感百分比的方式表示情感量化数据。
[0142]
对应替换操作来说，第i个替换操作的情感差异数据pe(si,si')满足式八：
[0143]
pe(si,si')＝|si-si'|
ꢀꢀꢀ
式八
[0144]
si为第i个替换操作的替换前对象的情感百分比，si'为第i个替换操作的替换后对象的情感百分比。si和si'取值范围在0～1。此时，当si＝si'，pe(si,si')＝0，当si＞si'或si ＜si'时，pe(si,si')为正值。基于此，所有替换操作的情感差异数据之和至于插入操作和删除操作的情感差异数据，可以忽略不计。
[0145]
在此基础上，如果只考虑情感偏移对性能评价指标带来的影响，并将其代入式二，所获得的性能评价指标wer满足式九：
[0146][0147]
考虑到情感偏移的情况下，语义必然发生偏移，本公开示例性实施例可以采用句法分析确定编辑操作的编辑对象所属分词的语义限定级别量化值，然后基于语义限定级别量化值确定不同错误类型的编辑操作的重要度，接着引入替换操作的情感差异数据，使得式二中的e
总
可以满足式十：
[0148][0149]
将式十代入式二，可以获得只考虑利用编辑操作的编辑重要度校正编辑量化数据时，融合语义偏移和情感偏移的性能评价指标，该性能评价指标wer满足式十一：
[0150][0151]
为了证明本公开示例性实施例的方法不仅可以反映预测文本和标准文本的客观性差异，还可以从语义理解的角度反映预测文本和标准文本的主观性差异，下面结合举例
说明。
[0152]
实施例一
[0153]
标准文本ref＝“我说今夜我们去哪玩？”，其分词结果为[
‘
我’，
‘
说’，
‘
今夜’，
‘
我们’，
‘
去’，
‘
哪’，
‘
玩’，
‘
？’]。第一预测文本hyp1＝“我说经验我们去哪玩？”，其分词结果为[
‘
我’，
‘
说’，
‘
经验’，
‘
我们’，
‘
去’，
‘
哪’，
‘
玩’，
‘
？’]。第二预测文本hyp2＝“我说精液我们去哪玩？”，其分词结果为[
‘
我’，
‘
说’，
‘
精液’，
‘
我们’，
‘
去’，
‘
哪’，
‘
玩’，
‘
？’]。表五示出了实施例一的不同性能评价指标的对比结果。
[0154]
表五实施例一的不同性能评价指标的对比结果
[0155]
实施例一相关技术wer融合语义偏移wer融合语义偏移和情感偏移wer(ref，hyp1)0.1250.2220.232(ref，hyp2)0.1250.2220.247
[0156]
(ref，hyp1)表示将第一预测文本hyp1编辑为标准文本ref的示例，为方便后文描述，简称为第一种情况；(ref，hyp2)表示将第二预测文本hyp2编辑为标准文本ref的示例，为方便后文描述，简称为第二种情况。
[0157]
实施例二
[0158]
标准文本ref＝“剑楠，我还有一个问题就是我厌学。”，其分词结果为[
‘
剑楠’，
‘
，’，
‘
我’，
‘
还有’，
‘
一个’，
‘
问题’，
‘
就是我’，
‘
厌学’，
‘
。’]。第一预测文本hyp1＝“建南，我还有一个问题就是我厌学。”，其分词结果为其分词结果为[
‘
建南’，
‘
，’，
‘
我’，
‘
还有’，
‘
一个’，
‘
问题’，
‘
就是我’，
‘
厌学’，
‘
。’]。第二预测文本hyp2＝“，我还有一个问题就是我厌学。”，其分词结果为[
‘
’，
‘
，’，
‘
我’，
‘
还有’，
‘
一个’，
‘
问题’，
‘
就是我’，
‘
厌学’，
‘
。’]。表六示出了实施例二的不同性能评价指标的对比结果。
[0159]
表六实施例二的不同性能评价指标的对比结果
[0160]
实施例二相关技术wer融合语义偏移wer融合语义偏移和情感偏移wer(ref，hyp1)0.1110.20.209(ref，hyp2)0.1110.20.230
[0161]
(ref，hyp1)表示将第一预测文本hyp1编辑为标准文本ref的示例，为方便后文描述，简称为第一种情况；(ref，hyp2)表示将第二预测文本hyp2编辑为标准文本ref的示例，为方便后文描述，简称为第二种情况。
[0162]
在实施例一和实施例二中，当用户说标准文本ref时候，语音识别模型可能转写为第一预测文本hyp1与第二预测文本hyp2两种可能的错误情况。两种情况在办公场景下，第一预测文本hyp1可以视为普通错误，用户在语义和情感上并不能造成太多影响，但第二预测文本hyp2却给正在公开场合如会议场合的办公人员造成了不少情感上的困扰，视为情绪错误。
[0163]
采用相关技术的wer，其无法充分衡量语音识别模型的性能优劣时，例如：不管是第一种情况还是第二种情况，实施例一中采用式一确定的相关技术wer均为0.125，实施例二中采用式一确定的相关技术wer均为0.111，无法差异化的表现不同情况的给用户造成y 语义和情感上的差异。
[0164]
当语音识别模型考虑到转写错误在语义偏移方面对性能评价指标的影响时，性能评价指标融合了语义偏移，其可以差异的体现语义偏移程度。当语音识别模型考虑到转写
错误在语义偏移方面和情感方面对性能评价指标的影响时，性能评价指标融合语义偏移和情感偏移，其可以差异的体现语义偏移程度和情感偏移程度。
[0165]
如表五所示，在实施例一中，采用式七确定的第一种情况的融合语义偏移wer＝0.222，采用式十一确定的第一种情况的融合语义偏移和情感偏移wer＝0.232；采用式七确定的第二种情况的融合语义偏移wer＝0.222，采用式十一确定的融合语义偏移和情感偏移 wer＝0.247。
[0166]
如表六所示，在实施例二中，采用式七确定的第一种情况的融合语义偏移wer＝0.2，采用式十一确定的融合语义偏移和情感偏移wer＝0.209；采用式七确定的第二种情况的融合语义偏移wer＝0.2，采用式十一确定的融合语义偏移和情感偏移wer＝0.230。
[0167]
从表五和表六可以看出，在wer融合语义偏移不融合情感偏移的情况下，在同一实施例中，第一种情况和第二种情况的融合语义偏移wer相同。但是，融合语义偏移和情感偏移wer却存在差异，并且作为普通错误的第一种情况的wer小于作为情绪错误的第二种情况的wer，与实际判断相符，
[0168]
可见，融合语义偏移wer可以反映出融合语义计算的算法性能，融合语义偏移和情感偏移wer可以反映出融合了语义句法分析和情感计算的算法性能。当语义偏移不严重的情况下，融合语义偏移wer与相关技术wer接近，而语义偏移极其严重的融合语义偏移wer 大于与相关技术wer，当语义偏移和情感偏移均不严重的情况下，融合语义偏移和情感偏移wer接近融合语义偏移和情感偏移wer，当语义偏移和情感偏移均严重的情况下，融合语义偏移和情感偏移wer大于融合语义偏移和情感偏移wer，因此，本公开示例性实施例的方法中所使用的性能评价指标可以差异化的反映语音识别模型的算法性能优劣。
[0169]
实施例三
[0170]
标准文本ref＝"相关功能已经在回归测试阶段了，然后还剩服务端的一些功能点。"，其分词结果为[
‘
相关’，
‘
功能’，
‘
已经’，
‘
在’，
‘
回归’，
‘
测试’，
‘
阶段’，
‘
了’，
‘
，’，
‘
然后’，
‘
还’，
‘
剩’，
‘
服务端’，
‘
的’，
‘
一些’，
‘
功能’，
‘
点’，
‘
。’]。第一预测文本 hyp1＝"相关功能已经在回归测试阶段了，还剩服务端的一些功能点。"，其分词结果为其分词结果为[
‘
相关’，
‘
功能’，
‘
已经’，
‘
在’，
‘
回归’，
‘
测试’，
‘
阶段’，
‘
了’，
‘
，’，
‘
还’，
‘
剩’，
‘
服务端’，
‘
的’，
‘
一些’，
‘
功能’，
‘
点’，
‘
。’]。第二预测文本hyp2＝"相关功能已经在测试阶段了，然后还剩服务端的一些功能点。"，其分词结果为[
‘
相关’，
‘
功能’，
‘
已经’，
‘
在’，
‘
测试’，
‘
阶段’，
‘
了’，
‘
，’，
‘
然后’，
‘
还’，
‘
剩’，
‘
服务端’，
‘
的’，
‘
一些’，
‘
功能’，
‘
点’，
‘
。’]。表七示出了实施例三的不同性能评价指标的对比结果。
[0171]
表七实施例三的不同性能评价指标的对比结果
[0172][0173]
(ref，hyp1)表示将第一预测文本hyp1编辑为标准文本ref的示例，为方便后文描述，简称为第一种情况；(ref，hyp2)表示将第二预测文本hyp2编辑为标准文本ref的示例，为方便后文描述，简称为第二种情况。
[0174]
在实施例三中，当用户说标准文本ref时候，语音识别模型可能转写为第一预测文本hyp1 与第二预测文本hyp2两种可能的错误情况，第一种情况中缺少“然后”这个连词，其对于整个语句的理解影响程度可以忽略，第二种情况中缺少“回归”这个名词，其对于语句的理解影响程度比较重要。而且，用户在理解第一种情况和第二种情况的识别结果时，第一种情况和第二种情况的错误并不会对于用户情绪产生影响。
[0175]
采用相关技术的wer，其无法充分衡量语音识别模型的性能优劣时，例如：实施例三中采用式一确定的相关技术wer均为0.058，无法差异的衡量出不同内容的错误给用户带来的语义层面的不同程度影响。如表七所示，在实施例三中，采用式七确定的第一种情况的融合语义偏移wer＝0.0625，采用式十一确定的融合语义偏移和情感偏移wer＝0.0625；采用式七确定的第二种情况的融合语义偏移wer＝0.735，采用式十一确定的融合语义偏移和情感偏移wer＝0.0735。可见，实施例三的第一种情况不管是否融合情感偏移，其wer 均相同，实施例三的第二种情况不管是否融合情感偏移，其wer均相同。而第一种情况和第二种情况融合语义偏移时，融合语义偏移wer相同，第一种情况和第二种情况融合语义偏移和情感偏移时，融合语义偏移和情感偏移wer与融合语义偏移wer相等，可见，实施例三的预测文本转写为标准文本时，两种情况的错误形式并不存在情感偏移，均不会为用户理解带来负面情绪，与实际判断相同。
[0176]
在一种可选方式中，本公开示例性实施例的语义差异参数校正编辑量化数据的方式可以是加权方式引入语义差异参数，语义差异参数可以在加权方式下利用语义差异参数校正编辑量化数据，并利用校正后编辑量化数据确定第一参数，可以在加权方式下，利用语义差异参数校正编辑量化数据和识别正确量化数据，基于校正后编辑量化数据和校正后识别正确量化数据确定第二参数。
[0177]
本公开示例性实施例的语义差异参数包括统计加权参数，若预测文本含有目标分词，针对属于目标分词的统计对象的识别量化参数，该统计加权参数大于1。
[0178]
在实际应用中，可以建立关键词表，以定义目标关键词与统计加权参数的映射关系，获得第二映射关系，当对预测文本和标准文本进行分词后，可以从第二映射关系查询统计对象所属分词是否为目标分词，如果为目标分词，可以从第二映射关系确定目标分词对应的统计加权参数。在此基础上，若属于该分词的统计对象识别正确，则在统计预测文本识别正确的字数时，统计属于该分词的统计对象时，不仅在已经统计到的识别正确的字数的基础上加上该分词的统计对象的统计数(该分词的统计对象的统计数的值为1)，还要利用统计加权参数对属于该分词的统计对象的统计数进行加权。
[0179]
举例来说，预测文本hyp＝“你在学习人工只能吗”，其分词结果为[
‘
你’，
‘
在’，
‘
学习’，
‘
人工只能’，
‘
吗’]，标准文本ref＝“你在学习人工智能吗？”，其分词结果为[
‘
你’，
‘
在’，
‘
学习’，
‘
人工智能’，
‘
吗’]。
[0180]
以词组为最小单位，识别正确的分词为4个，替换操作的次数为1次，删除操作和插入操作均为0，也就是说s＝1，d＝i＝0，c＝4。当没有统计加权参数的情况下，以式一的公式计算性能评价指标wer＝(1+0+0)/(1+0+4)＝1/5＝0.2。
[0181]
将预测文本hyp转写为标准文本ref时，如果替换操作的替换后对象“人工智能”存在于关键词表，其对应的统计加权参数为20，以式一的公式计算性能评价指标wer＝ (1*20+0+0)/(1*20+0+4)＝20/24＝5/6＝0.83。如果识别正确分词“在”存在于目标关键词，其对
应的统计加权参数为20，以式一的公式计算性能评价指标wer＝(1+0+0)/ (1+0+1+1+1+1*20)＝1/24＝0.042。通过对比可以发现，将预测文本hyp转写为标准文本ref 时，可以设计关键词表，将有实质含义的关键词进行统计加权参数赋值，形成第二映射关系，如果统计关键词表含有标准样本或预测样本的分词，且该分词具有实质性意义，则通过统计加权参数的形式，可以将这种情况反映至性能评价指标中。
[0182]
需要说明的是，本公开示例性实施例的语义差异参数包括统计加权参数、编辑操作的编辑重要度和编辑操作的情感差异数据时，在计算编辑操作的编辑重要度和编辑操作的情感差异数据的过程中，其所涉及到s、d和i并不需要统计加权参数进行加权。
[0183]
由上可知，本公开示例性实施例中提供的一个或多个技术方案中，语音识别模型在训练阶段时，当统计对象识别错误，该识别量化参数包括编辑操作的编辑量化数据，且语义差异参数用于校正编辑量化数据，因此，当基于编辑量化数据和识别正确量化数据确定性能评价指标的过程中，可以利用语义差异数据校正编辑量化数据，使得校正后编辑量化数据不仅可以反映预测文本和标准文本的客观性差异，还可以从语义理解的角度反映预测文本和标准文本的主观性差异。基于此，基于校正后编辑量化数据和识别正确量化数据确定性能评价指标后，利用性能评价指标评价语音样本的预测文本相对标准文本的错误率时，性能评价指标可以分辨语义偏差对识别结果带来的影响，因此，本公开示例性实施例的方法使用的性能评价指标可以差异化衡量预测文本给用户理解带来的影响，避免语义偏差较大的识别文本被误认为正确文本输出。
[0184]
上述主要从电子设备的角度对本公开实施例提供的方案进行了介绍。可以理解的是，电子设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。
[0185]
本公开实施例可以根据上述方法示例对电子设备进行功能单元的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本公开实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。
[0186]
在采用对应各个功能划分各个功能模块的情况下，本公开示例性实施例提供一种语音识别方法，该语音识别方法可以为电子设备或应用于电子设备的芯片。图5示出了根据本公开示例性实施例的语音识别装置的功能模块示意性框图。如图5所示，该语音识别装置 500包括：
[0187]
获取模块501，用于获取目标语音；
[0188]
识别模块502，用于基于语音识别模型确定目标语音的识别文本，所述语音识别模型通过下述方式训练得到：
[0189]
利用所述语音识别模型预测语音样本的预测文本，响应于所述语音识别模型的性能评价指标满足迭代条件，更新所述语音识别模型的模型参数，所述性能评价指标用于衡
量语音样本的预测文本相对标准文本的错误率，所述性能评价指标的参数包括所述预测文本含有的统计对象的识别量化参数和语义差异参数，当所述统计对象识别正确时，所述识别量化参数包括识别正确量化数据，当所述统计对象识别错误时，所述识别量化参数包括编辑操作的编辑量化数据，所述语义差异参数用于校正所述编辑量化数据。
[0190]
在一种可能的实现方式中，所述性能评价指标由第一参数和第二参数确定，所述性能评价指标和第一参数正相关，所述性能评价指标与所述第二参数负相关，所述语义差异参数与所述第一参数和所述第二参数均正相关。
[0191]
在一种可能的实现方式中，所述语义差异参数包括编辑操作的编辑重要度，所述编辑操作的编辑重要度以及所述编辑操作的编辑对象所属分词的语义限定级别正相关。
[0192]
在一种可能的实现方式中，所述语义限定级别由识别错误的所述统计对象所属分词词性决定。
[0193]
在一种可能的实现方式中，所述编辑操作为替换操作，第i个替换操作的编辑重要度 p
si
满足：
[0194]
lev(w
si
)表示第i个替换操作的替换前对象所属分词的语义限定级别量化值，lev(w
si
)'表示第i个替换操作的替换后对象的语义限定级别量化值， n表示语义限定级别的总级数。
[0195]
在一种可能的实现方式中，所述编辑操作为删除操作，第j个删除操作的编辑重要度 p
dj
满足：
[0196]
lev(w
dj
)表示第j个删除操作的删除对象所属分词的语义限定级别量化值，n表示语义限定级别的总级数。
[0197]
在一种可能的实现方式中，所述编辑操作为插入操作，第k个插入操作的编辑重要度 p
ik
满足：
[0198]
lev(w
ik
)表示第k个插入操作的插入对象所属分词的语义限定级别量化值，n表示语义限定级别的总级数。
[0199]
在一种可能的实现方式中，所述语义差异参数包括编辑操作的情感差异数据，所述编辑操作的情感差异数据包括编辑前对象的情感量化数据和编辑后对象的情感量化数据的差值。
[0200]
在一种可能的实现方式中，所述语义差异参数包括编辑操作的统计加权参数，若所述预测文本含有目标分词，针对属于所述目标分词的所述统计对象的识别量化参数，所述统计加权参数大于1。
[0201]
在一种可能的实现方式中，所述统计对象为以分词为最小单位的统计对象，属于不同分词的所述编辑对象的所述语义差异参数彼此独立；或，
[0202]
所述统计对象为以字为最小单位的统计对象，若属于同一分词的所述编辑对象共
享所述语义差异参数。
[0203]
在采用对应各个功能划分各个功能模块的情况下，本公开示例性实施例提供一种训练方法，该训练方法可以为服务器或应用于服务器的芯片。图6示出了根据本公开示例性实施例的训练装置的功能模块示意性框图。如图6所示，该训练装置600包括：
[0204]
预测模块601，用于利用语音识别模型预测语音样本的预测文本；
[0205]
更新模块602，用于响应于所述语音识别模型的性能评价指标满足迭代条件，更新所述语音识别模型的模型参数，所述性能评价指标用于衡量语音样本的预测文本相对标准文本的错误率，所述性能评价指标的参数包括所述预测文本含有的统计对象的识别量化参数和语义差异参数，当所述统计对象识别正确时，所述识别量化参数包括识别正确量化数据，当所述统计对象识别错误时，所述识别量化参数包括编辑操作的编辑量化数据，所述语义差异参数用于校正所述编辑量化数据。
[0206]
图7示出了根据本公开示例性实施例的芯片的示意性框图。如图7所示，该芯片700 包括一个或两个以上(包括两个)处理器701和通信接口702。通信接口702可以执行上述方法中的获取步骤，处理器701可以执行上述方法中的处理步骤。
[0207]
可选的，如图7所示，该芯片700还包括存储器703，存储器703可以包括只读存储器和随机存取存储器，并向处理器提供操作指令和参数。存储器的一部分还可以包括非易失性随机存取存储器(non-volatile random access memory，nvram)。
[0208]
在一些实施方式中，如图7所示，处理器701通过调用存储器存储的操作指令(该操作指令可存储在操作系统中)，执行相应的操作。处理器701控制终端设备中任一个的处理操作，处理器还可以称为中央处理单元(central processing unit，cpu)。存储器703可以包括只读存储器和随机存取存储器，并向处理器701提供指令和参数。存储器703的一部分还可以包括nvram。例如应用中存储器、通信接口以及存储器通过总线系统耦合在一起，其中总线系统除包括参数总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图7中将各种总线都标为总线系统704。
[0209]
上述本公开实施例揭示的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(digital signal processing，dsp)、asic、现成可编程门阵列 (field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。
[0210]
本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。
[0211]
本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
[0212]
本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
[0213]
参考图8，现将描述可以作为本公开的服务器或客户端的电子设备的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0214]
如图8所示，电子设备800包括计算单元801，其可以根据存储在只读存储器(rom) 802中的计算机程序或者从存储单元808加载到随机访问存储器(ram)803中的计算机程序，来执行各种适当的动作和处理。在ram 803中，还可存储设备800操作所需的各种程序和参数。计算单元801、rom 802以及ram 803通过总线804彼此相连。输入/输出(i/o) 接口805也连接至总线804。
[0215]
如图8所示，电子设备800中的多个部件连接至i/o接口805，包括：输入单元806、输出单元807、存储单元808以及通信单元809。输入单元806可以是能向电子设备800输入信息的任何类型的设备，输入单元806可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元807可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元808可以包括但不限于磁盘、光盘。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙设备、无线保真(wireless-fidelity，wifi)设备、(全球微波互联接入，worldwide interoperability formicrowave access，wimax)设备、蜂窝通信设备和/或类似物。
[0216]
如图8所示，计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(central processing unit/processor，缩写为cpu)、图形处理单元(graphics processing unit，gpu)、各种专用的人工智能 (artificial intelligence，ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(digital signal processing，dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理。例如，在一些实施例中，本公开示例性实施例的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由rom 802和/或通信单元809 而被载入和/或安装到电子设备800上。在一些实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行本公开示例性实施例的方法。
[0217]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程处理装置的处理器
或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0218]
在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(random access memory，ram)、只读存储器(read onlymemory image，rom)、可擦除可编程只读存储器(erasable programmable read onlymemory，eprom)、光纤、便捷式紧凑盘只读存储器(compact disc read-only memory， cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0219]
为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，阴极射线管或者液晶显示器监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0220]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(local area network，lan)、广域网(wide area network，wan)和互联网。
[0221]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
[0222]
在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机程序或指令。在计算机上加载和执行所述计算机程序或指令时，全部或部分地执行本公开实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、终端、用户设备或者其它可编程装置。所述计算机程序或指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机程序或指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是集成一个或多个可用介质的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，例如，软盘、硬盘、磁带；也可以是光介质，例如，数字视频光盘(digital video disc，dvd)；还可以是半导体介质，
例如，固态硬盘(solid state drive，ssd)。
[0223]
尽管结合具体特征及其实施例对本公开进行了描述，显而易见的，在不脱离本公开的精神和范围的情况下，可对其进行各种修改和组合。相应地，本说明书和附图仅仅是所附权利要求所界定的本公开的示例性说明，且视为已覆盖本公开范围内的任意和所有修改、变化、组合或等同物。显然，本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样，倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内，则本公开也意图包括这些改动和变型在内。

技术特征：

1.一种语音识别方法，其特征在于，包括：获取目标语音，基于语音识别模型确定目标语音的识别文本，所述语音识别模型通过下述方式训练得到：利用所述语音识别模型预测语音样本的预测文本，响应于所述语音识别模型的性能评价指标满足迭代条件，更新所述语音识别模型的模型参数，所述性能评价指标用于衡量语音样本的预测文本相对标准文本的错误率，所述性能评价指标的参数包括所述预测文本含有的统计对象的识别量化参数和语义差异参数，当所述统计对象识别正确时，所述识别量化参数包括识别正确量化数据，当所述统计对象识别错误时，所述识别量化参数包括编辑操作的编辑量化数据，所述语义差异参数用于校正所述编辑量化数据。2.根据权利要求1所述的方法，其特征在于，所述性能评价指标由第一参数和第二参数确定，所述性能评价指标和第一参数正相关，所述性能评价指标与所述第二参数负相关，所述语义差异参数与所述第一参数和所述第二参数均正相关。3.根据权利要求1所述的方法，其特征在于，所述语义差异参数包括编辑操作的编辑重要度，所述编辑操作的编辑重要度以及所述编辑操作的编辑对象所属分词的语义限定级别正相关。4.根据权利要求3所述的方法，其特征在于，所述语义限定级别由识别错误的所述统计对象所属分词词性决定。5.根据权利要求1～4任一项所述的方法，其特征在于，所述语义差异参数包括编辑操作的情感差异数据，所述编辑操作的情感差异数据包括编辑前对象的情感量化数据和编辑后对象的情感量化数据的差值。6.根据权利要求1～4任一项所述的方法，其特征在于，所述语义差异参数包括编辑操作的统计加权参数，若所述预测文本含有目标分词，针对属于所述目标分词的所述统计对象的识别量化参数，所述统计加权参数大于1。7.根据权利要求1～4任一项所述的方法，其特征在于，所述统计对象为以分词为最小单位的统计对象，属于不同分词的所述编辑对象的所述语义差异参数彼此独立；或，所述统计对象为以字为最小单位的统计对象，若属于同一分词的所述编辑对象共享所述语义差异参数。8.一种训练方法，其特征在于，包括：利用语音识别模型预测语音样本的预测文本；响应于所述语音识别模型的性能评价指标满足迭代条件，更新所述语音识别模型的模型参数；其中，所述性能评价指标用于衡量语音样本的预测文本相对标准文本的错误率，所述性能评价指标的参数包括所述预测文本含有的统计对象的识别量化参数和语义差异参数，当所述统计对象识别正确时，所述识别量化参数包括识别正确量化数据，当所述统计对象识别错误时，所述识别量化参数包括编辑操作的编辑量化数据，所述语义差异参数用于校正所述编辑量化数据。9.一种语音识别装置，其特征在于，包括：获取模块，用于获取目标语音；识别模块，用于基于语音识别模型确定目标语音的识别文本，所述语音识别模型通过
下述方式训练得到：利用所述语音识别模型预测语音样本的预测文本，响应于所述语音识别模型的性能评价指标满足迭代条件，更新所述语音识别模型的模型参数，所述性能评价指标用于衡量语音样本的预测文本相对标准文本的错误率，所述性能评价指标的参数包括所述预测文本含有的统计对象的识别量化参数和语义差异参数，当所述统计对象识别正确时，所述识别量化参数包括识别正确量化数据，当所述统计对象识别错误时，所述识别量化参数包括编辑操作的编辑量化数据，所述语义差异参数用于校正所述编辑量化数据。10.一种训练装置，其特征在于，包括：预测模块，用于利用语音识别模型预测语音样本的预测文本；更新模块，用于响应于所述语音识别模型的性能评价指标满足迭代条件，更新所述语音识别模型的模型参数，所述性能评价指标用于衡量语音样本的预测文本相对标准文本的错误率，所述性能评价指标的参数包括所述预测文本含有的统计对象的识别量化参数和语义差异参数，当所述统计对象识别正确时，所述识别量化参数包括识别正确量化数据，当所述统计对象识别错误时，所述识别量化参数包括编辑操作的编辑量化数据，所述语义差异参数用于校正所述编辑量化数据。11.一种电子设备，其特征在于，包括：处理器；以及存储程序的存储器；其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1～8中任一项所述的方法。12.一种非瞬时计算机可读存储介质，其特征在于，所述非瞬时计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行根据权利要求1～8中任一项所述的方法。

技术总结

本公开提供一种语音识别方法、训练方法、装置、电子设备及存储介质，所述方法包括获取目标语音，基于语音识别模型确定目标语音的识别文本，该模型通过下述方式训练得到：利用模型预测语音样本的预测文本，在模型的性能评价指标满足迭代条件时，更新模型的模型参数，其指标参数包括预测文本含有的统计对象的识别量化参数和语义差异参数，统计对象识别正确时，识别量化参数包括识别正确量化数据，识别错误时，识别量化参数包括编辑操作的编辑量化数据，语义差异参数用于校正编辑量化数据。此时，性能评价指标可以差异化衡量预测文本给用户理解带来的影响，避免语义偏差较大的识别文本被误认为正确文本输出。本被误认为正确文本输出。本被误认为正确文本输出。