中文语音识别纠错方法、装置及电子设备与流程


性大小、表示第一汉字信息中的不同汉字的可能性大小,从而可以在语音数据更可能对 应的拼音或汉字处具有较大的概率数值、在语音数据不太可能对应的拼音或汉字处具有 较小的概率数值,实现用量化的方式表示拼音信息和第一汉字信息。上述概率数值可以 是0到1之间的小数。上述融合拼音信息和第一汉字信息得到混合信息的步骤具体包括: 对上述拼音信息中的拼音概率和上述第一汉字信息中的汉字概率进行加权融合,得到包 含多个子混合信息的上述混合信息。从而使得混合信息中可以同时包含有拼音信息和第 一汉字信息,进而使得上述文本纠错模型可以同时利用拼音和汉字中的信息进行纠错, 可以获得更好的纠错效果。
7.本发明提供的第一方面的第二个实现方式中,在对拼音信息中的拼音概率和第一汉 字信息中的汉字概率进行加权融合之前,上述方法还包括:在第一汉字信息的汉字概率 中,确定汉字概率小于阈值的汉字的位置,根据上述位置进行加权融合。上述阈值可以 是预先设定的阈值,例如0.9;若第一汉字信息中的某个或某些汉字概率小于上述阈值, 则可能可以认为这个或这些汉字概率对应的一个多个汉字可能存在错误,从而可以根据 这个或这些位置针对性采用不同的加权策略进行加权融合,实现针对性的加权概率调整, 以获得更好的纠错效果。
8.本发明提供的第一方面的第三个实现方式中,对拼音信息中的拼音概率和第一汉字 信息中的汉字概率进行加权融合的步骤具体包括:根据预设规则,基于上述位置得到多 个位置扩张区域;其中,上述预设规则包括多个左偏移量和多个右偏移量;上述位置扩 张区域覆盖上述位置、位于上述位置左侧的左偏移量个位置和位于上述位置右侧的右偏 移量个位置。从而位置扩张区域除了覆盖上述位置,还覆盖上述位置周围的一个或多个 位置。由于上述位置处的汉字概率小于上述阈值,上述位置处的汉字可能存在错误,因 此有可能位于上述位置周围位置处的汉字也存在错误。从而通过使用进行上述位置扩张 过程得到覆盖范围更广的位置扩张区域,使得尽可能将可能存在错误的汉字囊括进位置 扩张区域之内,并针对位置扩张区域之内的位置处的汉字概率中引入权重更大的拼音概 率,以使用拼音信息辅助对汉字进行纠错,从而获得更好的纠错效果。
9.本发明提供的第一方面的第四个实现方式中,对拼音信息中的拼音概率和第一汉字 信息中的汉字概率进行加权融合的步骤具体还包括:将第一汉字信息中位于上述位置扩 张区域内的汉字概率替换为拼音混合加权概率,将第一汉字信息中位于上述位置扩张区 域外的汉字概率替换为汉字混合加权概率,完成加权融合。上述拼音混合加权概率和汉 字混合加权概率,以不同的权重大小对拼音概率和汉字概率进行混合加权,从而针对性 地对位置扩张区域内可能错误的汉字更多地引入拼音信息辅助纠错,对位于位置扩张区 域外的汉字仅少量引入拼音信息辅助纠错,从而实现针对性的中文纠错,进而获得更好 的纠错效果。
10.本发明提供的第一方面的第五个实现方式中,上述方法进一步具有以下特征:上述 拼音混合加权概率由第一权重倍的拼音信息中的拼音概率与第二权重倍的第一汉字信息 中的汉字概率加权相加得到;上述汉字混合加权概率由第一权重倍的第一汉字信息中的 汉字概率与第二权重倍的拼音信息中的拼音概率加权相加得到;上述第一权重大于第二 权重。从而在位置扩张区域内更有可能存在错误的汉字概率中引入更大比重的拼音信息 以辅助文本纠错模型进行纠错,在位置扩张区域外的汉字概率中引入较小比重的拼音
信 息辅助纠错,从而实现针对不同汉字引入不同权重的拼音信息进行纠错,进而提升文本 纠错模型的纠错效果。
11.本发明提供的第一方面的第六个实现方式中,上述方法进一步具有以下特征:上述 拼音信息为拼音概率张量,拼音概率张量包含由拼音概率向量构成的拼音概率矩阵;上 述第一汉字信息为汉字概张量,汉字概率张量包含由汉字概率向量构成的汉字概率矩阵; 上述混合信息为混合张量,混合张量包含由拼音汉字混合概率向量构成的拼音汉字混合 概率矩阵。即,在本发明提供的一种可能实现方式中,可以使用概率向量表示一个汉语 拼音或者一个汉字,进一步用多个向量表示一个包含多个拼音或汉字的句子,再进一步 用多个向量构成的矩阵表示上述句子,又进一步用多个矩阵表示可以以一批数据同时输 入文本纠错模型的多个句子,更进一步用包含多个矩阵的张量表示可以包含多个句子的 混合信息。
12.本发明提供的第一方面的第七个实现方式中,上述方法进一步具有以下特征:上述 拼音概率向量、上述汉字概率向量为基于词表的概率向量,上述词表包含若干拼音和若 干汉字;其中,上述拼音概率向量中对应于词表拼音处的数值非零,对应于词表汉字处 的数值为零;所述汉字概率向量中对应于词表拼音处的数值为零,对应于所表汉字处的 数值非零;所述拼音汉字混合概率向量中对应于词表拼音处和汉字处的数值非零。即, 上述拼音概率向量、上述汉字概率向量基于同样的词表表示语音数据的拼音、汉字信息。 拼音概率向量在词表中的拼音字段处以不为零的概率数值表示语音数据可能对应的拼音 信息,汉字概率向量在词表中汉字字段处以不为零的概率数值表示语音数据可能对应的 汉字信息,拼音汉字混合概率向量在词表中拼音字段和汉字字段均不为零来对应于拼音 和汉字信息的加权融合。从而采用量化的方式表示每个拼音、每个汉字及每个由拼音和 汉字信息加权融合得到的拼音汉字混合信息。
13.本发明提供的第一方面的第八个实现方式中,上述方法中融合拼音信息和第一汉字 信息得到混合信息的步骤具体包括:对拼音概率张量中的拼音概率向量和汉字概率张量 中的汉字概率向量进行加权融合,得到包含多个拼音汉字混合概率矩阵的混合张量。
14.本发明提供的第一方面的第九个实现方式中,基于上述第八个实现方式,在进行上 述拼音概率向量和汉字概率向量加权融合之前,上述方法还包括:在汉字概率张量中的 所述汉字概率向量中,确定所述最大汉字概率小于阈值的汉字概率向量在汉字概率矩阵 的位置,根据上述位置进行加权融合;其中,最大汉字概率为汉字概率向量中最大的概 率数值。由于汉字概率向量中包含多个汉字及对应于多个汉字的多个汉字概率,该实现 方式中,通过考察汉字概率向量中的最大汉字概率来判断该汉字概率向量对应的汉字判 断结果是否有可能错误。从而针对性在有可能错误的汉字概率向量中引入更多的拼音信 息来辅助文本纠错模型进行纠错,从而获得较好的纠错效果。
15.本发明提供的第一方面的第十个实现方式中,上述获取语音数据的拼音信息和第一 汉字信息的步骤具体包括:应用上述文本纠错模型对拼音信息进行处理,得到第一汉字 信息。现有的通过拼音获得汉字的方式中,通常使用语言模型进行。本发明提供的该种 实现方式中,可以使用上述文本纠错模型实现语言模型拼音转汉字的功能,从而使得整 个中文语音识别纠错模型中的语言模型成为一个可选的子模型,可以通过复用文本纠错 模型的方式省去语言模型,从而获得减少模型参数量、减小模型体积的有益效果。
16.本发明提供的第一方面的第十一个实现方式中,上述获取语音数据的拼音信息和第 一汉字信息的步骤具体还包括:应用声学模型对语音数据进行处理,得到拼音信息,其 中上述声学模型可以是神经网络模型。上述声学模型通过提取语音数据中的语音特征可 以完成语音转拼音的过程。
17.第二方面,本发明提供一种电子设备,用于执行上述第一方面及第一方面的多种实 现方式中的方法以对中文语音进行识别纠错。
18.第三方面,本发明提供一种计算机可读存储介质,存储有用于执行上述第一方面及 第一方面的多种实现方式中的方法的计算机指令。
19.第四方面,本发明提供一种芯片装置,用于执行第三方面中的计算机指令。
附图说明
20.图1a是本技术一实施例提供的中文语音识别模型的功能和结构示意图;
21.图1b是本技术一实施例提供的中文语音识别纠错模型的功能和结构示意图;
22.图2a是本技术一实施例提供的中文语音识别纠错模型的一种推理过程示意图;
23.图2b是本技术一实施例提供的中文语音识别纠错模型的另一种推理过程示意图;
24.图3a是本技术一实施例提供的一种词表字段示意图;
25.图3b是本技术一实施例提供的另一种词表字段示意图;
26.图3c是本技术一实施例提供的又一种词表字段示意图;
27.图4是本技术一实施例提供的中文语音识别纠错模型的又一种推理过程示意图;
28.图5是本技术一实施例提供的位置扩张加权过程流程图;
29.图6是本技术一实施例提供的位置扩张示意图;
30.图7是本技术一实施例提供的加权示意图;
31.图8是本技术一实施例提供的整合、搜索和解码过程流程图;
32.图9是本技术一实施例提供的波束搜索示意图;
33.图10是本技术一实施例提供的文本纠错模型结构示意图;
34.图11是本技术一实施例提供的文本纠错模型训练阶段和推理阶段的关系示意图;
35.图12是本技术一实施例提供的文本纠错模型训练阶段示意图;
36.图13是本技术一实施例提供的文本纠错模型训练阶段一流程图;
37.图14是本技术一实施例提供的文本纠错模型训练阶段二流程图;
38.图15是本技术一实施例提供的中文语音识别纠错模型在终端设备的智能语音助手 中的应用示意图;
39.图16是本技术一实施例提供的中文语音识别纠错模型在终端设备的语音输入法中 的应用示意图;
40.图17是本技术一实施例提供的中文语音识别纠错模型在终端设备的语音转文字功 能中的应用示意图;
41.图18a是本技术一实施例提供的一种电子设备的结构示意图;
42.图18b是本技术一实施例提供的一种电子设备的一种软件结构框图。
式、将一部分其他信息融入到输出结果中。又例如,图1b中声学模型输出结果和语言模 型输出结果同时输入第一文本纠错模型之前,还可以首先进行两个输出结果的数据融合 处理过程,将融合后的结果再作为第一文本纠错模型的输入数据。类似地,第一文本纠 错模型的输出结果在成为中文语音识别纠错模型的最终输出的修正的语音识别结果之 前,也可以先经过某些后处理过程,例如,从多个纠错结果中按照预设策略选择其中一 个结果作为修正的语音识别结果进行输出。
51.本技术实施例提供的中文语音识别纠错模型可以是基于深度学习的纠错模型,该纠 错模型可以是基于神经网络架构实现的。因此,本技术实施例中提供的模型具备的功能 通过使用数据进行训练获得。具体地,首先搭建由若干神经网络层构成的初始模型,初 始模型可以具有随机的初始化参数;然后,使用有标签的数据作为训练数据,根据预设 的损失函数通过反向传播、梯度下降等步骤循环过程迭代更新模型参数(例如神经元的 权重系数和偏置量),直至损失函数的损失值小于预设的阈值以结束循环,完成模型训练; 最后,在最后一轮循环和参数更新结束后,得到训练好的模型。
52.训练好的模型具备针对与训练数据类型相似的数据进行推理的功能。例如,如果一 个语音识别纠错模型是使用普通话语音数据训练得到的,则该模型具备对普通话进行语 音识别纠错的功能。具体地,输入一段普通话语音数据,该模型可以较好地实现对这段 语音数据的识别和纠错;如果输入一段广东话语音数据,该模型可能就无法很好地进行 识别和纠错了。又例如,一个用日常对话聊天语音训练的语音识别纠错模型无法很好的 对新闻播音的语音实现很好地识别和纠错。应当明确,本技术实施例提供的模型和方法 不限定所使用的训练数据的类型,本领域技术人员可以针对其要进行纠错的语音数据类 型训练其需要的模型。
53.接下来首先介绍本技术实施例提供的中文语音识别纠错模型的推理阶段,即应用模 型对无标签的语音数据进行识别和纠错的过程。
54.图2a是本技术实施例提供的一种中文语音识别纠错模型的推理过程的示意图。图 2a所示的推理过程可以是图1b所示的包含声学模型、语言模型、第一文本纠错模型的 中文语音识别纠错模型的推理过程。
55.图2a所示推理过程包括:
56.第一步,第一语音数据输入声学模型,声学模型对第一语音数据的声学特征进行提 取和处理后,输出第一张量。
57.第一语音数据可以是一段无标签的、待识别的语音数据。上述无标签,是指模型无 法获得第一语言数据实际对应的正确的语音识别结果是什么的信息。使用模型对第一语 音数据进行处理,是为了用模型识别出第一语音数据对应的可能的语音识别结果。在推 理阶段应用的各个模型(例如图2a中的声学模型、语言模型、第一文本纠错模型),均 是经过了训练、完成了参数学习的模型,这种模型具备推理能力,可以以无标签数据作 为输入,输出模型认为可能正确的结果。上述声学模型对第一语音数据进行的处理可以 包括声学特征(例如梅尔普特征)进行提取、识别和/或分类等过程。
58.因此,此步骤中声学模型以无标签的第一语音数据作为输入数据,输出的第一张量 可以是声学模型认为可能正确的对应于第一语音数据的拼音数据。例如,若第一语音数 据是一段内容为“天气不错”的语音数据,声学模型可以输出类似“tian1 qi4 bu2cuo4”的
结果,其中拼音后的数字用于表示汉字的音调,此处用0-4分别表示轻声、一 声、二声、三声和四声。
59.本实施例中采用“第几张量”统称各模型的输出数据,但这并不构成对本方案实施 例的限定。本方案中的所述张量可以是指向量、矩阵或张量,可以包含字符信息、数值 信息、排序信息等多种类型的信息。
60.举例说明,若第一语音数据是一段内容为“喂”的语音数据,声学模型认为这段语 音数据以0.95的概率可能是“wei2”、以0.03的概率可能是“wei3”、以0.02的概率 可能是“wei4”,则声学模型可以输出一个类似于[(wei2,0.95),(wei3,0.03),(wei4, 0.02)]的包含拼音概率信息的3维向量。若将“喂”视为一个包含一个字的句子,则声 学模型可以用形状为1
×
3的矩阵[[(wei2,0.95),(wei3,0.03),(wei4,0.02)]]表示针 对这个句子的识别结果。若这个句子属于包含1条语音样本的一批输入数据,则声学模 型可以用形状为1
×1×
3的张量[[[(wei2,0.95),(wei3,0.03),(wei4,0.02)]]]表示 针对该批输入数据的识别结果。
[0061]
以上对于声学模型输出数据的描述,仅作为一种本技术实施例提供的一种可能的实 现方式,而非限定。声学模型输出的数据只要是包含拼音信息,均不超出本技术实施例 覆盖的范围。
[0062]
第二步,该第一张量输入语言模型,经语言模型处理后输出第二张量。
[0063]
如前所述,语言模型具备将声学模型输出的音素信息转换为文字信息的功能。本申 请实施例提供的中文语音识别纠错模型中的语言模型,具备将声学模型输出的拼音信息 转换为文字(例如汉字)信息的功能。因此第二张量可以是包含文字信息的输出结果。
[0064]
举例说明,若第一张量是类似于[(wei2,0.95),(wei3,0.03),(wei4,0.02)]的包 含拼音概率信息的向量,语言模型认为该第一张量可能对应的文字信息以0.98的概率可 能是“喂”、以0.01的概率可能是“为”、以0.01的概率可能是“位”,则语言模型 可以输出一个类似于[(喂,0.98),(为,0.01),(位,0.01)]的包含汉字概率信息的向量。 类似地,声学模型输出的第一张量是矩阵或张量的形式,则语言模型也可对应地输出相 应的矩阵或张量形式的第一张量。
[0065]
第三步,第一张量和第二张量进行信息融合,转换为第三张量。
[0066]
信息融合后得到的第三张量中既包含第一张量中的信息,又包含第二张量中的信息。 本发明实施例提供的中文语音识别纠错模型联合使用拼音信息和文字信息,从而可以基 于两方面的信息获得效果较好的纠错效果。具体地,上述信息融合的过程,可以是例如 第一张量和第二张量的根据预设加权规则和预设加权系数进行加权相加过程。例如,第 三张量可以是0.9倍的第二张量和0.1倍的第一张量两者的加权融合。又例如,第三张 量中的一部分是0.9倍的第二张量和0.1倍的第一张量的加权融合,另一部分是0.1倍 的第二张量和0.9倍的第一张量的加权融合。本领域技术人员可根据具体需求配置合适 的加权规则和加权系数,均不超出本发明实施例的范围。本说明书将在后续部分的实施 例中提供一种可行的信息融合方法,即,位置扩张加权方法,该方法的具体步骤将在后 续实施例中详细介绍,此处不做赘述。
[0067]
第四步,该第三张量输入第一文本纠错模型,经第一文本纠错模型处理后输出第四 张量。
[0068]
如前所述,推理过程中使用的第一文本纠错模型,是训练完成后获得的模型,该模 型具备对输入数据进行纠错的功能,可以输出该模型认为更为正确的输出结果。例如, 第一文本纠错模型可以基于输入的信息,将语言模型识别为“经田天机不错”的内容, 进行纠错后输出“今天天气不错”。
[0069]
可选地,第四张量可以是包含多种可能的纠错结果及每种结果对应的概率的第一文 本纠错模型输出结果。举例说明,一段内容为“今天天气不错”的第一语音数据进行前 面步骤的处理后得到第三张量,第一文本纠错模型根据第三张量输出其认为可能正确的 结果。例如,认为第一个位置的汉字以0.95的概率为“今”、以0.05的概率为“经”, 第二个位置的汉字以0.99的概率为“天”、以0.01的概率为“田”,以此类推,第一 文本纠错模型可以对每个位置的汉字输出若干个可能的汉字及对应的概率判断结果。后 续步骤中,可以根据这若干个概率判断结果进行后处理,例如按照预设规则进行搜索, 选择一个最为合适的结果作为修正的语音识别结果。
[0070]
第五步,对第四张量进行后处理,转换为修正的语音识别结果,即整个语音识别纠 错模型的最终输出结果。
[0071]
可选地,若第四张量已经是一个确定性的纠错判断结果,则也可以不进行后处理, 直接将第一文本纠错模型的输出作为修正的语音识别结果。
[0072]
图2b是本技术实施例提供的另一种中文语音识别纠错模型的推理过程的示意图。图2b所示的推理过程可以是图1b所示的包含声学模型、第一文本纠错模型的中文语音识 别纠错模型的推理过程。
[0073]
可以看到,图2b所示的推理过程不同于图2a所示的推理过程之处在于,不再使用 语言模型对声学模型的输出结果进行处理,而是使用第一文本纠错模型对声学模型的输 出结果进行处理。即,使用第一文本纠错模型替代了语言模型的功能,实现第一文本纠 错模型的复用,从而整个中文语音识别纠错模型中可不包含语言模型,从而本实施例可 以实现减小模型体积、减少模型参数量的有益效果。
[0074]
得以实现图2b所示的推理过程中对第一文本纠错模型的复用,是因为通过特定的训 练方法,可以使得训练后得到的第一文本纠错模型也具备将拼音信息转换为文字信息的 功能。具体的训练方法将在后续实施例中详细介绍。
[0075]
图2b所示的推理过程其他部分均与图2a相同,此处不进行重复性描述。
[0076]
由图2a、图2b所示本技术实施例提供的中文语音识别纠错模型的推理过程可知, 声学模型和语言模型的功能如下:声学模型,用于对第一语音数据的声学特征进行提取 和处理,将第一语音数据表示为包含拼音信息的第一张量。语言模型,用于对声学模型 输出的第一张量进行处理,将其转换为包含汉字信息第二张量。第一文本纠错模型可具 有两方面的功能:一方面,具有语言模型的功能,可以实现将包含拼音信息的数据转换 为包含汉字信息的数据的过程;另一方面,可以完成数值的修正,对融合了拼音信息和 汉字信息的第三张量中的数值进行处理和调整,使其中的数值向数值所代表的可能正确 的语音识别结果靠近。即,第一文本纠错模型对第三张量进行处理,使得在代表可能正 确的语音识别结果位置处数值变得更大、在代表可能错误的语音识别结果位置处数值变 得更小,从而使得第一文本纠错模型输出的第四张量中的数值偏向于第一文本纠错模型 认为的更可能正确的识别结果。最后可对第四张量进行后处理得到修正的语音识别结果, 进而整个语音纠
错模型具有纠错的功能。
[0077]
由上述分析可知,第一文本纠错模型具有两方面的功能。结合图1a和图1b可见:
[0078]
一方面,在不具有纠错功能或具有较弱的纠错功能的中文语音识别模型(图1a)中 加入第一文本纠错模型,可以得到具有纠错功能或具有相比于中文语音识别模型更强的 纠错功能的中文语音识别纠错模型(图1b)。
[0079]
另一方面,由于第一文本纠错模型还具有语言模型的功能,因此,可以使用第一文 本纠错模型替代语言模型,即不再使用语言模型,而是通过复用第一文本纠错模型,实 现原来语言模型的功能。这样,就可以选择删除对原中文语音识别模型来说不可缺少的 语言模型,从而减小中文语音识别纠错模型整体的体积、减少模型整体的参数量。
[0080]
在本技术实施例提供的一种可选的实施方式中,第一至第四张量均为三维张量。其 中,第一张量与第二张量的形状相同、非零数值的位置不同,且在第一个维度上为一维; 第三张量与第四张量的形状相同,且在第一个维度上至少为一维,在第二个维度和第三 个维度的维数与第一张量、第二张量的第二个维度和第三个维度的维数相同。例如,假 设第一张量、第二张量是形状为[1,u,v]的张量,则第三张量、第四张量是形状为[b,u,v] 的张量,其中,b≥1。
[0081]
上述声学模型、语言模型和文本纠错模型均基于神经网络实现,作为本技术实施例 提供的一种可选的实现方式,声学模型可以是基于变换器(transducer)结构的模型, 语言模型可以是基于卷积神经网络(convolutional neural networks,cnn)层的模型, 第一文本纠错模型可以是基于变换器架构的双向编码器(bidirectional encoder representations from transformers,bert)结构的模型。
[0082]
在本技术实施例提供的一种可选的实现方式中,第一至第四张量是基于词表 (vocabulary)的概率张量,使用概率数值表示词表中的字符元素,即张量中的字符元 素对应的数值均是大于0、小于1的小数。上述词表是一个包含v个元素的有序列表, 元素至少包含字符元素,还可以包含非字符元素。词表中的每个元素一一对应于一个用 于指示元素在列表中位置的正整数,使得词表中的每个元素按照固定的顺序排列。
[0083]
在本技术实施例提供的一种可选的实现方式中,中文语音识别模型和中文语音识别 纠错模型所采用的词表中,字符元素至少包括汉字和汉语拼音,可选地,还可以包括外 来语拼音(例如外来语“wifi”的外来语拼音“wai”、“fai”)等其他字符元素,非字符 元素可以包括但不限于以下几种中的一个或多个:补零位、预留位、字符位、间隔符等。
[0084]
图3a是一种词表字段的示意图。如图3a所示,词表共由6538个元素组成。词表的 第1-5301位为从“啊”到“酢”按照词典顺序排列的5301个常用汉字;第5302-6538 位为从“a0”到“zuo4”按照字母表顺序排列的1237个常用汉语拼音
[0085]
图3b是另一种词表字段的示意图。如图3b所示,词表共由6896个元素组成。词表 的第1-5301位为从“啊”到“酢”按照词典顺序排列的5301个常用汉字;第5302-6538 位为从“a0”到“zuo4”按照字母表顺序排列的1237个常用汉语拼音;第6539-6896位 为从“a”到“zi”按照字母表顺序排列的358个常用外来语拼音。
[0086]
图3c是又一种词表字段的示意图。如图3c所示,词表共由7008个元素组成。词表 的第1位为1个补零位,记为[pad],用于标记需要填充为零的元素;第2-100位为99 个预留位,预留以备后续添加新元素使用;第101-109位为9个字符位,包括[unk]、[cls]、 [sep]、
[mask]和“、,。?!”五种标点符号,其中,[unk]用来表示词表外词汇 (out-of-vocabulary,oov),[cls]为句子开始符,用于标识句子的开始,[sep]为句子 分隔符,用于分隔两个句子,[mask]用于模型训练时对字符进行遮盖;第110-5410位为 从“啊”到“酢”按照词典顺序排列的5301个常用汉字;第5411、5412位为间隔符; 第5413-6649位为从“a0”到“zuo4”按照字母表顺序排列的1237个常用汉语拼音;第 6650-7007位为从“a”到“zi”按照字母表顺序排列的358个常用外来语拼音;第7008 位为间隔符。
[0087]
应当明确,上述图3a、图3b和图3c所示词表字段和字段的排列顺序仅为本方案中 三种可能的实施例,而非限定。本领域技术人员可以根据实际应用需求,作相应的调整, 例如,词表可以包含少于或者多于5301个汉字,也可以包含少于或多余1237个汉语拼 音,也可以包含除补零位、预留位、字符位、汉字、间隔符、汉语拼音、外来语拼音之 外的其他种类的元素,也可以根据实际需求设计相应的字符元素和非字符元素排列顺序。
[0088]
图4是本技术实施例提供的中文语音识别纠错模型的另一种推理过程的示意图。
[0089]
由图4可知,本实施例提供的中文语音识别纠错模型推理过程为:首先,声学模型 对第一语音数据的声学特征进行提取和处理,将第一语音数据转换为第一拼音概率张量 进行输出;然后,该第一拼音概率张量经语言模型或第一文本纠错模型处理后,转换为 第一汉字概率张量进行输出;接着,第一拼音概率张量和第一汉字概率张量经过信息融 合后转换为第一混合批输入;随后,该第一混合批输入经第一文本纠错模型处理后转换 为第二汉字概率张量进行输出;最后,第二汉字概率张量经过后处理转换为修正的语音 识别结果进行输出,即整个语音识别纠错模型的最终输出。
[0090]
在本方案的一种可能的实施例中,上述第一拼音概率张量、第一汉字概率张量和第 二汉字概率张量可以是基于图3a、图3b或图3c所示词表的概率张量。
[0091]
以基于图3a所示词表的概率张量为例,则上述第一拼音概率张量是形状为1
×u×ꢀ
6538的张量,其中,第一个维度为1,表示拼音概率张量中样本的数量为1;第二个维 度为u,表示一段第一语音数据中包含u个字符,例如,“今天天气不错”中有6个汉字 字符,因此其对应的u=6;第三个维度为所基于的词表的元素数量,由于本实施例采 用如图3a所示词表,因此词表中包含6538个元素。将上述第一拼音概率张量记作i= [[i
1,1
,i
1,2
,

,i
1,u
]],其中,i1=[i
1,1
,i
1,2
,

,i
1,u
]为第一拼音概率张量中的第一条样本 所对应的拼音概率矩阵;将第一拼音概率张量中第n条样本对应的拼音概率矩阵in中的 第u个字符对应的拼音概率向量记作i
n,u
=[a
n,u,1
,a
n,u,2
,

,a
n,u,6538
],对于第一拼音概率 张量,有n=1;本方案中的拼音概率向量,在汉字字段的数值均为0,在汉语拼音字段 的数值均为大于0、小于1的小数且所有小数之和为1,从而表示概率值,对于本实施例 中的拼音概率向量i
n,u
应满足的条件,可以表示为:a
n,u,1
至a
n,u,5301
为0,a
n,u,5302
至a
n,u,6538
为大于0、小于1的小数且a
n,u,5302
+a
n,u,5303
+

+a
n,u,6538
=1。
[0092]
上述第一汉字概率张量是形状为1
×u×
6538的张量,将上述第一汉字概率张量记作 j=[[j
1,1
,j
1,2
,

,j
1,u
]],其中,j1=[j
1,1
,j
1,2
,

,j
1,u
]为第一汉字概率张量中的第一条 样本所对应的汉字概率矩阵;将第一汉字概率张量中第n条样本对应的汉字概率矩阵jn中的第u个字符对应的汉字概率向量记作j
n,u
=[b
n,u,1
,b
n,u,2
,

,b
n,u,6538
],对于第一汉字 概率张量,有n=1;本方案中的汉字概率向量,在汉语拼音字段的数值均为0,在汉字 字段的数值均为大于0、小于1的小数且所有小数之和为1,从而表示概率值,对于本实 施例中的
汉字概率向量j
n,u
应满足的条件,可以表示为:b
n,u,5302
至b
n,u,6538
为0,b
n,u,1
至b
n,u,5301
为大于0、小于1的小数且b
n,u,1
+b
n,u,2
+

+b
n,u,5301
=1。
[0093]
上述第二汉字概率张量是形状为n
×u×
6538的张量,将上述第二汉字概率张量记作 k=[[k
1,1
,k
1,2
,

,k
1,u
],[k
2,1
,k
2,2
,

,k
2,u
],

,[k
n,1
,k
n,2
,

,k
n,u
]],其中,kn= [k
n,1
,k
n,2
,

,k
n,u
]为第二汉字概率张量中的第n条样本所对应的汉字概率矩阵;将第二汉 字概率张量中第n条样本对应的汉字概率矩阵kn中的第u个字符对应的汉字概率向量记 作k
n,u
=[c
n,u,1
,c
n,u,2
,c
n,u,3
,

,c
n,u,6538
],对于第二汉字概率张量,有n≥1;根据前所述 本方案中的汉字概率向量应满足的条件,则有对于本实施例中的汉字概率向量k
n,u
应满足 的条件,可以表示为:c
n,u,5302
至c
n,u,6538
为0,c
n,u,1
至c
n,u,5301
为大于0、小于1的小数且 c
n,u,1
+c
n,u,2
+

+c
n,u,5301
=1。
[0094]
相较于第一汉字概率张量,第二汉字概率张量的数值经过了修正,使其在正确的语 音识别结果对应的汉字位置处的概率数值变得更大,在错误的语音识别结果对应的汉字 位置处的概率数值变得更小,进而使得后续整合、搜索和解码过程结果更准确,从而文 本纠错模型具有纠错功能。
[0095]
在图4所示的语音识别纠错模型的推理过程中,一段具有特定语义信息的第一语音 数据经声学模型处理后,输出第一拼音概率张量,第一拼音概率张量以大小不同的拼音 概率数值,体现声学模型对第一语音数据可能具有的语义信息的判断结果,以基于图3a 所示词表的概率张量为例,有一段内容为“今天天气不错”的第一语音数据输入声学模 型,经声学模型处理后,输出第一拼音概率张量i=[[i
1,1
,i
1,2
,i
1,3
,i
1,4
,i
1,5
,i
1,6
]],其中, i1=[i
1,1
,i
1,2
,i
1,3
,i
1,4
,i
1,5
,i
1,6
]为样本“今天天气不错”对应的拼音概率矩阵,i
1,1
至i
1,6
依次对应于“今”至“错”这6个字符对应的拼音概率向量。假设声学模型对“今”对 应的第一语音数据所对应的拼音概率向量的判断结果为:有0.95的概率为“jin1”、有0.02的概率为“jing1”、有0.008的概率为“jin4”等,且在图3a所示词表中拼音字 符“jin1”、“jing1”和“jin4”分别对应第5729、第5732和第5731个元素,则声学 模型输出的第一拼音概率张量中的样本“今天天气不错”对应的拼音概率矩阵中的“今
”ꢀ
对应的拼音概率向量中,有a
1,1,5729
=0.95,a
1,1,5732
=0.02,a
1,1,5731
=0.008,且a
1,1,1
至a
1,1,5301
均为0、a
1,1,5302
+a
1,1,5303
+

+a
1,1,6538
=1。为了方便记录和直观地表示,而非限制,可以将
ꢀ“
今天天气不错”这段第一语音数据所对应的第一拼音概率张量中的拼音概率矩阵i1中“今”对应的拼音概率向量记为i
1,1
=[(jin1,0.95),(jing1,0.02),(jin4,0.008),

], 应当明确,此种记录方式中,元素的前后顺序并不代表元素在向量中的真实位置,而是 仅仅出于方便记录和直观地表示的目的,将概率较大的元素置于概率较小的元素之前。
[0096]
接着,声学模型输出的第一拼音概率张量作为输入,经语言模型或者第一文本纠错 模型处理,输出第一汉字概率张量,第一汉字概率张量以大小不同的汉字概率数值,体 现语言模型或者第一文本纠错模型基于第一拼音概率张量所提供信息,结合模型自身的 推理能力,所得出的对汉语拼音和汉字的对应关系的判断结果,同样地,以基于图3a所 示词表的概率张量为例,有一段内容为“今天天气不错”的第一语音数据,如前所述, 该段第一语音数据经声学模型处理后输出的第一拼音概率张量中的拼音概率矩阵中“今
”ꢀ
对应的拼音概率向量为i
1,1
=[(jin1,0.95),(jing1,0.02),(jin4,0.008),

],假设i
1,1
经语言模型或者第一文本纠错模型处理后,语言模型或者第一文本纠错模型基于第一拼 音概率张
量中的概率数值,结合整段第一语音数据上下文语义,利用模型自身的推理能 力,得出判断结果为:有0.975的概率为“今”、有0.015的概率为“金”、有0.003的 概率为“劲”等,且在图3a所示词表中“今”、“金”和“劲”分别对应第1814、第1822 和第1830个元素,则语言模型或者第一文本纠错模型输出的第一汉字概率张量中的样本
ꢀ“
今天天气不错”对应的汉字概率矩阵中的“今”对应的汉字概率向量中,有b
1,1,814
=0.975, b
1,1,1822
=0.015,b
1,1,1830
=0.003,且b
1,1,1
+b
1,1,2
+

+b
1,1,5301
=1、b
1,1,5302
至b
1,1,6538
均为0。同样 地,为了方便记录和直观地表示,而非限制,可以将“今天天气不错”这段第一语音数 据所对应的第一汉字概率张量中的汉字概率矩阵j1中“今”对应的汉字概率向量记为j
1,1
=[(今,0.975),(金,0.015),(劲,0.003),

],应当明确,此种记录方式中,元素的顺序 并不代表元素的真实位置,而是仅仅出于方便记录和直观地表示的目的,将概率较大的 元素置于概率较小的元素之前。
[0097]
图5示例性地展示了本技术实施例提供的一种信息融合过程的流程图,即位置扩张 加权的流程图,可包括步骤501-503:
[0098]
501、查第一汉字概率张量j中的汉字概率矩阵jn中,最大概率p
n,u,max
小于阈值t 的汉字概率向量j
n,u
的位置。其中,最大概率p
n,u,max
表示汉字概率矩阵jn中第u个字符对 应的汉字概率向量j
n,u
中的最大概率数值。
[0099]
502、基于预设的多个规则对查到的一个或多个位置进行位置扩张。具体地,以最 大概率p
n,u,max
小于阈值t的汉字概率向量j
n,u
为中心,根据预设的若干种左偏移量和右偏移量 进行位置扩张,获得若干种位置扩张方式。
[0100]
503、将位于位置扩张区域内的汉字概率向量替换为拼音混合加权向量,将位于位置扩 张区域外的汉字概率向量替换为汉字混合加权向量。具体地,上述拼音混合加权向量,可以 为λ倍的拼音概率向量与(1-λ)倍的汉字概率向量之和;上述汉字混合加权向量,可以 为(1-λ)倍的拼音概率向量与λ倍的汉字概率向量之和,其中,λ∈(0.5,1)。
[0101]
504、获得第一混合批输入。
[0102]
接下来,结合图6、图7示意图,通过举例的方式详细介本技术实施例提供的一种 上述位置扩张加权的实现方式。
[0103]
图6示例性地展示了本技术实施例提供的一种确定位置扩张区域的示意图。如图6 所示,假设所用词表中共包含v个字符,以一段内容为“那个女人叫贝拉”的语音数据 为例,则u=7,内容为“那个女人叫贝拉”的语音数据经声学模型处理后,输出一个 形状为1
×7×
v的第一拼音概率张量,第一拼音概率张量中包含形状为7
×
v的拼音概率 矩阵607,该拼音概率矩阵包含7个v维的拼音概率向量;上述第一拼音概率张量经语 言模型或者第一文本纠错模型处理后,输出一个形状为1
×7×
v的第一汉字概率张量, 第一汉字概率张量中包含形状为7
×
v的汉字概率矩阵608,该汉字概率矩阵包含7个v 维的汉字概率向量;以上述拼音概率矩阵607和汉字概率矩阵608为输入,执行位置扩 张相关步骤:
[0104]
一:在汉字概率矩阵608中,寻最大概率p
n,u,max
小于阈值t的汉字概率向量j
n,u
, 其中,最大概率p
n,u,max
表示汉字概率矩阵608中第u个字符对应的汉字概率向量中的最大 概率数值。以图6为例,若设置t=0.9,则由于第6个字符“贝”对应的汉字概率向 量[(被,0.49509),

]中的最大概率p
n,6,max
=0.49509,小于阈值0.9,从而寻到该 汉字概率矩阵608中最大概率小于阈值的汉字概率向量601为j
n,6
=[(被,0.49509),

]。
[0105]
二:以最大概率p
n,u,max
小于阈值t的汉字概率向量j
n,u
为偏移中心,以预先设定的
左 偏移(left offset)和右偏移(right offset)进行位置扩张。以图6为例,则为以 j
n,6
为偏移中心,若预先设定左偏移向量left_offset=[0,0,-1,-1],右偏移向量 right_offset=[0,1,0,1],则有:(1)在left_offset=0且right_offset=0时, 获得第1种位置扩张区域603,即以j
n,6
为偏移中心向左扩张0个字符、向右扩张0个字 符,从而位置扩张区域包含j
n,6
,(2)在left_offset=0且right_offset=1时,获 得第2种位置扩张区域604,即以j
n,6
为偏移中心向左扩张0个字符、向右扩张1个字符, 从而位置扩张区域包含j
n,6
和j
n,7
,(3)在left_offset=-1且right_offset=0时, 获得第3种位置扩张区域605,即以j
n,6
为偏移中心向左扩张-1个字符、向右扩张0个字 符,从而位置扩张区域包含j
n,5
和j
n,6
,(4)在left_offset=-1且right_offset=1 时,获得第4种位置扩张区域606,即以j
n,6
为偏移中心向左扩张-1个字符、向右扩张1 个字符,从而位置扩张区域包含j
n,5
、j
n,6
和j
n,7

[0106]
图6所展示的实施例中的4种位置扩张区域示意图609,示意性地展示了上述4种 位置扩张区域,例如,以“那个女人就bei4拉”表示第1种位置扩张区域603所 在的样本,应当明确,此种表示方式仅仅是为了方便区分在后续根据位置扩张区域进行 加权处理过程中,对位置扩张区域内和位置扩张区域外的汉字概率向量的不同处理方法, 而非实际对位置扩张区域的处理方法。
[0107]
图6所展示的实施例,属于汉字概率矩阵608中存在一个最大概率小于阈值的汉字 概率向量的情况。若第一汉字概率矩阵中不存在最大概率小于阈值的汉字向量,相应地, 也就不存在进行位置扩张所依据的偏移中心,从而也无法根据左偏移量和右偏移量进行 位置扩张,因此,此种情况下,直接将所有汉字向量视为位于位置扩张区域之外。
[0108]
在本方案另一种可能的实施例中,汉字概率矩阵608中存在两个或者两个以上最大 概率p
n,u,max
小于阈值t的汉字概率向量,可以对应于图5中的步骤501和步骤502,此时, 则同时以多个最大概率小于阈值的汉字概率向量为偏移中心,根据预设的若干种左偏移 量和右偏移量的多种组合情况进行位置扩张,获得若干种位置扩张区域。例如,以u=10 的一段字符为例,若第2个字符(j
n,2
)和第9个字符(j
n,9
)所对应的汉字概率向量满足 最大概率小于阈值,且左偏移量left_offset=[-1,0]、右偏移量right_offset=[0,1], 则有:(1)在以j
n,2
为偏移中心的left_offset=-1、right_offset=0,且以j
n,9
为偏 移中心的left_offset=-1、right_offset=0时,获得第1种位置扩张区域,即以 j
n,2
为偏移中心向左扩张-1个字符、向右扩张0个字符,且以j
n,9
为偏移中心向左扩张-1 个字符、向右扩张0个字符,从而位置扩张区域包含j
n,1
、j
n,2
、j
n,8
和j
n,9
,(2)在以j
n,2
为偏移中心的left_offset=-1、right_offset=0,且以j
n,9
为偏移中心的left_offset =0、right_offset=1时,获得第2种位置扩张区域,即以j
n,2
为偏移中心向左扩张-1 个字符、向右扩张0个字符,且以j9为偏移中心向左扩张0个字符、向右扩张1个字符, 从而位置扩张区域包含j
n,1
、j
n,2
、j
n,9
和j
n,10
,(3)在以j
n,2
为偏移中心的left_offset= 0、right_offset=1,且以j
n,9
为偏移中心的left_offset=-1、right_offset=0 时,获得第3种位置扩张区域,即以j
n,2
为偏移中心向左扩张0个字符、向右扩张1个字 符,且以j
n,9
为偏移中心向左扩张-1个字符、向右扩张0个字符,从而位置扩张区域包 含j
n,2
、j
n,3
、j
n,8
和j
n,9
,(4)在以j
n,2
为偏移中心的left_offset=0、right_offset=1, 且以j
n,9
为偏移中心的left_offset=0、right_offset=1时,获得第4种位置扩张区 域,即以j
n,2
为偏移中心向左扩张0个字符、向右扩张1个字符,且以j
n,9
为偏移中心向 左扩张0个字符、向右扩张1个字符,从而位置扩张区域包含j
n,2
、j
n,3
、jn,9
和j
n,10

[0109]
图7是根据位置扩张区域进行加权的示意图。如图7所示,根据图6中示例进行的 位置扩张过程,在设定左偏移向量left_offset=[0,0,-1,-1]、右偏移向量 right_offset=[0,1,0,1]时,产生4种位置扩张区域,分别为(j
n,6
)、(j
n,6
,j
n,7
)、(j
n,5
,j
n,6
) 和(j
n,5
,j
n,6
,j
n,7
),基于上述4种位置扩张区域,执行加权相关步骤:
[0110]
一:对于上述4种位置扩张区域,将位于位置扩张区域内的汉字概率向量替换为拼音混 合加权向量,将位于位置扩张区域外的汉字向量替换为汉字混合加权向量;上述拼音混合加 权向量,为λ倍的拼音概率向量与(1-λ)倍的汉字概率向量之和,上述汉字混合加权向 量,为(1-λ)倍的拼音概率向量与λ倍的汉字概率向量之和,其中,λ∈(0.5,1),用公 式表示,拼音混合加权向量为λ
·in,u
+(1-λ)
·jn,u
,汉字混合加权向量为(1-λ)
·in,u’+ λ
·jn,u’,其中,下标包含u表示在位置扩张区域内的向量,下标包含u’表示在位置扩张 区域外的向量,同样地,λ∈(0.5,1)。如图7所示,若取λ=0.9,则有:(1)对于第1 种位置扩张区域,即(j
n,6
),将j
n,6
的汉字概率向量替换为拼音混合加权向量 0.9
·in,u
+0.1
·jn,u
,将j
n,1
至j
n,5
、j
n,7
的汉字概率向量替换为汉字混合加权向量 0.1
·in,u’+0.9
·jn,u’,此处,u=6且u’=1,2,3,4,5,7;(2)对于第2种位置扩张 区域,即(j
n,6
,j
n,7
),将j
n,6
、j
n,7
的汉字概率向量分别替换为拼音混合加权向量 0.9
·in,u
+0.1
·jn,u
,将j
n,1
至j
n,5
的汉字概率向量替换为汉字混合加权向量 0.1
·in,u’+0.9
·jn,u’,此处,u=6,7且u’=1,2,3,4,5;(3)对于第3种位置扩张 区域,即(j
n,5
,j
n,6
),将j
n,5
、j
n,6
的汉字概率向量分别替换为拼音混合加权向量 0.9
·in,u
+0.1
·jn,u
,将j
n,1
至j
n,4
和j
n,7
的汉字向量替换为汉字混合加权向量 0.1
·in,u’+0.9
·jn,u’,此处,u=5,6且u’=1,2,3,4,7;(4)对于第4种位置扩张 区域,即(j
n,5
,j
n,6
,j
n,7
),将j
n,5
、j
n,6
和j
n,7
的汉字概率向量分别替换为拼音混合加权向量 0.9
·in,u
+0.1
·jn,u
,将j
n,1
至j
n,4
的汉字向量替换为汉字混合加权向量0.1
·in,u’+0.9
·
j n,u’,此处,u=5,6,7且u’=1,2,3,4。应当明确,如图7所示的拼音混合加权向量 和汉字混合加权向量表示方式中,向量中元素的先后顺序并不代表元素在向量中的真实 位置,而是仅仅出于方便记录和直观地表示的目的,将概率较大的元素置于概率较小的 元素之前。
[0111]
二:以若干种位置扩张区域下生成的若干种混合加权矩阵构成第一混合批输入。如图7 所示,以4种位置扩张区域,生成了4种混合加权矩阵,从而这4种混合加权矩阵构成第一 混合批输入,图7中示例的混合加权矩阵为形状为7
×
v的矩阵,第一混合批输入为形状为4
ꢀ×7×
v的张量,其中,v为所采用的词表中元素的个数,即词表的维度。
[0112]
以图6、图7所示实施例为例,说明进行位置扩张加权处理的有益效果。在进行位 置扩张处理之前,实际内容为“那个女人叫贝拉”的语音数据,由于发音不标准、声学 模型识别能力局限性等问题,使得声学模型输出的第一拼音概率张量中的拼音概率矩阵 607中可能存在识别出现偏差的汉语拼音,例如,图6中示例将第5个实际为“jiao4
”ꢀ
的发音,被声学模型识别为拼音概率向量[(jiu4,0.74515),

],可见声学模型认为该实 际为“jiao4”的发音,以0.74515的最大概率为“jiu4”,产生了判断偏差;接下来, 语言模型或者第一文本纠错模型,基于存在判断偏差的第一拼音概率张量,结合模型自 身的语义理解能力,输出模型对汉语拼音所对应汉字的判断,即,输出第一汉字概率张 量,由于第一拼音概率张量中存在的偏差,使得输出的第一汉字概率张量中的汉字概率 矩阵608中可能存在识别出现偏差的汉字,例如,图6中示例将第5个和第6个实际为
ꢀ“
叫”和“贝”的汉字,被语言模型或
者第一文本纠错模型识别为汉字概率向量 [(就,0.98870),

]和[(被,0.49509),

];既而,位置扩张在步骤501中,在汉字概率 矩阵608中,寻最大概率小于阈值的汉字概率向量作为偏移中心,在步骤502中,基 于偏移中心和所设定左偏移量和右偏移量生成位置扩张区域,例如,图6中示例的第6 个汉字概率向量[(被,0.49509),

]的最大概率为0.49509,小于所设定阈值0.9,因此 以[(被,0.49509),

]为偏移中心;最后,在步骤504和步骤505的混合加权中,以 [(被,0.49509),

]为偏移中心,根据所设定左偏移量和右偏移量,生成混合概率矩阵, 构成第一混合批输入。
[0113]
如果不采用位置扩张,即不进行步骤502的处理,而是直接将步骤501中寻到的 最大概率小于所设定阈值的汉字概率向量,替换为拼音混合矩阵,就会出现仅将 [(被,0.49509),

]替换为拼音混合加权向量,而不会将汉字概率矩阵中同样识别出现偏 差的[(就,0.98870),

]替换为拼音混合加权向量的情况,进而在后续的过程中,无法在 识别出现偏差的[(就,0.98870),

]处,引入拼音概率信息,从而无法为第一文本纠错模 型对[(就,0.98870),

]的纠错过程中提供拼音概率信息,辅助文本纠错模型进行纠错, 进而可能使得第一文本纠错模型基于[(就,0.98870),

]中较高的最大概率0.98870,认 为前置步骤中模型对[(就,0.98870),

]的判断可能不存在偏差,从而可能漏掉对 [(就,0.98870),

]的纠错。如果采用位置扩张,即以最大概率小于所设定阈值的汉字概 率向量为偏移中心,进行左右偏移,生成更多种类的位置扩张区域,降低仅仅根据最大 概率小于所设定阈值判断结果可能不全面或者不准确造成的影响,提高位置扩张区域确 实覆盖了实际存在识别偏差的汉字概率向量的可能性,如图6中示例所示,采用位置扩 张,使得[(就,0.98870),

]和[(被,0.49509),

]被第3种和第4种位置扩张区域所覆 盖,从而可能能够在第一混合批输入中引入正确结果“叫”和“贝”对应的拼音概率信 息,在拼音概率矩阵607中,声学模型对于[(jiu4,0.74515),

]虽然存在识别偏差,但 仅以0.74515的最大概率认为第5个字符对应于拼音“jiu4”,低于汉字概率矩阵608中 以0.98870的最大概率认为第5个字符对应于汉字“就”,在[(jiu4,0.74515),

]的除 了(jiu4,0.74515)之外的其他字符概率中,仍可能存在概率相对较大的其他可能正确的 拼音概率,因此,第一文本纠错模型利用上述所引入的拼音概率信息,就有可能实现更 好的纠错效果。
[0114]
如果不采用位置扩张加权,而是将位于位置扩张区域内的汉字概率向量替换为拼音 概率向量,位于位置扩张区域外的汉字概率向量不进行处理,即不再进行加权,而仅将 第一汉字概率张量中的汉字概率矩阵转换为由拼音概率向量和汉字概率向量,所构成的 混合概率矩阵,等价于加权参数λ为1的情况,这样做会使得位于位置扩张区域内的字符 的汉字概率信息丢失,而位于位置扩张区域外的字符,也无法在一定程度上将拼音概率 信息融合进来,因此不利于纠错效果的提升。如果采用位置扩张加权,就可以使得每个 字符位置的概率向量中,既包含拼音概率信息,又包含汉字概率信息,从而为第一文本 纠错模型提供更多的可能有价值的信息,有利于模型纠错效果的提升。
[0115]
图8示例性地展示了本技术实施例提供的一种后处理过程的流程图,包含步骤801-803:
[0116]
801、将第二汉字概率张量中的样本对应的汉字概率矩阵在同一字符位置处的汉字概率向 量整合在一起。
[0117]
802、在整合后的汉字概率向量中对字符进行搜索,到符合条件的候选字符。
[0118]
803、取概率之和最大的候选字符为最终结果,查词表进行解码,输出修正的语音识别 结果。
[0119]
在本方案一种可能的实施例中,若以图6、图7中所示内容为“那个女人叫贝拉”的语 音数据为输入,采用所示4种左偏移量和右偏移量生成的4种位置扩张区域为例,则步骤801 所述整合过程如下所述:如图7所示的4种混合加权矩阵构成第一混合批输入是形状为4
×7ꢀ×
v的张量,第一混合批输入经第一文本纠错模型进行处理后,第一文本纠错模型输出形状 为4
×7×
v的第二汉字概率张量,记为k= [[k
1,1
,k,
1,2
,

,k
1,7
],[k
2,1
,k
2,2
,

,k
2,7
],

,[k
4,1
,k
4,2
,

,k
4,7
]],则上述整合过程,即为将汉字概 率向量k
1,u
、k
2,u
、k
3,u
和k
4,u
拼接在一起;对于上述进行整合的汉字概率向量,假设对于u=1, 有k
1,1
=[(那,0.95),(哪,0.02),

],k
2,1
=[(那,0.93),(哪,0.03),

],k
3,1
= [(那,0.98),(哪,0.001),

],k
4,1
=[(那,0.99),(哪,0.002),

],则整合构成k
c,1
= [(那,0.95),(哪,0.02),

,(那,0.93),(哪,0.03),

,(那,0.98),(哪,0.001),

,(那,0.99) ,(哪,0.002),

],类似地,对于u=2,3,

,7,以同样地方式获得整合向量k
c,2
至k
c,7
。步 骤802所述搜索可以采用穷举搜索(exhaustive search)、贪心搜索(greedy search)和 波束搜索(beam search)等搜索算法,在各个字符对应的整合向量中的汉字概率数值中,搜 索得到样本所对应的字符序列;应当明确,此处所举例的搜索算法仅仅是本方案中的搜索过 程的几种可选的实现方式,而非限定,本领域技术人员也可以根据具体应用需求,选择其他 合适的搜索算法。步骤803所述解码过程为,根据搜索确定的字符序列,通过查询词表, 到字符序列中的编号所对应的解码结果,假设所采用的词表为如图3a所示词表,则解码结果 为汉字序列。
[0120]
图9示例性地展示了本技术提供的一种可能的实施例中所采用的波束搜索过程示意图, 波束搜索算法包含参数束宽(beam size),束宽规定了从每次候选序列中选择的序列数量, 图9中采用的波束搜索设置束宽为2,图中用粗体表示每次候选序列中被选中的序列,如图 所示,第一个字符的整合向量为[(今,0.6),(经,0.4),

],由于束宽为2,当搜索进行到第 一个字符时,“今”和“经”为整合向量中概率最大的两个汉字,因此,“今”和“经”被 选中为第一步长的两个候选序列;第二个字符的整合向量为[(天,0.8),(田,0.1),

,(过,0.92),(天,0.05),

],分别计算“今天”、“今田
”……“
经 过”、“经田”等序列概率之和,由于束宽为2,当搜索进行到第二个字符时,“今天”和
ꢀ“
经过”为序列概率之和最大的两个序列,因此“今天”和“经过”被选中为第二步长的两 个候选序列;第三个字符的整合向量为[(天,0.65),(田,0.3),

,(天,0.34),(去,0.2),

], 分别计算“今天天”、“今天田
”……“
经过天”、“经过去”等序列概率之和,由于束宽 为2,当搜索进行到第三个字符时,“今天天”和“今天田”为序列概率之和最大的两个序 列,因此“今天天”和“今天田”被选中为第三步长的两个候选序列;对后续第四个、第五 个字符等的波束搜索过程,以此类推,直至样本中所有的字符均完成搜索,最后输出概率之 和最大的序列作为搜索结果。
[0121]
穷举搜索相当于束宽为整合向量维度的波束搜索,即,在每个字符所有可能的结果中进 行搜索,选取全部可能作为下一个字符搜索前的候选序列;贪心搜索相当于束宽为1时的波 束搜索,即,对每个字符,仅选取概率最大的序列作为候选序列。因此,穷举搜索可以到 全局最优序列,贪心搜索和波束搜索可能不到全局最优序列;上述三种搜算算法相比较, 穷举搜索计算开销最大、耗时最长,贪心搜索计算开销最小、耗时最短,波束搜索计算开销 和耗时处在穷举搜索和贪心搜索两者之间,具体取决于超参数束宽的选取。实际
应用中,本 领域技术人员可以根据实际需求选择合适的搜索算法,包括但不限于上述三种搜算算法。
[0122]
图10为本方案一种可能的实施例中文本纠错模型的结构示意图。如图10所示,文本纠 错模型可以包含嵌入层1002和神经网络模型1004两部分。在本方案一种可能的实施方式中, 输入1001和输出1005可以是三维张量,嵌入层1002和神经网络模型1004可以是基于神经 网络结构实现的,嵌入层1002所实现的功能根据所使用的神经网络模型1004类型的不同而 不同,嵌入层1002至少具有标识嵌入(token embedding)的功能,嵌入层输出1003可以是 至少经过标识化(tokenization)处理后的矩阵或者张量,神经网络模型1004可以是卷积神 经网络(convolutional neural networks,cnn)、循环神经网络(recurrent neuralnetworks, rnn)、长短期记忆(long short-term memory,lstm)网络、双向长短期记忆(bi-directionallong short-term memory,bilstm)网络、基于变换器架构的双向编码器(bidirectionalencoder representations from transformers,bert)网络或者具有其他结构的神经网络, 应当明确,上述举例仅仅是对可能的实施方式的列举,而非限制,本领域技术人员可以根据 实际应用需求,选择具有合适结构的神经网络实现文本纠错模型中的神经网络模型1004的功 能。
[0123]
在本方案一种可能的实施方式中,神经网络模型1004可以是基于变换器架构的双向编码 器(bidirectional encoder representations from transformers,bert)网络(下简称为
ꢀ“
bert”),此时,输入1001和输出1005为形状为b
×u×
v的张量,其中,b表示批输入 中样本的个数,u表示批输入中一批样本的最大字符数,v表示词表中元素的个数,即词表的 维度;嵌入层1002是具有标识嵌入和位置嵌入(position embedding)功能的神经网络层, 嵌入层输出1003是经过标识化处理和位置嵌入处理的形状为b
×u×
d的张量,其中,d表示 经嵌入层处理后表示输入样本中每个字符的向量的维度;上述标识嵌入的过程为:利用一个 具有v
×
d维参数矩阵的标识嵌入神经网络层,将输入样本中用来表示字符的v维概率向量, 转换为d维向量,上述标识嵌入过程可以理解为通过矩阵相乘改变数据维度的过程,即由v 维概率向量表示的字符,与一个v
×
d维矩阵相乘后,转换为由d维向量表示的字符;上述位 置嵌入的过程为:利用一个具有l
×
d维参数矩阵的位置嵌入神经网络,将输入样本中字符的 位置信息,即字符是句子中的第几个字,转换为d维向量,上述位置嵌入过程可以理解为查 表的过程,其中,l表示该查表最多可以表示的字符的位置信息的数量,不同样本句子 中位于相同位置的字符,不论其是否为相同的字符,都具有相同的位置嵌入向量,例如,句 子“今天天气怎么样”中的第一个字“今”和句子“中午吃什么”中第一个字“中”具有相 同的位置嵌入向量;嵌入层1002在完成对输入1001的标识化处理和位置嵌入处理后,将上 述标识嵌入过程得到的d维向量和上述位置嵌入过程得到的d维向量进行相加处理,从而使 得形状为b
×u×
v的输入1001转换为形状为b
×u×
d的张量,进而得到嵌入层输出1003; 当所使用的bert为预训练模型时,通常有d=768、l=512,应当明确,此处d和l的取 值举例仅仅是对可能的实施方式的列举,而非限制,本领域技术人员可以根据实际应用需求, 采用具有特定参数值的bert预训练模型,或者自行训练具有自定义参数配置的bert模型。
[0124]
在本方案一种可能的实施例中,上述若干种基于神经网络结构的模型,可以是基于通用 硬件设备通过软件编程实现的,也可以是基于具有相应神经网络结构的特定硬件
设备实现的, 将前者简称为软件实现方式,将后者简称为硬件实现方式,则软件实现方式中,可以采用的 神经网络编程框架可以包括但不限于tensorflow、pytorch、keras、caffe等,硬件实现方 式中,可以采用的硬件设备包括但不限于现场可编程逻辑门阵列(field programmable gatearray,fpga)。
[0125]
图11示例性地展示了本技术实施例提供的一种文本纠错模型训练阶段和推理阶段的关 系示意图。如图11所示,训练阶段用来获得第一文本纠错模型,推理阶段则进行第一文本纠 错模型的应用。
[0126]
在本方案一种可能的实施方式中,在训练阶段,具有随机初始化参数的第二文本纠错模 型,利用具有真实标签的训练数据,即具有对应的正确文本内容的第二语音数据,基于所设 定的学习率(learning rate)和损失函数(loss function)等配置,通过梯度下降(gradientdescent)、反向传播(back propagation)等方式,不断进行参数更新,使得模型不断学习 训练数据的数据分布,当基于所设定的损失函数计算所得的误差小于所设定阈值时,完成训 练,模型参数停止更新,获得训练好的文本纠错模型,即第一文本纠错模型;当所采用的模 型为基于神经网络的模型时,上述参数可以包括神经网络中各个神经元的权重和偏置数值。 具体地,如图11所示,本方案所使用的训练阶段可以包括两个阶段:训练阶段一和训练阶段 二,上述两个训练阶段均需分别经历如前所述梯度下降、反向传播、损失函数误差计算等步 骤,进行两次文本纠错模型的训练,训练阶段一完成后得到第三文本纠错模型,第三文本纠 错模型再经过训练阶段二进行参数的再一轮更新,最终得到第一文本纠错模型。在推理阶段, 第一文本纠错模型的参数不再进行更新,因此也不再进行上述梯度下降、反向传播和损失函 数误差计算等步骤,而是使用训练好的、具有固定参数的第一文本纠错模型,对没有标签的 第一语音数据,通过前向的计算,输出模型对第一语音数据文本内容的判断结果,推理阶段 的具体过程如前图1b、图2、图4和图5所示,在此不再重复说明。
[0127]
图12示例性地展示了本技术实施例提供的一种文本纠错模型训练阶段示意图。如图12 所示,在进入训练阶段一之前,首先准备训练数据,有标签的第二语音数据经声学模型处理 后输出第二拼音概率张量,上述有标签的第二语音数据是指语音数据对应的正确的文本内容 为已知,从而在训练过程中能够依据已知的正确文本内容计算损失函数误差,进而通过梯度 下降、反向传播等过程,更新模型参数。在本方案一种可选的实施方式中,若采用基于如图 3a所示词表的概率矩阵,则第二拼音概率张量中的拼音概率矩阵中的拼音概率向量,在汉字 字段的数值为0,在汉语拼音字段的数值为(0,1)区间内的小数。
[0128]
如图12所示,训练阶段一开始前1201,首先对第二文本纠错模型和第二文本纠错模型 输出端的汉字概率张量进行参数初始化;训练阶段一进行的过程中,以第二拼音概率张量为 输入,经第二文本纠错模型向前传播,计算第二文本纠错模型输出的汉字概率张量与第二语 音数据对应的正确的文本内容的损失函数误差,若损失函数误差大于所设定阈值,则进行梯 度下降、反向传播,更新第二文本纠错模型和第二文本纠错模型输出端的汉字概率张量的参 数,不断重复上述过程,直至损失函数误差小于所设定阈值,完成训练阶段一;训练阶段一 完成后1202,即进行完训练阶段一的最后一次模型参数更新后,得到第三文本纠错模型和第 三文本纠错模型输出端的第三汉字概率张量。在本方案一种可选的实施方式中,若采用基于 如图3a所示词表的概率矩阵,则第三汉字概率张量中的汉字概率
矩阵中的汉字概率向量,在 汉字字段的数值为(0,1)区间内的小数,在汉语拼音字段的数值为0。在本方案一种可选的实 施方式中,可以采用经批标准化(batch normalization)处理的批输入作为训练阶段文本纠 错模型的输入,此时,第二拼音概率张量的数值经过了归一化处理,可以为形状为b
×u×
v 的张量,其中,b表示同一批输入第二文本纠错模型进行向前传播的数据的条数,可选地,b 可以设置为128,这一批数据中可能包含所对应的句子长度不同的第二语音数据,则可以取 其中最长的句子的字符数为u,小于该长度的样本对应的矩阵在空缺字符对应处填0,v为词 表中元素的数量,即词表的维度。当采用上述批输入方式时,模型的参数在一批数据输入、 向前传播之后,统一进行损失函数误差的计算,既而进行梯度下降、反向传播,更新模型参 数,以批输入方式进行模型训练可以使得训练更加稳定、有效避免梯度消失和梯度爆炸且提 高对参数初始化的容错率。
[0129]
训练阶段二开始前1203,首先对第二拼音概率张量和训练阶段一完成后得到的第三汉字 概率张量进行混合加权处理,构成第二混合批输入,并使用训练阶段一完成后得到的第三文 本纠错模型和第三汉字概率张量作为初始化模型;训练阶段二进行的过程中,以第二混合批 输入为输入,经第三文本纠错模型向前传播,计算第三文本纠错模型输出的汉字概率张量与 第二语音数据对应的正确的文本内容的损失函数误差,若损失函数误差大于所设定阈值,则 进行梯度下降、反向传播,更新第三文本纠错模型和第三文本纠错模型输出端的第三汉字概 率张量的参数,不断重复上述过程,直至损失函数误差小于所设定阈值,完成训练阶段二; 训练阶段二完成后1204,即进行完训练阶段二的最后一次模型参数更新后,得到第一文本纠 错模型和第一文本纠错模型输出端的第四汉字概率张量。
[0130]
上述训练阶段二前进行的混合加权处理过程,类似于推理阶段中的混合加权处理过程, 具体地,上述混合加权的处理过程为:将第三汉字概率张量中的汉字概率矩阵中,未能在正 确汉字处具有最大概率的字符位置处的汉字概率向量,替换为基于第二拼音概率张量中的拼 音概率矩阵的拼音概率向量,和第三汉字概率张量中的汉字概率矩阵的汉字概率向量,所构 成的拼音混合加权向量;将第三汉字概率张量中的汉字概率矩阵中,在正确汉字处具有最大 概率的字符位置处的汉字概率向量,替换为基于第二拼音概率张量中的拼音概率矩阵的拼音 概率向量,和第三汉字概率张量中的汉字概率矩阵的汉字概率向量,所构成的汉字混合加权 向量;上述拼音混合加权向量,为λ倍的第二拼音概率张量中的拼音概率矩阵的拼音概率向 量与(1-λ)倍的第三汉字概率张量中的汉字概率矩阵的汉字概率向量之和;上述汉字混合加 权向量,为(1-λ)倍的第二拼音概率张量中的拼音概率矩阵的拼音概率向量与λ倍的第三汉 字概率张量中的汉字概率矩阵的汉字概率向量之和,其中,λ∈(0.5,1)。训练阶段二前进行 的混合加权处理过程,与推理阶段中的位置扩张加权处理过程的不同之处在于:以不同的方 式确定哪些字符位置处的汉字概率向量替换为拼音混合加权向量、哪些字符位置处的汉字概 率向量替换为汉字混合加权向量;具体地,推理阶段的输入的第一语音数据对应的正确的字 符是未知的,因此,对于哪些字符位置处替换为拼音混合加权向量、哪些字符位置处替换为 汉字混合加权向量,不是根据确切的标签确定的,而是根据位置扩张生成的位置扩张区域确 定的,而训练阶段采用的是有标签的第二语音数据,事前已知第二语音数据所对应的正确的 字符是什么,因此可以直接确切地获得第三汉字概率张量中的汉字概率矩阵中,哪些位置的 汉字概率向量的最大概率对应的字符是判断错误的、哪些位置是判断正确的,从而在汉字概 率向量的最大概率对应的字符
判断错误的位置处,混合采用较高权重的拼音概率向量,构成 拼音混合加权向量,在汉字概率向量的最大概率对应的字符判断正确的位置处,混合采用较 高权重的汉字概率向量,构成汉字混合加权向量。混合加权处理过程,可以在汉字概率张量 中引入拼音信息,从而在当汉字概率判断结果存在偏差的情况下,仍可以根据拼音概率提供 的信息,推断出相对正确的结果,从而使得文本纠错模型充分利用拼音和汉字信息,具有较 现有技术中的文本纠错模型更好的纠错能力。
[0131]
图13示例性地展示了本技术实施例提供的一种文本纠错模型训练阶段一流程图。如图 13所示,文本纠错模型的训练阶段一包含步骤1301-1305:
[0132]
1301、参数初始化:对文本纠错模型和文本纠错模型输出端的汉字概率张量进行参数初 始化。
[0133]
1302、前向传播:将声学模型输出的拼音概率张量输入文本纠错模型,经其计算后将计 算结果向前传播。
[0134]
1303、误差计算:计算文本纠错模型输出的汉字概率与第二语音数据对应的真实字符内 容之间的总误差。
[0135]
1304、判断:判断总误差是否小于所设定地阈值,若是则执行步骤1305、1306,否则进 入步骤1307,完成第一阶段的训练。
[0136]
1305、模型参数更新:若总误差大于所设定阈值,则将误差传回文本纠错模型之中,并 根据误差更新文本纠错模型参数。
[0137]
1306、计算新的误差:计算参数更新后文本纠错模型输出的汉字概率与语音数据对应的 真实字符内容之间的总误差。然后再次进入步骤1304,判断总误差是否小于所设定阈值。
[0138]
1307、完成训练阶段一:若总误差小于或等于所设定阈值,则训练阶段一结束,得到训 练阶段一完成后的文本纠错模型和汉字概率张量。
[0139]
在本方案一种可能的实施方式中,上述步骤1303中的总误差,可以采用交叉熵损失函数 进行计算,计算公式为:loss=(1/n)*σ
i to n
[-log p(ui)],其中,n表示样本句子中字符的 数量,ui表示真实字符的第i个字符,p(ui)表示汉字概率张量中对应于真实字符的第i个字 符的概率值,log表示以2为底的对数函数。以一段对应的真实字符为“天气不错”的语音 数据为例,若文本纠错模型输出的该样本对应的汉字概率矩阵中,这四个字符对应的概率分 别为[(天,0.25),(气,0.125),(不,0.5),(错,0.25)],则采用交叉熵损失函数进行损失值计算 的公式为:loss=(1/4)*[-log0.25-log0.125-log0.5-log0.25]=2。
[0140]
在本方案一种可能的实施方式中,上述步骤1305中的“将误差传回文本纠错模型之中, 并根据误差更新文本纠错模型参数”,可以采用梯度下降和反向传播方式实现,即,计算损 失函数对模型参数的梯度,梯度与所设定学习率相乘计算得到参数需要更新的大小,从原参 数中减去该需要更新的大小,从而得到更新后模型参数。所采用的梯度下降方法,根据每次 参与计算的样本数量的不同,可以包括全局梯度下降、随机梯度下降和批量梯度下降,其中, 全局梯度下降采用全部样本计算误差,随机梯度下降每次随机选取一条样本计算误差,批量 梯度下降每次以一批样本数据计算误差。
[0141]
图14示例性地展示了本技术实施例提供的一种文本纠错模型训练阶段二流程图。如图 14所示,文本纠错模型的训练阶段二包含步骤1401-1405:
[0142]
1401、参数初始化:使用训练阶段一完成后得到的文本纠错模型和汉字概率张量进行模 型初始化。
[0143]
1402、前向传播:将声学模型输出的拼音概率张量和训练阶段一完成后得到的汉字概率 张量混合加权后,经文本纠错模型向前传播。
[0144]
1403、误差计算:计算文本纠错模型输出的汉字概率与第二语音数据对应的真实字符内 容之间的总误差;
[0145]
1404、判断:判断总误差是否小于所设定地阈值,若是则执行步骤1405、1406,否则进 入步骤1407,完成第二阶段的训练。
[0146]
1405、模型参数更新:若总误差大于所设定阈值,则将误差传回文本纠错模型之中,并 根据误差更新文本纠错模型参数。
[0147]
1406、计算新的误差:计算参数更新后文本纠错模型输出的汉字概率与语音数据对应的 真实字符内容之间的总误差。然后再次进入步骤1404,判断总误差是否小于所设定阈值。
[0148]
1407、完成训练阶段二:若总误差小于或等于所设定阈值,则训练阶段二结束,得到训 练阶段二完成后的文本纠错模型和汉字概率张量。
[0149]
在步骤1304和步骤1404中的阈值,可以是相同也可以不同,本方案对此不做限定。
[0150]
在本方案一种可能的实施方式中,步骤1403中的总误差可以采用交叉熵损失函数进行计 算;步骤1405中的“将误差传回文本纠错模型之中,并根据误差更新文本纠错模型参数”, 可以采用梯度下降和反向传播方式实现。上述交叉熵损失函数、梯度下降和反向传播具体过 程如前所述,此处不再重复介绍。
[0151]
在本方案一种可能的实施方式中,以数亿条语音数据作为训练数据训练文本纠错模型, 在包含1万余条语音数据的测试数据上验证本方案文本纠错模型的效果,所获得实验效果如 表1所示:
[0152]
表1:文本纠错模型的纠错效果实验结果
[0153]
输入字准率句准率拼音概率张量94.92%71.72%汉字概率张量95.06%72.86%拼音和汉字混合概率张量95.74%78.41%拼音和汉字混合加权概率张量95.90%78.62%
[0154]
其中,字准率为1减去词错误率(word error rate,wer);句准率为识别正确的句子 个数占总的句子个数的比例。上述词错误率,是指需要进行替换、删除或者插入的字的总个 数,除以正确结果中字的总个数的百分比,计算公式为:100%
×
(s+d+i)/n,其中,s表 示替换(substitution)的字的个数,d表示删除(deletion)的字的个数,i表示插入 (insertion)的字的个数,n表示总字数。
[0155]
该实施方式进行的实验,对比了4种形式的第一文本纠错模型输入数据情况下的字准率 和句准率:输入为拼音概率张量、汉字概率张量、拼音和汉字混合概率张量和拼音和汉字混 合加权概率张量。由表1可见,以拼音和汉字混合加权概率张量为输入,获得了最优的效果, 其次依次为拼音和汉字混合概率张量、汉字概率张量、拼音概率张量。上述拼音和汉字混合 加权概率张量,即为前述第一混合批输入和/或第二混合批输入,上述拼音和
汉字混合概率向 量,即为加权参数λ为1的情况下获得的混合概率向量。因此,可以证明,混合使用拼音和 汉字概率信息,能够获得比仅使用拼音概率信息或仅使用汉字概率信息更好的纠错效果,而 混合加权使用拼音和汉字概率信息,又能在此基础上进一步提升纠错效果,从而本方案所提 出的通过位置扩张和混合加权构成混合批输入的方法,具有提升文本纠错模型纠错能力的有 益效果。
[0156]
图15、图16和图17为本方案中文语音识别纠错模型的三种应用场景的示意图。
[0157]
图15为中文语音识别纠错模型在终端设备的智能语音助手中的应用。如图15(a)所示, 启动终端设备的智能语音助手,智能语音助手软件启动并运行,麦克风进入监听状态;如图 15(b)所示,用户说出一段内容为“请给我播放一首英文歌曲”的话,麦克风接收到语音信 号,输入智能语音助手中的语音识别纠错模型,在语音识别纠错模型完成纠错推理过程之前, 终端设备的显示界面中可以显示包含误判字符的内容,例如,由于用户发音不标准等因素, 将“英文”识别为“因为”;如图15(c)所示,智能语音助手中的语音识别纠错模型完成 纠错推理过程,成功地将先前误判的“因为”纠正为“英文”,并基于对正确语句的语义理 解,作出相应的相应,即,为用户播放一首英文歌曲。配备有具有纠错功能的语音识别纠错 模型的智能语音助手,可以使得语音识别结果更为准确,为智能语音助手后续的语义理解提 供更为准确的文本信息,从而作出更为准确的相应,使得智能语音助手更加智能。
[0158]
图16为中文语音识别纠错模型在终端设备的语音输入法中的应用。如图16(a)所示, 终端设备接收到一条短信,输入框下默认显示拼音键盘输入法界面;如图16(b)所示,用 户点击“语音输入”,切换至具备纠错功能的语音输入法,麦克风启动,接收语音信号,输 入语音输入法中的语音识别纠错模型,在语音识别纠错模型完成纠错推理过程之前,终端设 备的显示界面中可以显示包含误判字符的内容,例如,由于用户发音不标准等因素,将“不 好意思”中的“好”识别为“熬”;如图16(c)所示,语音输入法中的语音识别纠错模型 完成纠错推理过程,成功将先前识别的“熬”纠正为“好”;如图16(d)所示,用户点击
ꢀ“
发送”完成短信的发送。配备有具有纠错功能的语音识别纠错模型的语音输入法,可以减 少用户对自动识别结果的手动纠正和更改,使得用户在不方便进行打字输入的情况下,例如 图16所示的开车状态下,仍能够完成较为准确的文本输入,提升用户体验。
[0159]
图17为中文语音识别纠错模型在终端设备的语音转文字功能中的应用。如图17(a)所 示,终端设备接收到一条语音信息,用户通过长按上述语音信息的图标,出发语音转文字功 能;如图17(b)所示,在语音转文字功能中的语音识别纠错模型完成纠错推理过程之前, 终端设备的显示界面中可以显示包含误判字符的内容,例如,由于所接受语音信息的发送者 发音不标准,或者中文语音识别模型词表中词汇有限等因素,将“wi-fi”识别为“歪发”; 如图17(c)所示,语音转文字功能中的语音识别纠错模型完成纠错推理过程,成功将先前 识别的“歪发”纠正为“wi-fi”。配备有具有纠错功能的语音识别纠错模型的语音转文字功 能,可以以更高的准确率识别接收到的语音信息,从而免去播放语音信息的过程,方便用户 在不方便进行语音信息播放和收听的情况下,及时理解消息内容、回复消息。
[0160]
应当理解,当在本技术说明书和所附权利要求书中使用时,术语“包括”指示所描述特 征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步 骤、操作、元素、组件和/或其集合的存在或添加。
[0161]
还应当理解,在本技术说明书和所附权利要求书中使用的术语“和/或”是指相关
联 列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0162]
如在本技术说明书和所附权利要求书中所使用的那样,术语“如果”、“若”可以依 据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似 地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为 意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于 检测到[所描述条件或事件]”。
[0163]
另外,在本技术说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三
”ꢀ
等仅用于区分描述,而不能理解为指示或暗示相对重要性。还应理解的是,虽然术语“第 一”、“第二”等在文本中在一些本技术实施例中用来描述各种元素,但是这些元素不应 该受到这些术语的限制。这些术语只是用来将一个元素与另一元素区分开。例如,第一 表格可以被命名为第二表格,并且类似地,第二表格可以被命名为第一表格,而不背离 各种所描述的实施例的范围。第一表格和第二表格都是表格,但是它们不是同一表格。
[0164]
在本技术说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本技术 的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说 明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实 施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个 或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、
ꢀ“
具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。同 时,本技术实施例中的“多个”,是指两个及以上。
[0165]
本技术实施例提供的语音识别方法可以应用于手机、平板电脑、可穿戴设备、车载 设备、增强现实(augmented reality,ar)/虚拟现实(virtual reality,vr)设备、笔记 本电脑、超级移动个人计算机(ultra-mobile personal computer,umpc)、上网本、个 人数字助理(personal digital assistant,pda)等电子设备上,本技术实施例对电子设 备的具体类型不作任何限制。
[0166]
例如,所述电子设备可以是wlan中的站点(staion,st),可以是蜂窝电话、无绳电 话、会话启动协议(session initiationprotocol,sip)电话、个人数字处理(personaldigital assistant,pda)设备、具有无线通信功能的手持设备、计算设备或连接到无线 调制解调器的其它处理设备、车载设备、车联网终端、电脑、膝上型计算机、手持式通 信设备、手持式计算设备、卫星无线设备、无线调制解调器卡、电视机顶盒(set top box, stb)、用户驻地设备(customer premise equipment,cpe)和/或用于在无线系统上进行 通信的其它设备以及下一代通信系统,例如,5g网络中的电子设备或者未来演进的公共 陆地移动网络(public land mobile network,plmn)网络中的电子设备等。
[0167]
作为示例而非限定,当所述电子设备为可穿戴设备时,该可穿戴设备还可以是应用 穿戴式技术对日常穿戴进行智能化设计、开发出可以穿戴的设备的总称,如眼镜、手套、 手表、服饰及鞋等。可穿戴设备即直接穿在身上,或是整合到用户的衣服或配件的一种 便携式设备。可穿戴设备不仅仅是一种硬件设备,更是通过软件支持以及数据交互、云 端交互来实现强大的功能。广义穿戴式智能设备包括功能全、尺寸大、可不依赖智能手 机实现完整或者部分的功能,如智能手表或智能眼镜等,以及只专注于某一类应用功能, 需要和其它设备如智能手机配合使用,如各类进行体征监测的智能手环、智能首饰等。
获取原始输入事件,通过调用应用程序框架层中的资源管理器对语音数据进行语音识别 和/或纠错。
[0181]
可以理解的是,本发明实施例示意的电子设备的软件结构仅用于举例说明,并不构 成对电子设备的具体限定。
[0182]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是 各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单 元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0183]
本技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有 计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
[0184]
本技术实施例还提供了一种计算机程序产品,当计算机程序产品在电子设备上运行 时,使得电子设备执行时可实现上述各个方法实施例中的步骤。
[0185]
本技术实施例还提供了一种芯片系统,所述芯片系统包括处理器,所述处理器与存 储器耦合,所述处理器执行存储器中存储的计算机程序,以实现上述各个方法实施例中 的步骤。
[0186]
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使 用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实现上述实 施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述 的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可 实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计 算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述 计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录 介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(read-only memory, rom)、随机存取存储器(random access memory,ram)、电载波信号、电信信号以及软 件分发介质等。
[0187]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载 的部分,可以参见其它实施例的相关描述。
[0188]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元 及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究 竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术 人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认 为超出本技术的范围。
[0189]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示 的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个 网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的 目的。
[0190]
以上所述实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施 例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各 实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修 改或者替换,并不使对应技术方案的本质脱离本技术各实施例技术方案的精神和范围, 均应
包含在本技术的保护范围之内。
[0191]
最后应说明的是:以上所述,仅为本技术的具体实施方式,但本技术的保护范围并 不局限于此,任何在本技术揭露的技术范围内的变化或替换,都应涵盖在本技术的保护 范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。

技术特征:


1.一种中文语音识别纠错方法,其特征在于,所述方法包括:获取语音数据的拼音信息和第一汉字信息;融合所述拼音信息和所述第一汉字信息得到混合信息;应用文本纠错模型对所述混合信息进行处理,得到第二汉字信息;输出修正的语音识别结果;其中,所述第二汉字信息包含有所述修正的语音识别结果;所述文本纠错模型为神经网络模型。2.根据权利要求1所述的方法,其特征在于,所述拼音信息包含拼音概率,所述第一汉字信息包含汉字概率;所述融合所述拼音信息和所述第一汉字信息得到所述混合信息,具体包括:对所述拼音信息中的所述拼音概率和所述第一汉字信息中的所述汉字概率进行加权融合,得到包含多个子混合信息的所述混合信息。3.根据权利要求2所述的方法,其特征在于,在对所述拼音信息中的所述拼音概率和所述第一汉字信息中的所述汉字概率进行所述加权融合之前,所述方法还包括:在所述第一汉字信息中的所述汉字概率中,确定所述汉字概率小于阈值的汉字的位置,根据所述位置进行所述加权融合。4.根据权利要求3所述的方法,其特征在于,所述对所述拼音信息中的所述拼音概率和所述第一汉字信息中的所述汉字概率进行所述加权融合,具体包括:根据预设规则,基于所述位置得到多个位置扩张区域;其中,所述预设规则包括多个左偏移量和多个右偏移量;所述位置扩张区域覆盖所述位置、位于所述位置左侧的所述左偏移量个位置和位于所述位置右侧的所述右偏移量个位置。5.根据权利要求4所述的方法,其特征在于,所述对所述拼音信息中的所述拼音概率和所述第一汉字信息中的所述汉字概率进行所述加权融合,具体还包括:将所述第一汉字信息中位于所述位置扩张区域内的所述汉字概率替换为拼音混合加权概率,将所述第一汉字信息中位于所述位置扩张区域外的所述汉字概率替换为汉字混合加权概率,完成加权融合。6.根据权利要求5所述的方法,其特征在于:所述拼音混合加权概率由第一权重倍的所述拼音信息中的所述拼音概率与第二权重倍的所述第一汉字信息中的所述汉字概率加权相加得到;所述汉字混合加权概率由所述第一权重倍的所述第一汉字信息中的所述汉字概率与所述第二权重倍的所述拼音信息中的所述拼音概率加权相加得到;所述第一权重大于所述第二权重。7.根据权利要求1-6中任一项所述的方法,其特征在于:所述拼音信息为拼音概率张量,所述拼音概率张量包含由拼音概率向量构成的拼音概率矩阵;所述第一汉字信息为汉字概率张量,所述汉字概率张量包含由汉字概率向量构成的汉字概率矩阵;所述混合信息为混合张量,所述混合张量包含由拼音汉字混合概率向量构成的拼音汉字混合概率矩阵。
8.根据权利要求7所述的方法,其特征在于,所述拼音概率向量、所述汉字概率向量为基于词表的概率向量;所述词表包含若干拼音和若干汉字;所述拼音概率向量中对应于所述词表拼音处的数值非零,对应于所述词表汉字处的数值为零;所述汉字概率向量中对应于所述词表拼音处的数值为零,对应于所述词表汉字处的数值非零;所述拼音汉字混合概率向量中对应于所述词表拼音处和汉字处的数值非零。9.根据权利要求7或8所述的方法,其特征在于,所述融合所述拼音信息和所述第一汉字信息得到所述混合信息,具体包括:对所述拼音概率张量中的所述拼音概率向量和所述汉字概率张量中的所述汉字概率向量进行加权融合,得到包含多个拼音汉字混合概率矩阵的所述混合张量。10.根据权利要求9所述的方法,其特征在于,在所述对所述拼音概率张量中的所述拼音概率向量和所述汉字概率张量中的所述汉字概率向量进行所述加权融合之前,所述方法还包括:在所述汉字概率张量中的所述汉字概率向量中,确定所述最大汉字概率小于所述阈值的所述汉字概率向量在所述汉字概率矩阵的位置,根据所述位置进行所述加权融合;其中,所述最大汉字概率为所述汉字概率向量中最大的概率数值。11.根据权利要求1所述的方法,其特征在于,所述获取所述语音数据的所述拼音信息和所述第一汉字信息,具体包括:应用所述文本纠错模型对所述拼音信息进行处理,得到所述第一汉字信息。12.根据权利要求11所述的方法,其特征在于,所述获取所述语音数据的所述拼音信息和所述第一汉字信息,具体还包括:应用声学模型对所述语音数据进行处理,得到所述拼音信息;其中,所述声学模型为神经网络模型。13.一种电子设备,用于执行如权利要求1-12中所述的方法以对中文语音进行识别纠错。14.一种计算机可读存储介质,存储有用于执行如权利要求1-12中所述方法的计算机指令。15.一种芯片装置,用于执行如权利要求14中所述的计算机指令。

技术总结


本申请提供了中文语音识别纠错方法、装置及电子设备,适用于人工智能中的语音识别技术领域,可以中文语音识别和纠错,该方法包括:获取语音数据,并利用中文语音识别纠错模型对语音数据进行处理,得到修正的中文语音识别结果。其中中文语音识别纠错模型是基于神经网络的模型,包含声学模型和第一文本纠错模型两个子模型,可选地,还可以包含语言模型。在本申请实施例中,采用位置扩张加权构成融合了拼音信息和汉字信息的第一混合批输入,因此,本申请实施例中的中文语音识别纠错模型能够充分利用语音数据的信息,纠错效果较好。纠错效果较好。纠错效果较好。


技术研发人员:

尹旭贤

受保护的技术使用者:

华为技术有限公司

技术研发日:

2021.01.16

技术公布日:

2022/7/29

本文发布于:2024-09-20 23:19:58,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/17935.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:汉字   概率   张量   模型
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议