语音文本获取方法及装置与流程

1.本发明涉及语音文本识别技术领域，尤其涉及一种语音文本获取方法及装置。

背景技术：

2.语音识别技术也被称为自动语音识别(automatic speech recognition，asr)，其是一种将人类的语音中的词汇内容转换为计算机可读的输入的技术，例如转换为按键、二进制编码或者字符序列(比如文本)。实现语音识别，常见的做法是使用asr系统，将音频转换成文本。由于音频质量、语言习惯以及asr系统具体的实现方式等因素，asr系统无法保证语音识别文本的完全正确。基于此，目前出现了使用多个asr系统，对不同asr系统的语音识别文本，保留多个asr系统转换出的多个语音识别文本中相同的部分，而对于多个语音识别文本中的不同部分则需要根据一些自定义的规则进行进一步处理。
3.上述的自定义的规则通常都是认为设置的且包括大量的判断操作，并且应用此类方案仍需要在asr系统识别出语音识别文本之后，对该本文进行进一步的修改，导致此类方案的执行速度慢且适用的场景少。

技术实现要素：

4.本发明的目的在于提供一种语音文本获取方法及装置，从而解决现有技术中存在的前述问题。
5.为了实现上述目的，本发明采用的技术方案如下：
6.第一方面，本技术至少一个实施例提供了一种语音文本获取方法，包括：针对第一音频，获取多个语音识别文本中任意两个语音识别文本之间的编辑距离，第一音频为多个音频中的任意一个音频，多个语音识别文本为第一音频经由多个语音识别系统识别出的语音识别文本；针对第一音频，计算多个语音识别系统中的每个语音识别系统的编辑距离之和；针对第一音频，根据编辑距离之和，计算每个语音识别系统的第一权重的值，第一权重为初始权重；根据第二权重的值和多个编辑距离，计算每个语音识别系统的损失函数值，并选择损失函数值最小的语音识别系统对应的语音识别文本作为第一音频的输出文本，第二权重为第一权重或更新后的权重，更新后的权重是根据每个语音识别系统对应的输出文本数量确定的。
7.例如，在根据本发明第一方面的至少一个实施例提供的方法中，根据第二权重的值和多个编辑距离，计算每个语音识别系统的损失函数的值，并选择损失函数的值最小的语音识别系统对应的语音识别文本作为第一音频的输出文本，包括：根据多个音频对应的输出文本，统计每个语音识别系统对应的输出文本的数量，多个语音识别系统中的每个语音识别系统对应的输出文本组成多个音频对应的输出文本；利用每个语音识别系统对应的输出文本的数量，对第二权重进行更新以获取更新后的权重；判断更新后的权重的值和与第二权重的值之间的差值是否小于或等于预设阈值；在判断结果为是时，停止对第二权重进行更新，并选择当前的多个音频对应的输出文本作为最终的输出文本；以及在判断结果
为否时，重复计算每个语音识别系统的损失函数值及对第二权重进行更新。
8.例如，在根据本发明第一方面的至少一个实施例提供的方法中，在根据第二权重的值和多个编辑距离，计算每个语音识别系统的损失函数值，并选择损失函数值最小的语音识别系统对应的语音识别文本作为第一音频的输出文本之前，方法还包括：根据语音识别文本的长度和编辑距离，对多个语音识别文本打分，以获取打分分数；根据多个语音识别文本中的每个语音识别文本的打分分数，丢弃打分分数小于预设分数值的一个或多个音频。
9.例如，在根据本发明第一方面的至少一个实施例提供的方法中，对多个语音识别文本打分，包括：利用第一打分函数或第二打分函数对多个语音识别文本打分，其中，第一打分函数用于反映多个语音识别文本之间的最大误差，第二打分函数用于反映多个语音识别文本之间的误差的中间值。
10.例如，在根据本发明第一方面的至少一个实施例提供的方法中，每个语音识别系统的第一权重表征除了对应的语音识别系统的编辑距离之和之外的其他语音识别系统的编辑距离之和在所有的语音识别系统的编辑距离之和中的占比情况，其中，一个语音识别系统的编辑距离之和在所有的语音识别系统的编辑之和中的占比越高，该语音识别系统的第一权重的取值越小。
11.第二方面，本发明至少一个实施例提供了一种语音文本获取装置，包括：获取单元，用于针对第一音频，获取多个语音识别文本中任意两个语音识别文本之间的编辑距离，第一音频为多个音频中的任意一个音频，多个语音识别文本为第一音频经由多个语音识别系统识别出的语音识别文本；第一计算单元，用于针对第一音频，计算多个语音识别系统中的每个语音识别系统的编辑距离之和；第二计算单元，用于针对第一音频，根据编辑距离之和，计算每个语音识别系统的第一权重的值，第一权重为初始权重；和本文输出单元，用于根据第二权重的值和多个编辑距离，计算每个语音识别系统的损失函数值，并选择损失函数值最小的语音识别系统对应的语音识别文本作为第一音频的输出文本，第二权重为第一权重或更新后的权重，更新后的权重是根据每个语音识别系统对应的输出文本数量确定的。
12.例如，根据本发明第二方面的至少一个实施例提供的语音文本获取装置中，文本输出单元用于：根据所述多个音频对应的输出文本，统计每个语音识别系统对应的输出文本的数量，所述多个语音识别系统中的每个语音识别系统对应的输出文本组成所述多个音频对应的输出文本；利用每个语音识别系统对应的输出文本的数量，对所述第二权重进行更新以获取所述更新后的权重；判断所述更新后的权重的值和与所述第二权重的值之间的差值是否小于或等于预设阈值；在判断结果为是时，停止对所述第二权重进行更新，并选择当前的所述多个音频对应的输出文本作为最终的输出文本；以及在判断结果为否时，重复计算每个语音识别系统的损失函数值及对所述第二权重进行更新。
13.例如，根据本发明第二方面的至少一个实施例提供的语音文本获取装置中，该装置还包括：打分单元，用于根据语音识别文本的长度和编辑距离，对所述多个语音识别文本打分，以获取打分分数；以及根据所述多个语音识别文本中的每个语音识别文本的打分分数，丢弃打分分数小于预设分数值的一个或多个音频。
14.第三方面，本发明至少一个实施例提供了一种语音文本获取装置，包括处理器和
存储器，存储器中存储有可由处理器执行的指令，指令在处理器执行时使处理器执行如上述第一方面中任一的语音文本获取方法。
15.第四方面，本技术至少一个实施例提供了一种计算机可读存储介质，计算机可读存储介质存储用于由设备执行的程序代码，程序代码包括用于执行如上述第一方面中任一项的方法。
16.本发明的有益效果是：
17.本发明公开了一种语音文本获取方法及装置，该方法针对同一音频采用多个asr系统交叉验证方法，相较于传统的语音文本获取方法，不仅能提高输出文本的正确率，而且适用性更高，以及还能使语音文本处理速度更快。
附图说明
18.图1是本发明提供的一种语音文本获取方法的流程示意图；
19.图2是本发明提供的一种语音文本获取装置的示意图；
20.图3是本发明提供的又一种语音文本获取装置的示意图。
具体实施方式
21.为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的其他实施例，都属于本发明的保护范围。
22.除非另外定义，本发明使用的技术属于或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。本发明中使用的“a系统”“b系统”“c系统”以及类似的词语并不表示任何顺序、数量或者重要性，只是用来区分不同的识别系统。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。
23.本实施例提供了一种语音文本获取方法，该方法通过对使用多个asr系统交叉验证方法，获取语音转换文本，保证语音转换文本的准确性，适用性高且处理速度快。
24.图1为根据本发明的实施例的一种语音文本获取方法的流程示意图。
25.在图1中，语音为本获取方法包括以下步骤：
26.步骤s110，针对第一音频，获取多个语音识别文本中任意两个语音识别文本之间的编辑距离，第一音频为多个音频中的任意一个音频，多个语音识别文本为第一音频经由多个语音识别系统识别出的语音识别文本。
27.步骤s120，针对第一音频，计算多个语音识别系统中的每个语音识别系统的编辑距离之和。
28.步骤s130，针对第一音频，根据编辑距离之和，计算每个语音识别系统的第一权重
的值，第一权重为初始权重。
29.步骤s140，根据第二权重的值和多个编辑距离，计算每个语音识别系统的损失函数值，并选择损失函数值最小的语音识别系统对应的语音识别文本作为第一音频的输出文本，第二权重为第一权重或更新后的权重，更新后的权重是根据每个语音识别系统对应的输出文本数量确定的。
30.下面以多个语音识别系统为3个语音识别系统为例，对本发明中的语音文本获取方法的实现进行描述。
31.多个语音识别系统为3个asr系统：asra、asrb、asrc(在下文本也被分别成为a、b和c系统)，可以理解地，多个语音识别系统可以包括多3个asr系统，例如5个、6个、10个等。
32.假设有1000条音频数据，则这3个asr系统对1000条音频进行识别，一共得到3000个语音识别文本。
33.针对每一条音频i，分别计算3个asr系统识别出的语音识别文本之间编辑距离并获取每个语音识别文本的文本长度。i为正整数。得到的编辑距离共3个，分别是dis
i_ab
、dis
i_bc
、dis
i_ac
。dis
i_ab
表示第i条音频的、asra和asrb系统所识别的2个语音识别文本之间的编辑距离。编辑距离的取值越大，表示2个语音识别文本之间的差异越大。本发明中的编辑距离的获取方法或计算方法可参见现有的方法，在此不进行限定。3个文本长度分别记做len(a)，len(b)和len(c)
34.可选地，可以基于获得的语音识别文本的文本长度以及该语音识别文本的编辑距离，对每条音频识别出的所有语音识别文本进行打分。每个语音识别文本具有2个编辑距离。
35.打分表示asr系统对音频的识别确定程度，打分结果越高，则3个asr系统得到的识别文本越相似，这也说明了该音频被识别为文本的结果是比较确定的。asr系统对音频的识别确定程度高也反向说明了音频的质量比较高(即该音频易于被asr系统正确识别)，从而确定无论使用哪一个asr系统进行识别所得到的结果都相差无几。
36.可选地，对于打分过程，可用的打分函数如下：
[0037][0038]
上式中的的含义为：单位长度中编辑距离相差最大的情况。该公式可以简单且直接的反映出音频i的3个识别文本的最差误差情况，从而打分越高证明这个音频的质量越高。
[0039]
比如对于音频i：
[0040]
a系统的识别结果：以后就是邻居了。
[0041]
b系统的识别结果：以后就是09。
[0042]
c系统的识别结果：以后就是邻居了。
[0043]
上式中的所以打分结果为4/7＝0.57。但从上面的文字可看出，实际的识别文本的确定性很高，不应该得到这样的打分分数。
[0044]
因此，在更优选的实施方式中，可以采用如下公式计算打分：
[0045][0046][0047]
采用上述公式来计算前例中的音频i的识别结果，经过计算可以得到：
[0048]
dis
i_ab
＝3，dis
i_ac
＝0，dis
i_bc
＝3。len(a)＝8，len(b)＝7，len(c)＝8。
[0049]
代入公式求得：
[0050][0051]
这条音频最终的打分scorei＝1-median(0，3/7，0)＝1。显然，采用第二个打分公式可以得到更好的结果。
[0052]
当所有的1000条音频均经过打分过程后，可以对其进行筛选，由于打分越高表示音频质量越高，反之亦然。因此，可以丢弃掉打分分数低于预设分数值的音频或者对这样的音频进行人工标注。例如，预设分数值为0.6，1000条音频中，打分分数小于或等于该分数值的音频数量为974，丢弃掉26条音频。
[0053]
对于目前所有的n个音频，例如1000条音频或者974条音频，已经获得了每条语音识别文本的编辑距离。其中，n为正整数。针对这n条音频，累加每个asr系统和其他所有asr系统的编辑距离，从而得到每个asr系统的编辑距离之和，计算公式如下：
[0054][0055][0056][0057]
可以根据编辑距离之和计算各个系统的初始权重，计算公式如下：
[0058][0059][0060][0061]
∝a，
∝b，
∝c分别为a系统、b系统以及c系统的初始权重，由于要统一所有的权重的数量级，从而将其进行归一化处理，而bias是偏置，其可以使得权重在后面的权重迭代过程中保持数量级的一致。例如，bias等于0、0.05等。
[0062]
对于每一条音频i，采用下列公式分别计算各个系统的损失函数：
[0063][0064][0065]
[0066]
loss
ia
，loss
ib
，loss
ic
分别为a系统、b系统以及c系统的损失函数，前文的打分的作用是评估不同asr系统对于同一个音频的识别文本中，哪个识别文本最可信，所以打分越高越好。而损失函数则是表示不同系统对同一音频的识别效果，其取值是越小越好。
[0067]
可以根据公式selecti＝min(loss
ia
，loss
ib
，loss
ic
)，为第i条音频选择损失函数取值最小的asr系统的语音识别文本作为该音频的语音识别文本。
[0068]
以下的过程可以是循环迭代的：
[0069]
针对n条音频识别后的识别文本，统计选择各个asr系统的识别文本的音频数量。可以根据统计结果，采用如下公式分别计算各个asr系统更新后的权重
∝′a，
∝′b,
∝′c：
[0070][0071][0072][0073]
n＝select_numa+select_numb+select_numc，select_numa是选择a系统的识别文本的音频数量，select_numb和select_numc分别是选择b和c系统的识别文本的音频数量。
[0074]
该公式中的偏置bias和初始权重计算公式中的偏置取值相同，其作用是防止计算损失函数时出现分母为0的情况。
[0075]
比如n＝900，select_numa＝180，select_numb＝270，select_numc＝450，bias＝0.01。从而更新后的权重
∝′a＝0.05，
∝′b＝0.10，
∝′c＝0.26。
[0076]
对比各个asr系统的初始权重和更新后的权重，若相差不大，则停止迭代，直接取本次结果作为最终的语音识别结果。如果相差过大，超过一定的阈值，比如5％或者0.01，则重复上述可循环迭代的过程，直到初始权重和更新后的权重收敛时停止并输出权重收敛时针对所有音频所选择的输出文本最为最终输出文本。
[0077]
可选地，各个asr系统的初始权重值可以均设置为1，这种情况下，权重最终也会收敛，但是收敛的速度会慢一些。
[0078]
本实施例提供了一种语音文本获取装置。图2示出了根据本发明的实施例提供的语音文本获取装置的示意图。
[0079]
在图2中，语音文本获取装置200包括：获取单元210，用于针对第一音频，获取多个语音识别文本中任意两个语音识别文本之间的编辑距离，第一音频为多个音频中的任意一个音频，多个语音识别文本为第一音频经由多个语音识别系统识别出的语音识别文本；第一计算单元220，用于针对第一音频，计算多个语音识别系统中的每个语音识别系统的编辑距离之和；第二计算单元230，用于针对第一音频，根据编辑距离之和，计算每个语音识别系统的第一权重的值，第一权重为初始权重；和本文输出单元240，用于根据第二权重的值和多个编辑距离，计算每个语音识别系统的损失函数值，并选择损失函数值最小的语音识别系统对应的语音识别文本作为第一音频的输出文本，第二权重为第一权重或更新后的权重，更新后的权重是根据每个语音识别系统对应的输出文本数量确定的。
[0080]
可选地，文本输出单元240用于根据所述多个音频对应的输出文本，统计每个语音识别系统对应的输出文本的数量，所述多个语音识别系统中的每个语音识别系统对应的输
出文本组成所述多个音频对应的输出文本；利用每个语音识别系统对应的输出文本的数量，对所述第二权重进行更新以获取所述更新后的权重；判断所述更新后的权重的值和与所述第二权重的值之间的差值是否小于或等于预设阈值；在判断结果为是时，停止对所述第二权重进行更新，并选择当前的所述多个音频对应的输出文本作为最终的输出文本；以及在判断结果为否时，重复计算每个语音识别系统的损失函数值及对所述第二权重进行更新。
[0081]
可选地，语音文本获取装置还包括：打分单元，用于根据语音识别文本的长度和编辑距离，对所述多个语音识别文本打分，以获取打分分数；以及根据所述多个语音识别文本中的每个语音识别文本的打分分数，丢弃打分分数小于预设分数值的一个或多个音频。
[0082]
可以理解地，语音文本获取装置200可实现上述方法实施例中描述的语音文本获取方法，具体可参见上文的描述，在此不再赘述。
[0083]
本实施例提供了又一种语音文本获取装置。图3示出了根据本发明的实施例提供的语音文本获取装置的示意图。
[0084]
如图3所示，语音文本获取装置300该装置包括处理器301和存储器302，存储器302中存储有可由处理器301执行的指令，该指令在处理器301执行时使处理器301执行如上述方法实施例中描述的语音文本获取方法。
[0085]
通过采用本发明公开的上述技术方案，得到了如下有益的效果：
[0086]
本发明公开了一种语音文本获取方法及装置，该装置针对同一音频采用多个asr系统交叉验证方法，相较于传统的语音文本获取方法，不仅能提高输出文本的正确率，而且适用性更高，以及还能使语音文本处理速度更快。
[0087]
结合本文公开的实施例描述的各种说明性逻辑块、模块、电路和算法操作可以实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，各种说明性组件、块、模块、电路和操作已在上面大体上根据它们的功能进行了描述。这种功能是作为硬件还是软件实现取决于特定应用程序和施加在整个系统上的设计约束。熟练的技术人员可以针对每个特定应用以不同的方式实现所描述的功能，但是这种实现决策不应被解释为导致偏离权利要求的范围。
[0088]
用于实现结合本文公开的实施例描述的各种说明性逻辑、逻辑块、模块和电路的硬件可以用通用处理器、数字信号处理器(dsp)、专用应用来实现或执行集成电路(tcuasic)、现场可编程门阵列(fpga)或其他可编程逻辑器件、分立门或晶体管逻辑、分立硬件组件或设计用于执行本文所述功能的任何组合。通用处理器可以是微处理器，但在备选方案中，处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器也可以实现为计算设备的组合，例如，dsp和微处理器的组合、多个微处理器、一个或多个微处理器与dsp核心相结合，或任何其他这样的配置。或者，一些操作或方法可以由特定于给定功能的电路来执行。
[0089]
在一个或多个实施例中，所描述的功能可以在硬件、软件、固件或其任何组合中实现。如果以软件实现，则这些功能可以作为一个或多个指令或代码存储在非暂态计算机可读介质或非暂态处理器可读介质上。本文公开的方法或算法的操作可以体现在处理器可执行软件模块中，该软件模块可以驻留在非暂时性计算机可读或处理器可读存储介质上。非暂时性计算机可读或处理器可读存储介质可以是可由计算机或处理器访问的任何存储介
质。作为示例而非限制，此类非暂时性计算机可读或处理器可读介质可包括ram、rom、eeprom、闪存、cd-rom或其他光盘存储、磁盘存储或其他磁存储设备，或可用于以指令或数据结构的形式存储所需程序代码并且可由计算机访问的任何其他介质。如本文所用，盘和盘包括压缩盘(cd)、激光盘、光盘、数字通用盘(dvd)、软盘和蓝光光盘，其中盘通常以磁性方式再现数据，而盘以激光方式以光学方式再现数据.以上的组合也包括在非暂时性计算机可读和处理器可读介质的范围内。此外，方法或算法的操作可以作为一个或任何组合或一组代码和/或指令驻留在非暂时性处理器可读介质和/或计算机可读介质上，其可以并入计算机程序产品中。
[0090]
提供所公开实施例的前述描述以使本领域的任何技术人员能够制定或使用权利要求。对这些实施例的各种修改对于本领域技术人员来说将是显而易见的，并且本文定义的一般原理可以应用于其他实施例而不背离权利要求的范围。因此，本发明不旨在限于本文所示的实施例，而是要符合与权利要求以及本文公开的原理和新颖特征一致的最宽范围。

技术特征：

1.一种语音文本获取方法，其特征在于，包括：针对第一音频，获取多个语音识别文本中任意两个语音识别文本之间的编辑距离，所述第一音频为多个音频中的任意一个音频，所述多个语音识别文本为所述第一音频经由多个语音识别系统识别出的语音识别文本；针对所述第一音频，计算所述多个语音识别系统中的每个语音识别系统的编辑距离之和；针对所述第一音频，根据编辑距离之和，计算每个语音识别系统的第一权重的值，所述第一权重为初始权重；根据第二权重的值和多个编辑距离，计算每个语音识别系统的损失函数值，并选择损失函数值最小的语音识别系统对应的语音识别文本作为所述第一音频的输出文本，所述第二权重为所述第一权重或更新后的权重，所述更新后的权重是根据每个语音识别系统对应的输出文本数量确定的。2.根据权利要求1所述的语音文本获取方法，其特征在于，所述根据第二权重的值和多个编辑距离，计算每个语音识别系统的损失函数的值，并选择损失函数的值最小的语音识别系统对应的语音识别文本作为所述第一音频的输出文本，包括：根据所述多个音频对应的输出文本，统计每个语音识别系统对应的输出文本的数量，所述多个语音识别系统中的每个语音识别系统对应的输出文本组成所述多个音频对应的输出文本；利用每个语音识别系统对应的输出文本的数量，对所述第二权重进行更新以获取所述更新后的权重；判断所述更新后的权重的值和与所述第二权重的值之间的差值是否小于或等于预设阈值；在判断结果为是时，停止对所述第二权重进行更新，并选择当前的所述多个音频对应的输出文本作为最终的输出文本；以及在判断结果为否时，重复计算每个语音识别系统的损失函数值及对所述第二权重进行更新。3.根据权利要求1或2所述的语音文本获取方法，其特征在于，在所述根据第二权重的值和多个编辑距离，计算每个语音识别系统的损失函数值，并选择损失函数值最小的语音识别系统对应的语音识别文本作为所述第一音频的输出文本之前，所述方法还包括：根据语音识别文本的长度和编辑距离，对所述多个语音识别文本打分，以获取打分分数；根据所述多个语音识别文本中的每个语音识别文本的打分分数，丢弃打分分数小于预设分数值的一个或多个音频。4.根据权利要求3所述的语音文本获取方法，其特征在于，所述对所述多个语音识别文本打分，包括：利用第一打分函数或第二打分函数对所述多个语音识别文本打分，其中，所述第一打分函数用于反映所述多个语音识别文本之间的最大误差，所述第二打分函数用于反映所述多个语音识别文本之间的误差的中间值。5.根据权利要求1所述的语音文本获取方法，其特征在于，每个语音识别系统的第一权
重表征除了对应的语音识别系统的编辑距离之和之外的其他语音识别系统的编辑距离之和在所有的语音识别系统的编辑距离之和中的占比情况，其中，一个语音识别系统的编辑距离之和在所有的语音识别系统的编辑之和中的占比越高，该语音识别系统的第一权重的取值越小。6.一种语音文本获取装置，其特征在于，包括：获取单元，用于针对第一音频，获取多个语音识别文本中任意两个语音识别文本之间的编辑距离，所述第一音频为多个音频中的任意一个音频，所述多个语音识别文本为所述第一音频经由多个语音识别系统识别出的语音识别文本；第一计算单元，用于针对所述第一音频，计算所述多个语音识别系统中的每个语音识别系统的编辑距离之和；第二计算单元，用于针对所述第一音频，根据编辑距离之和，计算每个语音识别系统的第一权重的值，所述第一权重为初始权重；和本文输出单元，用于根据第二权重的值和多个编辑距离，计算每个语音识别系统的损失函数值，并选择损失函数值最小的语音识别系统对应的语音识别文本作为所述第一音频的输出文本，所述第二权重为所述第一权重或更新后的权重，所述更新后的权重是根据每个语音识别系统对应的输出文本数量确定的。7.根据权利要求6所述的语音文本获取装置，其特征在于，所述文本输出单元用于：根据所述多个音频对应的输出文本，统计每个语音识别系统对应的输出文本的数量，所述多个语音识别系统中的每个语音识别系统对应的输出文本组成所述多个音频对应的输出文本；利用每个语音识别系统对应的输出文本的数量，对所述第二权重进行更新以获取所述更新后的权重；判断所述更新后的权重的值和与所述第二权重的值之间的差值是否小于或等于预设阈值；在判断结果为是时，停止对所述第二权重进行更新，并选择当前的所述多个音频对应的输出文本作为最终的输出文本；以及在判断结果为否时，重复计算每个语音识别系统的损失函数值及对所述第二权重进行更新。8.根据权利要求6或7所述的语音文本获取装置，其特征在于，所述装置还包括：打分单元，用于根据语音识别文本的长度和编辑距离，对所述多个语音识别文本打分，以获取打分分数；以及根据所述多个语音识别文本中的每个语音识别文本的打分分数，丢弃打分分数小于预设分数值的一个或多个音频。9.一种语音文本获取装置，其特征在于，包括处理器和存储器，所述存储器用于存储程序指令，所述处理器用于调用所述程序指令以执行权利要求1-5中任一项所述的方法。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储用于由设备执行的程序代码，所述程序代码包括用于执行如权利要求1-5中任一项所述的方法。

技术总结

本发明提供了一种语音文本获取方法及装置。该方法包括针对第一音频，获取多个语音识别文本中任意两个语音识别文本之间的编辑距离；针对第一音频，计算多个语音识别系统中的每个语音识别系统的编辑距离之和；针对第一音频，根据编辑距离之和，计算每个语音识别系统的第一权重的值，第一权重为初始权重；根据第二权重的值和多个编辑距离，计算每个语音识别系统的损失函数值，并选择损失函数值最小的语音识别系统对应的语音识别文本作为第一音频的输出文本，第二权重为第一权重或更新后的权重，更新后的权重是根据每个语音识别系统对应的输出文本数量确定的。的输出文本数量确定的。的输出文本数量确定的。