一种语音转文本的纠错方法、装置及电子设备和存储介质与流程

1.本发明涉及语音转文本

技术领域


:,尤其涉及一种语音转文本的纠错方法、装置及电子设备和存储介质。

背景技术


::2.会议记录的自动化装置或工具(即会议记录系统)适用于多人会议等场景下。在多人会议中,与会人员可能在不同的时间段发言,会议记录系统可通过话筒采集语音,并将采集到的语音转写成文字形式的会议发言记录。高质量的转写结果能够明显提升有关会议记录系统的用户体验。不同类型的会议对于会议记录系统有着不同的要求,其中有些会议出于信息安全及保密等方面的考虑,只能使用离线版本的会议记录系统。目前,市面上常见的离线会议记录系统存在着如下问题:3.(1)当今时代发展迅速,会议中可能出现一些新词,如果想要尽可能准确地识别这些新词,则需要频繁地更新词库。对于普通的会议系统来说,联网更新词库是一种方便而高效的解决方案。然而,离线会议记录系统无法联网,甚至连手动更新词库都需要复杂的流程,这大大增加了更新词库的难度。这种情况下,语音转文本在遇到新词汇时很可能无法给出正确的结果,而是会给出含有错误的结果,或是转写为错误的词。对于此类转写错误,目前常见的会议记录主要依靠人工进行修改,记录员在结合上下文及相关音频进行修改之前,需要先自行寻出现错误的位置。这种需要对全文进行人工校对的工作对于大型会议的记录员来说是一个较大的负担。4.(2)记录员在对转写错误的位置进行修改之后,如果希望系统以后可以自动对错词进行修改,则需要手动将其添加为范本。相比之下,如果会议记录系统能够根据记录员的修改行为自动预测出可添加为范本的词,则可以减少记录员的人工操作,显著提高工作效率。然而,当前的离线会议记录系统缺少自我学习与自我优化的能力,无法实现此类功能。5.因此,如何解决离线状态下语音转文本不能识别新词,导致语音转文本出现错误成了亟需解决的问题。技术实现要素:6.为了解决上述技术问题或者至少部分地解决上述技术问题,本发明提供了一种语音转文本的纠错方法、装置及电子设备和存储介质。7.第一方面,本发明提供了一种语音转文本的纠错方法,所述语音转文本的纠错方法包括:将原始文本进行替换处理得到修改文本,所述原始文本为根据目标语音转换而来的文本;对所述修改文本进行新词识别,并收集识别到的新词;根据调整指令对所述修改文本中的新词进行调整,以得到目标文本。8.第二方面,本发明提供了一种语音转文本的纠错装置,所述语音转文本的纠错装置包括:替换模块,用于将原始文本进行替换处理得到修改文本,所述原始文本为根据目标语音转换而来的文本;识别模块,用于对所述修改文本进行新词识别,并收集识别到的新词;调整模块,用于根据调整指令对所述修改文本中的新词进行调整,以得到目标文本。9.第三方面,本实施例还提供一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现如上所述的语音转文本的纠错方法的步骤。10.第四方面,本发明还提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的语音转文本的纠错方法的步骤。11.本发明实施例提供的上述技术方案与现有技术相比具有如下优点:12.本发明实施例提供的语音转文本的纠错方法,包括:将原始文本进行替换处理得到修改文本,所述原始文本为根据目标语音转换而来的文本;对所述修改文本进行新词识别,并收集识别到的新词;根据调整指令对所述修改文本中的新词进行调整,以得到目标文本,通过对原始文本进行处理,然后在对得到的修改文本进行新词识别,通过识别出目标语音中转换而来的新词,并对其进行调整,在这个过程中,将新词中的错误词汇进行了调整,进而减少了修改文本中的错误词汇,进而提高了语音转文本的正确率,进而提高了用户体验。附图说明13.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。14.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。15.图1为本发明实施例提供的一种语音转文本的纠错方法的基本流程示意图;16.图2为本发明实施例提供的一种语音转文本的纠错装置的基本结构示意图;17.图3为本发明实施例提供的一种电子设备的基本结构示意图。具体实施方式18.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。19.为了解决离线状态下语音转文本不能识别新词,导致语音转文本出现错误的问题,本实施例提供一种语音转文本的纠错方法,如图1所示,所述语音转文本的纠错方法包括:20.s101、将原始文本进行替换处理得到修改文本,所述原始文本为根据目标语音转换而来的文本;21.需要理解的是,其中原始文本为根据目标语音转换而来的文本,其中目标语音包括但不限于:会议语音、聊天语音、通话语音等。同时,本实施例提供的语音转文本的纠错方法可以以各种形式来实施,例如,可以通过终端来实施,本发明中描述的终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(personaldigitalassistant,pda)、便捷式媒体播放器(portablemediaplayer,pmp)、导航装置等移动终端,以及诸如数字tv、台式计算机等固定终端。应当理解的是,录音笔、会议记录装置等也包括在上述终端的范畴内。22.s102、对所述修改文本进行新词识别,并收集识别到的新词;23.需要理解的是,得到修改文本后,需要对修改文本中的新词进行识别,抽取出修改文本中的新词需要理解的是,新词发现包括多种方法,可以通过多种方法单独或混合使用,来对修改文本中的新词进行识别,将识别到的新词收集起来后,可以根据调整指令对修改文本中的新词进行调整。24.s103、根据调整指令对所述修改文本中的新词进行调整,以得到目标文本。25.需要理解的是,对新词进行调整,也即对语音转文本中的错误进行修改,以得到目标文本。26.在本实施例的一些示例中,将原始文本进行替换处理得到修改文本包括:对所述原始文本进行预处理,以去除所述原始文本中的冗余内容;将经过预处理后的原始文本作为输入文本输入到替换模型中,以得到修改文本,所述替换模型用于,使用预设替换词库替换输入文本中满足替换要求的词,然后将替换完成的文本作为修改文本输出。需要理解的是,原始文本是由语音转换而来,其可能包括了冗余内容,因此,需要将冗余内容去除,然后再通过现有的替换词库自动寻原始文本中需要被替换的词,对原始文本进行初步修正得到修改文本,其中需要被替换的词也即根据现有词库可以更正的词;例如,以会议语音为例,会议语音转换而来的原始文本可能包含了多余的标点符号及与会议内容无关的调试文本等,首先对该原始文本进行预处理,去除多余的标点符号及与会议内容无关的调试文本等,然后使用已有的替换词库自动寻原始文本中需要被替换的词,对原始文本进行初步修正,得到修改文本。27.在本实施例的一些示例中,对所述修改文本进行新词识别,包括:判断所述修改文本中是否存在符合规则模板的词语;当所述修改文本中存在符合所述规则模板的词语时,将符合所述规则模板的词语作为新词。其中,规则模板为预设好的一个模板;需要理解的是,不同类型的文本具有不同的文本特征,这导致文本中新词的特征也会有所不同。因此,预设的规则模板能够直观地贴合不同类型的文本,也即,不同类型的文本对应不同的预设规则模板,从而提高语音转文本的工作效率及识别新词的表现。28.承接上例,以会议语音转出的文本为例,对其进行分析可以获得会议文本的规则模板,具体步骤如下:29.步骤1、分析语音转出的文本,总结出合适的规则。会议常常出现归纳总结性质的短语,如“三个xx”、“四个yy”等。当出现新词时,此类短语的出现频率较高。从短语的结构上看,此类短语一般由量词开头,量词后面的词语则会多次出现在附近的上下文中。对于其他类型的会议,其新词可能有不同的表现形式。因此,预设的规则模板不仅限于短语结构,还可以包括词组的词性组合、语法结构等。30.步骤2、将到的规则用正则表达式表示,以得到规则模板。31.通过上述步骤1、和步骤2则获取到了预设的规则模板,然后通过正则表达式检查修改文本中是否含有符合相应规则的部分,则将匹配到的词作为新词,进而对修改文本中的新词进行识别。32.在本实施例的一些示例中,当所述修改文本中存在符合所述规则模板的词语时,将符合所述规则模板的词语作为新词,还包括:当所述修改文本中存在符合所述规则模板的词语时,将符合所述规则模板的文本与标准词中的词语进行比较,以判定符合所述规则模板的词语是否出现在所述标准词库中;当符合所述规则模板的词语未出现在所述标准词库中时,将符合所述规则模板的词语作为新词。需要理解的是,规则模板的词语可能属于现有词语,因此,在判定修改文本中有符合规则模板的词时,还需要判断其是否属于现有词汇,具体的,当符合规则模板的词语出现在标准词库中时,则代表该词不是新词。因此,仅有当修改文本的词语成功匹配规则模板且匹配到的词没有出现在现有的标准词库中,才会判定该词为新词。33.在本实施例的一些示例中,对所述修改文本进行新词识别包括:对所述修改文本中的各个词语进行词频统计,确定各个词语的词频得分;将词频得分达到预设得分的词语,与标准词中的词语进行比较,以判定词频得分达到预设得分的词语是否出现在所述标准词库中;将词频得分达到预设得分,且未出现在所述标准词库中的词语作为新词。也即,可以通过计算修改文本中词语的信息熵和点间互信息来筛选新词。信息熵代表了词语的相邻字符丰富程度,点间互信息则可用来衡量词语内部的凝聚程度。34.在本实施例的一些示例中,对所述修改文本中的各个词语进行词频统计,确定各个词语的词频得分,包括:将所述修改文本分文多个词语;计算各个词语的左右信息熵得分以及互信息得分;将各个词语的左右信息熵得分和互信息得分进行综合运算,得到各个词语的词频得分。35.承接上例,在一些示例中,对所述修改文本中的各个词语进行词频统计,确定各个词语的词频得分的具体步骤如下:36.步骤1、将修改文本逐字分割后拼接生成多个词语。生成词语时需要设置词语最大长度,对于不同类型的文本,其新词也可能存在不同,因而修改文本分割而成的词语的适合长度也不同,例如一些会议的新词通常比其他类型的会议更长。37.步骤2、对词语进行左右信息熵得分计算。词语w的左右信息熵entropy(wl)和entropy(wr)的计算公式如下:[0038][0039][0040]其中,wnl和wnr分别是w左侧与右侧相邻字符的集合。一个词语应该能够和多个不同的上下文进行搭配,因此合格的词语应该在左右两侧都有较大的词语信息熵,因而需要对此公式进行优化,并将左右信息熵合并到一个公式中。优化合并后的计算公式为:[0041][0042]步骤3、对词语进行互信息得分计算。词语w的点间互信息pmi(w)的计算公式为:[0043][0044]其中,c1,c2,...,cn是组成词语w的字符,p表示字符或词语在文中出现的概率。[0045]由此公式可知,当词语变长时,由于新增字符的出现概率p(c)较小,新词的点间互信息得分有增大的趋势。为了抑制此趋势,有必要对公式进行适度修改。修改后,词语w的点间互信息apmi(w)的计算公式为:[0046]apmi(w)=(n+1)log(p(w))-log(p(c1)·p(c2)·...·p(cn))[0047]步骤4、使用不同的权重综合上述两项得分:[0048]score(w)=p·entropy(w)+q·apmi(w)[0049]其中p和q为系数,通过调整系数可以改变信息熵和点间互信息的权重。使用此公式计算各个词语的总得分,并去掉得分较低的词语,具体的,可以将各个词语的总得分进行排序,去掉排名靠后的30%-70%的词语,进而去掉得分较低的词语;还可以是预设一个分值,去掉所有为满足的该预设分值的词语,进而去掉得分较低的词语;然后将剩下的词语作为新词。[0050]承接上例,需要理解的是,剩下的词语同样可能是现有词语,因此,还需要判断剩下的词语是否属于现有词汇,具体的,当剩下的的词语出现在标准词库中时,则代表该词不是新词。因此,仅有当剩下的词语没有出现在现有的标准词库中,才会判定该词为新词。[0051]在本实施例的一些示例中,根据调整指令对所述修改文本中的新词进行调整,以得到目标文本,包括:确定所述调整指令对应的调整方式,所述调整方式包括:添加、删除、替换中的至少一个;根据所述调整方式对所述修改文本中的新词进行调整,将调整文成的修改文本作为所述目标文本。具体的,其中调整指令可以是用户输入的调整指令,调整指令还可以是系统根据用户以前的行为自动生成的调整指令。例如,当通过上述识别步骤,收集到修改文档中的新词时,将收集到的新词突出展现给用户(例如:会议记录员),这使得会议记录员不再需要对修改文本逐字检查,从而减少工作量。会议记录员可先检查新词的转写情况,并对可能出现的错误做出修改,其修改方式包括添加、删除和替换。需要理解的是,对于修改文本中其它部分,会议记录员也可在修改文本中进行修改。当会议记录员完成修改后,系统将修改后的文本作为目标文本保存,同时保存会议记录员的修改行为。[0052]在本实施例的一些示例中,上一步骤中对于新词的修改是一种重要的参考。可以将修改后的新词加入替换词库中,其中,具体判断哪些新词添加到替换词库中,可以通过对于修改文本修改记录的统计分析来实现,具体方法如下:[0053]步骤1、通过对修改文本的改动来计算每个新词被改动的概率,以及其对应目标词的概率。修改文本中的新词w被替换时,其替换概率p(cw)为:[0054]p(cw)=f(w′)/f(w)[0055]其中,f(w)是w出现的频数,f(w′)是w被其他词替换的频数。[0056]用来替换掉w,的词属于集合k,对于k中每个词k,其目标词概率p(kw)为:[0057]p(kw)=f(kw)/f(w′)[0058]其中,f(kw)是k替换掉w的频数。[0059]承接上例,具体的,例如:如果修改文本的新词中出现了10个“三个xxy”和10个“三个zy”,且调整指令将其中的6个“三个xxy”和8个“三个zy”改成了“三个xy”,将1个“三个xxy”替换成“三个axy”,其余新词没有改动,则“三个xxy”的替换概率为(6+1)/10=0.7,“三个zy”的替换概率为8/10=0.8,“三个xy”对于“三个xxy”的目标词概率为6/(6+1)=0.857,“三个axy”对于“三个xxy”的目标词概率为1/(6+1)=0.143,“三个xy”对于“三个zy”的目标词概率为8/8=1。[0060]步骤2、对于每个新词w和每个替换后的词k,使用上述两种概率计算得分:[0061]score(w,k)=a·(p(cw)-c)+b·(p(kw)-d)[0062]其中,a和b是权重系数,c和d是替换概率和目标词概率的最低标准。[0063]步骤3、根据上述得分设置p,q两条分数线,p>q,当p(cw)>c且p(kw)>d时,如果score(w,k)>=p,则系统自动将替换词对(w,k)直接加入替换词库;如果p>score(w,k)>=q,则系统将询问会议记录员是否将替换词对(w,k)加入词库。[0064]步骤4、经过扩充的替换词库可以在以后直接对原始文本出现的上述新词进行替换处理得到修改文本。[0065]本实施例提供的语音转文本的纠错方法,通过将原始文本进行替换处理得到修改文本,所述原始文本为根据目标语音转换而来的文本;对所述修改文本进行新词识别,并收集识别到的新词;根据调整指令对所述修改文本中的新词进行调整,以得到目标文本,通过对原始文本进行处理,然后在对得到的修改文本进行新词识别,通过识别出目标语音中转换而来的新词,并对其进行调整,在这个过程中,将新词中的错误词汇进行了调整,进而减少了修改文本中的错误词汇,进而提高了语音转文本的正确率,进而提高了用户体验,同时,在一些示例中,将调整修正后的词语放入了替换词库,当下次进行语音转文本时,替换词库可以自动对出错的词语进行替换,提高了语音转文本的正确率,以及替换词库构建的效率,进而提高语音转写文本的纠错效率。[0066]如图2所示,本实施例还提供了一种语音转文本的纠错装置,其包括但不限于:[0067]替换模块1,用于将原始文本进行替换处理得到修改文本,所述原始文本为根据目标语音转换而来的文本;[0068]识别模块2,用于对所述修改文本进行新词识别,并收集识别到的新词;[0069]调整模块3,用于根据调整指令对所述修改文本中的新词进行调整,以得到目标文本。[0070]如图3所示,本技术实施例提供了一种电子设备,包括处理器111、通信接口112、存储器113和通信总线114,其中,处理器111,通信接口112,存储器113通过通信总线114完成相互间的通信,[0071]存储器113,用于存放计算机程序;[0072]在本技术一个实施例中,处理器111,用于执行存储器113上所存放的程序时,实现前述任意一个方法实施例提供的语音转文本的纠错方法的步骤。[0073]本技术实施例还提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述任意一个方法实施例提供的语音转文本的纠错方法的步骤。[0074]需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。[0075]以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所发明的原理和新颖特点相一致的最宽的范围。当前第1页12当前第1页12

技术特征:


1.一种语音转文本的纠错方法,其特征在于,所述语音转文本的纠错方法包括:将原始文本进行替换处理得到修改文本,所述原始文本为根据目标语音转换而来的文本;对所述修改文本进行新词识别,并收集识别到的新词;根据调整指令对所述修改文本中的新词进行调整,以得到目标文本。2.根据权利要求1所述的语音转文本的纠错方法,其特征在于,将原始文本进行替换处理得到修改文本包括:对所述原始文本进行预处理,以去除所述原始文本中的冗余内容;将经过预处理后的原始文本作为输入文本输入到替换模型中,以得到修改文本,所述替换模型用于,使用预设替换词库替换输入文本中满足替换要求的词,然后将替换完成的文本作为修改文本输出。3.根据权利要求2所述的语音转文本的纠错方法,其特征在于,对所述修改文本进行新词识别,包括:判断所述修改文本中是否存在符合规则模板的词语;当所述修改文本中存在符合所述规则模板的词语时,将符合所述规则模板的词语作为新词。4.根据权利要求3所述的语音转文本的纠错方法,其特征在于,当所述修改文本中存在符合所述规则模板的词语时,将符合所述规则模板的词语作为新词,还包括:当所述修改文本中存在符合所述规则模板的词语时,将符合所述规则模板的文本与标准词中的词语进行比较,以判定符合所述规则模板的词语是否出现在所述标准词库中;当符合所述规则模板的词语未出现在所述标准词库中时,将符合所述规则模板的词语作为新词。5.根据权利要求2所述的语音转文本的纠错方法,其特征在于,对所述修改文本进行新词识别包括:对所述修改文本中的各个词语进行词频统计,确定各个词语的词频得分;将词频得分达到预设得分的词语,与标准词中的词语进行比较,以判定词频得分达到预设得分的词语是否出现在所述标准词库中;将词频得分达到预设得分,且未出现在所述标准词库中的词语作为新词。6.根据权利要求5所述的语音转文本的纠错方法,其特征在于,对所述修改文本中的各个词语进行词频统计,确定各个词语的词频得分,包括:将所述修改文本分文多个词语;计算各个词语的左右信息熵得分以及互信息得分;将各个词语的左右信息熵得分和互信息得分进行综合运算,得到各个词语的词频得分。7.根据权利要求1-6任一项所述的语音转文本的纠错方法,其特征在于,根据调整指令对所述修改文本中的新词进行调整,以得到目标文本,包括:确定所述调整指令对应的调整方式,所述调整方式包括:添加、删除、替换中的至少一个;根据所述调整方式对所述修改文本中的新词进行调整,将调整文成的修改文本作为所
述目标文本。8.一种语音转文本的纠错装置,其特征在于,所述语音转文本的纠错装置包括:替换模块,用于将原始文本进行替换处理得到修改文本,所述原始文本为根据目标语音转换而来的文本;识别模块,用于对所述修改文本进行新词识别,并收集识别到的新词;调整模块,用于根据调整指令对所述修改文本中的新词进行调整,以得到目标文本。9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现如权利要求1-7任一项所述的语音转文本的纠错方法的步骤。10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的语音转文本的纠错方法的步骤。

技术总结


本发明涉及一种语音转文本的纠错方法、装置及电子设备和存储介质,其中语音转文本的纠错方法包括:将原始文本进行替换处理得到修改文本,所述原始文本为根据目标语音转换而来的文本;对所述修改文本进行新词识别,并收集识别到的新词;根据调整指令对所述修改文本中的新词进行调整,以得到目标文本,通过对原始文本进行处理,然后在对得到的修改文本进行新词识别,通过识别出目标语音中转换而来的新词,并对其进行调整,在这个过程中,将新词中的错误词汇进行了调整,进而减少了修改文本中的错误词汇,进而提高了语音转文本的正确率,进而提高了用户体验。提高了用户体验。提高了用户体验。


技术研发人员:

坤 陈龙 王荔 邹策 田野 雷鸣 隗楠

受保护的技术使用者:

中国电子科技集团公司第三研究所

技术研发日:

2021.10.11

技术公布日:

2022/7/29

本文发布于:2024-09-20 19:40:39,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/18922.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:文本   所述   新词   词语
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议