文本纠错方法、装置、电子设备及计算机可读存储介质与流程



1.本技术的实施方式涉及计算机技术领域,更具体地,本技术的实施方式涉及文本纠错方法、文本纠错装置、电子设备以及计算机可读存储介质。


背景技术:



2.本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
3.文本存在的错误类型可能是多种多样的,例如:由多字或少字所导致的文本错误、由错别字所导致的文本错误等。对文本进行纠错,能够有效减少错误情况的出现,提升文本的质量。
4.相关技术中,在对文本进行纠错时,针对不同的错误类型,需要采用不同的纠错方法来进行纠正。当文本同时存在多种错误类型时,需要同时采用多种纠错方法以达到对文本的纠错效果。这样一来会增加文本处理的复杂度,使得文本纠错的效率较低。
5.需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现要素:



6.本技术提供了一种文本纠错方法、文本纠错装置、计算机可读存储介质与电子设备,进而至少在一定程度上解决相关技术中文本纠错效率较低的问题。
7.本技术的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本技术的实践而习得。
8.根据本技术的第一方面,提供了一种文本纠错方法,包括:基于待纠错文本的第一特征信息,对所述待纠错文本中的字符进行错误检测,以确定所述待纠错文本中的字符所对应的错误检测结果,以及基于所述待纠错文本的第二特征信息,对所述待纠错文本中的字符进行长度预测,以确定所述待纠错文本中的字符所对应的长度预测值;基于所述待纠错文本中的字符所对应的错误检测结果与长度预测值,对所述待纠错文本采用掩码字符进行字符替换,得到所述待纠错文本对应的中间文本;通过将所述中间文本中的掩码字符替换为所述掩码字符对应的预测字符,得到所述待纠错文本对应的修正文本。
9.在本技术的一种示例性实施例中,所述待纠错文本由语音或图片经过文本转化得到。
10.在本技术的一种示例性实施例中,所述第一特征信息和所述第二特征信息均包括所述待纠错文本中各字符对应的特征信息。
11.在本技术的一种示例性实施例中,所述方法还包括:对待纠错文本中的字符所对应的各种类型的字符特征进行特征组合,得到所述待纠错文本中的字符所对应的多维字符特征;对所述待纠错文本中的字符所对应的多维字符特征进行上下文信息整合,得到所述待纠错文本中的字符的特征信息。
12.在本技术的一种示例性实施例中,所述字符特征的类型包括:内容特征、位置特征、类别特征中任意一种或多种类型,其中所述类别特征用于表征字符是否属于易错字符。
13.在本技术的一种示例性实施例中,所述字符特征的类型还包括拼音特征,所述方法还包括:从待处理字符的拼音字母中提取所述待处理字符的拼音特征。
14.在本技术的一种示例性实施例中,所述基于待纠错文本的第一特征信息,对所述待纠错文本中的字符进行错误检测,以确定所述待纠错文本中的字符所对应的错误检测结果,包括:获取预先训练的错误检测模型,所述错误检测模型包括激活函数层与分类层;将所述待纠错文本的第一特征信息输入所述错误检测模型,通过所述激活函数层得到所述待纠错文本中的字符的错误概率,通过所述分类层将所述错误概率与错误概率阈值进行对比,以输出所述待纠错文本中的字符的错误检测结果。
15.在本技术的一种示例性实施例中,所述基于所述待纠错文本的第二特征信息,对所述待纠错文本中的字符进行长度预测,以确定所述待纠错文本中的字符所对应的长度预测值,包括:获取预先训练的长度预测模型;将所述待纠错文本的第二特征信息输入所述长度预测模型进行回归预测,得到所述待纠错文本中的字符的长度预测回归值;将所述待纠错文本中的字符的长度预测回归值进行取整处理,得到所述待纠错文本中的字符的长度预测值。
16.在本技术的一种示例性实施例中,所述方法还包括:若所述长度预测值小于预设长度下限值或大于预设长度上限值,则将所述长度预测值调整到所述预设长度下限值与所述预设长度上限值之间的范围内。
17.在本技术的一种示例性实施例中,所述基于待纠错文本的第一特征信息,对所述待纠错文本中的字符进行错误检测,以确定所述待纠错文本中的字符所对应的错误检测结果,以及基于所述待纠错文本的第二特征信息,对所述待纠错文本中的字符进行长度预测,以确定所述待纠错文本中的字符所对应的长度预测值,包括:基于待纠错文本的第一特征信息,对所述待纠错文本中的字符进行错误检测;根据所述待纠错文本中的字符所对应的错误检测结果确定所述待纠错文本中的错误字符;基于所述待纠错文本的第二特征信息,对所述错误字符进行长度预测,以确定所述错误字符所对应的长度预测值。
18.在本技术的一种示例性实施例中,所述基于所述待纠错文本中的字符所对应的错误检测结果与长度预测值,对所述待纠错文本采用掩码字符进行字符替换,得到所述待纠错文本对应的中间文本,包括:根据所述待纠错文本中每个字符所对应的错误检测结果,确定所述待纠错文本中的错误字符;根据所述错误字符的长度预测值,将所述待纠错文本中的错误字符替换为所述长度预测值对应数量的掩码字符,得到所述待纠错文本对应的中间文本。
19.在本技术的一种示例性实施例中,所述通过将所述中间文本中的掩码字符替换为所述掩码字符对应的预测字符,得到所述待纠错文本对应的修正文本,包括:获取预先训练的文本修正模型,所述文本修正模型包括编码层与解码层;通过所述编码层对所述中间文本进行编码,得到编码特征,通过所述解码层对所述编码特征进行解码,得到修正文本;所述修正文本包括所述中间文本中除掩码字符外的字符以及所述掩码字符对应的预测字符。
20.根据本技术的第二方面,公开了一种文本纠错装置,包括:错误检测模块,用于基于待纠错文本的第一特征信息,对所述待纠错文本中的字符进行错误检测,以确定所述待
纠错文本中的字符所对应的错误检测结果;长度预测模块,用于基于所述待纠错文本的第二特征信息,对所述待纠错文本中的字符进行长度预测,以确定所述待纠错文本中的字符所对应的长度预测值;文本修正模块,用于基于所述待纠错文本中的字符所对应的错误检测结果与长度预测值,对所述待纠错文本采用掩码字符进行字符替换,得到所述待纠错文本对应的中间文本;通过将所述中间文本中的掩码字符替换为所述掩码字符对应的预测字符,得到所述待纠错文本对应的修正文本。
21.根据本技术实施例的第三方面,公开了一种电子设备,包括:处理器;以及存储器,存储器上存储有计算机可读指令,计算机可读指令被处理器执行时实现如第一方面公开的文本纠错方法。
22.根据本技术实施例的第四方面,公开了一种计算机程序介质,其上存储有计算机可读指令,当计算机可读指令被计算机的处理器执行时,使计算机执行根据本技术第一方面公开的文本纠错方法。
23.本技术的技术方案具有以下有益效果:
24.上述文本纠错过程中,基于待纠错文本的第一特征信息,对待纠错文本中的字符进行错误检测,以确定待纠错文本中的字符所对应的错误检测结果,以及基于待纠错文本的第二特征信息,对待纠错文本中的字符进行长度预测,以确定待纠错文本中的字符所对应的长度预测值;基于待纠错文本中的字符所对应的错误检测结果与长度预测值,对待纠错文本采用掩码字符进行字符替换,得到待纠错文本对应的中间文本;通过将中间文本中的掩码字符替换为掩码字符对应的预测字符,得到待纠错文本对应的修正文本。一方面,基于错误检测结果以及长度预测结果对待纠错文本采用掩码字符进行替换,以便能够针对待纠错文本中的多种类型的错误同时进行修正,进而提升文本纠错的效率。另一方面,基于文本的第一特征信息和第二特征信息,分别进行错误检测和长度预测,以得到字符级别的错误检测结果和长度预测结果,以便后续针对特定字符进行修正,使得修正后的文本更加贴合原文本的表达内容。
25.应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本技术。
附图说明
26.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施方式,并与说明书一起用于解释本技术的原理。显而易见地,下面描述中的附图仅仅是本技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
27.图1示出本示例性实施方式中一种实现文本纠错方法的流程示意图;
28.图2示出本示例性实施方式中一种确定待纠错文本中的字符所对应的长度预测值的流程示意图;
29.图3示出本示例性实施方式中一种得到待纠错文本对应的中间文本的流程示意图;
30.图4示出本示例性实施方式中一种错误检测和长度预测同步执行的文本纠错的流程示意图;
31.图5示出本示例性实施方式中一种分阶段修正文本的示意图;
32.图6示出本示例性实施方式中一种错误检测和长度预测非同步执行的文本纠错的流程示意图;
33.图7示出本示例性实施方式中一种文本纠错装置的结构框图;
34.图8示出本示例性实施方式中一种用于实现上述文本纠错方法的电子设备。
35.在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
36.下面将参考若干示例性实施方式来描述本技术的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本技术,而并非以任何方式限制本技术的范围。相反,提供这些实施方式是为了使本技术更加透彻和完整,并且能够将本技术的范围完整地传达给本领域的技术人员。
37.本领域技术人员知道,本技术的实施方式可以实现为一种装置、设备、方法或计算机程序产品。因此,本技术可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
38.根据本技术的实施方式,提出了一种文本纠错方法、文本纠错装置、电子设备以及计算机可读存储介质。
39.附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
40.下面参考本技术的若干代表性实施方式,详细阐释本技术的原理和精神。
41.发明概述
42.在本技术的相关技术中,在对文本进行纠错时,针对不同的错误类型,需要采用不同的纠错方法来进行纠正。当文本同时存在多种错误类型时,需要同时采用多种纠错方法以达到对文本的纠错效果。例如,当文本中同时存在由多字或少字所导致的文本错误以及由错别字所导致的文本错误时,通常通过错误检测和错误修正解决文本中的错别字问题,采用序列到序列的模型解决文本中的多字少字问题。相关技术中所采用的文本纠错方式,难以对文本中不同的错误类型同步进行处理,使得文本处理较为复杂,且执行效率较低。
43.基于上述问题,本技术提出了一种文本纠错方法,在错误检测和长度预测基础上对文本进行修正,以同时解决文本中所存在的多种错误类型,能够提升文本纠错的处理效率。
44.应用场景总览
45.需要注意的是,下述应用场景仅是为了便于理解本技术的精神和原理而示出,本技术的实施方式在此方面不受任何限制。相反,本技术的实施方式可以应用于适用的任何场景。例如,可在文本编辑、文字识别、语种转换等场景下进行文本纠错处理。
46.示例性方法
47.下面结合上述的应用场景,参考图1和图6来描述根据本技术示例性实施方式的文本纠错方法。
48.请参阅图1,图1示出的是根据本技术一示例实施方式的文本纠错方法的流程示意图。如图1所示,该文本纠错方法,可以包括:
49.步骤s110,基于待纠错文本的第一特征信息,对待纠错文本中的字符进行错误检测,以确定待纠错文本中的字符所对应的错误检测结果,以及基于待纠错文本的第二特征信息,对待纠错文本中的字符进行长度预测,以确定待纠错文本中的字符所对应的长度预测值;
50.步骤s120,基于待纠错文本中的字符所对应的错误检测结果与长度预测值,对待纠错文本采用掩码字符进行字符替换,得到待纠错文本对应的中间文本;
51.步骤s130,通过将中间文本中的掩码字符替换为掩码字符对应的预测字符,得到待纠错文本对应的修正文本。
52.实施图1所示的文本纠错方法,可以基于错误检测结果以及长度预测结果对待纠错文本采用掩码字符进行替换,以便能够针对待纠错文本中的多种类型的错误同时进行修正,进而提升文本纠错的效率。还可以基于文本的第一特征信息和第二特征信息,分别进行错误检测和长度预测,以得到字符级别的错误检测结果和长度预测结果,以便后续针对特定字符进行修正,使得修正后的文本更加贴合原文本的表达内容。
53.需要说明的是,在执行步骤s110时,即可以先对待纠错文本中的字符进行错误检测,再对待纠错文本中的字符进行长度预测;也可以先对待纠错文本中的字符进行长度预测,再对待纠错文本中的字符进行错误检测;还可以同时对待纠错文本中的字符进行错误检测和长度预测。本技术对步骤s110中错误检测和长度预测的执行顺序并不进行具体限定。
54.下面对这些步骤进行详细描述。
55.在步骤s110中,基于待纠错文本的第一特征信息,对待纠错文本中的字符进行错误检测,以确定待纠错文本中的字符所对应的错误检测结果,以及基于待纠错文本的第二特征信息,对待纠错文本中的字符进行长度预测,以确定待纠错文本中的字符所对应的长度预测值。
56.其中,待纠错文本指的是用于纠错的文本对象。
57.示例性的,待纠错文本可以是由语音或图片经过文本转化得到的文本,即通过提取语音或图片中的文字信息所得到的文本。由于将语音或图片进行文本转化难免出现错误,因而采用本技术中的文本纠错方法可以很好地将经过文本转化所得到的文本中的错误进行纠正,进而提升文本质量。
58.需要说明的是,这里的待纠错文本的获取途径只是示例性的展示说明,在实际应用过程中,还可以采用其他途径所获取的文本(例如,经过文本编辑、语种转换等途径所获取的文本)作为待纠错文本,这里不做具体限定。
59.其中,第一特征信息是检测字符正误时所用到的特征信息,第二特征信息是预测字符长度时所用到的特征信息。第一特征信息和第二特征信息均属于待纠错文本的特征信息,二者可以是不同的,也可以是相同的。
60.若第一特征信息与第二特征信息是相同,那么只需要获取一次待纠错文本的特征信息即可,以便在进行错误检测和长度预测时,能够共享特征信息参数,进而提升文本纠错的效率。
61.此外,第一特征信息和第二特征信息均可以包括待纠错文本中各字符对应的特征信息,以便得到字符级别的错误检测结果以及字符级别的长度预测结果。
62.在一种可选的实施方式中,可以通过以下步骤来获取待纠错文本中各字符对应的特征信息:对待纠错文本中的字符所对应的各种类型的字符特征进行特征组合,得到待纠错文本中的字符所对应的多维字符特征;对待纠错文本中的字符所对应的多维字符特征进行上下文信息整合,得到待纠错文本中的字符的特征信息。
63.其中,字符特征的类型可以包括:内容特征、位置特征、类别特征中任意一种或多种类型,其中类别特征用于表征字符是否属于易错字符。
64.字符对应的内容特征可以通过查表的方式获取。具体的,可预先将大量字符对应的内容特征以表的形式进行存储,在获取某一字符的内容特征时,可直接在表中查该字符对应的内容特征,进而得到该字符对应的内容特征。
65.字符对应的位置特征也可以通过查表的方式获取。具体的,可预先将不同位置所对应的位置特征以表的形式进行存储,在获取某一字符对应的字符特征时,可根据该字符在文本中所在位置在表中查相应的位置特征,进而得到该字符所对应的位置特征。
66.字符对应的类别特征也可以通过查表的方式获取。具体的,可预先将不同类别所对应的类别特征以表的形式进行存储,在获取某一字符对应的类别特征时,可直接在表中查字符所属类别所对应的类别特征,进而获取到该字符所对应的类别特征。
67.可选的,为了便于获取到字符对应的类别特征,可将字符所属类别采用0或1进行表示。示例性的,若待纠错文本中某一字符属于易错字符,可将该字符所属类别表示为1;若待纠错文本中某一字符不属于易错字符,可将该字符所属类别表示为0。
68.此外,字符特征的类型还可以包括拼音特征。具体的,可以从待处理字符的拼音字母中提取待处理字符的拼音特征。这里的待处理字符可以是待纠错文本中的任一字符。
69.从待处理字符的拼音字母中提取待处理字符的拼音特征时,可以通过以下步骤来实现:首先获取待处理字符各个拼音字母所对应的特征,然后将各个拼音字母对应的特征通过预训练的循环神经网络对各个拼音字母对应的特征进行分析,得到由这些拼音字母组合而成的拼音的特征,即待处理字符的拼音特征。需要说明的是,待处理字符各个拼音字母所对应的特征可以通过查表的方式获取。可预先将不同拼音字母对应的特征以表的形式进行存储,在获取某一拼音字母对应的特征时,可以在表中查该拼音字母对应的特征。
70.可选的,上述所提到的各种类型的字符特征可以以向量的形式进行表示。
71.在获取到待纠错文本中的字符所对应的各种类型的字符特征后,可以将对待纠错文本中的字符所对应的各种类型的字符特征进行特征组合,得到待纠错文本中的字符所对应的多维字符特征。需要说明的是,特征组合的方式包括但不限于相加或拼接。在实际应用的过程中,还可以采用其他特征组合方式,这里不做具体限定。
72.在获取到待纠错文本中的字符所对应的多维字符特征后,可以对待纠错文本中的字符所对应的多维字符特征进行上下文信息整合,得到待纠错文本中的字符的特征信息。具体的,可采用经过了预训练的卷积神经网络、循环神经网络或编码器解码器等特征编码模型,将待纠错文本中各字符所对应的多维字符特征进行重组,进而得到各字符对应的包含上下文信息的特征信息。
73.字符的多维字符特征涵盖了多种类型的字符特征,在此基础上,再进行上下文信息整合,使得最终所获取的字符的特征信息更加全面,有助于提升文本纠错的准确性。
74.在获取到待纠错文本中的字符的特征信息后,即在获取到待纠错文本的第一特征
信息和第二特征信息后,可执行步骤s110,以进一步得到待纠错文本中的字符所对应的错误检测结果以及长度预测值。
75.在一种可选的实施方式中,步骤s110中基于待纠错文本的第一特征信息,对待纠错文本中的字符进行错误检测,以确定待纠错文本中的字符所对应的错误检测结果,具体可通过以下步骤来实现:获取预先训练的错误检测模型;将待纠错文本的第一特征信息输入错误检测模型,通过激活函数层得到待纠错文本中的字符的错误概率,通过分类层将错误概率与错误概率阈值进行对比,以输出待纠错文本中的字符的错误检测结果。
76.其中,该错误检测模型可以是一个分类模型,可以包括激活函数层与分类层。通过该错误检测模型的激活函数层可以得到字符的错误概率,通过该错误检测模型的分类层可以得到字符的错误检测结果。
77.在将错误概率与错误概率阈值进行对比时,示例性的,若错误概率大于错误概率阈值,则表明字符为错误字符;相反,若错误概率小于错误概率阈值,则表明字符非错误字符。需要说明的是,若错误概率与错误概率阈值相同,则可根据实际需求,定义字符是否为错误字符,这里不做具体限定。
78.基于错误检测模型的错误检测,能够快速筛选出待纠错文本中的错误字符,以为后续的文本修正提供修正参考对象。
79.在一种可选的实施方式中,步骤s110中基于待纠错文本的第二特征信息,对待纠错文本中的字符进行长度预测,以确定待纠错文本中的字符所对应的长度预测值,具体可通过以下步骤来实现:获取预先训练的长度预测模型;将待纠错文本的第二特征信息输入长度预测模型进行回归预测,得到待纠错文本中的字符的长度预测回归值;将待纠错文本中的字符的长度预测回归值进行取整处理,得到待纠错文本中的字符的长度预测值。
80.其中,长度预测模型可以是一个回归模型,可以将第二特征信息转换为一个长度数值,即长度预测回归值。由于长度预测回归值可能是一个浮点数,因而可以将待纠错文本中的字符的长度预测回归值进行取整处理,以得到待纠错文本中的字符的长度预测值。示例性的,可以将长度预测回归值进行四舍五入,以便将长度预测回归值取整。
81.基于长度预测模型的回归预测,能够快速预测待纠错文本中各字符对应的理论长度,以为后续的文本修正提供修正参考依据,进而提升字符修正的准确性。
82.由于回归预测的结果理论上在(-∞,+∞)之间,因而长度预测值在极少数情况下可能会是一个没有意义的值,例如:长度预测值小于0。因此,可以对所得到的长度预测值进行进一步的校正处理,以提升长度预测值的合理性。
83.在一种可选的实施方式中,可以通过以下步骤对长度预测值进行进一步的校正处理:若长度预测值小于预设长度下限值或大于预设长度上限值,则将长度预测值调整到预设长度下限值与预设长度上限值之间的范围内。
84.示例性的,预设长度下限值可以设置为0,若长度预测值小于0,可将该长度预测值调整为0或1。
85.预设长度上限值可以根据待纠错文本中所包含字符数量进行设定。示例性的,可以将预设长度上限值设定为其中n表示待纠错文本中所包含字符数量,若长度预测值大于可将该长度预测值调整为
86.以待纠错文本中所包含字符数量为9为例,该待纠错文本所对应的预设长度上限
值可以设置为即设置为4,若某一字符的长度预测回归值为4.6,经过四舍五入取整处理后,得到该字符的长度预测值为5,由于5大于所限定的预设长度上限值4,可将该字符的长度预测值进一步修正为4。
87.需要说明的是,这里的预设长度下限值小于预设长度上限值。在实际应用过程中,预设长度下限值和预设长度上限值的具体数值可以根据实际情况进行设定,这里不做进一步限定。
88.通过对长度预测值进行进一步的校正处理,使得长度预测值位于合理范围之内,从而实现了对数据异常情况的容错。
89.需要说明的是,当长度预测值不为1时,表明该长度预测值对应的字符可能出现多字或少字的问题,可将这种类型的字符归属为一种特殊的错误字符。
90.一般情况下,通过长度预测所检测到的长度预测值不为1的字符可包含于通过错误检测所检测到的错误字符中。基于此,在一种可选的实施方式中,步骤s110中基于待纠错文本的第一特征信息,对待纠错文本中的字符进行错误检测,以确定待纠错文本中的字符所对应的错误检测结果,以及基于待纠错文本的第二特征信息,对待纠错文本中的字符进行长度预测,以确定待纠错文本中的字符所对应的长度预测值,还可以通过如图2所示的步骤来实现,具体可包括以下步骤s210至步骤s230:
91.步骤s210,基于待纠错文本的第一特征信息,对待纠错文本中的字符进行错误检测;
92.步骤s220,根据待纠错文本中的字符所对应的错误检测结果确定待纠错文本中的错误字符;
93.步骤s230,基于待纠错文本的第二特征信息,对错误字符进行长度预测,以确定错误字符所对应的长度预测值。
94.在基于待纠错文本的第二特征信息,对错误字符进行长度预测,以确定错误字符所对应的长度预测值时,具体的,可以根据错误字符对应的特征信息,对错误字符进行长度预测,以确定错误字符所对应的长度预测值。
95.通过对所检测到的错误字符进行长度预测,以获取错误字符所对应的长度预测值,无需对待纠错文本中每个字符的长度进行预测,以便进一步减少不必要的性能开销。
96.此外,若通过长度预测所检测到的长度预测值不为1的字符不包含于通过错误检测所检测到的错误字符中,说明错误检测或长度预测的可能出现失误。针对该种情况,可预先评估错误检测的准确性以及长度预测的准确性,以准确性较高的处理结果为准,并对准确性较低的处理结果进行调整。此外,针对该种情况,还可由开发人员通过自定义,以错误检测结果和长度预测结果中一种结果为准,并对另一种结果进行调整。示例性的,若某一字符的错误检测结果为该字符为非错误字符,该字符的长度预测值不为1,在以错误检测结果为准时,可以将该字符的长度预测值修订为1,对该字符不进行进一步纠错;在以长度预测结果为准时,可以将该字符的错误检测结果修订为该字符为错误字符,并对该字符进行进一步纠错。
97.通过上述实施方式,获取到待纠错文本中的字符所对应的错误检测结果与长度预测值后,可继续执行步骤s120,以对待纠错文本进行进一步的纠错处理。
98.在步骤s120中,基于待纠错文本中的字符所对应的错误检测结果与长度预测值,
对待纠错文本采用掩码字符进行字符替换,得到待纠错文本对应的中间文本。
99.掩码字符可以是预先定义好的一个特定字符。对待纠错文本采用掩码字符进行字符替换,不仅可以标记待纠错文本中需要修正的字符,还可以修正待纠错文本中所包含的字符数量。
100.示例性的,在对待纠错文本采用掩码字符进行字符替换时,可以先将待纠错文本中每个错误字符分别用一个掩码字符进行替换,再将长度预测值不为1的字符对应的掩码字符分别用长度预测值对应数量的掩码字符进行替换;还可以先将长度预测值不为1的字符分别用长度预测值对应数量的掩码字符进行替换,再将错误字符中长度预测值为1的字符分别用一个掩码字符进行替换。
101.此外,在一种可选的实施方式中,步骤s120中基于待纠错文本中的字符所对应的错误检测结果与长度预测值,对待纠错文本采用掩码字符进行字符替换,得到待纠错文本对应的中间文本,还可以通过如图3所示的步骤来实现,具体可包括以下步骤310至步骤s320:
102.步骤310,根据待纠错文本中每个字符所对应的错误检测结果,确定待纠错文本中的错误字符;
103.步骤320,根据错误字符的长度预测值,将待纠错文本中的错误字符替换为长度预测值对应数量的掩码字符,得到待纠错文本对应的中间文本。
104.通过将待纠错文本中的错误字符替换为长度预测值对应数量的掩码字符,可以一次性完成字符替换操作,能够更快捷的获取到待纠错文本的中间文本。
105.在获取到待纠错文本的中间文本后,可继续执行步骤s130,以将该中间文本转换为待纠错文本的修正文本
106.在步骤s130中,通过将中间文本中的掩码字符替换为掩码字符对应的预测字符,得到待纠错文本对应的修正文本。
107.具体的,可获取中间文本中所包含的掩码字符对应的预测字符,并将中间文本中各掩码字符转换成相应的预测字符,进而得到待纠错文本的修正文本。
108.在一种可选的实施方式中,上述通过将中间文本中的掩码字符替换为掩码字符对应的预测字符,得到待纠错文本对应的修正文本,具体可通过以下步骤来实现:获取预先训练的文本修正模型,文本修正模型包括编码层与解码层;通过编码层对中间文本进行编码,得到编码特征,通过解码层对编码特征进行解码,得到修正文本;修正文本包括中间文本中除掩码字符外的字符以及掩码字符对应的预测字符。
109.其中,文本修正模型可以是一种掩码语言模型,能够将文本中的特定掩码字符转换为符合该文本语言逻辑的字符。通过中间文本到修正文本的转换,同时纠正了待纠错文本中不同类型的错误。
110.此外,由于在实际应用过程中,错误检测和长度预测既可以同步执行,也可以不同步执行,下面结合图4和图6对这两情况下的文本纠错方式分别进行进一步的展示说明,以便高效的实现文本纠错功能,降低性能开销,其中待纠错文本的第一特征信息和第二特征信息均包括各字符对应的特征信息。
111.作为一种可选的实施例,图4示出了一种错误检测和长度预测同步执行的文本纠错的流程示意图,具体可包括以下步骤:
112.步骤s410,获取待纠错文本中的字符的特征信息;
113.步骤s420,根据待纠错文本中的字符的特征信息,对待纠错文本中的字符进行错误检测,以确定待纠错文本中的字符所对应的错误检测结果;根据待纠错文本中的字符的特征信息,对待纠错文本中的字符进行长度预测,以确定待纠错文本中的字符所对应的长度预测值;
114.步骤s430,基于待纠错文本中的字符所对应的错误检测结果与长度预测值,对待纠错文本采用掩码字符进行字符替换,得到待纠错文本对应的中间文本;通过将中间文本中的掩码字符替换为掩码字符对应的预测字符,得到待纠错文本对应的修正文本。
115.下面结合图5,以待纠错文本为“我有机器人在替的”为例,对图4中的步骤进行进一步的说明。其中,图5示出了一种分阶段修正文本的示意图,具体包括:多维字符特征表示阶段501、包含上下文信息的字符特征表示阶段502、错误预测与长度预测阶段503、掩码字符替换阶段504以及错误修正阶段505。
116.多维字符特征表示阶段501:
117.首先,可获取“我有机器人在替的”中每个字符的内容特征、位置特征、类别特征以及拼音特征。以“替”字符为例,可通过简单查表的方式获取到“替”字符对应的内容特征、位置特征、类别特征,由于“替”字符对应的拼音“ti”由字母“t”和“i”构成,可通过预训练的循环神经网络对“t”和“i”对应特征的向量表示进行特征提取,得到“替”字符对应的拼音特征。
118.接着,可将“我有机器人在替的”中每个字符的内容特征、位置特征、类别特征以及拼音特征进行特征组合,得到“我有机器人在替的”中每个字符的多维字符特征。以“替”字符为例,若“替”字符内容特征、位置特征、类别特征以及拼音特征对应的向量表示为[0.2,01]、[0.5,0.1]、[0.4,0.1]、[0.4,0.2],可将各种类型的字符特征对应的向量表示进行相加,得到“替”字符的多维字符特征对应的向量表示为[1.5,0.5]。
[0119]
包含上下文信息的字符特征表示阶段502:
[0120]
可将“我有机器人在替的”中每个字符所对应的多维字符特征通过卷积神经网络、循环神经网络或编码器解码器等特征编码模型,进行上下文信息整合,得到可将“我有机器人在替的”中每个字符的特征信息。
[0121]
错误检测与长度预测阶段503:
[0122]
获取“我有机器人在替的”中每个字符对应的错误概率,若错误概率阈值设为0.6,那么“我有机器人在替的”中错误概率大于0.6的字符将被标记为错误字符。示例性的,若“有”、“替”以及“的”对应的错误概率分别为0.8、0.9以及0.7,其他字符对应的错误概率均小于0.6,则可输出“我有机器人在替的”的错误检测结果[0,1,0,0,0,0,1,1],其中1表示相应位置的字符为错误字符,需要被修改;0表示相应位置的字符非错误字符,无需修改。
[0123]
获取“我有机器人在替的”中每个字符对应的长度预测回归值,并将“我有机器人在替的”中每个字符对应的长度预测回归值进行四舍五入处理,得到“我有机器人在替的”中每个字符的长度预测值。示例性的,若“有”和“的”对应的长度预测回归值分别为1.9和0.4,经过四舍五入处理可以得到“有”和“的”对应的长度预测值分别为2和0,其他字符的对应的长度预测值分别为1,则可输出“我有机器人在替的”的长度预测结果[1,2,1,1,1,1,1,0]。
[0124]
掩码字符替换阶段504:
[0125]
示例性的,若“我有机器人在替的”的错误检测结果为[0,1,0,0,0,0,1,1]以及长度预测结果为[1,2,1,1,1,1,1,0],可采用掩码字符[mask]对“我有机器人在替的”中的相关字符进行替换,得到“我[mask][mask]机器人在[mask]”的中间文本,其中“mask”为一种掩码字符的表现形式。
[0126]
错误修正阶段505:
[0127]
通过文本修正模型,预测“我[mask][mask]机器人在[mask]”中各“mask”对应的预测字符。示例性的,若第一个“mask”对应的预测字符为“以”,第二个“mask”对应的预测字符为“为”,第三个“mask”对应的预测字符为“听”,则最终可得到修正文本“我以为机器人在听”。
[0128]
作为一种可选的实施例,图6示出了一种错误检测和长度预测非同步执行的文本纠错的流程示意图,具体可以包括以下步骤s610至步骤s670:
[0129]
步骤s610,对待纠错文本中的字符所对应的各种类型的字符特征进行特征组合,得到待纠错文本中的字符所对应的多维字符特征;
[0130]
步骤s620,对待纠错文本中的字符所对应的多维字符特征进行上下文信息整合,得到待纠错文本中的字符的特征信息;
[0131]
步骤s630,获取预先训练的错误检测模型,将待纠错文本中的字符的特征信息输入错误检测模型,得到待纠错文本中的字符的错误检测结果;
[0132]
步骤s640,根据待纠错文本中的字符所对应的错误检测结果确定待纠错文本中的错误字符;
[0133]
步骤s650,获取预先训练的长度预测模型,将错误字符的特征信息输入长度预测模型进行回归预测,得到错误字符的长度预测回归值,并将错误字符的长度预测回归值进行取整处理,得到错误字符的长度预测值;
[0134]
步骤s660,根据错误字符的长度预测值,将待纠错文本中的错误字符替换为长度预测值对应数量的掩码字符,得到待纠错文本对应的中间文本;
[0135]
步骤s670,获取预先训练的文本修正模型,将中间文本输入文本修正模型,得到待纠错文本对应的修正文本。
[0136]
实施本技术的实施例,一方面,基于错误检测结果以及长度预测结果对待纠错文本采用掩码字符进行替换,以便能够针对待纠错文本中的多种类型的错误同时进行修正,进而提升文本纠错的效率;另一方面,基于文本的第一特征信息和第二特征信息,分别进行错误检测和长度预测,以得到字符级别的错误检测结果和长度预测结果,以便后续针对特定字符进行修正,使得修正后的文本更加贴合原文本的表达内容。
[0137]
上述文本纠错过程中,采用了经过预训练的错误检测模型、长度预测模型以及文本修正模型,为了进一步提高实际应用过程文本纠错的正确率,可构造错误检测模型、长度预测模型以及文本修正模型的输入数据和输出数据,并将其作为训练数据,以不断调整优化模型参数。
[0138]
下面对训练数据的构造过程进行进一步的说明:
[0139]
由于对于整个文本纠正过程来说,输入数据为包含错误的原文本,输出数据原文本的修正文本。基于替换、插入或删除处理,有多种方式可以将原文本转换为原文本的修正
文本,具体的,这里可基于最小编辑距离将原文本转换为原文本的修正文本。
[0140]
示例性的,以原文本“我有机器人在替的”和原文本对应的修正文本“我以为机器人在听”为例,可通过以下四步将“我有机器人在替的”转换为“我以为机器人在听”:将“有”替换为“以”;将“有”之后插入“为”;将“替”修改为“听”;将“的”删除。
[0141]
进一步的,可基于上述对原文本的转换过程来构建错误检测模型、长度预测模型以及文本修正模型的输入数据和输出数据。具体的,可将原文本的第一特征信息作为错误检测模型的输入,将原文本中每个字符对应的正误状态作为错误检测模型的输出;可将原文本的第二特征信息作为长度预测模型的输入,将原文本中每个字符对应的修正长度作为错误检测模型的输出;可结合原文本中每个字符对应的正误状态和原文本中每个字符对应的修正长度,将原文本采用掩码字符进行字符替换,得到原文本的中间文本,并将原文本的中间文本作为文本修正模型的输入,将原文本的修正文本作为文本修正模型的输出。
[0142]
示例性的,以原文本“我有机器人在替的”和原文本对应的修正文本“我以为机器人在听”为例,可将“我有机器人在替的”的第一特征信息作为错误检测模型的输入,将[0,1,0,0,0,0,1,1]作为错误检测模型的输出,其中,1表示相应位置的字符为需要被修改的错误字符,0表示相应位置的字符为无需修改的非错误字符;可将“我有机器人在替的”的第二特征信息作为长度预测模型的输入,将[1,2,1,1,1,1,1,0]作为长度预测模型的输出,该序列中每个数字表示其所在位置的字符对应的修正长度;根据错误检测结果[0,1,0,0,0,0,1,1],将“我有机器人在替的”中的“有”、“替”以及“的”替换为“mask”,得到“我[mask]机器人在[mask][mask]”,根据长度预测结果[1,2,1,1,1,1,1,0]对“我[mask]机器人在[mask][mask]”进行长度修正,得到“我[mask][mask]机器人在[mask]”,并将“我[mask][mask]机器人在[mask]”作为文本修正模型的输入,将“我以为机器人在听”作为文本修正模型的输出。
[0143]
示例性介质
[0144]
在介绍了本技术示例性实施方式的方法之后,接下来,对本技术示例性实施方式的介质进行说明。
[0145]
在一些可能的实施方式中,本技术的各个方面还可以实现为一种介质,其上存储有能够实现本说明书上述文本纠错方法的程序产品。在一些可能的实施方式中,本技术的各个方面还可以实现为一种程序产品的形式,其上包含程序代码,当程序产品在电子设备上运行时,程序代码用于使电子设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
[0146]
具体地,所述电子设备的处理器执行所述程序代码时可用于实现如下步骤:
[0147]
基于待纠错文本的第一特征信息,对待纠错文本中的字符进行错误检测,以确定待纠错文本中的字符所对应的错误检测结果,以及基于待纠错文本的第二特征信息,对待纠错文本中的字符进行长度预测,以确定待纠错文本中的字符所对应的长度预测值;基于待纠错文本中的字符所对应的错误检测结果与长度预测值,对待纠错文本采用掩码字符进行字符替换,得到待纠错文本对应的中间文本;通过将中间文本中的掩码字符替换为掩码字符对应的预测字符,得到待纠错文本对应的修正文本。
[0148]
在一种可选的实施方式中,上述待纠错文本由语音或图片经过文本转化得到。
[0149]
在一种可选的实施方式中,上述第一特征信息和第二特征信息均包括待纠错文本
中各字符对应的特征信息。
[0150]
在一种可选的实施方式中,所述电子设备的处理器执行所述程序代码时还可用于实现如下步骤:对待纠错文本中的字符所对应的各种类型的字符特征进行特征组合,得到待纠错文本中的字符所对应的多维字符特征;对待纠错文本中的字符所对应的多维字符特征进行上下文信息整合,得到待纠错文本中的字符的特征信息。
[0151]
在一种可选的实施方式中,上述字符特征的类型包括:内容特征、位置特征、类别特征中任意一种或多种类型,其中类别特征用于表征字符是否属于易错字符。
[0152]
在一种可选的实施方式中,上述字符特征的类型还可以包括拼音特征,所述电子设备的处理器执行所述程序代码时还可用于实现如下步骤:从待处理字符的拼音字母中提取待处理字符的拼音特征。
[0153]
在一种可选的实施方式中,上述基于待纠错文本的第一特征信息,对待纠错文本中的字符进行错误检测,以确定待纠错文本中的字符所对应的错误检测结果,还可通过以下步骤来实现:获取预先训练的错误检测模型,错误检测模型包括激活函数层与分类层;将待纠错文本的第一特征信息输入错误检测模型,通过激活函数层得到待纠错文本中的字符的错误概率,通过分类层将错误概率与错误概率阈值进行对比,以输出待纠错文本中的字符的错误检测结果。
[0154]
在一种可选的实施方式中,上述基于待纠错文本的第二特征信息,对待纠错文本中的字符进行长度预测,以确定待纠错文本中的字符所对应的长度预测值,还可通过以下步骤来实现:获取预先训练的长度预测模型;将待纠错文本的第二特征信息输入长度预测模型进行回归预测,得到待纠错文本中的字符的长度预测回归值;将待纠错文本中的字符的长度预测回归值进行取整处理,得到待纠错文本中的字符的长度预测值。
[0155]
在一种可选的实施方式中,所述电子设备的处理器执行所述程序代码时还可用于实现如下步骤:若长度预测值小于预设长度下限值或大于预设长度上限值,则将长度预测值调整到预设长度下限值与预设长度上限值之间的范围内。
[0156]
在一种可选的实施方式中,上述基于待纠错文本的第一特征信息,对待纠错文本中的字符进行错误检测,以确定待纠错文本中的字符所对应的错误检测结果,以及基于待纠错文本的第二特征信息,对待纠错文本中的字符进行长度预测,以确定待纠错文本中的字符所对应的长度预测值,还可通过以下步骤来实现:基于待纠错文本的第一特征信息,对待纠错文本中的字符进行错误检测;根据待纠错文本中的字符所对应的错误检测结果确定待纠错文本中的错误字符;基于待纠错文本的第二特征信息,对错误字符进行长度预测,以确定错误字符所对应的长度预测值。
[0157]
在一种可选的实施方式中,上述基于待纠错文本中的字符所对应的错误检测结果与长度预测值,对待纠错文本采用掩码字符进行字符替换,得到待纠错文本对应的中间文本,还可通过以下步骤来实现:根据待纠错文本中每个字符所对应的错误检测结果,确定待纠错文本中的错误字符;根据错误字符的长度预测值,将待纠错文本中的错误字符替换为长度预测值对应数量的掩码字符,得到待纠错文本对应的中间文本。
[0158]
在一种可选的实施方式中,上述通过将中间文本中的掩码字符替换为掩码字符对应的预测字符,得到待纠错文本对应的修正文本,还可通过以下步骤来实现:获取预先训练的文本修正模型,文本修正模型包括编码层与解码层;通过编码层对中间文本进行编码,得
到编码特征,通过解码层对编码特征进行解码,得到修正文本;修正文本包括中间文本中除掩码字符外的字符以及掩码字符对应的预测字符。
[0159]
上述文本纠错过程中,一方面,基于错误检测结果以及长度预测结果对待纠错文本采用掩码字符进行替换,以便能够针对待纠错文本中的多种类型的错误同时进行修正,进而提升文本纠错的效率;另一方面,基于文本的第一特征信息和第二特征信息,分别进行错误检测和长度预测,以得到字符级别的错误检测结果和长度预测结果,以便后续针对特定字符进行修正,使得修正后的文本更加贴合原文本的表达内容。
[0160]
需要说明的是:上述的介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0161]
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于:电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0162]
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线、光缆、rf等,或者上述的任意合适的组合。
[0163]
可以以一种或多种程序设计语言的任意组合来编写用于执行本技术操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0164]
示例性装置
[0165]
在介绍了本技术示例性实施方式的介质之后,接下来,参考图7对本技术示例性实施方式的文本纠错装置进行说明。
[0166]
请参阅图7,图7示出的是根据本技术一示例实施方式的文本纠错装置的结构框图。如图7所示,本技术一示例实施方式的文本纠错装置700包括:错误检测模块710、长度预测模块720以及文本修正模块730,其中:
[0167]
错误检测模块710,用于基于待纠错文本的第一特征信息,对所述待纠错文本中的字符进行错误检测,以确定所述待纠错文本中的字符所对应的错误检测结果;
[0168]
长度预测模块720,用于基于所述待纠错文本的第二特征信息,对所述待纠错文本中的字符进行长度预测,以确定所述待纠错文本中的字符所对应的长度预测值;
[0169]
文本修正模块730,用于基于所述待纠错文本中的字符所对应的错误检测结果与长度预测值,对所述待纠错文本采用掩码字符进行字符替换,得到所述待纠错文本对应的
中间文本;通过将所述中间文本中的掩码字符替换为所述掩码字符对应的预测字符,得到所述待纠错文本对应的修正文本。
[0170]
在一种可选的实施方式中,基于前述方案,文本纠错装置700中待纠错文本由语音或图片经过文本转化得到。
[0171]
在一种可选的实施方式中,基于前述方案,文本纠错装置700中第一特征信息和第二特征信息均包括待纠错文本中各字符对应的特征信息。
[0172]
在一种可选的实施方式中,基于前述方案,文本纠错装置700还包括:特征信息获取模块,该特征信息获取模块可以被配置为:对待纠错文本中的字符所对应的各种类型的字符特征进行特征组合,得到待纠错文本中的字符所对应的多维字符特征;对待纠错文本中的字符所对应的多维字符特征进行上下文信息整合,得到待纠错文本中的字符的特征信息。
[0173]
在一种可选的实施方式中,基于前述方案,文本纠错装置700中字符特征的类型包括:内容特征、位置特征、类别特征中任意一种或多种类型,其中类别特征用于表征字符是否属于易错字符。
[0174]
在一种可选的实施方式中,基于前述方案,文本纠错装置700中字符特征的类型还包括拼音特征,文本纠错装置700还可以包括:拼音特征获取模块,用于从待处理字符的拼音字母中提取待处理字符的拼音特征。
[0175]
在一种可选的实施方式中,基于前述方案,错误检测模块710中基于待纠错文本的第一特征信息,对待纠错文本中的字符进行错误检测,以确定待纠错文本中的字符所对应的错误检测结果,可以被配置为:获取预先训练的错误检测模型,错误检测模型包括激活函数层与分类层;将待纠错文本的第一特征信息输入错误检测模型,通过激活函数层得到待纠错文本中的字符的错误概率,通过分类层将错误概率与错误概率阈值进行对比,以输出待纠错文本中的字符的错误检测结果。
[0176]
在一种可选的实施方式中,基于前述方案,长度预测模块720中基于待纠错文本的第二特征信息,对待纠错文本中的字符进行长度预测,以确定待纠错文本中的字符所对应的长度预测值,可以被配置为:获取预先训练的长度预测模型;将待纠错文本的第二特征信息输入长度预测模型进行回归预测,得到待纠错文本中的字符的长度预测回归值;将待纠错文本中的字符的长度预测回归值进行取整处理,得到待纠错文本中的字符的长度预测值。
[0177]
在一种可选的实施方式中,基于前述方案,文本纠错装置700中:若长度预测值小于预设长度下限值或大于预设长度上限值,则将长度预测值调整到预设长度下限值与预设长度上限值之间的范围内。
[0178]
在一种可选的实施方式中,基于前述方案,错误检测模块710以及长度预测模块720,可以被进一步配置为:基于待纠错文本的第一特征信息,对待纠错文本中的字符进行错误检测;根据待纠错文本中的字符所对应的错误检测结果确定待纠错文本中的错误字符;基于待纠错文本的第二特征信息,对错误字符进行长度预测,以确定错误字符所对应的长度预测值。
[0179]
在一种可选的实施方式中,基于前述方案,文本修正模块730中基于待纠错文本中的字符所对应的错误检测结果与长度预测值,对待纠错文本采用掩码字符进行字符替换,
得到待纠错文本对应的中间文本,可以被配置为:根据待纠错文本中每个字符所对应的错误检测结果,确定待纠错文本中的错误字符;根据错误字符的长度预测值,将待纠错文本中的错误字符替换为长度预测值对应数量的掩码字符,得到待纠错文本对应的中间文本。
[0180]
在一种可选的实施方式中,基于前述方案,文本修正模块730中通过将中间文本中的掩码字符替换为掩码字符对应的预测字符,得到待纠错文本对应的修正文本,可以被配置为:获取预先训练的文本修正模型,文本修正模型包括编码层与解码层;通过编码层对中间文本进行编码,得到编码特征,通过解码层对编码特征进行解码,得到修正文本;修正文本包括中间文本中除掩码字符外的字符以及掩码字符对应的预测字符。
[0181]
上述文本纠错装置中,一方面,基于错误检测结果以及长度预测结果对待纠错文本采用掩码字符进行替换,以便能够针对待纠错文本中的多种类型的错误同时进行修正,进而提升文本纠错的效率;另一方面,基于文本的第一特征信息和第二特征信息,分别进行错误检测和长度预测,以得到字符级别的错误检测结果和长度预测结果,以便后续针对特定字符进行修正,使得修正后的文本更加贴合原文本的表达内容。
[0182]
应当注意,尽管在上文详细描述中提及了文本纠错装置的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本技术的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
[0183]
示例性电子设备
[0184]
在介绍了本技术示例性实施方式的方法、介质和装置之后,接下来,介绍根据本技术的另一示例性实施方式的电子设备。
[0185]
所属技术领域的技术人员能够理解,本技术的各个方面可以实现为系统、方法或程序产品。因此,本技术的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
[0186]
下面参照图8来描述根据本发明的这种实施例的电子设备800。图8显示的电子设备800仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
[0187]
如图8所示,电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于:上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830、显示单元840。
[0188]
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元810执行,使得所述处理单元810执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。
[0189]
存储单元820可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)821和/或高速缓存存储单元822,还可以进一步包括只读存储单元(rom)823。
[0190]
存储单元820还可以包括具有一组(至少一个)程序模块825的程序/使用工具824,这样的程序模块825包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包含网络环境的现实。
[0191]
总线830可以包括数据总线、地址总线和控制总线。
[0192]
电子设备800也可以与一个或多个外部设备870(例如键盘、指向设备、蓝牙设备
等)通信,这种通信可以通过输入/输出(i/o)接口850进行。并且,电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器860通过总线830与电子设备800的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备800使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
[0193]
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施例的方法。
[0194]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施方式。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施方式仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
[0195]
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限定。

技术特征:


1.一种文本纠错方法,其特征在于,所述方法包括:基于待纠错文本的第一特征信息,对所述待纠错文本中的字符进行错误检测,以确定所述待纠错文本中的字符所对应的错误检测结果,以及基于所述待纠错文本的第二特征信息,对所述待纠错文本中的字符进行长度预测,以确定所述待纠错文本中的字符所对应的长度预测值;基于所述待纠错文本中的字符所对应的错误检测结果与长度预测值,对所述待纠错文本采用掩码字符进行字符替换,得到所述待纠错文本对应的中间文本;通过将所述中间文本中的掩码字符替换为所述掩码字符对应的预测字符,得到所述待纠错文本对应的修正文本。2.根据权利要求1所述的文本纠错方法,其特征在于,所述待纠错文本由语音或图片经过文本转化得到。3.根据权利要求1所述的文本纠错方法,其特征在于,所述第一特征信息和所述第二特征信息均包括所述待纠错文本中各字符对应的特征信息。4.根据权利要求3所述的文本纠错方法,其特征在于,所述方法还包括:对待纠错文本中的字符所对应的各种类型的字符特征进行特征组合,得到所述待纠错文本中的字符所对应的多维字符特征;对所述待纠错文本中的字符所对应的多维字符特征进行上下文信息整合,得到所述待纠错文本中的字符的特征信息。5.根据权利要求4所述的文本纠错方法,其特征在于,所述字符特征的类型包括:内容特征、位置特征、类别特征中任意一种或多种类型,其中所述类别特征用于表征字符是否属于易错字符。6.根据权利要求4所述的文本纠错方法,其特征在于,所述字符特征的类型还包括拼音特征,所述方法还包括:从待处理字符的拼音字母中提取所述待处理字符的拼音特征。7.根据权利要求1所述的文本纠错方法,其特征在于,所述基于所述待纠错文本中的字符所对应的错误检测结果与长度预测值,对所述待纠错文本采用掩码字符进行字符替换,得到所述待纠错文本对应的中间文本,包括:根据所述待纠错文本中每个字符所对应的错误检测结果,确定所述待纠错文本中的错误字符;根据所述错误字符的长度预测值,将所述待纠错文本中的错误字符替换为所述长度预测值对应数量的掩码字符,得到所述待纠错文本对应的中间文本。8.一种文本纠错装置,其特征在于,所述装置包括:错误检测模块,用于基于待纠错文本的第一特征信息,对所述待纠错文本中的字符进行错误检测,以确定所述待纠错文本中的字符所对应的错误检测结果;长度预测模块,用于基于所述待纠错文本的第二特征信息,对所述待纠错文本中的字符进行长度预测,以确定所述待纠错文本中的字符所对应的长度预测值;文本修正模块,用于基于所述待纠错文本中的字符所对应的错误检测结果与长度预测值,对所述待纠错文本采用掩码字符进行字符替换,得到所述待纠错文本对应的中间文本;通过将所述中间文本中的掩码字符替换为所述掩码字符对应的预测字符,得到所述待纠错
文本对应的修正文本。9.一种电子设备,其特征在于,包括:处理器;存储器,用于存储所述处理器的可执行指令;其中,所述处理器被配置为经由执行所述可执行指令来执行权利要求1-7中的任意一项所述的文本纠错方法。10.一种计算机可读存储介质,其上存储计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7中的任意一项所述的文本纠错方法。

技术总结


本申请提供了一种文本纠错方法、装置、电子设备及计算机可读存储介质,涉及计算机技术领域。该方法包括:基于待纠错文本的第一特征信息,对待纠错文本中的字符进行错误检测,以确定待纠错文本中的字符所对应的错误检测结果,以及基于待纠错文本的第二特征信息,对待纠错文本中的字符进行长度预测,以确定待纠错文本中的字符所对应的长度预测值;基于待纠错文本中的字符所对应的错误检测结果与长度预测值,对待纠错文本采用掩码字符进行字符替换,得到待纠错文本对应的中间文本;通过将中间文本中的掩码字符替换为掩码字符对应的预测字符,得到待纠错文本对应的修正文本。本申请在错误检测和长度预测基础上对文本修正,提升了文本纠错的效率。升了文本纠错的效率。升了文本纠错的效率。


技术研发人员:

徐梓钧 冯旻伟 尹竞成 阮良

受保护的技术使用者:

杭州网易智企科技有限公司

技术研发日:

2022.09.27

技术公布日:

2022/12/23

本文发布于:2024-09-23 02:30:54,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/45878.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:字符   文本   特征   长度
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议