文本纠错模型的训练方法、文本识别方法及相关设备与流程



1.本发明涉及文本识别技术领域,尤其涉及一种文本纠错模型的训练方法、文本识别方法及相关设备。


背景技术:



2.随着信息处理技术的发展,基于机器深度学习进行文字识别的光学字符识别技术得到了较大提高。光学字符识别需要针对文本识别结果进行文本纠错以确保文本识别结果的准确性,目前,在进行文本纠错模型的训练时,文本纠错模型和文本识别模型处于解耦合状态,导致训练的文本纠错模型的准确率较低。


技术实现要素:



3.本发明实施例提供一种文本纠错模型的训练方法、文本识别方法及相关设备,以解决现有在进行文本纠错模型的训练时,文本纠错模型和文本识别模型处于解耦合状态,导致训练的文本纠错模型的准确率较低的问题。
4.为解决上述技术问题,本发明是这样实现的:
5.第一方面,本发明实施例提供了一种文本纠错模型的训练方法,所述方法包括:
6.对第一样本图像进行文本检测,获得第一目标图像和第二目标图像,所述第一目标图像为所述第一样本图像中包括文本区域的部分图像,所述第二目标图像为所述第一目标图像去除背景信息后的图像;
7.对所述第一目标图像进行文本识别,得到第一文本识别结果及所述第一文本识别结果对应的文本特征;
8.将所述第二目标图像、所述第一文本识别结果及所述第一文本识别结果对应的文本特征输入文本纠错模型,基于所述文本纠错模型的输出对所述文本纠错模型进行训练,所述文本纠错模型的输出包括纠错结果,以及所述纠错结果对应的置信度。
9.第二方面,本发明实施例提供了一种文本识别方法,所述方法包括:
10.获取待处理图像的第二文本识别结果;
11.采用文本纠错模型对所述第二文本识别结果进行文本纠错,所述文本纠错模型为第一方面所述的文本纠错模型。
12.第三方面,本发明实施例提供了一种文本纠错模型的训练装置,所述装置包括:
13.检测模块,用于对第一样本图像进行文本检测,获得第一目标图像和第二目标图像,所述第一目标图像为所述第一样本图像中包括文本区域的部分图像,所述第二目标图像为所述第一目标图像去除背景信息后的图像;
14.识别模块,用于对所述第一目标图像进行文本识别,得到第一文本识别结果及所述第一文本识别结果对应的文本特征;
15.训练模块,用于将所述第二目标图像、所述第一文本识别结果及所述第一文本识别结果对应的文本特征输入文本纠错模型,基于所述文本纠错模型的输出对所述文本纠错
模型进行训练,所述文本纠错模型的输出包括纠错结果,以及所述纠错结果对应的置信度。
16.第四方面,本发明实施例提供了一种文本识别装置,所述装置包括:
17.获取模块,用于获取待处理图像的第二文本识别结果;
18.纠错模块,用于采用文本纠错模型对所述第二文本识别结果进行文本纠错,所述文本纠错模型为第一方面所述的文本纠错模型。
19.第五方面,本发明实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如第一方面所述的文本纠错模型的训练方法中的步骤;或者,所述程序被所述处理器执行时实现如第二方面所述的文本识别方法中的步骤。
20.第六方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的文本纠错模型的训练方法的步骤;或者所述计算机程序被处理器执行时实现上述第二方面所述的文本识别方法的步骤。
21.本发明实施例中,对第一样本图像进行文本检测,获得第一目标图像和第二目标图像,所述第一目标图像为所述第一样本图像中包括文本区域的部分图像,所述第二目标图像为所述第一目标图像去除背景信息后的图像;对所述第一目标图像进行文本识别,得到第一文本识别结果及所述第一文本识别结果对应的文本特征;将所述第二目标图像、所述第一文本识别结果及所述第一文本识别结果对应的文本特征输入文本纠错模型,基于所述文本纠错模型的输出对所述文本纠错模型进行训练,所述文本纠错模型的输出包括纠错结果,以及所述纠错结果对应的置信度。这样,在训练文本纠错模型时,通过第二目标图像及所述第一文本识别结果对应的文本特征将所述文本纠错模型和文本识别模型紧耦合,能够提升训练的文本纠错模型的准确率,且能够降低数据标注的成本。
附图说明
22.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
23.图1是本发明实施例提供的一种文本纠错模型的训练方法的流程图;
24.图2是本发明实施例提供的一种检测子模型的结构示意图;
25.图3是本发明实施例提供的一种识别子模型的结构示意图;
26.图4是本发明实施例提供的一种文本纠错模型的结构示意图;
27.图5是本发明实施例提供的一种计算bert网络输入的示意图;
28.图6是本发明实施例提供的一种文本识别方法的流程图;
29.图7是本发明实施例提供的一种文本纠错模型的训练装置的结构示意图之一;
30.图8是本发明实施例提供的一种文本纠错模型的训练装置的结构示意图之二;
31.图9是本发明实施例提供的一种文本识别装置的结构示意图;
32.图10是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
33.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
34.参见图1,图1是本发明实施例提供的一种文本纠错模型的训练方法的流程图,如图1所示,所述方法包括以下步骤:
35.步骤101、对第一样本图像进行文本检测,获得第一目标图像和第二目标图像,所述第一目标图像为所述第一样本图像中包括文本区域的部分图像,所述第二目标图像为所述第一目标图像去除背景信息后的图像。
36.其中,文本识别模型可以包括检测子模型和识别子模型。可以实现文本检测效果的网络结构均可以作为检测子模型的网络结构,示例地,检测子模型可以为east(efficient and accurate scene text,高效准确的场景文本)模型。可以通过检测子模型对第一样本图像进行文本检测,以检测子模型为east模型为例,east模型的输出可以为第一样本图像中表征文本框的四个对角点、文本框的倾斜角度及第一样本图像中各个位置点是否为文本区域的得分。通过第一样本图像中表征文本框的四个对角点及文本框的倾斜角度可以获得第一目标图像,通过第一目标图像及各个位置点是否为文本区域的得分可以获取第二目标图像。
37.作为一种具体的实施方式,east模型可以为全卷积网络,可以包括多个卷积(conv)层和多个反池化(unpool)层,如图2所示,east模型可以包括第一卷积层至第八卷积层共八个卷积层,以及第一反池化层至第三反池化层共三个反池化层。第一卷积层的输入为第一样本图像,第二卷积层至第四卷积层的输入均为上一级卷积层的输出,第一反池化层的输入为第四卷积层的输出,第五卷积层的输入为第一反池化层的输出与第三卷积层的输出的拼接(concat)结果,第六卷积层的输入为第二反池化层的输出与第二卷积层的输出的拼接结果,第七卷积层的输入为第三反池化层的输出与第一卷积层的输出的拼接结果,第八卷积层的输入为第七卷积层的输出。
38.另外,经过图2的卷积操作和反池化操作,可以得到跟第一样本图像尺寸一样的特征图(feature map)。将特征图分别通过通道为1、4、1的1*1卷积核可以得到得分图(score map)、文本框(text boxes)、文本角度(text angle)。score map表示第一样本图像中的位置点是否为文本区域的得分,text boxes表示该位置点到文本框四个边的距离,text angle表示该位置点的文本框的倾斜角度。通过text boxes和text angle可以得到倾斜的文本检测框,第一目标图像可以为根据文本检测框对第一样本图像进行裁剪得到的结果。将第一样本图像中对应score map分数小于预设分值的位置点的值置0,即非文本区域的位置置0,再根据文本检测框裁剪可以得到第二目标图像,从而可以去除第一目标图像中的背景信息,去掉背景因素的影响。预设分值可以为0.4,或者0.6,或者0.8等等,示例地,可以为0.5。第一目标图像和第二目标图像的生成可以根据每个文本检测框的角度对应旋转图片使文本框水平之后再裁剪。
39.需要说明的是,检测子模型可以在一定的真实数据集上训练完成,从而不需要重新训练或者联合训练。训练检测子模型的数据可以来自样本集合,为提高样本集合中样本
标注的准确性,可以将检测子模型检测出来的文本框与标注的文本框交并比低于0.7的样本图像从样本集合中删除。
40.步骤102、对所述第一目标图像进行文本识别,得到第一文本识别结果及所述第一文本识别结果对应的文本特征。
41.其中,可以实现文本识别效果的网络结构均可以作为识别子模型的网络结构,示例地,识别子模型可以包括crnn(convolutional recurrent neural network,卷积递归神经网络)和ctc(connectionist temporal classification,联结主义时间分类)模型。可以通过识别子模型对第一目标图像进行文本识别。以识别子模型包括crnn和ctc模型为例,cnn从第一目标图像中提取特征序列,rnn预测从卷积层获取的特征序列的标签(真实值)分布,ctc把从循环层获取的标签分布通过去重整合等操作转换成第一文本识别结果。
42.如图3所示,以第一样本图像中的文字内容包括“销售成员生产的同类产品”为例,通过ctc的输出,确定rnn输出的t2、t3和t6、t7和t12、t13分别为同一个字,将这些时序对应的rnn的输入拼接起来作为对应文字的特征序列,其他位置的文字则取对应时序的rnn的输入作为特征序列,记为fi,i代表文字序号,每个文字对应一个特征序列,f1至fn为第一文本识别结果对应的文本特征。
43.需要说明的是,识别子模型可以在一定的真实数据集上训练完成,从而不需要重新训练或者联合训练。训练识别子模型的数据可以来自真实数据集以及检测子模型生成的数据,为使得识别的文本长度与真实的文本长度相同,可以删除识别子模型生成的数据中识别的文本长度不等于真实文本长度的样本数据。
44.步骤103、将所述第二目标图像、所述第一文本识别结果及所述第一文本识别结果对应的文本特征输入文本纠错模型,基于所述文本纠错模型的输出对所述文本纠错模型进行训练,所述文本纠错模型的输出包括纠错结果,以及所述纠错结果对应的置信度。
45.其中,可以计算纠错结果的损失值,以纠错结果的损失值反向更新文本纠错模型的模型参数;或者可以分别计算纠错结果的损失值,以及所述置信度的损失值,基于纠错结果的损失值及所述置信度的损失值反向更新文本纠错模型的模型参数,示例地,可以对纠错结果的损失值及所述置信度的损失值进行加权平均,作为文本纠错模型的输出的损失值反向更新文本纠错模型的模型参数。可以以交叉熵的方式计算损失值。
46.需要说明的是,训练的文本纠错模型可以用于文本识别,能够提高光学字符识别的准确性。可以获取待处理图像的第二文本识别结果,采用训练好的文本纠错模型对所述第二文本识别结果进行文本纠错。所述获取待处理图像的第二文本识别结果,可以包括,对待处理图像进行文本检测,获得第三目标图像和第四目标图像,所述第三目标图像为所述待处理图像中包括文本区域的部分图像,所述第四目标图像为所述第三目标图像去除背景信息后的图像;对所述第三目标图像进行文本识别,得到第二文本识别结果及所述第二文本识别结果对应的文本特征。所述采用训练好的文本纠错模型对所述第二文本识别结果进行文本纠错,可以包括,将所述第四目标图像、所述第二文本识别结果及所述第二文本识别结果对应的文本特征输入训练好的文本纠错模型进行文本纠错。其中,文本纠错模型的输出可以包括纠错结果,以及所述纠错结果对应的置信度,可以在置信度低于预设阈值时,将第二文本识别结果作为最终文本识别结果;在置信度高于所述预设阈值时,将纠错结果作为最终文本识别结果。
47.本发明实施例中,对第一样本图像进行文本检测,获得第一目标图像和第二目标图像,所述第一目标图像为所述第一样本图像中包括文本区域的部分图像,所述第二目标图像为所述第一目标图像去除背景信息后的图像;对所述第一目标图像进行文本识别,得到第一文本识别结果及所述第一文本识别结果对应的文本特征;将所述第二目标图像、所述第一文本识别结果及所述第一文本识别结果对应的文本特征输入文本纠错模型,基于所述文本纠错模型的输出对所述文本纠错模型进行训练,所述文本纠错模型的输出包括纠错结果,以及所述纠错结果对应的置信度。这样,在训练文本纠错模型时,通过第二目标图像及所述第一文本识别结果对应的文本特征将所述文本纠错模型和文本识别模型紧耦合,能够提升训练的文本纠错模型的准确率,且能够降低数据标注的成本。
48.可选的,所述文本纠错模型包括第一文本纠错网络和第二文本纠错网络;
49.所述将所述第二目标图像、所述第一文本识别结果及所述第一文本识别结果对应的文本特征输入文本纠错模型,包括:
50.将所述第一文本识别结果对应的文本特征输入所述第一文本纠错网络,得到第一子纠错结果;
51.将所述第二目标图像及所述第一文本识别结果输入所述第二文本纠错网络,得到第二子纠错结果及所述置信度;
52.其中,所述纠错结果基于所述第一子纠错结果及所述第二子纠错结果确定。
53.其中,第一子纠错结果可以为文本各个位置点的文字的概率分布,或者可以为文本各个位置点的文字的特征值。第二子纠错结果可以为文本各个位置点的文字的概率分布,或者可以为文本各个位置点的文字的特征值。通过概率分布或者特征值可以确定文本各个位置点的文字。所述纠错结果可以为所述第一子纠错结果及所述第二子纠错结果的加权平均值,示例地,所述纠错结果q可以为:
54.qi=α*pi+(1-α)*ti
55.其中,pi可以为第一子纠错结果,ti可以为第二子纠错结果,i大于1小于n,n为纠错结果中的文字个数,α为预设值。示例地,α可以取值为0.1。
56.另外,所述第一文本纠错网络可以包括卷积层、与所述卷积层连接的全连接层、及与所述全连接层连接的归一化层;或者,如图4所示,可以包括卷积层、与所述卷积层连接的归一化层;或者,具有相同效果的网络结构也可以作为第一文本纠错网络的网络结构,本实施例对此不进行限定。如图4所示,所述第二文本纠错网络可以包括bert(bidirectional encoder representation from transformers,基于转换器的双向编码表征)网络与卷积网络(cnn),或者,具有相同效果的网络结构也可以作为第二文本纠错网络的网络结构,本实施例对此不进行限定。
57.该实施方式中,通过第一文本纠错网络和第二文本纠错网络构建成文本纠错模型,提出了一种与文本识别模型紧耦合的文本纠错模型的纠错模型结构,能够获得较好的文本纠错效果。
58.可选的,所述第二文本纠错网络包括bert网络与卷积网络,所述将所述第二目标图像及所述第一文本识别结果输入所述第二文本纠错网络,得到第二子纠错结果及所述置信度,包括:
59.将所述第二目标图像输入所述卷积网络,得到卷积向量;
60.将所述第一文本识别结果对应的标记嵌入向量及位置嵌入向量、以及所述卷积向量输入所述bert网络,得到第二子纠错结果及所述置信度。
61.其中,所述第一文本识别结果对应的标记嵌入(token embeddings)向量可以为词向量,该词向量的第一个单词可以为e[cls]标志,用于区分文本是否需要纠错。位置嵌入(position embeddings)向量可以用于表征学习得到的位置特征。如图5所示,以第一文本识别结果为“销售成员生产的商类产品”为例,bert网络的输入可以为token embeddings向量、position embeddings向量及卷积向量的叠加。卷积向量可以叠加在token embeddings向量中的e[cls]上,能够通过图像信息约束文本是否需要纠错。第二子纠错结果可以包括t1至tn,t1至tn可以为文本各个位置点的文字的概率分布。
[0062]
以所述第二文本纠错网络包括bert网络与卷积网络为例,如图4所示,第二目标图像中的文本内容可以为“销售成员生产的同类产品”,将第二目标图像经过cnn处理后叠加在token embeddings向量中的e[cls]上,作为bert网络输入的[cls],将第一文本识别结果“销售成员生产的商类产品”对应的token embeddings向量和position embeddings向量叠加后得到的tok1至tokn作为bert网络输入的e1至en。bert网络删除了不需要的segment embeddings(部分嵌入)向量。bert网络输出置信度,以及第二子纠错结果t1至tn。将第二子纠错结果t1至tn分别与第一文本识别结果对应的文本特征f1至fn归一化后的第一子纠错结果进行加权平均处理,计算损失值,在进行训练时,可以保留第一文本识别结果中与真实文本不相同的50%的样本,将其他的样本中的至少一个字替换为与其特征向量的相似度高于预设相似度的字。
[0063]
该实施方式中,通过将第二目标图像经过卷积网络得到的卷积向量输入bert网络,能够将文本检测过程中的图像信息应用于文本纠错,能够提升训练的文本纠错模型的准确率。
[0064]
可选的,所述第一文本纠错网络包括卷积层、与所述卷积层连接的全连接层、及与所述全连接层连接的归一化层。
[0065]
其中,将所述第一文本识别结果对应的文本特征f1至fn分别通过卷积层、与所述卷积层连接的全连接层、及与所述全连接层连接的归一化层进行处理,可以得到与第二子纠错结果相同维度的第一子纠错结果。
[0066]
该实施方式中,通过卷积层、与所述卷积层连接的全连接层、及与所述全连接层连接的归一化层对第一文本识别结果对应的文本特征进行处理,得到第一子纠错结果,从而能够根据第一子纠错结果确定纠错结果。
[0067]
可选的,所述对第一样本图像进行文本检测之前,所述方法还包括:
[0068]
提取预设文本内容中每个字对应的特征向量;
[0069]
基于所述特征向量更换所述预设文本内容中的至少一个字;
[0070]
基于预设背景图像对更换后的预设文本内容进行融合处理,得到第二样本图像;
[0071]
将所述第二样本图像添加至样本集合中,得到扩充后的样本集合;
[0072]
其中,所述第一样本图像为所述扩充后的样本集合中的任意一个样本图像。
[0073]
其中,可以通过字形模型提取预设文本内容中每个字对应的特征向量。所述基于所述特征向量更换所述预设文本内容中的至少一个字,可以是将所述预设文本内容中的至少一个字替换为与其特征向量的相似度高于预设相似度的字。预设文本内容可以是从预先
存储的语义完整的句子集合中随机选择的句子。示例地,可以从语义完整的句子集合中随机选择一部分替换其中一个或者多个字变成与其字形相似的其他字。对于预设文本内容中更换的字,可以为其设置表征该字有误的标签。所述基于预设背景图像对更换后的预设文本内容进行融合处理,可以是基于预设背景图像对更换后的预设文本内容进行泊松融合处理,示例地,可以将更换后的预设文本内容叠加在与样本集合中的样本图像相同或相似的背景图像上,并进行旋转、倾斜及颜抖动等基本变换;可以对叠加后的图像进行二值化,然后进行膨胀及腐蚀处理,得到针对更换后的预设文本内容的掩码(mask);可以基于掩码对二值化后的图像和预设背景图像进行正常克隆(normal_clone)的泊松融合,得到第二样本图像,并且,可以记录第二样本图像中更换后的预设文本内容及其文本位置作为标签。
[0074]
该实施方式中,基于预设背景图像对更换后的预设文本内容进行融合处理,得到第二样本图像,将所述第二样本图像添加至样本集合中,从而能够对样本集合进行扩充,且能够淡化背景信息对文本纠错模型的影响。
[0075]
参见图6,图6是本发明实施例提供的一种文本识别方法的流程图,如图6所示,所述方法包括以下步骤:
[0076]
步骤201、获取待处理图像的第二文本识别结果;
[0077]
步骤202、采用文本纠错模型对所述第二文本识别结果进行文本纠错,所述文本纠错模型为本发明实施例所述的文本纠错模型。
[0078]
本发明实施例中,获取待处理图像的第二文本识别结果;采用文本纠错模型对所述第二文本识别结果进行文本纠错,所述文本纠错模型为本发明实施例所述的文本纠错模型。这样,在训练文本纠错模型时,通过第二目标图像及所述第一文本识别结果对应的文本特征将所述文本纠错模型和文本识别模型紧耦合,能够提升训练的文本纠错模型的准确率,将训练的文本纠错模型应用于光学字符识别,能够提高光学字符识别的准确性。
[0079]
参见图7,图7是本发明实施例提供的一种文本纠错模型的训练装置的结构示意图之一,如图7所示,所述装置300包括:
[0080]
检测模块301,用于对第一样本图像进行文本检测,获得第一目标图像和第二目标图像,所述第一目标图像为所述第一样本图像中包括文本区域的部分图像,所述第二目标图像为所述第一目标图像去除背景信息后的图像;
[0081]
识别模块302,用于对所述第一目标图像进行文本识别,得到第一文本识别结果及所述第一文本识别结果对应的文本特征;
[0082]
训练模块303,用于将所述第二目标图像、所述第一文本识别结果及所述第一文本识别结果对应的文本特征输入文本纠错模型,基于所述文本纠错模型的输出对所述文本纠错模型进行训练,所述文本纠错模型的输出包括纠错结果,以及所述纠错结果对应的置信度。
[0083]
可选的,所述文本纠错模型包括第一文本纠错网络和第二文本纠错网络;
[0084]
所述训练模块303具体用于:
[0085]
将所述第一文本识别结果对应的文本特征输入所述第一文本纠错网络,得到第一子纠错结果;
[0086]
将所述第二目标图像及所述第一文本识别结果输入所述第二文本纠错网络,得到第二子纠错结果及所述置信度;
[0087]
基于所述文本纠错模型的输出对所述文本纠错模型进行训练;
[0088]
其中,所述纠错结果基于所述第一子纠错结果及所述第二子纠错结果确定。
[0089]
可选的,所述第二文本纠错网络包括bert网络与卷积网络,所述训练模块303具体还用于:
[0090]
将所述第二目标图像输入所述卷积网络,得到卷积向量;
[0091]
将所述第一文本识别结果对应的标记嵌入向量及位置嵌入向量、以及所述卷积向量输入所述bert网络,得到第二子纠错结果及所述置信度。
[0092]
可选的,所述第一文本纠错网络包括卷积层、与所述卷积层连接的全连接层、及与所述全连接层连接的归一化层。
[0093]
可选的,如图8所示,所述装置300还包括:
[0094]
提取模块304,用于提取预设文本内容中每个字对应的特征向量;
[0095]
更换模块305,用于基于所述特征向量更换所述预设文本内容中的至少一个字;
[0096]
处理模块306,用于基于预设背景图像对更换后的预设文本内容进行融合处理,得到第二样本图像;
[0097]
添加模块307,用于将所述第二样本图像添加至所述样本集合中,得到扩充后的样本集合;
[0098]
其中,所述第一样本图像为所述扩充后的样本集合中的任意一个样本图像。
[0099]
文本纠错模型的训练装置能够实现图1的方法实施例中实现的各个过程,为避免重复,这里不再赘述。
[0100]
参见图9,图9是本发明实施例提供的一种文本识别装置的结构示意图,如图9所示,所述装置400包括:
[0101]
获取模块401,用于获取待处理图像的第二文本识别结果;
[0102]
纠错模块402,用于采用文本纠错模型对所述第二文本识别结果进行文本纠错,所述文本纠错模型为本发明实施例所述的文本纠错模型。
[0103]
文本识别装置能够实现图6的方法实施例中实现的各个过程,为避免重复,这里不再赘述。
[0104]
如图10所示,本发明实施例还提供了一种电子设备500,包括:处理器501、存储器502及存储在所述存储器502上并可在所述处理器501上运行的程序,所述程序被所述处理器501执行时实现上述文本纠错模型的训练方法实施例的各个过程,或者,所述程序被所述处理器501执行时实现上述文本识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0105]
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述文本纠错模型的训练方法实施例的各个过程,或者,该计算机程序被处理器执行时实现上述文本识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如rom、ram、磁碟或者光盘等。
[0106]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有
的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0107]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
[0108]
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

技术特征:


1.一种文本纠错模型的训练方法,其特征在于,所述方法包括:对第一样本图像进行文本检测,获得第一目标图像和第二目标图像,所述第一目标图像为所述第一样本图像中包括文本区域的部分图像,所述第二目标图像为所述第一目标图像去除背景信息后的图像;对所述第一目标图像进行文本识别,得到第一文本识别结果及所述第一文本识别结果对应的文本特征;将所述第二目标图像、所述第一文本识别结果及所述第一文本识别结果对应的文本特征输入文本纠错模型,基于所述文本纠错模型的输出对所述文本纠错模型进行训练,所述文本纠错模型的输出包括纠错结果,以及所述纠错结果对应的置信度。2.根据权利要求1所述的方法,其特征在于,所述文本纠错模型包括第一文本纠错网络和第二文本纠错网络;所述将所述第二目标图像、所述第一文本识别结果及所述第一文本识别结果对应的文本特征输入文本纠错模型,包括:将所述第一文本识别结果对应的文本特征输入所述第一文本纠错网络,得到第一子纠错结果;将所述第二目标图像及所述第一文本识别结果输入所述第二文本纠错网络,得到第二子纠错结果及所述置信度;其中,所述纠错结果基于所述第一子纠错结果及所述第二子纠错结果确定。3.根据权利要求2所述的方法,其特征在于,所述第二文本纠错网络包括bert网络与卷积网络,所述将所述第二目标图像及所述第一文本识别结果输入所述第二文本纠错网络,得到第二子纠错结果及所述置信度,包括:将所述第二目标图像输入所述卷积网络,得到卷积向量;将所述第一文本识别结果对应的标记嵌入向量及位置嵌入向量、以及所述卷积向量输入所述bert网络,得到第二子纠错结果及所述置信度。4.根据权利要求2所述的方法,其特征在于,所述第一文本纠错网络包括卷积层、与所述卷积层连接的全连接层、及与所述全连接层连接的归一化层。5.根据权利要求1所述的方法,其特征在于,所述对第一样本图像进行文本检测之前,所述方法还包括:提取预设文本内容中每个字对应的特征向量;基于所述特征向量更换所述预设文本内容中的至少一个字;基于预设背景图像对更换后的预设文本内容进行融合处理,得到第二样本图像;将所述第二样本图像添加至所述样本集合中,得到扩充后的样本集合;其中,所述第一样本图像为所述扩充后的样本集合中的任意一个样本图像。6.一种文本识别方法,其特征在于,所述方法包括:获取待处理图像的第二文本识别结果;采用文本纠错模型对所述第二文本识别结果进行文本纠错,所述文本纠错模型为权利要求1-5中任一项所述的文本纠错模型。7.一种文本纠错模型的训练装置,其特征在于,所述装置包括:检测模块,用于对第一样本图像进行文本检测,获得第一目标图像和第二目标图像,所
述第一目标图像为所述第一样本图像中包括文本区域的部分图像,所述第二目标图像为所述第一目标图像去除背景信息后的图像;识别模块,用于对所述第一目标图像进行文本识别,得到第一文本识别结果及所述第一文本识别结果对应的文本特征;训练模块,用于将所述第二目标图像、所述第一文本识别结果及所述第一文本识别结果对应的文本特征输入文本纠错模型,基于所述文本纠错模型的输出对所述文本纠错模型进行训练,所述文本纠错模型的输出包括纠错结果,以及所述纠错结果对应的置信度。8.根据权利要求7所述的装置,其特征在于,所述文本纠错模型包括第一文本纠错网络和第二文本纠错网络;所述训练模块具体用于:将所述第一文本识别结果对应的文本特征输入所述第一文本纠错网络,得到第一子纠错结果;将所述第二目标图像及所述第一文本识别结果输入所述第二文本纠错网络,得到第二子纠错结果及所述置信度;基于所述文本纠错模型的输出对所述文本纠错模型进行训练;其中,所述纠错结果基于所述第一子纠错结果及所述第二子纠错结果确定。9.一种文本识别装置,其特征在于,所述装置包括:获取模块,用于获取待处理图像的第二文本识别结果;纠错模块,用于采用文本纠错模型对所述第二文本识别结果进行文本纠错,所述文本纠错模型为权利要求1-5中任一项所述的文本纠错模型。10.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如权利要求1至5中任一项所述的文本纠错模型的训练方法中的步骤;或者,所述程序被所述处理器执行时实现如权利要求6所述的文本识别方法中的步骤。

技术总结


本发明提供一种文本纠错模型的训练方法、文本识别方法及相关设备,涉及文本识别技术领域,其中,文本纠错模型的训练方法包括:对第一样本图像进行文本检测,获得第一目标图像和第二目标图像,第一目标图像为第一样本图像中包括文本区域的部分图像,第二目标图像为第一目标图像去除背景信息后的图像;对第一目标图像进行文本识别,得到第一文本识别结果及第一文本识别结果对应的文本特征;将第二目标图像、第一文本识别结果及第一文本识别结果对应的文本特征输入文本纠错模型,基于文本纠错模型的输出对文本纠错模型进行训练,文本纠错模型的输出包括纠错结果,以及纠错结果对应的置信度。本发明实施例能够提升训练的文本纠错模型的准确率。的准确率。的准确率。


技术研发人员:

胡蒙 黄川 贾珏

受保护的技术使用者:

中国移动通信集团有限公司

技术研发日:

2021.06.07

技术公布日:

2022/12/22

本文发布于:2024-09-20 22:38:34,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/45900.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   文本   图像   模型
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议