文本识别方法、装置、电子设备、存储介质及程序产品与流程



1.本技术涉及文本识别领域,更具体的说,是涉及文本识别方法、装置、电子设备、存储介质及程序产品。


背景技术:



2.在办理业务的过程中,例如在进行金融交易时,会通过反系统对客户进行风险评估,对于风险评级为中高风险以上的客户,会对其进行纸质问卷调查,完成调查问卷后需要对纸质调查问卷里的文本进行文本识别,以将识别到的内容提交至审批处进行审批,基于审批结果确定反系统对客户的风险评级是否正确。
3.在纸质调查问卷里中存在同一题目答案文本之间距离过远的情况,在针对题目的答案文本进行识别过程中,可能仅将部分答案文本作为该题目的答案进行审核,导致审批结果不准确。
4.综上,如何完整的识别出每个题目的答案,是本领域技术人员急需解决的难题。


技术实现要素:



5.有鉴于此,本技术提供了一种文本识别方法、装置、电子设备、存储介质及程序产品。
6.为实现上述目的,本技术提供如下技术方案:
7.本技术第一方面提供了一种文本识别方法,包括:
8.获取调查问卷图像,所述调查问卷图像包括多个目标题目和多个所述目标题目分别对应的答案,所述目标题目的题目颜与所述目标题目对应的答案的答案颜不同,不同所述目标题目的答案的答案颜不同;
9.针对每一所述目标题目,从题目与答案颜的对应关系中,查所述目标题目对应的目标答案颜;
10.确定所述调查问卷图像中具有所述目标答案颜的文本所在区域为所述目标题目的答案区域;
11.确定所述答案区域中的文本为所述目标题目的答案,以得到多个所述目标题目分别对应的答案。
12.结合第一方面,在第一种可能的实现方式中,所述调查问卷图像包括背景,所述背景的背景颜与所述目标题目的颜和所述目标答案颜均不同,所述目标答案颜为第一值,所述背景颜为第二值;
13.所述确定所述调查问卷图像中具有所述目标答案颜的文本所在区域为所述目标题目的答案区域步骤包括:
14.计算所述调查问卷图像中各个像素点的值;
15.将所述调查问卷图像中由值为所述第一值的像素点以及值为所述第二值的像素点组成的区域确定为候选答案区域;
16.确定所述候选答案区域为所述答案区域。
17.结合第一方面,在第二种可能的实现方式中,所述确定所述候选答案区域为所述答案区域步骤包括:
18.检测所述候选答案区域中是否包括预先设定的删除符号;
19.若检测到所述候选答案区域中包括预先设定的删除符号,确定所述删除符号所在的区域;
20.确定所述候选答案区域中除了所述删除符号所在的区域以外的区域为所述答案区域;
21.若检测到所述候选答案区域中未包括预先设定的删除符号,确定所述候选答案区域为所述答案区域。
22.结合第一方面,在第三种可能的实现方式中,所述确定所述答案区域中的文本为所述目标题目的答案步骤包括:
23.检测所述答案区域中的文本是否包括预先设定的删除符号;
24.若检测到所述文本中包含预先设定的删除符号,确定所述删除符号关联的文本;
25.确定所述文本中除了所述删除符号关联的文本以外的文本为所述目标题目的答案;
26.若检测到所述文本中未包含预先设定的删除符号,确定所述答案区域中的文本为所述目标题目的答案。
27.结合第一方面,在第四种可能的实现方式中,所述答案区域由多个候选答案区域组成,所述确定所述答案区域中的文本为所述目标题目的答案步骤包括:
28.分别识别多个所述候选答案区域中的排序编号以及文本;
29.将多个所述候选答案区域中的文本按照多个所述候选答案区域中的所述排序编号从小到大排序,以得到排序结果;
30.确定所述排序结果为所述目标题目的答案。
31.结合第一方面,在第五种可能的实现方式中,在所述确定所述答案区域中的文本为所述目标题目的答案步骤之后,还包括:
32.针对每一所述目标题目,将所述目标题目对应的答案与预先存储的答案进行比对,获取比对结果;
33.基于所述比对结果,获取第一分数,以得到多个所述目标题目分别对应的第一分数;
34.基于多个所述目标题目分别对应的第一分数得到第二分数。
35.本技术第二方面提供了一种文本识别装置,包括:
36.获取单元,用于获取调查问卷图像,所述调查问卷图像包括多个目标题目和多个所述目标题目分别对应的答案,所述目标题目的题目颜与所述目标题目对应的答案的答案颜不同,不同所述目标题目的答案的答案颜不同;
37.查单元,用于针对每一所述目标题目,从题目与答案颜的对应关系中,查所述目标题目对应的目标答案颜;
38.第一确定单元,用于确定所述调查问卷图像中具有所述目标答案颜的文本所在区域为所述目标题目的答案区域;
39.第二确定单元,用于确定所述答案区域中的文本为所述目标题目的答案,以得到多个所述目标题目分别对应的答案。
40.本技术第三方面提供了一种电子设备,包括:
41.处理器;
42.用于存储所述处理器可执行指令的存储器;
43.其中,所述处理器被配置为执行所述指令,以实现如上述任一所述文本识别方法。
44.本技术第四方面提供了一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如上述任一所述文本识别方法。
45.本技术第五方面提供了一种计算机程序产品,可直接加载到计算机的内部存储器,所述存储器为所述电子设备包含的存储器,并含有软件代码,所述计算机程序经由计算机载入并执行后能够实现如上述任一所述文本识别方法。
46.经由上述的技术方案可知,本技术提供的文本识别方法,获取调查问卷图像,所述调查问卷图像包括多个目标题目和多个所述目标题目分别对应的答案,所述目标题目的题目颜与所述目标题目对应的答案的答案颜不同,不同所述目标题目的答案的答案颜不同;针对每一所述目标题目,从题目与答案颜的对应关系中,查所述目标题目对应的目标答案颜,因为多个目标题目对应的目标答案颜不同,所以针对同一目标题目而言,只要调查问卷图像中出现具有此目标题目对应的目标答案颜的文本,则可以认为具有该目标答案颜的文本所在区域就是此目标题目的答案区域,因此,确定好目标题目对应的目标答案颜后,便可以确定所述调查问卷图像中具有所述目标答案颜的文本所在区域为所述目标题目的答案区域;确定所述答案区域中的文本为所述目标题目的答案,以得到多个所述目标题目分别对应的答案,由此便能够识别出位于调查问卷图像中各个区域的具有目标答案颜的文本,不会因为针对同一题目的答案距离过远,仅将部分文本作为该题目的答案进行审核,导致审批结果不准确,实现了以颜来确定待识别区域的目的,保证了对于答案的全部识别。
附图说明
47.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
48.图1为本技术实施例所提供的硬件架构的结构图;
49.图2是根据一示例性实施例示出的文本识别方法的流程图;
50.图3是根据一示例性实施例示出的对应关系示意图;
51.图4是根据一示例性实施例示出的值示意图;
52.图5是根据一示例性实施例示出的外接多边形示意图;
53.图6a是根据一示例性实施例示出的排序结果示意图;
54.图6b是根据一示例性实施例示出的排序结果示意图;
55.图7为本技术实施例所提供的一种文本识别装置框图;
56.图8为本技术实施例所提供的设备装置的框图。
具体实施方式
57.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
58.本技术实施例提供了一种文本识别方法、装置、电子设备、存储介质及程序产品,在介绍本技术实施例提供的技术方案之前,先对本技术实施例涉及的硬件架构进行说明。
59.如图1所示,为本技术实施例涉及的硬件架构的结构图,该硬件架构包括但不限于:电子设备11以及服务器12。
60.示例性的,电子设备11可以为任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品,例如,手机、平板电脑、掌上电脑、个人计算机、可穿戴设备、智能电视等。
61.示例性的,服务器12可以为一台服务器,也可以是由多台服务器组成的服务器集,或者,是一个云计算服务中心。
62.应当理解的是,图1仅为示例,并不对电子设备11的数目、服务器12的数目进行限定。
63.在一可选实现方式中,本技术实施例提供的文本识别方法可以应用于上述电子设备11,电子设备11获取调查问卷图像,调查问卷图像包括多个目标题目和多个目标题目分别对应的答案;针对每一目标题目,电子设备11从题目与答案颜的对应关系中,查目标题目对应的目标答案颜;再确定调查问卷图像中具有目标答案颜的文本所在区域为目标题目的答案区域;电子设备11最后确定答案区域中的文本为目标题目的答案,以得到多个目标题目分别对应的答案。
64.在一可选实现方式中,识别出答案区域中的文本后,需要将文本与题库中预先存储的答案进行比对,题库可能保存在电子设备11中,也可能保存在服务器12中。
65.第一种情况:题库可能保存在电子设备11中。
66.针对每一目标题目而言,电子设备11识别出该目标题目的答案区域中的文本后,将目标题目对应的答案与预先存储的答案进行比对,获取比对结果,基于比对结果,获取第一分数,以得到多个目标题目分别对应的第一分数;基于多个目标题目分别对应的第一分数得到第二分数。
67.第二种情况:题库可能保存在服务器12中。
68.针对每一目标题目而言,电子设备11识别出该目标题目的答案区域中的文本后,将该目标题目对应的答案发送至服务12,服务器12将该目标题目对应的答案与预先存储在题库中的答案进行比对,获取比对结果,基于比对结果,获取第一分数,以得到多个目标题目分别对应的第一分数,基于多个目标题目分别对应的第一分数得到第二分数,服务器12将第二分数反馈至电子设备11。
69.本领域技术人员应能理解上述电子设备和服务器仅为举例,其他现有的或今后可能出现的电子设备或服务器如可适用于本公开,也应包含在本公开保护范围以内,并在此以引用方式包含于此。
70.下面结合上述硬件架构对本技术实施例提供的文本识别方法进行说明。
71.参见图2,图2是根据一示例性实施例提供的文本识别方法的流程图,该方法可以应用于上述电子设备11,该方法在实施过程中包括以下步骤s201至步骤s204。
72.步骤s201:获取调查问卷图像,所述调查问卷图像包括多个目标题目和多个所述目标题目分别对应的答案,所述目标题目的题目颜与所述目标题目对应的答案的答案颜不同,不同所述目标题目的答案的答案颜不同。
73.示例性的,调查问卷图像可以是指在进行金融交易时,金融机构对于存在风险的客户进行的纸质问卷调查的图像,调查问卷图像通常由带有摄像功能的电子设备拍摄所得。
74.本技术中将调查问卷图像包含的题目称为目标题目。可选的,调查问卷图像中包括的目标题目的题目类型包括选择题、填空题、材料题中一种或多种;不同题目类型的目标题目的题目颜可以相同,也可以不同;相同题目类型下,不同目标题目之间的题目颜可以相同,也可以不同。
75.示例性的,题目与答案颜的对应关系是预先设置的,预先设置完成后存储在电子设备中。
76.为了使本领域技术人员更加理解本技术实施例提及的题目与答案颜的对应关系,下面举例进行说明。如图3所示,为本技术实施例提供的对应关系示意图。
77.图3中,调查问卷图像中包括的题目类型包括:选择题、填空题、材料题,其中,属于选择题类型的目标题目包括:题目a、题目b、题目c;属于填空题类型的目标题目包括:题目d、题目e、题目f;属于材料题类型的目标题目包括:题目g、题目h;其中,题目a对应的目标答案颜为红、题目b对应的目标答案颜为绿、题目c对应的目标答案颜为蓝、题目d对应的目标答案颜为紫、题目e对应的目标答案颜为橙、题目f对应的目标答案颜为灰、题目g对应的目标答案颜为棕、题目h对应的目标答案颜为黄。
78.图3仅为示例,并不对题目与答案颜的对应关系的排版及内容进行限定。
79.通过图3可以看出,由于预先设置题目与答案颜的对应关系,那么在业务人员或者客户填写调查问卷的时候,需要提示业务人员或客户在作答相应目标题目时,采用相应颜的笔进行作答,从而使得调查问卷图像中属于同一种颜的答案为同一目标题目的答案。那么在对调查问卷图像进行识别的时候,便可以根据预先设置的题目与答案颜的对应关系,针对每一目标题目,将调查问卷图像中具有目标题目对应的目标答案颜的文本所在区域作为该目标题目的答案区域,以此实现完整识别出每个目标题目的答案的目的。
80.步骤s202:针对每一所述目标题目,从题目与答案颜的对应关系中,查所述目标题目对应的目标答案颜。
81.步骤s203:确定所述调查问卷图像中具有所述目标答案颜的文本所在区域为所述目标题目的答案区域。
82.示例性的,以图3为例,对于材料题中的题目g,在图3中题目g对应的目标答案颜为棕,则将调查问卷图像中具有棕的文本所在区域确定为题目g的答案区域。
83.步骤s204:确定所述答案区域中的文本为所述目标题目的答案,以得到多个所述目标题目分别对应的答案。
84.示例性的,由步骤s201至步骤s203确定好答案区域后,便需要对答案区域中的文本进行识别。
85.可以理解的是,识别文本的方法有多种,本技术实施例提供但不限于如下方法,该方法通过训练好的文本识别模型对答案区域中的文本进行识别。其中,文本识别模型是将样本图像作为输入,以样本图像中包含的文本作为训练目标训练得到的。下面举例说明文本识别模型的训练过程。
86.首先,需要获得大量的样本图像,因此可以先对样本图像进行图像增强,然后再对图像增强后的样本图像的进行扩充以获得大量的样本图像。扩充的办法包括但不限于如下三种方法:使用图像模糊、调整图像对比度、图像变形。扩充完成后,将大量的样本图像作为文本识别模型的输入,以人工标注的样本图像中包含的文本作为训练目标,对文本识别模型进行训练,以得到训练好的文本识别模型。具体过程如下:将样本图像输入至文本识别模型,以获得文本识别模型输出的识别结果,通过识别结果与人工标注的该样本图像对应的文本计算得到损失函数,再依据损失函数更新文本识别模型的参数。
87.示例性的,以步骤s203中的例子为例,调查问卷图像中,题目g对应的答案区域中的文本为:芝麻开门菠萝菠萝蜜,将调查问卷图像中具有棕的文本所在区域确定为题目g的答案区域后,利用文本识别模型识别答案区域中的文本,识别出文本[芝麻开门菠萝菠萝蜜],确定文本[芝麻开门菠萝菠萝蜜]为题目g的答案。
[0088]
综上,获取调查问卷图像,调查问卷图像包括多个目标题目和多个目标题目分别对应的答案,目标题目的题目颜与目标题目对应的答案的答案颜不同,不同目标题目的答案的答案颜不同;针对每一目标题目,从题目与答案颜的对应关系中,查目标题目对应的目标答案颜,因为多个目标题目对应的目标答案颜不同,所以针对同一目标题目而言,只要调查问卷图像中出现具有此目标题目对应的目标答案颜的文本,则可以认为具有该目标答案颜的文本所在区域就是此目标题目的答案区域,因此,确定好目标题目对应的目标答案颜后,便可以确定调查问卷图像中具有目标答案颜的文本所在区域为目标题目的答案区域;确定答案区域中的文本为目标题目的答案,以得到多个目标题目分别对应的答案,由此便能够识别出位于调查问卷图像中各个区域的具有目标答案颜的文本,不会因为针对同一题目的答案距离过远,仅将部分文本作为该题目的答案进行审核,导致审批结果不准确,实现了以颜来确定待识别区域的目的,保证了对于答案的全部识别。
[0089]
在一可选实现方式中,步骤s203的实现方式有多种,本技术实施例提供但不限于如下两种实现方式。
[0090]
其中,调查问卷图像包括背景,背景的背景颜与目标题目的颜和目标答案颜均不同,针对任一目标题目而言,假设该目标题目的答案的目标答案颜为第一值,背景颜为第二值。
[0091]
其中,背景指的是衬托答案的图像。背景颜指的是调查问卷的背景的颜。颜指的是该种颜在不同的颜模式中所对应的值。
[0092]
为了使本领域技术人员更加理解本技术实施例提及的值,下面举例进行说明。如图4所示,为本技术实施例提供的值示意图。
[0093]
图4中,以调查问卷图像中的题目h为例,背景颜为白,题目h的题目颜为黑,目标答案颜为黄,其中,“\”表示黑,“/”表示黄,在rgb颜模式中,题目h所在区域的像素点则为[0,0,0],即黑;题目h对应的答案区域所在区域的像素点则为[255,
255,0],即黄;背景的像素点则为[255,255,255],即白。
[0094]
第一种实现方式包括步骤a11至步骤a12。
[0095]
步骤a11:获取值为第一值的目标像素点。
[0096]
步骤a12:将距离不超过预设像素点长度的目标像素点所在的区域确定为候选答案区域。
[0097]
示例性的,预设像素点长度可以为行间距或字间距。示例性的,行间距和字间距可以基于多个用户撰写的答案统计得到的。
[0098]
以图4为例,图4中具有第一值的目标像素点为[芝麻开门]、[菠萝菠萝蜜]、[zxcvbnm]、[qwert],假设预设像素点长度为20个像素点。首先对字与字之间的间隔进行说明,以其中的[芝麻开门]为例,“芝”与“麻”之间的像素点长度为3个像素点,“麻”与“开”之间的像素点长度为4个像素点,“开”与“门”之间的像素点长度为2个像素点,由于2个像素点、3个像素点、4个像素点都小于预设像素点长度20个像素点,所以[芝麻开门]所在的区域属于同一候选答案区域,同理,[菠萝菠萝蜜]所在的区域属于同一候选答案区域,[zxcvbnm]所在的区域属于同一候选答案区域,[qwert]所在的区域属于同一候选答案区域。
[0099]
其次对行与行之间的间隔进行说明。假设,图4中[芝麻开门]与[菠萝菠萝蜜]之间的距离为10个像素点,[菠萝菠萝蜜]与[zxcvbnm]之间的距离为10个像素点,由于10<20,所以[芝麻开门]、[菠萝菠萝蜜]和[zxcvbnm]所在区域属于同一候选答案区域。假设图4中[qwert]与[芝麻开门]、[菠萝菠萝蜜]和[zxcvbnm]的距离均大于20个像素点,则[qwert]所在区域为另一候选答案区域。
[0100]
综上,图4中具有两个候选答案区域,其中,一个候选答案区域包括:[芝麻开门]、[菠萝菠萝蜜]和[zxcvbnm];另一个候选答案区域包括:[qwert]。
[0101]
第二种实现方式包括步骤a21至步骤a22。
[0102]
步骤a21:计算调查问卷图像中各个像素点的值。
[0103]
步骤a22:确定所有具有第一值的像素点所在的区域的外接多边形,其中,所述接多边形包含所有具有第一值的像素点,在外接多边形中,将除了具有第一值的像素点以外的像素点填充第二值,将填充完毕的外接多边形确定为候选答案区域。
[0104]
为了使本领域技术人员更加理解本技术实施例提及的外接多边形,下面举例进行说明。如图5所示,为本技术实施例提供的外接多边形示意图。
[0105]
图5中,以调查问卷图像中的题目h为例,其中外接多边形用实线表示,图5中具有第一值的目标像素点为[芝麻开门]、[菠萝菠萝蜜]、[zxcvbnm]、[qwert],则确定出如图5所示的包含[芝麻开门]、[菠萝菠萝蜜]、[zxcvbnm]、[qwert]的外接多边形,在此外接多边形中,将除了[芝麻开门]、[菠萝菠萝蜜]、[zxcvbnm]、[qwert]以外的像素点填充第二值,将填充完毕的外接多边形确定为候选答案区域。
[0106]
第三种实现方式包括步骤a31至步骤a33。
[0107]
步骤a31:计算所述调查问卷图像中各个像素点的值。
[0108]
步骤a32:所述调查问卷图像中由值为所述第一值的像素点以及值为所述第二值的像素点组成的区域确定为候选答案区域。
[0109]
步骤a33:确定所述候选答案区域为所述答案区域。
[0110]
下面举例说明上述步骤a31至步骤a33。示例性的,仍以步骤s203中的例子为例,题目g的颜为黑,题目g的答案的目标答案颜为棕,调查问卷图像的背景的背景颜为白,则在rgb颜模式中,用值[0,0,0]表示黑,用值[128,64,0]表示棕,用值[255,255,255]表示白,通过计算整个调查问卷图像中各个像素点的值,将其中具有第一值为[128,64,0]的像素点确定为题目g对应的目标答案颜,将第二值为[255,255,255]的像素点确定为调查问卷图像的背景颜,将第一值为[128,64,0]的像素点以及第二值为[255,255,255]的像素点组成的区域确定为候选答案区域。
[0111]
其中,候选答案区域可以为灰度图像。
[0112]
示例性的,将值为第一值的像素点以及值为第二值的像素点组成的区域确定为候选答案区域的目的是:为了提高文本识别模型识别答案区域中文本的准确率。原因如下:一个文字中的不同笔画之间存在一定的间隙,同一段落的不同行之间存在间隙,若候选答案区域仅由值为第一值的像素点所在的区域组成,则文字的每一个笔画均为一个候选答案区域,或者,一个文字为一个候选答案区域;若文字的每一个笔画均为一个候选答案区域,那么无法基于文本识别模型识别得到文本,若一个文字为一个候选答案区域,由于文本识别模型是针对每一个候选答案区域识别文本的,则文本识别模型无法结合文字的上下文内容识别得到文本,可以理解的是用户在填写答案的过程中可能存在笔出墨水不均匀导致文字缺少一个或多个笔画的情况,在这种情况下文本识别模型无法准确识别出文字。
[0113]
本技术中候选答案区域包括多个文字,文本识别模型在识别的过程中可以结合文字的上下文内容进行识别,从而可以提高识别答案区域中文本的准确率。
[0114]
通过步骤a31与步骤a32确定好候选答案区域为第一值为[128,64,0]的像素点以及第二值为[255,255,255]的像素点组成的区域后,将此区域确定为答案区域。
[0115]
在一可选实现方式中,若客户或业务人员在填写调查问卷时,出现填写错误,需要删除填写错误的文本,便可能出现涂抹、擦拭等影响待识别文本的删除符号,文本识别模型可能会受删除符号的影响,将答案区域中的文本错误识别,造成审批结果不准确。故在步骤a33中,将候选答案区域中除了删除符号所在区域外的区域为答案区域。基于此,本技术实施例提供步骤a33的具体实现方法但不限于如下实现方法,该实现方法包括步骤b11至步骤b14。
[0116]
步骤b11:检测所述候选答案区域中是否包括预先设定的删除符号。
[0117]
示例性的,删除符号包括但不限于:一条或多条贯穿待删除文本的线条、将待删除文本包围的多边形。
[0118]
步骤b12:若检测到所述候选答案区域中包括预先设定的删除符号,确定所述删除符号所在的区域。
[0119]
步骤b13:确定所述候选答案区域中除了所述删除符号所在的区域以外的区域为所述答案区域。
[0120]
步骤b14:若检测到所述候选答案区域中未包括预先设定的删除符号,确定所述候选答案区域为所述答案区域。
[0121]
下面举例说明上述步骤b11至步骤b14。示例性的,以删除符号为一条贯穿待删除文本的线条为例,候选答案区域中的文本为[芝麻开门,菠萝菠萝蜜。],其中,[,菠萝菠萝
蜜]为客户使用删除符号删除的文本,则删除符号所在的区域为[,菠萝菠萝蜜],将候选答案区域中除了删除符号所在的区域以外的区域确定为答案区域,则答案区域为[芝麻开门。]。
[0122]
综上,让客户在需要删除文本时使用预先设定的删除符号,在识别答案区域中的文本之前,先检测候选答案区域中是否包括预先设定的删除符号,若检测到了预先设定的删除符号,则将候选答案区域中除了删除符号所在的区域以外的区域为答案区域,由此确保了文本识别模型能够正确识别答案区域中的文本。
[0123]
在一可选实现方式中,步骤s204的实现方式有多种,本技术实施例提供但不限于以下两种。
[0124]
第一种步骤s204的实现方式包括以下步骤c11至步骤c14。
[0125]
在第一种情况下,若客户或业务人员在填写调查问卷时,出现填写错误,需要删除填写错误的文本,便可能在需要删除的文本上出现涂抹、擦拭等删除符号,本技术实施例中将“出现涂抹、擦拭等删除符号的文本”称为删除符号关联的文本,可以理解的是,答案不应该包含删除符号关联的文本。
[0126]
需要说明的是,该实现方式是在文本识别模型识别出答案区域中的文本后再执行的。
[0127]
步骤c11:检测所述答案区域中的文本是否包括预先设定的删除符号。
[0128]
针对步骤c11的说明,请参考步骤b11,此处不再进行赘述。
[0129]
步骤c12:若检测到所述文本中包含预先设定的删除符号,确定所述删除符号关联的文本。
[0130]
示例性的,以删除符号为一条贯穿待删除文本的线条为例,候选答案区域中的文本为[芝麻开门,菠萝菠萝蜜。],若客户需要删除的文本为菠萝菠萝蜜,则客户使用删除符号后的文本为[芝麻开门,菠萝菠萝蜜。],则与删除符号关联的文本为[,菠萝菠萝蜜]。
[0131]
步骤c13:确定所述文本中除了所述删除符号关联的文本以外的文本为所述目标题目的答案。
[0132]
示例性的,以步骤c12中的例子为例,与删除符号关联的文本为[,菠萝菠萝蜜],则文本中除了所述删除符号关联的文本以外的文本为[芝麻开门。],由此确定题目的答案为[芝麻开门。]。
[0133]
步骤c14:若检测到所述文本中未包含预先设定的删除符号,确定所述答案区域中的文本为所述目标题目的答案。
[0134]
第二种步骤s204的实现方式包括以下步骤d11至步骤d13。
[0135]
在第二种情况下,存在客户或业务人员因为需要更改答案区域中的文本,从而改变了文本正确的撰写顺序的情况,例如将答案区域中开头的文本删除,然后将本来在答案区域开始位置的文本写在了答案区域的末尾,若未将乱序的文本重新排序,则可能会造成审批结果不准确。
[0136]
步骤d11:分别识别多个所述候选答案区域中的排序编号以及文本。
[0137]
示例性的,排序编号包括但不限于:[
①②③④⑤
]、[(1)(2)(3)(4)(5)]、[1.2.3.4.5.],其中排序编号可以排序到更高位,此处便不一一列举。
[0138]
步骤d12:将多个所述候选答案区域中的文本按照多个所述候选答案区域中的所
述排序编号从小到大排序,以得到排序结果。
[0139]
步骤d13:确定所述排序结果为所述题目的答案。
[0140]
为了使本领域技术人员更加理解本技术实施例提及的步骤d12,下面举例进行说明。如图6a与图6b所示,为本技术实施例提供的排序结果示意图。
[0141]
图6a中的答案为客户或业务人员修改之前的答案,示例性的,客户或业务人员撰写的关于题目h的答案分别为:芝麻开门、菠萝菠萝蜜、zxcvbnm、qwert。图6b中的答案为客户或业务人员修改完成后的答案,客户或业务人员将答案中的[菠萝菠萝蜜]修改为了[abcde]。
[0142]
图6b中的答案为客户或业务人员修改之后的答案,其中包括4个候选答案区域,候选答案区域用虚线框框出,实际应用中,虚线框可以不存在,每个候选答案区域中存在一个排序编号,识别候选答案区域中的排序编号,识别完成后,将文本按照排序编号从小到大排序的排序结果为:

芝麻开门、

abcde、

zxcvbnm、

qwert,其中,文本[菠萝菠萝蜜]所在的区域检测到了预设的删除符号,删除符号不会作为答案。最终确定答案为:芝麻开门、abcde、zxcvbnm、qwert。
[0143]
示例性的,一个候选答案区域包含一个或多个排序编号;若包括多个排序编号,则针对同一候选答案区域中多个文本排序的过程包括:确定多个排序编号的位置;确定相邻两个排序编号之间的文本,属于前一个排序编号对应的文本,以得到多个文本和多个文本分别对应的排序编号;将多个文本按照文本对应的排序编号由小到大排序以得到排序结果,确定该排序结果为候选答案区域的文本。
[0144]
图6a与图6b仅为示例,并不对目标题目与答案的排版及内容进行限定。
[0145]
综上,通过在文本中加入排序编号,可以使得因为客户或业务人员修改而被打乱顺序的文本重新按照客户想要的顺序进行排序,以此保证了审批结果的准确性。
[0146]
在一可选实现方式中,在确定好答案区域中的文本为目标题目的答案步骤之后,需要将识别到的答案与题库中预先存储的答案进行比对,以此来确定反系统对客户的风险评级是否正确。基于此,本技术实施例提供但不限于如下实现方法,该实现方式包括步骤e11与步骤e13。
[0147]
步骤e11:针对每一所述目标题目,将所述目标题目对应的答案与预先存储的答案进行比对,获取比对结果。
[0148]
步骤e12:基于所述比对结果,获取第一分数,以得到多个所述目标题目分别对应的第一分数。
[0149]
步骤e13:基于多个所述目标题目分别对应的第一分数得到第二分数。
[0150]
示例性的,可以基于多个目标题目的权重和多个所述目标题目分别对应的第一分数,计算得到第二分数。
[0151]
示例性的,预先设定了第二分数与客户类型的对应关系,例如,第二分数最高为100分,其中,第二分数为90-100分为禁止类客户;第二分数为60-90分为高风险客户;第二分数为20-60分为中风险客户;第二分数为20分以下为低风险客户。
[0152]
示例性的,以图3为例,调查问卷图像中包括8个目标题目且为:题目a、题目b、题目c、题目d、题目e、题目f、题目g、题目h,其中,每道题目预先设定了题目总分数,假设,题目a的题目总分数为10分、题目b的题目总分数为10分、题目c的题目总分数为10分、题目d的题
目总分数为10分、题目e的题目总分数为10分、题目f的题目总分数为10分、题目g的题目总分数为20分、题目h的题目总分数为20分,针对题目h而言,预先存储的题目h的答案为:芝麻开门、abcde、zxcvbnm、qwert,客户或业务人员撰写的关于题目h的答案分别为:芝麻开门、abcde、zxcvbnm、qwert,由于答案与预先存储的题目h的答案一致,所以获取到题目h的第一分数为20分,其他题目不再一一例举,最后基于所有目标题目的第一分数,计算得到第二分数为100分,由于100位于90-100分,所以由此确定客户为禁止类客户。
[0153]
综上,通过将识别到的目标题目对应的答案与题库中预先存储的答案进行比对,基于比对结果来获取第一分数,以得到多个目标题目分别对应的第一分数,最后基于多个目标题目分别对应的第一分数得到第二分数。若通过第二分数确定客户涉及到反风险,并且系统对客户的风险评级也涉及到反风险,则确定系统对客户的风险评级正确,若通过第二分数确定客户不涉及到反风险,但是系统对客户的风险评级为涉及到反风险,则确定系统对客户的风险评级错误。
[0154]
上述本技术公开的实施例中详细描述了方法,对于本技术的方法可采用多种形式的装置实现,因此本技术还公开了一种装置,下面给出具体的实施例进行详细说明。
[0155]
参见图7,图7是根据一示例性实施例示出的一种文本识别装置框图,该装置包括:获取单元71、查单元72、第一确定单元73和第二确定单元74,其中:
[0156]
获取单元71,用于获取调查问卷图像,所述调查问卷图像包括多个目标题目和多个所述目标题目分别对应的答案,所述目标题目的题目颜与所述目标题目对应的答案的答案颜不同,不同所述目标题目的答案的答案颜不同。
[0157]
查单元72,用于针对每一所述目标题目,从题目与答案颜的对应关系中,查所述目标题目对应的目标答案颜。
[0158]
第一确定单元73,用于确定所述调查问卷图像中具有所述目标答案颜的文本所在区域为所述目标题目的答案区域。
[0159]
第二确定单元74,用于确定所述答案区域中的文本为所述目标题目的答案,以得到多个所述目标题目分别对应的答案。
[0160]
在一可选实现方式中,上述文本识别装置框图,所述调查问卷图像包括背景,所述背景的背景颜与所述目标题目的颜和所述目标答案颜均不同,所述目标答案颜为第一值,所述背景颜为第二值;所述第一确定单元包括:
[0161]
计算子单元,用于计算所述调查问卷图像中各个像素点的值。
[0162]
第一确定子单元,用于将所述调查问卷图像中由值为所述第一值的像素点以及值为所述第二值的像素点组成的区域确定为候选答案区域。
[0163]
第二确定子单元,用于确定所述候选答案区域为所述答案区域。
[0164]
在一可选实现方式中,上述文本识别装置框图,所述第二确定子单元包括:
[0165]
检测模块,用于检测所述候选答案区域中是否包括预先设定的删除符号。
[0166]
第一确定模块,用于若检测到所述候选答案区域中包括预先设定的删除符号,确定所述删除符号所在的区域。
[0167]
第二确定模块,用于确定所述候选答案区域中除了所述删除符号所在的区域以外的区域为所述答案区域。
[0168]
第三确定模块,用于若检测到所述候选答案区域中未包括预先设定的删除符号,
确定所述候选答案区域为所述答案区域。
[0169]
在一可选实现方式中,上述文本识别装置框图,所述第二确定单元包括:
[0170]
检测子单元,用于检测所述答案区域中的文本是否包括预先设定的删除符号。
[0171]
第三确定子单元,用于若检测到所述文本中包含预先设定的删除符号,确定所述删除符号关联的文本。
[0172]
第四确定子单元,用于确定所述文本中除了所述删除符号关联的文本以外的文本为所述目标题目的答案。
[0173]
第五确定子单元,用于若检测到所述文本中未包含预先设定的删除符号,确定所述答案区域中的文本为所述目标题目的答案。
[0174]
在一可选实现方式中,上述文本识别装置框图,所述答案区域由多个候选答案区域组成,所述第二确定单元包括:
[0175]
识别子单元,用于分别识别多个所述候选答案区域中的排序编号以及文本。
[0176]
排序子单元,用于将多个所述候选答案区域中的文本按照多个所述候选答案区域中的所述排序编号从小到大排序,以得到排序结果。
[0177]
第六确定子单元,用于确定所述排序结果为所述目标题目的答案。
[0178]
在一可选实现方式中,上述文本识别装置框图,在执行完所述第二确定单元之后,还包括:
[0179]
第一获取子单元,用于针对每一所述目标题目,将所述目标题目对应的答案与预先存储的答案进行比对,获取比对结果。
[0180]
第二获取子单元,用于基于所述比对结果,获取第一分数,以得到多个所述目标题目分别对应的第一分数。
[0181]
第三获取子单元,用于基于多个所述目标题目分别对应的第一分数得到第二分数。
[0182]
图8是根据一示例性实施例示出的设备装置的框图,该设备可以为电子设备11或服务器12,该设备包括但不限于:处理器81、存储器82、网络接口83、i/o控制器84以及通信总线85。
[0183]
需要说明的是,本领域技术人员可以理解,图8中示出的设备的结构并不构成对设备的限定,设备可以包括比图8所示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0184]
下面结合图8对设备的各个构成部件进行具体的介绍:
[0185]
处理器81是设备的控制中心,利用各种接口和线路连接整个设备的各个部分,通过运行或执行存储在存储器82内的软件程序和/或模块,以及调用存储在存储器82内的数据,执行设备的各种功能和处理数据,从而对设备进行整体监控。处理器81可包括一个或多个处理单元;示例性的,处理器81可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器81中。
[0186]
处理器81可能是一个中央处理器(central processing unit,cpu),或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等。
[0187]
存储器82可能包含内存,例如高速随机存取存储器(random-access memory,ram)821和只读存储器(read-only memory,rom)822,也可能还包括大容量存储设备823,例如至少1个磁盘存储器等。当然,该设备还可能包括其他业务所需要的硬件。
[0188]
其中,上述的存储器82,用于存储上述处理器81可执行指令。上述处理器81具有文本识别方法所示的功能。
[0189]
一个有线或无线网络接口83被配置为将服务器连接到网络。
[0190]
处理器81、存储器82、网络接口83和i/o控制器84可以通过通信总线85相互连接,该通信总线可以是isa(industry standard architecture,工业标准体系结构)总线、pci(peripheral component interconnect,外设部件互连标准)总线或eisa(extended industry standard architecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。
[0191]
在示例性实施例中,设备可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行如本公开任一实施例提供的文本识别方法。
[0192]
在示例性实施例中,还提供了一种计算机可读存储介质,当所述存储介质中的指令由电子设备11的处理器执行时,使得所述电子设备11能够执行如上述任一所述的文本识别方法。
[0193]
在示例性实施例中,还提供一种计算机程序产品,可直接加载到计算机的内部存储器,所述存储器为所述电子设备11包含的存储器82,并含有软件代码,所述计算机程序经由计算机载入并执行后能够实现如上述任一所述的文本识别方法。
[0194]
本发明提供的文本识别方法、装置、电子设备、存储介质及程序产品可用于金融领域或其他领域,例如,可用于金融领域中的文本识别应用场景。其他领域为除金融领域之外的任意领域,例如,扫描领域。上述仅为示例,并不对本发明提供的文本识别方法、装置、电子设备、存储介质及程序产品的应用领域进行限定。
[0195]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
[0196]
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
[0197]
需要说明的是,本说明书中的各个实施例中记载的特征可以相互替换或者组合。对于装置或系统类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这
种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0198]
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
[0199]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
[0200]
本领域技术人员应能理解上述电子设备仅为举例,其他现有的或今后可能出现的电子设备如可适用于本公开,也应包含在本公开保护范围以内,并在此以引用方式包含于此。

技术特征:


1.一种文本识别方法,其特征在于,包括:获取调查问卷图像,所述调查问卷图像包括多个目标题目和多个所述目标题目分别对应的答案,所述目标题目的题目颜与所述目标题目对应的答案的答案颜不同,不同所述目标题目的答案的答案颜不同;针对每一所述目标题目,从题目与答案颜的对应关系中,查所述目标题目对应的目标答案颜;确定所述调查问卷图像中具有所述目标答案颜的文本所在区域为所述目标题目的答案区域;确定所述答案区域中的文本为所述目标题目的答案,以得到多个所述目标题目分别对应的答案。2.根据权利要求1所述文本识别方法,其特征在于,所述调查问卷图像包括背景,所述背景的背景颜与所述目标题目的颜和所述目标答案颜均不同,所述目标答案颜为第一值,所述背景颜为第二值;所述确定所述调查问卷图像中具有所述目标答案颜的文本所在区域为所述目标题目的答案区域步骤包括:计算所述调查问卷图像中各个像素点的值;将所述调查问卷图像中由值为所述第一值的像素点以及值为所述第二值的像素点组成的区域确定为候选答案区域;确定所述候选答案区域为所述答案区域。3.根据权利要求2所述文本识别方法,其特征在于,所述确定所述候选答案区域为所述答案区域步骤包括:检测所述候选答案区域中是否包括预先设定的删除符号;若检测到所述候选答案区域中包括预先设定的删除符号,确定所述删除符号所在的区域;确定所述候选答案区域中除了所述删除符号所在的区域以外的区域为所述答案区域;若检测到所述候选答案区域中未包括预先设定的删除符号,确定所述候选答案区域为所述答案区域。4.根据权利要求2所述文本识别方法,其特征在于,所述确定所述答案区域中的文本为所述目标题目的答案步骤包括:检测所述答案区域中的文本是否包括预先设定的删除符号;若检测到所述文本中包含预先设定的删除符号,确定所述删除符号关联的文本;确定所述文本中除了所述删除符号关联的文本以外的文本为所述目标题目的答案;若检测到所述文本中未包含预先设定的删除符号,确定所述答案区域中的文本为所述目标题目的答案。5.根据权利要求2至4任一所述文本识别方法,其特征在于,所述答案区域由多个候选答案区域组成,所述确定所述答案区域中的文本为所述目标题目的答案步骤包括:分别识别多个所述候选答案区域中的排序编号以及文本;将多个所述候选答案区域中的文本按照多个所述候选答案区域中的所述排序编号从小到大排序,以得到排序结果;
确定所述排序结果为所述目标题目的答案。6.根据权利要求1至4任一所述文本识别方法,其特征在于,在所述确定所述答案区域中的文本为所述目标题目的答案步骤之后,还包括:针对每一所述目标题目,将所述目标题目对应的答案与预先存储的答案进行比对,获取比对结果;基于所述比对结果,获取第一分数,以得到多个所述目标题目分别对应的第一分数;基于多个所述目标题目分别对应的第一分数得到第二分数。7.一种文本识别装置,其特征在于,包括:获取单元,用于获取调查问卷图像,所述调查问卷图像包括多个目标题目和多个所述目标题目分别对应的答案,所述目标题目的题目颜与所述目标题目对应的答案的答案颜不同,不同所述目标题目的答案的答案颜不同;查单元,用于针对每一所述目标题目,从题目与答案颜的对应关系中,查所述目标题目对应的目标答案颜;第一确定单元,用于确定所述调查问卷图像中具有所述目标答案颜的文本所在区域为所述目标题目的答案区域;第二确定单元,用于确定所述答案区域中的文本为所述目标题目的答案,以得到多个所述目标题目分别对应的答案。8.一种电子设备,其特征在于,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如权利要求1至6任一所述文本识别方法。9.一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至6中任一所述文本识别方法。10.一种计算机程序产品,可直接加载到计算机的内部存储器,所述存储器为上述权利要求8所述电子设备包含的存储器,并含有软件代码,所述计算机程序经由计算机载入并执行后能够实现如权利要求1至6中任一所述文本识别方法。

技术总结


本申请公开了文本识别方法、装置、电子设备、存储介质及程序产品,可应用金融领域或其他领域。获取调查问卷图像,调查问卷图像包括多个目标题目和多个目标题目分别对应的答案,目标题目的题目颜与目标题目对应的答案的答案颜不同,不同目标题目的答案的答案颜不同;针对每一目标题目,从题目与答案颜的对应关系中,查目标题目对应的目标答案颜;确定调查问卷图像中具有目标答案颜的文本所在区域为目标题目的答案区域;确定答案区域中的文本为目标题目的答案,以得到多个目标题目分别对应的答案。由此现了以颜来确定待识别区域的目的,保证了对于答案的全部识别。保证了对于答案的全部识别。保证了对于答案的全部识别。


技术研发人员:

吕乔健 王悦莹

受保护的技术使用者:

中银金融科技有限公司

技术研发日:

2022.10.26

技术公布日:

2022/12/23

本文发布于:2024-09-23 00:25:53,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/47045.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   答案   题目   目标
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议