一种矫正OCR文字识别错误的方法及终端设备[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202010292411.8
(22)申请日 2020.04.14
远程调压阀
(71)申请人 广东小天才科技有限公司
地址 528850 广东省东莞市长安镇霄边社
区东门中路168号
(72)发明人 祁健升 
(74)专利代理机构 广州德科知识产权代理有限
公司 44381
代理人 万振雄 杨中强
(51)Int.Cl.
G06K  9/20(2006.01)
G06F  40/216(2020.01)
G06F  40/284(2020.01)
G06F  40/58(2020.01)
(54)发明名称一种矫正OCR文字识别错误的方法及终端设备(57)摘要本发明实施例公开了一种矫正OCR文字识别错误的方法、终端设备以及可读存储介质,用于基于第一英文单词识别结果,先利用OCR加权编辑距离算法进行相似单词的筛选,然后通过语句通顺度模型输出矫正后的英文单词,从而提升OCR准确率,为用户在使用指尖查单词中提供更精准的单词识别结果。本发明实施例方法包括:对图片进行英文OCR处理,得到第一英文单词识别结果;对所述第一英文单词识别结果进行OCR 加权编辑距离模型筛选,确定错误单词,并得到与所述错误单词对应的候选正确单词;将所述候选正确单词代替所述错误单词,输入到语句通顺度模型进行判断,确定目标正确单词;将所述目标正确单词代替所述错误单词,输出第二英文单
rtyrty
词识别结果。权利要求书3页  说明书13页  附图3页CN 111523532 A 2020.08.11
C N  111523532
A
1.一种矫正OCR文字识别错误的方法,其特征在于,包括:
对图片进行英文OCR处理,得到第一英文单词识别结果;
对所述第一英文单词识别结果进行OCR加权编辑距离模型筛选,确定错误单词,并得到与所述错误单词对应的候选正确单词;
汽水取样装置将所述候选正确单词代替所述错误单词,输入到语句通顺度模型进行判断,确定目标正确单词;
将所述目标正确单词代替所述错误单词,输出第二英文单词识别结果。
2.根据权利要求1所述的方法,其特征在于,所述OCR加权编辑距离模型包括拼写检查模型和拼写校正模型;
其中,所述拼写检查模型包括预先编辑的N-gram表,所述第一英文单词识别结果包括英文单词输入串;
所述对所述第一英文单词识别结果进行OCR加权编辑距离模型筛选,确定错误单词,包括:
对所述英文单词输入串中的目标n元串,在所述预先编辑的N-gram表中查,n为2或3;电热手套
若在所述预先编辑的N-gram表中出现的频率小于预设阈值,则确定所述目标n元串为错误单词;
其中,所述拼写校正模型包括编辑距离校正方法和OCR距离校正方法中的至少一种;
所述得到与所述错误单词对应的候选正确单词,包括:
使用所述编辑距离校正方法和OCR距离校正方法中的至少一种,计算得到与所述错误单词对应的候选正确单词。
3.根据权利要求1或2所述的方法,其特征在于,所述对图片进行英文OCR处理,得到第一英文单词识别结果,包括:
当所述图片为非英文图片时,将所述非英文图片中的非英文翻译成英文;
获取包括所述英文的图片;
对包括所述英文的图片进行英文OCR处理,得到所述第一英文单词识别结果。
4.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
对所述第二英文单词识别结果与标准单词识别结果进行匹配;
确定所述第二英文单词识别结果与所述标准单词识别结果相同单词的比例;
若所述比例为百分百,则确定所述第二英文单词识别结果完全准确,生成并输出第一提示信息,所述第一提示信息包括所述第二英文单词识别结果完全准确的指示信息;
若所述比例大于第一阈值小于百分百,则确定所述第二英文单词识别结果为高准确率,生成并输出第二提示信息,所述第二提示信息包括所述第二英文单词识别结果为高准确率但不完全准确的指示信息;
若所述比例大于第二阈值小于所述第一阈值,则确定所述第二英文单词识别结果为中准确率,生成并输出第三提示信息,所述第三提示信息包括所述第二英文单词识别结果为中准确率,以及是否需要重新进行OCR文字识别的指示信息;
若所述比例小于所述第二阈值,则确定所述第二英文单词识别结果为低准确率,生成并输出第四提示信息,所述第四提示信息包括所述第二英文单词识别结果为高准确率,以及需要重新进行OCR文字识别的指示信息。
5.根据权利要求1或2所述的方法,其特征在于,所述输出第二英文单词识别结果,包括:
通过语音播放的方式,输出所述第二英文单词识别结果;或者,
通过屏幕显示的方式,输出所述第二英文单词识别结果;或者,
通过投影显示的方式,输出所述第二英文单词识别结果;或者,
通过投影显示和语音播放的方式,输出所述第二英文单词识别结果;或者,
通过屏幕显示和语音播放的方式,输出所述第二英文单词识别结果。
6.根据权利要求5所述的方法,其特征在于,所述通过语音播放的方式,输出所述第二英文单词识别结果,包括:
监听所述用户在点读过程中的环境音;
判断所述环境音是否大于预置阈值;
若大于,则检测终端设备是否连接无线耳机;
若连接,则通过所述无线耳机输出所述第二英文单词识别结果。
7.一种终端设备,其特征在于,包括:
识别模块,用于对图片进行英文OCR处理,得到第一英文单词识别结果;
确定模块,用于对所述第一英文单词识别结果进行OCR加权编辑距离模型筛选,确定错误单词,并得到与所述错误单词对应的候选正确单词;将所述候选正确单词代替所述错误单词,输入到语句通顺度模型进行判断,确定目标正确单词;
输出模块,用于将所述目标正确单词代替所述错误单词,输出第二英文单词识别结果。
8.根据权利要求7所述的终端设备,其特征在于,所述OCR加权编辑距离模型包括拼写检查模型和拼写校正模型;
其中,所述拼写检查模型包括预先编辑的N-gram表,所述第一英文单词识别结果包括英文单词输入串;
所述确定模块,具体用于对所述英文单词输入串中的目标n元串,在所述预先编辑的N-gram表中查,n为2或3;若在所述预先编辑的N-gram表中出现的频率小于预设阈值,则确定所述目标n元串为错误单词;
其中,所述拼写校正模型包括编辑距离校正方法和OCR距离校正方法中的至少一种;
所述确定模块,具体用于使用所述编辑距离校正方法和OCR距离校正方法中的至少一种,计算得到与所述错误单词对应的候选正确单词。
9.根据权利要求7或8所述的终端设备,其特征在于,
所述识别模块,具体用于当所述图片为非英文图片时,将所述非英文图片中的非英文翻译成英文;获取包括所述英文的图片;对包括所述英文的图片进行英文OCR处理,得到所述第一英文单词识别结果。
折刀
10.根据权利要求7或8所述的终端设备,其特征在于,
所述确定模块,还用于对所述第二英文单词识别结果与标准单词识别结果进行匹配;确定所述第二英文单词识别结果与所述标准单词识别结果相同单词的比例;
若所述比例为百分百,则确定所述第二英文单词识别结果完全准确,生成并输出第一提示信息,所述第一提示信息包括所述第二英文单词识别结果完全准确的指示信息;
若所述比例大于第一阈值小于百分百,则确定所述第二英文单词识别结果为高准确
率,生成并输出第二提示信息,所述第二提示信息包括所述第二英文单词识别结果为高准确率但不完全准确的指示信息;
若所述比例大于第二阈值小于所述第一阈值,则确定所述第二英文单词识别结果为中准确率,生成并输出第三提示信息,所述第三提示信息包括所述第二英文单词识别结果为中准确率,以及是否需要重新进行OCR文字识别的指示信息;
若所述比例小于所述第二阈值,则确定所述第二英文单词识别结果为低准确率,生成并输出第四提示信息,所述第四提示信息包括所述第二英文单词识别结果为高准确率,以及需要重新进行OCR文字识别的指示信息。
11.根据权利要求7或8所述的终端设备,其特征在于,
所述输出模块,具体用于通过语音播放的方式,输出所述第二英文单词识别结果;或者,
所述输出模块,具体用于通过屏幕显示的方式,输出所述第二英文单词识别结果;或者,
所述输出模块,具体用于通过投影显示的方式,输出所述第二英文单词识别结果;或者,
所述输出模块,具体用于通过投影显示和语音播放的方式,输出所述第二英文单词识别结果;或者,
所述输出模块,具体用于通过屏幕显示和语音播放的方式,输出所述第二英文单词识别结果。
12.根据权利要求7或8所述的终端设备,其特征在于,
所述输出模块,具体用于监听所述用户在点读过程中的环境音;判断所述环境音是否大于预置阈值;若大于,则检测终端设备是否连接无线耳机;若连接,则通过所述无线耳机输出所述第二英文单词识别结果。
一种矫正OCR文字识别错误的方法及终端设备技术领域
[0001]本发明涉及教育技术领域,尤其涉及一种矫正OCR文字识别错误的方法、终端设备以及可读存储介质。
背景技术
[0002]在现有技术中,通过OCR(Optical  Character  Recognition,光学字符识别)技术,将图片、照片上的文字内容,直接转换为可编辑文本的软件。软件可以把图片转换成可以编辑的文字。但是,在现有的识别技术中,英语OCR识别出图片中的英文单词并不通过任何检测判断是否OCR正确逻辑将结果呈现给用户,所以,存在OCR准确率低等缺点。
发明内容
[0003]本发明实施例提供了一种矫正OCR文字识别错误的方法、终端设备以及可读存储介质,用于基于第一英文单词识别结果,先利用OCR加权编辑距离算法进行相似单词的筛选,然后通过语句通顺度
模型输出矫正后的英文单词,从而提升OCR准确率,为用户在使用指尖查单词中提供更精准的单词识别结果。
[0004]有鉴于此,本发明第一方面提供了一种矫正OCR文字识别错误的方法,可以包括:
[0005]对图片进行英文OCR处理,得到第一英文单词识别结果;
[0006]对所述第一英文单词识别结果进行OCR加权编辑距离模型筛选,确定错误单词,并得到与所述错误单词对应的候选正确单词;
[0007]将所述候选正确单词代替所述错误单词,输入到语句通顺度模型进行判断,确定目标正确单词;
[0008]将所述目标正确单词代替所述错误单词,输出第二英文单词识别结果。
[0009]可选的,在本发明的一些实施例中,所述OCR加权编辑距离模型包括拼写检查模型和拼写校正模型;
无尘拖链
[0010]其中,所述拼写检查模型包括预先编辑的N -gram表,所述第一英文单词识别结果包括英文单词输入串;
[0011]所述对所述第一英文单词识别结果进行OCR加权编辑距离模型筛选,确定错误单词,包括:
[0012]对所述英文单词输入串中的目标n元串,在所述预先编辑的N -gram表中查,n为2或3;
[0013]若在所述预先编辑的N -gram表中出现的频率小于预设阈值,则确定所述目标n元串为错误单词;
[0014]其中,所述拼写校正模型包括编辑距离校正方法和OCR距离校正方法中的至少一种;
[0015]所述得到与所述错误单词对应的候选正确单词,包括:
[0016]使用所述编辑距离校正方法和OCR距离校正方法中的至少一种,计算得到与所述
说 明 书
1/13页CN 111523532 A

本文发布于:2024-09-23 00:30:46,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/108104.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:识别   单词   结果   错误   模型   编辑   包括
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议