一种证件OCR识别方法及系统[发明专利]

(19)国家知识产权局
(12)发明专利
(10)授权公告号 (45)授权公告日 (21)申请号 202210235254.6
(22)申请日 2022.03.11
(65)同一申请的已公布的文献号
申请公布号 CN  114332865 A
(43)申请公布日 2022.04.12
(73)专利权人 北京锐融天下科技股份有限公司
地址 100085 北京市海淀区上地三街9号B
座2层B312
(72)发明人 刘海龙 闵刚 姚占龙 
(74)专利代理机构 北京汇信合知识产权代理有
限公司 11335
专利代理师 孙民兴
(51)Int.Cl.
G06V  30/146(2022.01)
G06V  30/148(2022.01)
G06V  30/18(2022.01)G06V  10/82(2022.01)G06N  3/04(2006.01)审查员 于淼 (54)发明名称
一种证件OCR识别方法及系统
(57)摘要
本发明公开了一种证件OCR识别方法及系
统,包括:采集证件图像、证件图像预处理、证件
图像粗定位、证件图像文本定位、证件图像文本
识别、证件图像文本校正;其中,证件图像粗定
位,包括:对证件图像进行文本检测,识别筛选出
文本区域;对所有文本区域进行裁剪,得到对应
的文本图片集;对文本图片集进行逐个识别,将
识别结果与预选定基准区域的基准字符串格式
进行匹配;选择匹配度最高的图片文本框为基准
定位。本发明通过对现有OCR识别方法进行改进,
克服边缘检测困难、校正身份证照片倾斜、改善
字迹模糊,提高识别率,
降低拒识率。权利要求书2页  说明书6页  附图6页CN 114332865 B 2022.06.03
C N  114332865
B
1.一种证件OCR识别方法,包括:采集证件图像、证件图像预处理、证件图像粗定位、证件图像文本定位、证件图像文本识别、证件图像文本校正;
其特征在于,
所述证件图像粗定位,包括:
对证件图像进行文本检测,识别筛选出文本区域;
对所有所述文本区域进行裁剪,得到对应的文本图片集;
对所述文本图片集进行逐个识别,将识别结果与预选定基准区域的基准字符串格式进行匹配;
选择匹配度最高的图片文本框为基准定位;
所述证件图像文本定位,包括:
对预处理后的二值化图像进行逐点像素霍夫变换,探测出图像中各行文本所在的直线;
统计各行文本所在直线的倾斜角度,将最集中的倾斜角度作为整个证件图像的图像倾斜角度;
根据所述图像倾斜角,获得仿射映射矩阵M;
基于所述仿射映射矩阵M,对原图像进行仿射变换,得到校正图像;
基于所述仿射映射矩阵M,对原图像中的文本框基准定位进行变换,得到校正后的基准定位坐标L;
计算校正后的基准定位坐标L与证件关键要素文本框模板中基准定位的水平、上下偏移量和缩放比例,对证件关键要素文本框模板中各文本框进行定位校正;
根据文本框定位校正结果,对校正后图像进行裁剪,得到各文本框图像。
2.如权利要求1所述的证件OCR识别方法,其特征在于,所述基准区域为证件上固定位置的机器读码区。
3.如权利要求1所述的证件OCR识别方法,其特征在于,采用基于卷积神经网络CNN架构的CRAFT技术对证件图像进行文本检测。
4.如权利要求1所述的证件OCR识别方法,其特征在于,使用OCR工具,采用按行识别模式,对所述文本图片集进行逐个识别。
5.如权利要求1所述的证件OCR识别方法,其特征在于,所述统计各行文本所在直线的倾斜角度,将最集中的倾斜角度作为整个证件图像的图像倾斜角度;包括:从0度开始,按0.1度步进,对所有直线所在角度区间进行计数统计;
获得直线角度最集中的区间,并将该区间对应角度的中间值作为整个证件图像的图像倾斜角度。
6.一种证件OCR识别系统,包括:
采集模块,用于采集证件图像;
预处理模块,用于证件图像预处理;
粗定位模块,用于证件图像粗定位;
文本定位模块,用于证件图像文本定位;
文本识别模块,用于证件图像文本识别;
文本校正模块,用于证件图像文本校正;
其特征在于,所述粗定位模块,具体用于:
对证件图像进行文本检测,识别筛选出文本区域;
对所有所述文本区域进行裁剪,得到对应的文本图片集;
对所述文本图片集进行逐个识别,将识别结果与预选定基准区域的基准字符串格式进行匹配;
选择匹配度最高的图片文本框为基准定位;
所述文本定位模块,具体用于:
对预处理后的二值化图像进行逐点像素霍夫变换,探测出图像中各行文本所在的直线;
从0度开始,按0.1度步进,对所有直线所在角度区间进行计数统计;
获得直线角度最集中的区间,并将该区间对应角度的中间值作为整个证件图像的图像倾斜角度;
根据所述图像倾斜角,获得仿射映射矩阵M;
基于所述仿射映射矩阵M,对原图像进行仿射变换,得到校正图像;
基于所述仿射映射矩阵M,对原图像中的文本框基准定位进行变换,得到校正后的基准定位坐标L;
计算校正后的基准定位坐标L与证件关键要素文本框模板中基准定位的水平、上下偏移量和缩放比例,对证件关键要素文本框模板中各文本框进行定位校正;
根据文本框定位校正结果,对校正后图像进行裁剪,得到各文本框图像。
一种证件OCR识别方法及系统
技术领域
[0001]本发明涉及图像识别技术领域,具体涉及一种证件OCR识别方法及系统。
背景技术
[0002]身份证等证件识别技术使用成熟的OCR文字识别技术,通过手机或者带有摄像头的终端设备对身份证拍照,并对身份证照片做OCR文字识别,提取身份证信息。此技术越来越被广大消费用户认知并使用,不仅集合了身份证识别,还包括驾驶证识别、行驶证识别、护照识别、车牌识别、银行卡号识别、名片识别等集合化的功能。
[0003]现有身份证等证件的OCR识别方法,包括:
[0004]  1.采集身份证等证件图像;
[0005]  2.证件图像预处理:图像预处理是指对身份证等证件图像进行灰度化、二值化和去噪、纠偏、透视变换等处理,以使身份证图像的质量得到改善,同时保留和增强身份证中纹理和颜的信息,去除可能影响身份证区域纹理和颜信息的噪点,为身份证图像定位提供方便;其中,常用的预处理方法包括:图像灰度化、图像灰度拉伸和空域滤波之中值滤波。
[0006]  3.证件图像粗定位:图像粗定位是指图像经过各种算法的处理后能够清楚地显示出身份证图像区域,同时使图像中的非身份证区域减弱,从而能准确有效地定位出身份证中各个要素在图像中的位置;其中,使用的算法主要有:边缘检测法、数学形态学法、基于纹理分析的定位方法、行检测和边缘统计法、遗传算法、Hough变化和轮廓线法、基于小波变换的方法和神经网络法等;例如,现有专利CN109034165A公开了《一种证件图像的裁切方法、装置、系统及存储介质》,其采用边缘检测法对灰度图像进行边缘线段检测,得到所述灰度图像的边缘线段信息,针对证件边界模糊的情形,上述专利的轮廓检测不准确。
[0007]  4.证件图像文本定位:图像文本定位是指对身份证中关键文本区域(如姓名、性别、出生日期、民族、住址、有效期等关键要素)进行定位、调整区域尺寸、提取有效图像,并将这些区域从照片中切
分出来;例如,现有专利CN109993160B公开了《一种图像矫正及文本与位置识别方法及系统》,其通过检测图片的文字角度来获得旋转角度,同时依据神经网络进行文本识别;其不涉及文本的基准定位,无法实现文本直接识别;现有专利CN111914836A 公开了《一种身份证信息提取方法、装置、设备和介质 》,其确定身份证号码包含所述每个字符所在区域的子区域,根据所述子区域的边框线与水平线的夹角,对所述身份证图像进行倾斜矫正,其不适用于局部变形等情况下证件的识别;现有专利CN111144400A公开了《一种身份证信息的识别方法、装置、终端设备及存储介质》,其不适用于倾斜、局部变形等情况下证件的识别。
[0008]  5.证件图像文本识别;图像文本识别是指采用OCR技术对切分出的文本图像进行识别,获得关键要素文本信息;常用的OCR工具有:tesseract,EasyOCR,PaddleOCR。[0009]  6.证件图像文本校正:图像文本校正是指对识别出的关键要素,按要素构成规则进行匹配,并进行最大程度纠正;如出生日期需要符合身份证中的日期格式,性别和民族需
要匹配相应数据字典,住址需要符合相应国家行政区划标准等。
[0010]现有的身份证OCR识别方法在一些小语种国家的商业银行应用于移动银行中,遇到了以下问题:
[0011]  1.有些用户对身份证做了塑封,证件边界模糊,轮廓检测不准确;
[0012]  2.身份证质地较薄、易弯曲,身份证拍照在水平和纵深方向倾斜度较大;[0013]  3.身份证印刷清晰度不高,磨损度高,关键要素字迹模糊和粘连。
[0014]上述问题在常用的身份证OCR技术应用中识别率不高,拒识率高,无法满足商业银行的推广使用。
发明内容
[0015]针对现有技术中存在的上述问题,本发明提供一种证件OCR识别方法及系统,通过对现有OCR识别方法进行改进,克服边缘检测困难、校正证件照片倾斜、改善字迹模糊,提高识别率,降低拒识率。
[0016]本发明公开了一种证件OCR识别方法,包括:采集证件图像、证件图像预处理、证件图像粗定位、证件图像文本定位、证件图像文本识别、证件图像文本校正;
[0017]其中,所述证件图像粗定位,包括:
[0018]对证件图像进行文本检测,识别筛选出文本区域;
[0019]对所有所述文本区域进行裁剪,得到对应的文本图片集;
[0020]对所述文本图片集进行逐个识别,将识别结果与预选定基准区域的基准字符串格式进行匹配;
[0021]选择匹配度最高的图片文本框为基准定位。
[0022]作为本发明的进一步改进,所述基准区域为证件上固定位置的机器读码区。[0023]作为本发明的进一步改进,采用基于卷积神经网络CNN架构的CRAFT技术对证件图像进行文本检测。
[0024]作为本发明的进一步改进,使用OCR工具,采用按行识别模式,对所述文本图片集进行逐个识别。
[0025]作为本发明的进一步改进,所述证件图像文本定位,包括:
[0026]对预处理后的二值化图像进行逐点像素霍夫变换,探测出图像中各行文本所在的直线;
[0027]统计各行文本所在直线的倾斜角度,将最集中的倾斜角度作为整个证件图像的图像倾斜角度;
[0028]基于所述图像倾斜角度,旋转得到校正图像和校正基准定位;
[0029]基于校正图像和校正基准定位,对各文本框进行定位校正,裁剪得到各文本框图像。
[0030]作为本发明的进一步改进,所述统计各行文本所在直线的倾斜角度,将最集中的倾斜角度作为整个证件图像的图像倾斜角度;包括:
[0031]从0度开始,按0.1度步进,对所有直线所在角度区间进行计数统计;
[0032]获得直线角度最集中的区间,并将该区间对应角度的中间值作为整个证件图像的图像倾斜角度。

本文发布于:2024-09-23 00:21:44,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/426842.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:图像   证件   文本   进行   识别   身份证
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议