基于OCR的财务报表信息检测和识别方法[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202010898577.4
(22)申请日 2020.08.31
(71)申请人 民生科技有限责任公司
地址 101300 北京市顺义区马坡镇顺安南
路86号
(72)发明人 李振 鲁宾宾 刘挺 刘昊霖 
翟昶 陈远琴 母丹 王子祎 
(74)专利代理机构 北京金智普华知识产权代理
有限公司 11401
代理人 巴晓艳
(51)Int.Cl.
G06K  9/00(2006.01)
G06K  9/20(2006.01)
G06K  9/34(2006.01)
G06K  9/40(2006.01)
(54)发明名称
基于OCR的财务报表信息检测和识别方法
(57)摘要
本发明涉及财务数据分析技术领域,提供了
一种基于OCR的财务报表信息检测和识别方法,
包括:对财务报表图像进行图像预处理、财务报
表非表格区域信息提取、财务报表表格区域信息
提取、文本检测、文本识别、格式化输出、配平校
验。本发明首先区分是正常的表格、三线表、无线
表;针对不同制表方式,采用不同的区域定位方
法快速完成财务要素定位;用文字检测识别方法
完成各要素的识别;针对数字混淆、小数点错漏
问题,根据会计准则设置科目间配平规则,如OCR
结果通过配平校验,才认为输出了正确的识别结
果;本发明能大幅提高财务报表处理效率,能确
保财务报表表格区域提取的准确性和通用性以
及财务报表领域文本识别准确性,具有推广应用
价值。权利要求书2页  说明书6页  附图1页CN 112016481 A 2020.12.01
C N  112016481
A
1.一种基于OCR的财务报表信息检测和识别方法,其特征在于,所述方法包括如下步骤:
S1、识别财务报表图像的非表格区域,提取非表格区域信息;
S2、对财务报表图像的表格区域进行细分识别,得到所有的数据单元格,按照所述数据单元格进行子图切分;
S3、对步骤S2中切分出的子图进行文本检测,识别出子图中的文本区域;
S4、对经步骤S3文本识别后的文本区域进行文本识别;
S5、将表格区域和非表格区域的文本识别内容进行排版整合,以结构化的方式输出财务报表信息。
2.如权利要求1所述的基于OCR的财务报表信息检测和识别方法,其特征在于,在步骤S1之前,对财务报表图像进行图像预处理,所述图像预处理具体为:
S0.1对输入的财务报表图像进行二值化处理:设置阈值,根据每个像素点的值将其转化为纯白或者纯黑,将文本图像转化成噪声点较少的白底黑字图像;
S0.2对经步骤S0.1处理后的图像进行形态学处理,消除单个字周围毛刺,减少单个字内的空白,使得每个字符成为紧凑的字团;所述形态学处理包括腐蚀、膨胀。
3.如权利要求1所述的基于OCR的财务报表信息检测和识别方法,其特征在于,所述方法还包括:
S6、根据会计准则设置科目间的配平规则,对步骤S5中输出的财务报表信息进行配平校验,若OCR结果通过配平校验,则输出的为正确识别结果;否则,继续进行OCR识别,调整识别结果。
4.如权利要求1所述的基于OCR的财务报表信息检测和识别方法,其特征在于,步骤S1中,提取非表格区域信息的具体步骤包括:
S1.1在财务报表图像的水平方向上进行投影,得到图像高度像素数条水平方向的黑像素累加值,做分布图,并出累加值接近最大值的多条水平线位置;
S1.2选择最上方的一条水平线和最下方的一条水平线分别为分割非表格区域和表格区域的起始基准线和终止基准线;
S1.3在所述起始基准线上方截取紧邻的一行文字行,在所述终止基准线下方截取紧邻的一行文字行,对文字行进行文本检测和文本识别,得到文字行的内容;
S1.4将识别出的所述起始基准线上方文字行的内容与收集的财务报表术语词数据库的条目进行比对,若不在所述数据库中,则所述起始基准线即为分割表格区域和非表格区域的起始水平线;若在所述数据库中,则起始水平线位置由所述起始基准线位置减去该文字行的高度得到;同样,将识别出的所述终止基准线下方文字行的内容与收集的财务报表术语词数据库的条目进行比对,若不在所述数据库中,则所述终止基准线即为分割表格区域和非表格区域的终止水平线;若在所述数据库中,则终止水平线位置由所述终止基准线位置加上该文字行的高度得到;
S1.5所述起始水平线和终止水平线之间的区域为表格区域,所述表格区域外为非表格区域。
5.如权利要求1所述的基于OCR的财务报表信息检测和识别方法,其特征在于,步骤S2中,根据不同的财务报表类别,对财务报表图像的表格区域进行对应细分识别及信息提取:
S2.1有横线有竖线的表格区域信息提取:
使用直线段检测算法LSD将表格中的所有直线段检测出来,利用检测出的线段确定表格的基本结构以及每个单元格的区域范围;所述基本结构为表格的行数及列数;
S2.2无横线有竖线的表格区域信息提取:
S2.2.1对表格区域进行水平投影,得到图像高度像素数条水平方向的黑像素累加值,并做分布图;波谷位置处像素累加值接近0的地方所代表的水平位置即要的水平表格分割线;
S2.2.2对表格区域进行垂直投影,得到图像宽度像素数条垂直方向的黑像素累加值,出累加值接近最大值的多条垂线位置,即要的垂直表格分割线;
S2.2.3根据水平表格分割线和垂直表格分割线,对表格区域进行数据单元格切分,每2条相邻的水平表格分割线和垂直表格分割线切分出一个数据单元格,得到表格区域每一个数据单元格的四个角坐标并根据坐标切分出对应图片中的数据单元格区域子图;
S2.3无横线无竖线的表格区域信息提取:
S2.3.1对表格区域进行水平投影,得到图像高度像素数条水平方向的黑像素累加值,并做分布图;波谷位置处像素累加值接近0的地方所代表的水平位置即要的水平表格分割线;
S2.3.2对表格区域进行垂直投影,得到图像宽度像素数条垂直方向的黑像素累加值,并做分布图。波谷位置处像素累加值接近0的地方所代表的垂直位置即要垂直表格分割线;
S2.3.3根据水平表格分割线和垂直表格分割线,对表格区域进行数据单元格切分,每2条相邻的水平表格分割线和垂直表格分割线切分出一个数据单元格,得到表格区域每一个数据单元格的四个角坐标并根据坐标切分出对应图片中的数据单元格区域子图。
6.如权利要求1所述的基于OCR的财务报表信息检测和识别方法,其特征在于,步骤S3中,使用文本检测模型对切分出的子图进行文本检测,定位具体的文本区域,获得文本区域相应的坐标并切分出精确的文本区域子图。
7.如权利要求6所述的基于OCR的财务报表信息检测和识别方法,其特征在于,所述文本检测模型采用CRAFT模型。
8.如权利要求1所述的基于OCR的财务报表信息检测和识别方法,其特征在于,步骤S4中,文本识别采用DenseNet模型生成财务报表领域特殊训练样本并训练模型,对步骤S3中切分出的每一个精确的文本区域子图进行文字内容识别;所述财务报表领域特殊训练样本包含中文、英文、数字、特殊符号。
9.如权利要求1所述的基于OCR的财务报表信息检测和识别方法,其特征在于,步骤S5中,根据步骤S2
中获得的数据单元格的位置结果,及步骤S4中获得的文本识别结果,将财务报表表格内容按照行列坐标写入格式化文件中作为最终识别结果。
10.一种实现如权利要求1-9任一项所述的基于OCR的财务报表信息检测和识别方法的计算机程序、信息数据处理终端、计算机可读存储介质。
基于OCR的财务报表信息检测和识别方法
技术领域
[0001]本发明涉及财务数据分析技术领域,特别涉及一种基于OCR的财务报表信息检测和识别方法。
背景技术
[0002]银行、税务、审计等机构存在大量基于财务报表的数据分析工作。按照财务报表种类的不同,每个财务报表至少有30-200个字段需要录入。手工处理效率低、易出错,与人工手工录入相比,财报OCR技术可直接从财报影像中提取科目、金额等重要数据,帮助银行、税务、审计等提高工作效率,构建自动化的信审系统。
[0003]OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查
纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。OCR传统上是指对输入扫描的文档图形进行分析和处理,检测并识别出图像中的文字信息,一般包含了文字检测(Text Detection)和文字识别(Text Recognition)两部分。
[0004]实际操作中,由于财务报表制表方式多样以及OCR识别出现容易数字混淆、小数点错漏等问题,市场上存在的财务报表OCR识别系统无法输出精确度很高的识别结果。
发明内容
[0005]本申请解决的技术问题:
[0006]由于财务报表的格式多样复杂,表格区域与非表格区域互相交叠,目前,仍没有一种有效的方法将财务报表里的所有内容进行检测识别并格式化输出。
[0007]财务报表制表OCR识别出现容易数字混淆、小数点错漏等问题,市场上存在的财务报表OCR识别系统无法输出精确度很高的识别结果。
[0008]本申请的整体技术思路:
[0009]本发明通过分析财务报表的样式特点,提出了3种主流样式的财务报表分析提取方法,将财务报表的表格和非表格信息分别进行检测和识别,最终将不同区域的内容进行格式化输出。
[0010]针对制表多样的问题,首先通过判断图片上的最长的横线两端是否与竖线有交点,区分是正常的表格、三线表、无线表;针对不同的制表方式,采用不同的区域定位方法快速完成财务要素的定位;然后用文字检测识别方法完成各要素的识别。
[0011]针对数字混淆、小数点错漏的问题,根据会计准则,设置科目间的配平规则,如OCR 结果通过配平校验,才认为输出了正确的识别结果;否则,会继续进行OCR识别,调整识别结果。
[0012]本发明采用如下技术方案:
[0013]一种基于OCR的财务报表信息检测和识别方法,包括如下步骤:
[0014]S1、识别财务报表图像的非表格区域,提取非表格区域信息;
[0015]S2、对财务报表图像的表格区域进行细分识别,得到所有的数据单元格,按照所述数据单元格进行子图切分;
[0016]S3、对步骤S2中切分出的子图进行文本检测,识别出子图中的文本区域;[0017]S4、对经步骤S3文本识别后的文本区域进行文本识别;
[0018]S5、将表格区域和非表格区域的文本识别内容进行排版整合,以结构化的方式输出财务报表信息。
[0019]进一步的,在步骤S1之前,对财务报表图像进行图像预处理,所述图像预处理具体为:
[0020]S0.1对输入的财务报表图像进行二值化处理:设置阈值,根据每个像素点的值将其转化为纯白或者纯黑,将文本图像转化成噪声点较少的(较为纯净)白底黑字图像;
[0021]S0.2对经步骤S0.1处理后的图像进行形态学处理,消除单个字周围毛刺,减少单个字内的空白,使得每个字符成为紧凑的字团;所述形态学处理包括腐蚀、膨胀。[0022]进一步的,所述方法还包括:
[0023]S6、根据会计准则设置科目间的配平规则,对步骤S5中输出的财务报表信息进行配平校验,若OCR结果通过配平校验,则输出的为正确识别结果;否则,继续进行OCR识别,调整识别结果。
[0024]进一步的,步骤S1中,提取非表格区域信息的具体步骤包括:
[0025]S1.1在财务报表图像的水平方向上进行投影,得到图像高度像素数条水平方向的黑像素累加值,做分布图,并出累加值接近最大值的多条水平线位置;
[0026]S1.2选择最上方的一条水平线为分割非表格区域和表格区域的起始基准线;[0027]S1.3在所述起始基准线上方截取紧邻的一行文字行,在所述终止基准线下方截取紧邻的一行文字行,对文字行进行文本检测和文本识别,得到文字行的内容;
[0028]S1.4将识别出的所述起始基准线上方文字行的内容与收集的财务报表术语词数据库的条目进行比对,若不在所述数据库中,则所述起始基准线即为分割表格区域和非表格区域的起始水平线;若在所述数据库中,则起始水平线位置由所述起始基准线位置减去该文字行的高度得到;同样,将识别出的所述终止基准线下方文字行的内容与收集的财务报表术语词数据库的条目进行比对,若不在所述数据库中,则所述终止基准线即为分割表格区域和非表格区域的终止水平线;若在所述数据库中,则终止水平线位置由所述终止基准线位置加上该文字行的高度得到;
[0029]S1.5所述起始水平线和终止水平线之间的区域为表格区域,所述表格区域外为非表格区域。
[0030]进一步的,步骤S2中,根据不同的财务报表类别,对财务报表图像的表格区域进行对应细分识别及信息提取;
[0031]S2.1有横线有竖线的表格区域信息提取:
[0032]使用直线段检测算法LSD将表格中的所有直线段检测出来,利用检测出的线段确定表格的基本结构以及每个单元格的区域范围;所述基本结构为表格的行数及列数;[0033]S2.2无横线有竖线的表格区域信息提取:
[0034]S2.2.1对表格区域进行水平投影,得到图像高度像素数条水平方向的黑像素累

本文发布于:2024-09-23 00:36:48,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/447876.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:表格   财务报表   区域   进行   识别   图像   检测
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议