合合信息:表格识别与内容提炼技术理解及研发趋势

合合信息:表格识别与内容提炼技术理解及研发趋势
引⾔:
表格是各类⽂档中常见的对象,其结构化的组织形式⽅便⼈们进⾏信息理解和提取。表格的种类根据有⽆边框可以划分有线表、少线表、⽆线表。表格样式复杂多样,如存在背景填充、光照阴影、单元格⾏列合并等情况。⼤数据时代存在⼤量电⼦⽂档,应⽤表格识别技术能够减少表格处理时间,因此表格识别是⽂档理解领域的重要研究课题,也是合合信息这⼏年的技术突破点⽅向之⼀。
WIFI智能连接表格识别主要包括表格检测和表格结构识别两个⼦任务。表格检测主要检测表格主体,即样本中表格区域。表格结构识别是对表格区域进⾏分析,提取表格中的数据与结构信息,得到⾏列分布与逻辑结构。未经特殊说明,以下表格识别专指表格结构识别。
研究现状与解决⽅案:
循环氢压缩机近年来,国内外专家学者对表格识别进⾏了⼤量研究,取得了丰富的研究成果。下⾯主要从传统图像处理⽅法和深度学习这两个⽅⾯做具体阐述。
传统⽅法:传统的表格识别⼯作是基于⼀些启发式的规则和图像处理⽅法,主要利⽤表格线或者⽂本块之间的空⽩分隔区域来确定单元格区域,通过腐蚀、膨胀,连通区域,检测线段、直线,求交点,合
并猜测框等。有⾃顶向下的⽅法(先检测表格区域,再不断对表格区域进⾏切割拆分得到单元格区域);还有⾃底向上的⽅法(先检测⽂本块,到可能的表格线以及这些线的交点,确定单元格后还原出表格区域)
1、 OpenCV-检测并提取表格[1]
这是⼀种⾃顶向下的⽅法,先对图像进⾏⼆值化,然后使⽤霍夫变换,检测其中的直线,并在直线中,到围成的⼀个矩形区域,最后将这块区域提取出来。作者主要使⽤了四步操作:1、处理图像,灰度化,⼆值化。在灰度图的基础上运⽤adaptiveThreshold来达成⾃动阈值的⼆值化,取代Canny,这个算法在提取直线和⽂字⽐Canny有更好的效果 2、利⽤OpenCV⾥⾯的形态学函数,腐蚀erode膨胀dilate 3、交叉横纵线条,对点进⾏定位,通过bitwise_and函数获得横纵线条的交点,通过交点对表格区域进⾏提取 4、判断区域是否为表格。虽然此⽅法可以相对完整的识别图⽚中的表格,但也存在⼏个问题:1、图⽚倾斜不易识别 2、图⽚背景复杂会⼲扰识别 3、少线表情况,表格只有上下两条线的时候如何判断
2、pdfplumber解析表格[2]
pdfplumber是⼀款完全⽤python开发的pdf解析库,对于全线表,pdfminer能够实现较好的抽取效果,但对于少线表和⽆线表,效果就差了很多。下⾯介绍pdfplumber中的表格抽取流程,这是⼀种⾃底向
上的⽅法,⾸先到可见的或猜测出不可见的候选表格线;然后根据候选表格线确定它们的交点;接着根据得到的交点,到围成它们的最⼩单元格;最后把连通的单元格进⾏整合,⽣成检测出的表格对象。在表格⽣成的过程中,利⽤单元格的bbox坐标(四个⾓的坐标)判断单元格是否属于当前表格;同时对表格的左上⾓坐标进⾏排序,过滤掉⼩表格。
3、camelot表格抽取[3]
camelot是⼀个可以从可编辑的pdf⽂档中抽取表格的开源框架,与pdfplumber相⽐,其功能完备性差了点,除了表格抽取之外,并不能⽤它从pdf⽂档中解析出字符、单词、⽂本、线等较为低层次的对象。camelot⽀持两种表格抽取模式:
⼀、lattice线框类表格抽取,步骤如下:1、pdf转图像 2、图像处理算法检测出⽔平⽅向和竖直⽅向可能⽤于构成表格的直线 3、根据检测出的直线,⽣成可能表格的bounding box 4、确定表格各⾏、列的区域 5、根据各⾏、列的区域,⽔平、竖直⽅向的表格线以及页⾯⽂本内容,解析出表格结构,填充单元格内容,最终形成表格对象。
波纹片成型机⼆、stream少线框类表格抽取,步骤如下:1、通过pdfminer获取连续字符串 2、通过⽂本对齐的⽅式确定可能表格的bounding box
3、确定表格各⾏、列的区域
4、根据各⾏、列的区域以及页⾯上的⽂本字符串,解析表格结构,填充单元格内容,最终形成表格对象。
4、T-recs[4]
这是⼀种⾃底向上的⽅法,核⼼思想是对⽂本块区域进⾏聚类。步骤如下:1、从⽂本块中选择种⼦点 2、在种⼦点上下各⼀⾏分别去与该种⼦点⽂本块之间是否⽔平⽅向有重合,如果有重合则将相应⽂本块和种⼦点块归到⼀起,并作为新的种⼦点 3、重复第1、2步,不断与之⽔平⽅向有重合的⽂本块,直到所有的⽂本块都不能再合并下去。此⽅法也存在诸多局限:1、表头是跨单元格的,表头下⾯的⽂本块会被全部合并到⼀起 2、有时候上下⼏⾏⽂本确确实实是对齐的,但是和左右⽂本区域⽐较近,这种本不能分开的区域被错误的分开了3、孤⽴的⽂本块会被切分成单独块。 因此,本⽅法后⾯⼤部分⼯作是针对这三种局限设定后处理规则,该⽅法认为表格之所以是表格是由⽂本块的分布决定的,⽽与分割带⽆关。加⼊后处理规则之后该⽅法⽅法具有较好的通⽤性,⽆论是对与PDF⽂档还是OCR的结果,都有⽐较好的效果。
深度学习⽅法:近年来⼈⼯智能技术飞速发展,研究⼈员将CV,NLP和图神经等成熟⽅法应⽤在表格识别任务中,取得很多不错的成果。深度学习表格识别主流⽅法包括语义分割,⽬标检测,序列预测和图神经等,下⾯我们对这些⼯作分别进⾏介绍。
1. 语义分割⽅法:重组胶原蛋白
1.1 Rethinking Semantic Segmentation for Table Structure Recognition in Documents[5]
本⽂将表格结构的识别定义为语义分割问题,使⽤FCN⽹络框架,对表格的⾏和列分别进⾏预测。主要介绍了⼀种对预测结果进⾏切⽚的⽅法,降低了表格识别的复杂度。使⽤了FCN的Encoder和Decoder的结构,并加载了在ImageNet预训练好的模型。图⽚经过模型⽣成了与原图⼤⼩相同的特征,切⽚过程将特征按照⾏和列进⾏平均,将H*W*C(⾼*宽*Channel)的特征合并成了H*C和W*C⼤⼩特征;对这些特征进⾏卷积后,再进⾏复制,扩展为H*W*C的⼤⼩,再通过卷积层得到每个像素点的标签;最后进⾏后处理得到最终的结果。本⽂pipeline 如图1所⽰。本⽂⽅法的局限在于本⽂所处理的表格对象中所有的单元格不存在跨⾏跨列,每⾏每列都从表格的最左侧和最上端开始,到最右侧和最下端结束。
图1
1.2 腾讯表格识别技术⽅案[6]
图像分割是对图像的每个像素点赋予标签,在表格识别任务中,每个像素可能属于横线、竖线、不可见横线、不可见竖线这⼏个标签。解决⽅案流程如图2所⽰:1、表格线标注:横向的线,竖向的线,横向的不可见线,竖向的不可见线。类别不互斥,考虑到单元格交点问题,即交点处的像素属于多个类别 2、⼏何分析提取连通区域,对连通区域拟合折线,合并形成框线;考虑图⽚弯曲、表格倾斜的情况,利⽤投影变换对原图矫正 3、调⽤ocr,识别⽂本内容,确定字符坐标 4、根据第⼆步的框线计算⾏列信息,判断单元格合并情况,得到每个单元格在途中的位置 5、根据单元格坐标和字符坐标,将字符嵌⼊到单元格,还原表格。此⽅案专注于将页⾯拍照后进⾏表格识别,对于⼀般的表格效果还好,但现实场景太过纷杂,仍有很多问题亟待解决。
图2
2. 物体检测⽅法:
2.1 海康LGPMA⽅案[7]
此⽅案是ICDAR21⽐赛Table Recognition赛道的冠军,LGPMA将表格识别分为⽂本⾏检测、⽂字识别和表格结构识别三部分。⽂本检测模块是⼀个单⾏⽂本检测器,⽂字识别模块是⼀个基于attention 的识别器,这两部分⽤来获取表格图像中的⽂本信息。表格结构识别部分采⽤的是⼀种LGPMA的⽅案,基于Mask-RCNN同时出两个分割头,⼀个LPMA学习局部对齐边界,⼀个GPMA学习全局对齐边界,融合了⾃顶向下和⾃底向上两种思想。如图3所⽰。在得到两路的soft mask之后,将LPMA和GPMA的对齐mask融合,之后对每个单元格边框进⾏精修。最后经过cell matching , empty cell searching 和 empty cell merging三个后处理步骤得到最终的表格结构。原⽅案采⽤较⼤的基础⽹络,训练推理对硬件及输出尺⼨有⼀定约束,实际落地较为困难。
图3
2.2 ⾓点表格检测法[8]
欧米伽3榨油机
针对表格检测本⽂使⽤了“⾓点”来提升表格检测的精确度,对⽐基本模型在检测结果上能够得到进⼀步的检测与提升。⾸先引⼊⾓点的概念,如图4所⽰:⾓点是表格四个顶点周围的⼀部份区域,这些区域⼤⼩相同,同⼀个表格的所有⾓点构成⼀个⾓点组,⾓点的检测与表格检测⼀样,可以使⽤⽬标检测模型来解决,作者使⽤Faster R-CNN模型,同时进⾏⾓点和表格的检测,检测结构如图5所⽰,使⽤⾓点组对对应的表格检测的横坐标进⾏校准,得到最终的表格区域。该⽅法与未加⼊⾓点的Faster R-CNN模型相⽐,结果有了较⼤的提升。
图4
图5
2.3 基于CenterNet的端到端表格识别⽅案[9]
⽬标检测识别往往是在图像上将⽬标⽤矩形框的形式框出,⽬标检测器都先穷举出潜在⽬标位置,然
后对该位置进⾏分类,这种做法浪费时间,低效,还需要做额外的后处理。CenterNet是将⽬标作为⼀个点(BBOX中⼼点),利⽤中⼼点回归其他⽬标属性,⽐如尺⼨、位置、⽅向等。本⽂提出了⼀种基于CenterNet的表格识别⽅法,⽹络结构如图6所⽰,利⽤Cycle_Pairing模块和Pairing损失去学习相邻单元格的公共顶点信息,然后通过连结单元格获取⼀个完整的表格结构,最后使⽤相同的解析过程去获取⾏列信息。这篇⽂章解决户外场景图像的表格解析问题(TSP:table structure parsing),局限在于此⽅法仅适⽤于有线表格,⽆线表⾓点定义的歧义性使得本⽂⽅法不⼀定work。从本⽂的思路我们或许可以探索⾓点法在处理复杂场景的情况下是否⽐anchor-based的⽅法表现更优。
图6
3. 序列预测⽅法:
19rrr3.1 Latex标签序列预测[10]
基于图像的表格分析优势在于,它对表格类型具有鲁棒性,并不要求格式是页⾯扫描图像还是纯数字⽂档,它可⽤于多数⽂档类型,包括PDF、HTML、PowerPoint格式等。然⽽,⾮结构化数字⽂档中的表格数据,由于其结构和样式的复杂性及多样性,很难解析为结构化的机器可读格式。在实践中,⼿⼯标注⽤于训练的数据集的成本和不灵活性是实际部署深度学习模型的关键瓶颈。本⽂是微软的⼀篇⽂章,利⽤互联⽹中存在⼤量的Word和Latex源⽂档,对这些在线⽂档应⽤⼀些弱监督来标注表格,创建TableBank数据集。对于word⽂档,可以修改内部的office xml代码,指定每个表格的边界线;对于latex⽂档,可以修改tex代码,代码已识别表格的边界框。表格检测使⽤基于不同配置的Faster R-CNN的架构,表格结构识别模型基于image-to-text的编码器-解码器架构。本⽂的局限在于版式多样对表格分析任务的准确率具有负⾯影响,模型泛化能⼒差,某⼀领域的模型应⽤到其他领域效果不好,在TableBank数据集上的建模和学习具有很⼤改进空间。
3.2 HTML标签序列预测[11]
类似地,IBM公司开发并发布了数据集PubTabNet,此数据集中⾃动为每个表图像加上关于表的结构和每个单元格内的⽂本信息(HTML格式),如图7(a)所⽰。作者等⼈提出了⼀种端到端的表格识别⽅案,是⼀种基于注意⼒的编码器-解码器(EDD)架构,它是由编码器、结构解码器和单元格解码器组成,可以将表格图像转化成HTML代码。编码器获得表格图像的视觉特征,两个独⽴的结构解码器⼀个输出表格结构,⼀个输出单元格内容。图7(b)所⽰为EDD架构,不需要复杂的后处理即可得到表格
结果。但end2end的⽅案在中⽂场景的落地还有很长的路要⾛,另外缺少表格物理结构的信息,EDD⽅法的纠错空间不多。同时,本⽂的另⼀个贡献是提出了⼀种新的基于树编辑距离的图像表格识别评价指标TEDS,将表格建模为树形结构,该指标⽐之前的基于precision、reacll、F1 score的评价指标更为规范。
图7(a)
图7(b)
3.3 TableMaster解决⽅案[12]

本文发布于:2024-09-23 01:24:28,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/253198.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:表格   识别   结构   检测   区域   图像   得到   学习
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议