(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202011434430.6
(22)申请日 2020.12.10
(71)申请人 西藏大学
地址 850000 西藏自治区拉萨市城关区江
苏路36号
申请人 同方知网数字出版技术股份有限公
司
(72)发明人 扎西 拥措 师庆辉 芦筱菲
毕琰虹 洛桑嘎登 仁增多吉
(74)专利代理机构 郑州知一智业专利代理事务
所(普通合伙) 41172
代理人 刘彩霞
(51)Int.Cl.
G06T 7/11(2017.01)
G06T 7/136(2017.01)
G06T 5/30(2006.01)G06T 5/00(2006.01)G06K 9/00(2006.01)
(54)发明名称一种藏文古籍的版面分析方法及系统(57)摘要本发明涉及一种藏文古籍的版面分析方法及
系统,获取藏文古籍图像,对藏文古籍图像进行二值化处理,获取藏文古籍图像的二值图像,对二值图像进行分离处理,获取文本文档和非文本文档,对文本文档进行区域分割,提取文本区域,获取非本文文档中的图像元素。本发明提供的藏文古籍的版面分析方法能够针对版面结构较复杂的藏文古籍进行可靠分析,并不依赖于具体文档的版面结构,提升处理效果,能够准确分析识别出其中的文本文档和非文本文档,并对文本文档和非文本文档进行可靠处理,而且,本发明提供的藏文古籍的版面分析方法中,降低了计算复杂度,减少了整个过程的计算时间,提高了 分析精度和效率。权利要求书4页 说明书11页 附图4页CN 112561928 A 2021.03.26
C N 112561928
A
1.一种藏文古籍的版面分析方法,其特征在于,包括:
获取藏文古籍图像;
对所述藏文古籍图像进行二值化处理,获取所述藏文古籍图像的二值图像;
对所述二值图像进行分离处理,获取所述二值图像中的文本文档和非文本文档;
对所述文本文档进行区域分割,提取文本区域;
获取所述非本文文档中的图像元素。
2.根据权利要求1所述的藏文古籍的版面分析方法,其特征在于,所述对所述藏文古籍图像进行二值化处理,获取所述藏文古籍图像的二值图像,包括:
对所述藏文古籍图像进行灰度化处理,得到灰度图像;
对所述灰度图像进行二值化处理,得到所述藏文古籍图像的二值图像。
3.根据权利要求2所述的藏文古籍的版面分析方法,其特征在于,所述对所述灰度图像进行二值化处理,得到所述藏文古籍图像的二值图像,包括:
对所述灰度图像使用Sauvola算法求取每个像素(x,y)的局部阈值,计算公式如下:
其中,T(x,y)为所述局部阈值,m(x,y)和s(x,y)表示像素中心为(x,y)的W×W窗口的局部平均值和标准差,R是标准差的最大值,参数k为预设参数;
像素(x,y)的积分图像I的计算公式为:
其中,g(x,y)为所述灰度图像;
任意W窗口的局部平均值m(x,y)和标准差s(x,y)的计算公式为:
其中,对于a×b的图像,窗口尺寸选为W=1/2×min(a,b);
将属于前景的像素赋值为1,背景像素赋值为0,所述藏文古籍图像的二值图像f(x,y)的计算公式为:
4.根据权利要求2所述的藏文古籍的版面分析方法,其特征在于,所述对所述藏文古籍图像进行灰度化处理,得到灰度图像之前,所述藏文古籍的版面分析方法还包括:
对所述藏文古籍图像依次进行Gamma矫正和基于Hough变换的倾斜矫正。
5.根据权利要求1所述的藏文古籍的版面分析方法,其特征在于,所述对所述二值图像进行分离处理,获取所述二值图像中的文本文档和非文本文档,包括:
在所述二值图像中提取和标注连通分量,并判定连通分量为文本元素还是非文本元素;
根据启发式过滤过程去除所述非文本元素;
对经过所述启发式过滤过程得到的二值图像进行迭代过滤;
对迭代过滤之后的二值图像进行区域重塑,
获取所述文本文档和非文本文档。6.根据权利要求5所述的藏文古籍的版面分析方法,其特征在于,所述在所述二值图像中提取和标注连通分量,并判定连通分量为文本元素还是非文本元素,包括:
记CCs为二值图像f的所有连通分量集,CC i 是第i个连通分量,B(CC i )是CC i 的边界框,左上和右下的坐标分别为与(Xl i ,Yl i ),(Xr i ,Yr i ),H i 和W i 是B(CC i )的高度和宽度;H olap (CC i )和V olap (CC i )是分别与CC i 在同一列和同一行的连通分量的集合:
H olap (CC i )={CC i ∈CCs|max(Xl i ,Xl j )‑min(Xr i ,Xr j )<0}
V olap (CC i )={CC i ∈CCs|max(Yl i ,Yl j )‑min(Yr i ,Yr j )<0}
连通分量的左右近邻判断过程如下:
CC i 的右近邻为CC j ,j≠i满足CC j ∈V olap (CC i ),CC j 不在CC i 内部,Xl j >Xr j ,且:
Xl j ‑Xr j =min{Xl t ‑Xr j >0|CC t ∈V olap (CC i )}
其中,Xl j ‑Xr j 为CC i 和CC j 之间的空白格距离;
根据计算得到的空白格距离,结合预设阈值,判定连通分量为文本元素还是非文本元素;
相应地,所述根据启发式过滤过程去除所述非文本元素,包括:
连通分量如果满足以下四个条件中的任意一个,则判断其为非文本元素:
条件一:连通分量中的像素数量小于预设像素个数阈值;
条件二:连通分量内部包含的边界框个数大于预设边界框个数阈值;
条件三:连通分量的密度小于预设密度阈值;
条件四:连通分量的高度和宽度的比例没有处于预设正常比例范围;
设定CCs ′表示经过上述四个条件过滤后得到的非文本元素集合,则
且CCs=CCs\CCs ′其中,为经过启发式过滤后得到的二值图像;
相应地,所述对经过所述启发式过滤过程得到的二值图像进行迭代过滤,包括:(1)提取的同质区域HR k ,其中,m是同质区域个数;
(2)在所有同质区域H R k中使用空白格分析来识别非文本分量及其标签,记作
使用标签矩阵移除这些非文本分量从而得到新的二值图像
(3)重复所述步骤(1)和(2),直到没有任何非文本分量或此时,所有同质区域HR k均为文本同质区域HR k*;
相应地,所述对迭代过滤之后的二值图像进行区域重塑,获取所述文本文档和非文本文档,包括:
根据各同质区域的坐标得到文本文档:
非文本文档的计算公式为:
提取文本文档中所有连通分量的边界框B(CC
),令CCs text表示文本文档中所有连通分
i
的集合,表示文本文档的边界框图像;
量CC
i
的集合,若令CCs ntext表示非文本文档中所有连通分量CC
j
则最终输出的文本文档和非文本文档分别为:
7.根据权利要求1所述的藏文古籍的版面分析方法,其特征在于,所述对所述文本文档进行区域分割,提取文本区域,包括:
中的文本元素聚集到一起,提取文本外围框,得到
将文本文档f
text
基于合并文本行获取所有同质区域,根据间距进行段落分割;
将段落分割之后得到的每个同质区域中,高度以及垂直距离均满足近距离要求的文本行进行合并,使用形态闭合平滑的矩形核来提取对应的文本区域。
8.根据权利要求1所述的藏文古籍的版面分析方法,其特征在于,所述获取所述非本文文档中的图像元素,包括:
对所述非文本文档中的每个图像区域进行形态膨胀,获取边界;
根据边界,分离得到所述非本文文档中的图像元素。
9.根据权利要求1所述的藏文古籍的版面分析方法,其特征在于,所述对所述二值图像进行分离处理,获取所述二值图像中的文本文档和非文本文档之后,所述藏文古籍的版面分析方法还包括:
对所述文本文档和非文本文档进行除噪,得到无噪声干扰的文本文档和非文本文档。
10.一种藏文古籍的版面分析系统,其特征在于,包括:
藏文古籍图像获取模块,用于获取藏文古籍图像;
二值化模块,用于对所述藏文古籍图像进行二值化处理,获取所述藏文古籍图像的二值图像;
图像分离模块,用于对所述二值图像进行分离处理,获取所述二值图像中的文本文档和非文本文档;
文本文档分割模块,用于对所述文本文档进行区域分割,提取文本区域;
图像元素获取模块,用于获取所述非本文文档中的图像元素。