(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910185902.X
(22)申请日 2019.03.12
(71)申请人 北京汉王数字科技有限公司
地址 100193 北京市海淀区东北旺西路8号
5号楼3层303室
申请人 西藏大学
(72)发明人 扎西 韦秋华 刘正珍 拥措
洛桑嘎登
(74)专利代理机构 北京润泽恒知识产权代理有
限公司 11319
代理人 莎日娜
(51)Int.Cl.
G06K 9/00(2006.01)
G06K 9/32(2006.01)
G06K 9/34(2006.01)
(54)发明名称
(57)摘要
本申请提供了一种藏文识别方法,属于光学
字符识别技术领域,解决了现有技术中藏文识别
模型对各所述目标图像块进行识别,确定每个所
像块的重叠信息对各所述目标图像块的文本识
别结果进行整合,确定所述待识别文本行图像的
文本识别结果。本申请公开的藏文识别方法,不
需要将藏文文本行图像切分到单字,而是以图像
块的形式通过串识别模型进行识别,可以有效提
升识别的准确率。权利要求书3页 说明书18页 附图3页CN 110032938 A 2019.07.19
C N 110032938
A
权 利 要 求 书1/3页CN 110032938 A
1.一种藏文识别方法,其特征在于,包括:
确定待识别文本行图像中的依序分布的目标图像块和所述目标图像块的重叠信息;
通过预设第一文本串识别模型对各所述目标图像块进行识别,确定每个所述目标图像块的文本识别结果;
根据所述目标图像块的重叠信息对各所述目标图像块的文本识别结果进行整合,确定所述待识别文本行图像的文本识别结果。
2.根据权利要求1所述的方法,其特征在于,所述确定待识别文本行图像中的依序分布的目标图像块和所述目标图像块的重叠信息的步骤,包括:
根据所述待识别文本行图像在水平方向的投影对所述待识别文本行图像进行切分,确定所述待识别文本行图像包括的投影图像块;
通过沿所述待识别文本行图像的宽度方向滑动指定滑窗,对所述投影图像块进行合并或拆分处理,确定所述待识别文本行图像中的目标图像块及各所述目标图像块的重叠信息。
3.根据权利要求2所述的方法,其特征在于,所述通过沿所述待识别文本行图像的宽度方向滑动指定滑窗,对所述投影图像块进行合并或拆分处理,确定所述待识别文本行图像中的目标图像块及各所述目标图像块的重叠信息的步骤,包括:
根据所述第一文本串识别模型的输入图像尺寸,确定所述指定滑窗宽高比;
根据所述待识别文本行图像的高度和所述指定滑窗的宽高比,确定所述指定滑窗的宽度;
沿所述待识别文本行图像的宽度方向滑动所述指定滑窗,并根据所述指定滑窗的每个移动位置与所述投影图像块的位置关系,对所述投影图像块进行合并或拆分处理,确定目标图像块及所述目标图像块的重叠信息。
4.根据权利要求1所述的方法,其特征在于,所述通过预设第一文本串识别模型对各所述目标图像块进行识别,确定每个所述目标图像块的文本识别结果的步骤之后,还包括:判断所述目标图像块的文本识别结果中是否包含预设字符识别结果;
若包含所述预设字符识别结果,则确定所述待识别文本行图像中与所述预设字符识别结果对应的图像
块,并通过预设第二文本串识别模型对所述待识别文本行图像中与所述预设字符识别结果对应的图像块进行重识别,以重识别得到的识别结果替换所述预设字符识别结果。
5.根据权利要求4所述的方法,其特征在于,所述第一文本串识别模型为卷积循环神经网络,所述确定所述待识别文本行图像中与所述预设字符识别结果对应的图像块的步骤,包括:
根据所述第一文本串识别模型的网络参数,确定所述待识别文本行图像中与所述预设字符识别结果对应的初始图像块;
根据所述待识别文本图像的几何特征对所述初始图像块进行边界调整,得到与所述预设字符识别结果对应的图像块。
6.根据权利要求1所述的方法,其特征在于,所述根据所述目标图像块的重叠信息对各所述目标图像块的文本识别结果进行整合,确定所述待识别文本行图像的文本识别结果的步骤,包括:
2