首页 > 学术百科

一种基于OCR的图像处理方法、系统、设备及介质[发明专利]

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 (43)申请公布日 (21)申请号 202010315758.X

(22)申请日 2020.04.21

(71)申请人北京云从科技有限公司

地址 102300 北京市门头沟区石龙经济开

发区永安路20号3号楼一层102室经

(72)发明人周曦　姚志强　陈琳　程乐松　

许梅芳　

(74)专利代理机构上海光华专利事务所(普通

合伙) 31219

代理人代玲

(51)Int.Cl.

G06K 9/32(2006.01)

G06K 9/62(2006.01)

G06N 3/04(2006.01)

(54)发明名称一种基于OCR的图像处理方法、系统、设备及介质(57)摘要本发明提供一种基于OCR的图像处理方法、系统、设备及介质，包括：通过识别图像中的一个或多个字符，出与所述一个或多个字符最相近或最相似的一个或多个字体，生成一个或多个训练样本集数据；根据所述一个或多个训练样本集数据进行一次或多次训练，生成一个或多个目标识别模型。本发明针对OCR识别算法目前存在的问题，提供目标识别模型，可以根据目标对象自动选择字体，自动合成N种仿真训练数据，自动选择最优的组合训练识别模型并迭代优化，解决了普通OCR识别模型泛化性差、开发周期长、准确率低的问题，实现快速开发精准识别模型的目的，且本发明所提供的目标识别模型具有很好的鲁棒性，

在真实场景中具有高准确率。权利要求书3页说明书15页附图4页CN 111539424 A 2020.08.14

C N 111539424

1.一种基于OCR的图像处理方法，其特征在于，所述方法步骤如下：

识别图像中的一个或多个字符，出与所述一个或多个字符最相近或最相似的一个或多个字体，生成一个或多个训练样本集数据；

根据所述一个或多个训练样本集数据进行一次或多次训练，生成一个或多个目标识别模型。

2.根据权利要求1所述的基于OCR的图像处理方法，其特征在于，所述目标识别模型包括用于识别以下至少之一：银行卡、驾驶证、发票。

3.根据权利要求1所述的基于OCR的图像处理方法，其特征在于，将带有一个或多个字符标注的文本行图像输入至文本行识别模型中，获取识别结果；

根据所述识别结果和所述字符标注出正确的一个或多个字符；

将每个正确的字符图像输入至字体识别模型中，获取与所述一个或多个字符最相近或最相似的一个或多个字体。

4.根据权利要求3所述的基于OCR的图像处理方法，其特征在于，所述识别结果包括以下至少之一：文本行图像中的一个或多个字符、文本行图像中每个字符对应的位置。

5.根据权利要求4所述的基于OCR的图像处理方法，其特征在于，获取每个正确字符对应的位置，并基于每个正确字符对应的位置，抠出每个正确的字符图像；

将抠出的每个正确的字符图像输入至字体识别模型中，获取与所述一个或多个字符最相近或最相似的一个或多个字体。

6.根据权利要求1所述的基于OCR的图像处理方法，其特征在于，所述训练样本集数据的数据格式包括以下至少之一：路径、标签、文本行的坐标框、一个或多个单字的坐标框。

7.根据权利要求1所述的基于OCR的图像处理方法，其特征在于，还包括通过增强学习算法从超参空间中搜索一组或多组超参数形成的增强组合，并结合比例因子生成不同类型的一个或多个训练样本。

8.根据权利要求7所述的基于OCR的图像处理方法，其特征在于，还包括通过图像风格转换和/或生成对抗网络生成一个或多个训练样本，并结合增强组合生成的训练样本生成一个或多个训练样本集数据。

9.根据权利要求1或7所述的基于OCR的图像处理方法，其特征在于，还包括对生成的一个或多个训练样本集数据加入扰动因素进行增强，加入扰动因素的参数包括以下至少之一：字符规则、字符长度、字典

范围、字符个数、文本行、文本框。

10.根据权利要求1所述的基于OCR的图像处理方法，其特征在于，基于所述一个或多个训练样本集数据进行一次或多次训练，训练框架包括以下至少之一：卷积神经网络、循环神经网络、连接序列分类。

11.根据权利要求10所述的基于OCR的图像处理方法，其特征在于，获取训练样本集数据的超参数，按照所述超参数设定训练概率；根据设定的训练概率随机抽取一个或多个训练样本集数据，组成batch进行训练，生成一个或多个目标识别模型。

12.根据权利要求11所述的基于OCR的图像处理方法，其特征在于，还包括在一次或多次训练后，使用自适应矩估计优化器对生成的目标识别模型进行评估验证，保存评估验证结果中最佳的目标识别模型。

13.根据权利要求10至12中任一所述的基于OCR的图像处理方法，其特征在于，在训练

开始时，若已有初始状态的目标识别模型，则使用初始状态的目标识别模型进行迁移学习。

14.根据权利要求1所述的基于OCR的图像处理方法，其特征在于，还包括部署训练完成后的目标识别模型，对待识别的字段切片进行推理识别。

15.一种基于OCR的图像处理系统，其特征在于，所述系统包括有：

识别模块，用于识别图像中的一个或多个字符，出与所述一个或多个字符最相近或最相似的一个或多个字体，生成一个或多个训练样本集数据；

训练模块，用于根据所述一个或多个训练样本集数据进行一次或多次训练，生成一个或多个目标识别模型。

16.根据权利要求15所述的基于OCR的图像处理系统，其特征在于，所述目标识别模型包括用于识别以下至少之一：银行卡、驾驶证、发票。

17.根据权利要求15所述的基于OCR的图像处理系统，其特征在于，将带有一个或多个字符标注的文本行图像输入至文本行识别模型中，获取识别结果；

根据所述识别结果和所述字符标注出正确的一个或多个字符；

将每个正确的字符图像输入至字体识别模型中，获取与所述一个或多个字符最相近或最相似的一个或多个字体。

18.根据权利要求17所述的基于OCR的图像处理系统，其特征在于，所述识别结果包括以下至少之一：文本行图像中的一个或多个字符、文本行图像中每个字符对应的位置。

19.根据权利要求18所述的基于OCR的图像处理系统，其特征在于，获取每个正确字符对应的位置，并基于每个正确字符对应的位置，抠出每个正确的字符图像；

将抠出的每个正确的字符图像输入至字体识别模型中，获取与所述一个或多个字符最相近或最相似的一个或多个字体。

20.根据权利要求15所述的基于OCR的图像处理系统，其特征在于，所述训练样本集数据的数据格式包括以下至少之一：路径、标签、文本行的坐标框、一个或多个单字的坐标框。

21.根据权利要求15所述的基于OCR的图像处理系统，其特征在于，还包括通过增强学习算法从超参空间中搜索一组或多组超参数形成的增强组合，并结合比例因子生成不同类型的一个或多个训练样本。

22.根据权利要求21所述的基于OCR的图像处理系统，其特征在于，还包括通过图像风格转换和/或生成对抗网络生成一个或多个训练样本，并结合增强组合生成的训练样本生成一个或多个训练样本集数据。

23.根据权利要求15或22所述的基于OCR的图像处理系统，其特征在于，还包括对生成的一个或多个训练样本集数据加入扰动因素进行增强，加入扰动因素的参数包括以下至少之一：字符规则、字符长度、字典范围、字符个数、文本行、文本框。

24.根据权利要求15所述的基于OCR的图像处理系统，其特征在于，基于所述一个或多个训练样本集数

据进行一次或多次训练，训练框架包括以下至少之一：卷积神经网络、循环神经网络、连接序列分类。

25.根据权利要求24所述的基于OCR的图像处理系统，其特征在于，获取训练样本集数据的超参数，按照所述超参数设定训练概率；根据设定的训练概率随机抽取一个或多个训练样本集数据，组成batch进行训练，生成一个或多个目标识别模型。

26.根据权利要求25所述的基于OCR的图像处理系统，其特征在于，还包括在一次或多

次训练后，使用自适应矩估计优化器对生成的目标识别模型进行评估验证，保存评估验证结果中最佳的目标识别模型。

27.根据权利要求24至26中任一所述的基于OCR的图像处理系统，其特征在于，在训练开始时，若已有初始状态的目标识别模型，则使用初始状态的目标识别模型进行迁移学习。

28.根据权利要求15所述的基于OCR的图像处理系统，其特征在于，还包括部署训练完成后的目标识别模型，对待识别的字段切片进行推理识别。

29.一种基于OCR的图像处理设备，其特征在于，包括有：

识别图像中的一个或多个字符，出与所述一个或多个字符最相近或最相似的一个或多个字体，生成一个或多个训练样本集数据；

根据所述一个或多个训练样本集数据进行一次或多次训练，生成一个或多个目标识别模型。

30.一种设备，其特征在于，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当所述一个或多个处理器执行时，使得所述设备执行如权利要求1-14中一个或多个所述的方法。

31.一个或多个机器可读介质，其特征在于，其上存储有指令，当由一个或多个处理器执行时，使得设备执行如权利要求1-14中一个或多个所述的方法。

一种基于OCR的图像处理方法、系统、设备及介质技术领域

[0001]本发明涉及图像识别技术，特别是涉及一种基于OCR的图像处理方法、系统、设备及介质。

背景技术

[0002]在OCR(Optical Character Recognition，光学字符识别)领域，通用识别模型的识别率较差，目标识别模型训练成本高。通用OCR识别模型一般需要支持多场景、任意模式、中英文、字母、数字、标

点符号的识别。当文本图像的背景较复杂，例如纹理、光照、畸变等，通用OCR是被模型往往识别率不高，不适合用于对识别率要求较高的领域。

[0003]而用于识别银行卡、驾驶证、发票等的识别模型，往往要求很高的识别精度，都需要训练专用的识别模型。而每训练一种识别模型都要经历采集样本数据、人工标注数据、训练模型和调参测试等多个阶段，需要较长的开发时间(至少需要1个月的开发时间)；且机器学习开发成本高昂导致应用难以落地。因此，在OCR领域，需要一种新的OCR识别模型。发明内容

[0004]鉴于以上所述现有技术的缺点，本发明的目的在于提供一种基于OCR的图像处理方法、系统、设备及介质，用于解决现有技术中存在的问题。

[0005]为实现上述目的及其他相关目的，本发明提供一种基于OCR的图像处理方法，所述方法步骤如下：

[0006]识别图像中的一个或多个字符，出与所述一个或多个字符最相近或最相似的一个或多个字体，生成一个或多个训练样本集数据；

[0007]根据所述一个或多个训练样本集数据进行一次或多次训练，生成一个或多个目标识别模型。

[0008]可选地，所述目标识别模型包括用于识别以下至少之一：银行卡、驾驶证、发票。

[0009]可选地，将带有一个或多个字符标注的文本行图像输入至文本行识别模型中，获取识别结果；

[0010]根据所述识别结果和所述字符标注出正确的一个或多个字符；

[0011]将每个正确的字符图像输入至字体识别模型中，获取与所述一个或多个字符最相近或最相似的一个或多个字体。

[0012]可选地，所述识别结果包括以下至少之一：文本行图像中的一个或多个字符、文本行图像中每个字符对应的位置。

[0013]可选地，获取每个正确字符对应的位置，并基于每个正确字符对应的位置，抠出每个正确的字符图像；

[0014]将抠出的每个正确的字符图像输入至字体识别模型中，获取与所述一个或多个字符最相近或最相似的一个或多个字体。

[0015]可选地，所述训练样本集数据的数据格式包括以下至少之一：路径、标签、文本行

说　明　书

1/15页CN 111539424 A

本文发布于:2024-09-20 13:45:55，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/797052.html

上一篇：一种农产品全流程溯源方法及系统[发明专利]

下一篇：设计代理合同范本(2篇)

标签：识别模型字符目标训练生成

留言与评论（共有 0 条评论）