手写汉字识别方法及系统与流程

1.本发明涉及计算机技术领域，尤其涉及一种手写汉字识别方法及系统。

背景技术：

2.手写体汉字的识别是光学字符识别领域中的热点问题，研究持续了已有半个世纪的历史。由于汉字类别数较大，汉字之间相似度较大，不同汉字字体结构繁多，存在大量相似汉字，并且书写习惯不同导致手写汉字结构形体更是因人而异，千差万别，汉字手写体识别困难。目前汉字手写体识别的准确率仍小于人类的识别准确率。
3.目前手写体的汉字识别可以分为脱机识别与联机识别两种。联机识别指的是通过触控笔、手写板等工具书写，计算机根据书写的笔画走向等信息进行识别，相对较易，准确度高。脱机识别针对静止的二维图像中的汉字进行识别，根据图片特征提取文字，识别更为复杂困难，准确度难以提高。手写汉字的脱机识别一直是当前业界研究的热点及难点。
4.现有技术中脱机识别手写汉字的方案中，基于传统机器学习算法进行识别，存在汉字特征提取不准确，识别效果差的问题。基于深度学习进行识别的方法，存在由于较深的网络层数导致模型泛化能力差，调优参数多、网络收敛缓慢和存储模型空间较大的问题。两种方法均存在识别速度快时，识别精度降低。识别精度高时，所需的识别时间长，无法使识别效率和识别准确性达到均衡最优解。
5.因此，如何提供一种手写汉字识别方法及系统，在保证手写汉字高准确率识别的基础上，提高手写汉字识别效率，成为亟待解决的问题。

技术实现要素：

6.本发明提供的手写汉字识别方法及系统，用于解决现有技术中存在的上述问题，在保证手写汉字高准确率识别的基础上，提高手写汉字识别效率。
7.本发明提供的一种手写汉字识别方法，包括：
8.将待识别图像输入汉字识别融合模型中；
9.基于多个不同的神经网络，确定不同的神经网络对应输出的多个待识别手写汉字的识别结果；
10.基于所述多个待识别手写汉字的识别结果，确定待识别手写汉字的目标识别结果；
11.其中，所述待识别图像包括所述待识别手写汉字的图像信息；所述汉字识别融合模型包括多个不同的神经网络。
12.根据本发明提供的一种手写汉字识别方法，所述多个不同的神经网络包括：第一神经网络和第二神经网络；
13.所述汉字识别融合模型包括：第一神经网络层、第二神经网络层和识别结果融合层；
14.所述基于多个不同的神经网络，确定不同的神经网络对应输出的多个待识别手写
汉字的识别结果，具体包括：
15.将所述待识别图像输入所述第一神经网络层中，根据所述第一神经网络，确定第一识别结果；
16.将所述待识别图像输入所述第二神经网络层中，根据所述第二神经网络，确定第二识别结果；
17.所述基于所述多个待识别手写汉字的识别结果，确定待识别手写汉字的目标识别结果，具体包括：
18.将所述第一识别结果和所述第二识别结果输入所述识别结果融合层中，根据第一神经网络识别能力向量和第二神经网络识别能力向量，确定目标识别结果；
19.其中，所述第一神经网络识别能力向量用于表示训练好的所述第一神经网络识别不同汉字的能力；所述第二神经网络识别能力用于表示训练好的所述第二神经网络识别不同汉字的能力。
20.根据本发明提供的一种手写汉字识别方法，所述将所述第一识别结果和所述第二识别结果输入所述识别结果融合层中，根据第一神经网络识别能力向量和第二神经网络识别能力向量，确定目标识别结果，具体包括：
21.将所述第一识别结果输入所述识别结果融合层中，确定第一汉字识别分类得分向量；其中，所述第一汉字识别分类得分向量包括所述第一神经网络层确定的待识别汉字的得分；
22.将所述第二识别结果，输入所述识别结果融合层中，确定第二汉字识别分类得分向量；其中，所述第二汉字识别分类得分向量包括所述第二神经网络层确定的待识别汉字的得分；
23.将所述第一汉字识别得分向量与所述第一神经网络识别能力点乘，确定第一目标识别得分向量；
24.将所述第二汉字识别得分向量与所述第二神经网络识别能力点乘，确定第二目标识别得分向量；
25.基于所述第一目标识别得分向量和所述第二目标识别得分向量，根据可信度累积，确定目标识别结果。
26.根据本发明提供的一种手写汉字识别方法，在所述将待识别图像输入汉字识别融合模型中的步骤之前，还包括：确定所述第一神经网络识别能力向量和第二神经网络识别能力向量；
27.所述确定所述第一神经网络识别能力向量和第二神经网络识别能力向量，具体包括：
28.基于所述第一神经网络，根据识别能力向量计算公式，确定第一神经网络识别能力向量；
29.基于所述第二神经网络，根据识别能力向量计算公式，确定第二神经网络识别能力向量；
30.其中，所述识别能力向量计算公式为：
31.式中，ci表示第i种汉字被识别正确的次数，ni代表第i种汉字在样本汉字图像集出
现的总次数，n为汉字种类总数。
32.根据本发明提供的一种手写汉字识别方法，所述第一神经网络为yolo卷积神经网络；所述第二神经网络为深度置信网络。
33.根据本发明提供的一种手写汉字识别方法，在所述将待识别图像输入汉字识别融合模型中，还包括：训练所述yolo卷积神经网络；
34.所述训练所述yolo卷积神经网络，具体包括：
35.利用所述带标签的样本汉字图像集，训练所述yolo卷积神经网络；
36.基于目标损失函数，对所述yolo卷积神经网络的网络参数进行更新，并基于更新后的网络参数对所述yolo卷积神经网络进行迭代训练直至所述yolo卷积神经网络收敛；
37.其中，所述目标损失函数是基于交叉熵函数和最大熵正则化方法确定的。
38.根据本发明提供的一种手写汉字识别方法，在所述训练所述yolo卷积神经网络的步骤之前，还包括：确定所述yolo卷积神经网络的网络结构；
39.所述确定所述yolo卷积神经网络的网络结构，具体包括：
40.在yolo-9000网络结构的基础上减少瓶颈结构的卷积，删除两层1
×
1卷积，在每个最大池层后应用dropout层，确定所述yolo卷积神经网络的网络结构。
41.本发明还提供一种手写汉字识别系统，包括：待识别图像输入单元、手写汉字识别单元和识别结果融合单元；
42.所述待识别图像输入单元，用于将待识别图像输入汉字识别融合模型中；
43.所述手写汉字识别单元，用于基于多个不同的神经网络，确定不同的神经网络对应输出的多个待识别手写汉字的识别结果；
44.所述识别结果融合单元，用于基于所述多个待识别手写汉字的识别结果，确定待识别手写汉字的目标识别结果；
45.其中，所述待识别图像包括所述待识别手写汉字的图像信息；所述汉字识别融合模型包括多个不同的神经网络。
46.本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述手写汉字识别方法的步骤。
47.本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述手写汉字识别方法的步骤。
48.本发明提供的手写汉字识别方法及系统，同时使用多个神经网络提取待识别汉字的特征，并基于提取的特征进行汉字识别，结合不同神经网络提取和识别特征的优势，相比于使用单一神经网络的方法，能够有效的提高汉字识别的精度。并且，相比于通过增加网络层数来增加网络提取特征能力的方法，本发明无需增加网络层数，能够在保证手写汉字高准确率识别的基础上，提高手写汉字识别效率。
附图说明
49.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些
附图获得其他的附图。
50.图1是本发明提供的手写汉字识别方法流程图；
51.图2是本发明提供的汉字识别融合模型结构示意图；
52.图3是本发明提供的深度置信网络结构示意图；
53.图4是本发明提供的改进的yolo-9000神经网络结构示意图；
54.图5是本发明提供的汉字识别融合模型构建方法流程图；
55.图6是本发明提供的手写汉字识别方法流程示意图；
56.图7是本发明提供的手写汉字识别系统的结构示意图；
57.图8是本发明提供的电子设备的实体结构示意图。
具体实施方式
58.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
59.现有技术中进行脱机的手写汉字识别的方法有以下三种：
60.(1)方法一：基于传统机器学习的方法进行的研究，主要应用支持向量机(support vector machine，svm)、线性判别模型(隐含狄利克雷分布，latent dirichlet allocation，lda)与修正二次判别函数(modified quadratic discriminant function，mqdf)等的多特征手写体汉字识别技术，在提取网格特征的基础上再增加对汉字多种主要特征的提取。
61.由于该方法应用传统机器学习算法，在提取网格特征的基础上再增加对汉字质心、汉字书写笔画的特征处理。在建模前需要对建模数据进行数据预处理和复杂的特征工程建设，提取特全面地提取相对简单，很难全面地提取准确的特征，识别效果一般。
62.(2)方法二：是基于深度学习进行手写体汉字的识别，卷积神经网络建立的模型有多种，目前主流应用的模型有vggnet、resnet(残差网络)等构建较深、构成复杂的神经网络进行手写字体的识别。
63.由于该方法通过构建复杂的神经网络模型，将每个汉字作为一个分类进行识别，通常来说，模型越复杂、卷积层越多的神经网络可以提取到汉字图片更多的特征，从而有更好的识别结果。但是由于较深的网络层数导致模型泛化能力差，存在调优参数多、网络收敛缓慢、存储模型空间较大的问题。
64.综上所述，无论哪种方法，在手写字体汉字的识别中均无法使运行速度和识别准确率达到均衡最优解。为了解决上述问题，本发明提供一种手写汉字识别方法及系统。
65.图1是本发明提供的手写汉字识别方法流程图，如图1所示，本发明提供的一种手写汉字识别方法，包括：
66.步骤s1，将待识别图像输入汉字识别融合模型中；
67.步骤s2，基于多个不同的神经网络，确定不同的神经网络对应输出的多个待识别手写汉字的识别结果；
68.步骤s3，基于所述多个待识别手写汉字的识别结果，确定待识别手写汉字的目标
识别结果；
69.其中，所述待识别图像包括所述待识别手写汉字的图像信息；所述汉字识别融合模型包括多个不同的神经网络。
70.需要说明的是，上述方法的执行主体可以是计算机设备。
71.可选的，本发明可以应用于快递单、法律文件和票据合同等不同场景的汉字识别，特定的场景中，出现的汉字相对词库较为固定，范围相对窄，相对广义汉字识别要简单，圈定汉字类别少。以票据合同为例，手写体汉字的识别对于解放劳动力，提高生产效率有重要推进作用。可以理解的是，本发明中汉字识别融合模型的训练样本可根据具体的使用场景进行调整，本发明对此不做限定。
72.以对票据合同手写汉字识别为例，对本发明进行解释说明。
73.确定待识别的票据合同，获取该票据合同的待识别图像，待识别图像中包括票据合同中待识别手写汉字的图像信息。在步骤s1中，将获取的待识别图像输入已经训练好的汉字识别融合模型中。训练好的汉字识别融合模型将基于输入的图像确定待识别手写汉字的目标识别结果。
74.由于本发明中汉字识别融合模型包括多个不同的神经网络。在步骤s2中，在进行手写汉字的识别时，每一个神经网络均可根据输入的待识别图像确定一个待识别手写汉字的识别结果。基于多个不同的神经网络，确定不同的神经网络对应输出的多个待识别手写汉字的识别结果。
75.在步骤s3中，对确定的多个待识别手写汉字的识别结果进行融合，最终获得待识别手写汉字的目标识别结果。
76.需要说明的是，将多个待识别手写汉字的识别结果进行融合的具体方法可根据实际情况进行调整，本发明对此不做限定。
77.可以理解的是，在使用训练好的汉字识别融合模型之前，需要使用对应的训练样本对汉字识别融合模型进行训练。在本发明中，训练样本是根据样本图像确定的带标签的样本汉字图像集。本发明对图像集中包括的具体的汉字图像信息以及网络模型的具体结构(包含不同神经网络的数量，以及神经网络的具体类型)不做限定。
78.不同的神经网络在提取特征时所采用的方法存在一定的差异，各有优势，因此，根据不同的神经网络确定的识别结果，进一步融合获得最终的识别结果。汉字识别融合模型的识别能力优于单一模型的识别能力。能够有效地解决现有技术中传统机器学习识别效果差与深度网络泛化能力、速度慢的问题。
79.本发明提供的手写汉字识别方法，同时使用多个神经网络提取待识别汉字的特征，并基于提取的特征进行汉字识别，结合不同神经网络提取和识别特征的优势，相比于使用单一神经网络的方法，能够有效地提高汉字识别的精度。并且，相比于通过增加网络层数来增加网络提取特征能力的方法，本发明无需增加网络层数，能够在保证手写汉字高准确率识别的基础上，提高手写汉字识别效率。进一步地，在一个实施例中，根据本发明提供的一种手写汉字识别方法，所述多个不同的神经网络包括：第一神经网络和第二神经网络；
80.所述汉字识别融合模型包括：第一神经网络层、第二神经网络层和识别结果融合层；
81.所述基于多个不同的神经网络，确定不同的神经网络对应输出的多个待识别手写
汉字的识别结果，具体包括：
82.将所述待识别图像输入所述第一神经网络层中，根据所述第一神经网络，确定第一识别结果；
83.将所述待识别图像输入所述第二神经网络层中，根据所述第二神经网络，确定第二识别结果；
84.所述基于多个不同的神经网络，确定不同的神经网络对应输出的多个待识别手写汉字的识别结果，具体包括：
85.将所述第一识别结果和所述第二识别结果输入所述识别结果融合层中，根据第一神经网络识别能力向量和第二神经网络识别能力向量，确定目标识别结果；
86.其中，所述第一神经网络识别能力向量用于表示训练好的所述第一神经网络识别不同汉字的能力；所述第二神经网络识别能力用于表示训练好的所述第二神经网络识别不同汉字的能力。
87.可选的，图2是本发明提供的汉字识别融合模型结构示意图，如图2所示，汉字识别融合模型由两个神经网络(第一神经网络和第二神经网络)构成，汉字识别融合模型包括：第一神经网络层、第二神经网络层和识别结果融合层。
88.将待识别图像输入汉字融合模型中，第一神经网络层和第二神经网络层均对该待识别图像进行识别。
89.其中，第一神经网络层用于基于待识别图像，根据第一神经网络，确定第一识别结果。第二神经网络层用于基于待识别图像，根据第二神经网络，确定第二识别结果。
90.在确定两个不同神经网络输出的识别结果之后，识别结果融合层用于根据第一识别结果和第二识别结果，基于第一神经网络识别能力向量和第二神经网络识别能力向量，确定目标识别结果。可以理解的是，汉字识别结果为不同汉字的概率或者是得分，具体输出的识别结果的数量，可根据实际情况进行调整(例如，按概率从高到低输出所有可能的汉字，或者仅选择输出概率最高的汉字)，本发明对此不做限定。
91.需要说明的是，识别能力向量为训练好的神经网络对不同汉字的识别能力的集合。其中，第一神经网络识别能力向量用于表示训练好的第一神经网络识别不同汉字的能力，第二神经网络识别能力用于表示训练好的第二神经网络识别不同汉字的能力。
92.根据第一神经网络识别能力向量和第二神经网络能力识别向量即可确定两神经网络对于不同汉字的识别能力，联合获取的第一识别结果和第二识别结果，即可根据网络对汉字的识别能力对识别结果进行融合。需要说明的是，具体的融合方法可根据实际情况进行设置(例如，以网络的识别能力向量为基础设置权值直接对两结果进行融合，或者，基于网络的识别能力向量确定不同汉字的融合规则，基于对不同汉字识别能力的不同，确定识别结果的融合规则)
93.可以理解的是，根据训练好的神经网络确定识别能力向量的具体计算方法，可根据实际情况进行设定(例如，汉字的识别正确率，识别错误率等表示方法)，本发明对此不做限定。
94.本发明提供的手写汉字识别方法，用能力识别向量表示训练好的神经网络识别不同汉字的能力，将其作为识别结果融合时的参考量，能够有效提高汉字融合识别模型的识别准确度。
95.进一步地，在一个实施例中，根据本发明提供的一种手写汉字识别方法，所述将所述第一识别结果和所述第二识别结果输入所述识别结果融合层中，根据第一神经网络识别能力向量和第二神经网络识别能力向量，确定目标识别结果，具体包括：
96.将所述第一识别结果输入所述识别结果融合层中，确定第一汉字识别分类得分向量；其中，所述第一汉字识别分类得分向量包括所述第一神经网络层确定的待识别汉字的得分；
97.将所述第二识别结果，输入所述识别结果融合层中，确定第二汉字识别分类得分向量；其中，所述第二汉字识别分类得分向量包括所述第二神经网络层确定的待识别汉字的得分；
98.将所述第一汉字识别得分向量与所述第一神经网络识别能力点乘，确定第一目标识别得分向量；
99.将所述第二汉字识别得分向量与所述第二神经网络识别能力点乘，确定第二目标识别得分向量；
100.基于所述第一目标识别得分向量和所述第二目标识别得分向量，根据可信度累积，确定目标识别结果。
101.可选的，以第一神经网络和第二神经网络分别为yolo(you only look once)卷积神经网络和深度置信网络为例对本发明进行说明。
102.若在对上述两个网络分别训练完成后，确定yolo卷积神经网络对n种字符的识别能力向量表示如下：
[0103][0104]
同样的，dbn(deep belief network，深度置信网络)对n种字符的识别能力向量表示如下：
[0105][0106]
在本发明中，确定了第一识别结果和第二识别结果后，将第一识别结果和第二识别结果输入识别结果融合层。
[0107]
识别结果融合层根据第一识别结果，确定第一汉字识别分类得分向量。根据第二识别结果，确定第二汉字识别分类得分向量。其中，第一汉字识别分类得分向量包括第一神经网络层确定的待识别汉字的得分(概率或者分数)，第二汉字识别分类得分向量包括第二神经网络层确定的待识别汉字的得分。
[0108]
将字符图片经过yolo卷积神经网络计算得到分类的得分为x
yolo
；
[0109]
第一汉字识别分类得分向量为第一汉字识别分类得分向量为
[0110]
将字符图片经过深度置信网络计算得到分类的得分为x
dbn
；
[0111]
第二汉字识别分类得分向量
[0112]
需要说明的是，在确定汉字识别分类得分向量时，可以是确定所有可能出现的结果组成的向量，也可以是基于得分仅选择大于目标预设阈值得分的结果组成向量，或是仅选择预设数量的得分结果组成向量。具体的得分向量的确定方法可根据实际情况进行调整，本发明对此不做限定。
[0113]
可以理解的是，可以在确定第一识别结果和第二识别结果是即对输出的结果数量进行调整(例如，第一神经网络层和第二神经网络层均只输出识别结果得分最高的5个结果)，具体的输出方法可根据实际需求进行调整，本发明对此不做限定。
[0114]
将第一汉字识别得分向量与第一神经网络识别能力点乘，确定第一目标识别得分向量。
[0115]
即将yolo卷积神经网络第一汉字识别向量中对应汉字的识别分数，与模型的能力向量p
yolo
对应的识别能力点乘的结果作为yolo卷积神经网络最后的识别得分o
yolo
(第一目标识别得分向量)。
[0116][0117]
将第二汉字识别得分向量与第二神经网络识别能力点乘，确定第二目标识别得分向量。
[0118]
即将深度置信网络的第二汉字识别向量中对应汉字的识别分数，与模型的能力向量p
dbn
对应的识别能力点乘的结果作为模型最后的识别得分o
dbn
(第二目标识别得分向量)。
[0119][0120]
基于第一目标识别得分向量和第二目标识别得分向量，根据可信度累积，确定目标识别结果。
[0121]
基于第一目标识别得分向量和第二目标识别得分向量，融合yolo卷积神经网络和深度置信网络的结果，采用线性可信度累积(linear credibility accumulation，简称lca)，引入α,β作为加权因子，α，β的相加和等于1，通过调节α，β的值权衡两个模型之间的比重，融合两网络的识别得分，输出最后确定的目标识别结果class。
[0122]
其中，目标识别得分的计算公式如下，
[0123]
o＝αx
yolo
+βx
dbn
＝(o1o2，...，on)
[0124]
根据计算得到的目标识别得分输出最后确定的目标识别结果class。例如，将最后得到o中概率最大的分量，记为class并输出：
[0125]
class＝argmax(o1o2，...，on)
[0126]
进一步，可将输出的结果进行可视化展示，可视化展示具体的实现方法本发明不做限定。
[0127]
可以理解的是，为了减少计算量，在确定第一汉字识别得分向量和第二汉字识别得分向量时，即可分别将两个神经网络的得分的分量从大到小排序，均按顺序选取得分最大的预设数量(例如两个)的分量并记录，确定和
[0128]
需要说明的是，第一神经网络和第二神经网络分别为yolo卷积神经网络和深度置信网络仅作为本发明的一个具体的实例，在实际应用过程中，具体所采用的神经网络结构可根据实际情况进行调整，本发明对此不做限定。
[0129]
其次，本发明提供的根据识别结果和识别分类得分向量确定目标识别得分向量，进一步基于目标识别得分向量，根据可信度累积，进行融合确定目标识别结果的方法的例子，仅作为原理对本发明所实现的融合原理进行解释说明。在本发明的实际应用过程中，基于该融合原理，可以对向量中具体包含的分量数量以及选取规则进行适应性的调整，本发明对此不做限定。
[0130]
本发明提供的手写汉字识别方法，用能力识别向量表示训练好的神经网络识别不同汉字的能力，将其作为识别结果融合时的参考量，通过将能力识别向量和识别向量点乘的方式，优化两个神经网络的输出结果，使得两个神经网络单独输出的识别结果更为准确，进一步将获得的结果进行融合，确定最终的目标结果，进一步提高汉字融合识别模型的识别准确度。
[0131]
进一步地，在一个实施例中，根据本发明提供的一种手写汉字识别方法，在所述将待识别图像输入汉字识别融合模型中的步骤之前，还包括：确定所述第体经网络识别能力向量和第二神经网络识别能力向量；
[0132]
所述确定所述第一神经网络识别能力向量和第二神经网络识别能力向量，具体包括：
[0133]
基于所述第一神经网络，根据识别能力向量计算公式，确定第一神经网络识别能力向量；
[0134]
基于所述第二神经网络，根据识别能力向量计算公式，确定第二神经网络识别能力向量；
[0135]
其中，所述识别能力向量计算公式为：
[0136]
式中，ci表示第i种汉字被识别正确的次数，ni代表第i种汉字在样本汉字图像集出现的总次数，n为汉字种类总数。
[0137]
可选的，在将待识别图像输入汉字识别融合模型中，确定待识别手写汉字的目标识别结果的步骤之前，还需要根据已训练好的第一神经网络和第二神经网络确定第一神经网络识别能力向量和第二神经网络识别能力向量。
[0138]
识别能力向量计算公式为：
[0139]
式中，ci表示第i种汉字被识别正确的次数，ni代表第i种汉字在样本汉字图像集出现的总次数，n为汉字种类总数。
[0140]
分别统计单独训练好的第一神经网络和第二神经网络对不同字符的识别能力，根据上述识别能力向量计算公式，确定第一神经网络识别能力向量和第二神经网络识别能力向量。
[0141]
本发明提供的手写汉字识别方法，将训练好的神经网络对不同字符的识别能力作为能力识别向量，将其作为识别结果融合时的参考量，能够有效提高汉字融合识别模型的识别准确度。
[0142]
进一步地，在一个实施例中，根据本发明提供的一种手写汉字识别方法，所述第一神经网络为yolo卷积神经网络；所述第二神经网络为深度置信网络。
[0143]
可选的，在本发明中第一神经网络为yolo卷积神经网络，第二神经网络为深度置信网络。
[0144]
在使用汉字识别融合模型之前，需要对yolo卷积神经网络和深度置信网络分别进行训练。在实际使用时，在训练好的两个网络的基础上增加识别结果融合层，确定最终使用的汉字识别融合网络。
[0145]
以对票据合同手写汉字识别为例，对本发明进行解释说明。
[0146]
首先，针对票据合同中的手写体汉字样本进行采集，采集多个个体的手写票据内容，并将采集的图片汇集成数据集。
[0147]
确定样本数据后，对数据加工与图像增强，针对每个汉字进行单独标注，并将采集的图片进行图像增强处理，由于票据合同中某些常用汉字出现频率多，用词要对数据集进行数据扩增对数据少的数据进行扩增并添加噪声，将获取的数据集作为用于训练的样本汉字图像集，能够有效训练模型时发生过拟合的状况。
[0148]
需要说明的是，在确定本发明的样本数据集时，上述对样本图片进行处理的方法仅作为一个具体的例子对本发明进行说明，除此之外，还可以使用其他方法对样本数据进行处理，本发明对此不做限定。
[0149]
基于获取的样本汉字图像集分别对yolo卷积神经网络和深度置信网络进行训练。
[0150]
其中，图3是本发明提供的深度置信网络结构示意图，如图3所示，深度置信网络是一个具有层次特征的概率生成模型，训练神经元之间的权重。深度置信网络由一系列叠加的受限玻尔兹曼机(restricted boltzmann machine，rbm)和顶层的反向传播网络(back propagation，bp)组成，rbm层共有三层，由可视层输入数据，隐藏层做特征检测，两层之间全连接。在有标签样本的训练模型阶段，细分类会调整bp网络的权值，将实际输出与预期数据的误差逐层反向传播。通过rbm层进行无监督的机器学习训练，将下层rbm作为上一层的输出。再对输出结果使用bp神经网络进行训练，将实际输出与预期输出的误差逐层反向传播，调整网络的权重，最终得到适用手写体识别的三层dbn模型。
[0151]
需要说明的是，yolo卷积神经网络的种类包括yolov1、yolov2、yolov3以及yolo9000等，在本发明中，可根据实际需求适应性的选择所使用的yolo卷积神经网络类型。对应的，根据获得的样本汉字图像集进行训练。本发明对使用的具体的yolo卷积神经网络类型以及训练方法不做限定。
[0152]
可以理解的是，在训练好两个模型之后，添加识别结果融合层，确定汉字识别融合模型。训练好的yolo卷积神经网络和深度置信网络都可以手写体汉字识别，并应用各自的网络进行特征提取。由于yolo和dbn模型建模本质有区别，其提取特征的手段各有优势。融合yolo卷积神经网络和深度置信网络之后获得的汉字识别融合模型，通过融合传统机器学习算法与改进深度学习网络的做法，能够有效解决传统机器学习识别效果差与深度网络泛化能力、速度慢的问题。
[0153]
本发明提供的手写汉字识别方法，与现有的深度学习模型相比，本发明中汉字融合识别模型通过确定训练好的神经网络识别不同汉字的能力，融合时可以通过调节加权因子，调整每个模型结果占比，提高了汉字识别融合模型的识别能力，使得识别的准确率强于单一模型。并且，本方案在深度学习网络的基础上，融合了传统机器学习算法，无需通过进一步加深网络层数增强网络提取特征的能力，进一步解决了识别效率低的问题与重量级网络泛化难的问题，模型的泛化能力显著提高，有效防止过拟合。
[0154]
进一步地，在一个实施例中，根据本发明提供的一种手写汉字识别方法，在所述将待识别图像输入汉字识别融合模型中的步骤之前，还包括：训练所述yolo卷积神经网络；
[0155]
所述训练所述yolo卷积神经网络，具体包括：
[0156]
利用所述带标签的样本汉字图像集，训练所述yolo卷积神经网络；
[0157]
基于目标损失函数，对所述yolo卷积神经网络的网络参数进行更新，并基于更新
后的网络参数对所述yolo卷积神经网络进行迭代训练直至所述yolo卷积神经网络收敛；
[0158]
其中，所述目标损失函数是基于交叉熵函数和最大熵正则化方法确定的。
[0159]
可选的，在将待识别图像输入汉字识别融合模型中，确定待识别手写汉字的目标识别结果的步骤之前，还包括：训练yolo卷积神经网络，并在训练过程中改进了使用的损失函数。
[0160]
在本发明中，目标损失函数是基于交叉熵函数和最大熵正则化方法(maximum entropy regularization method，mer)确定的。使用目标损失函数对神经网络进行训练，能够增加类间变异，减少类内变异，从而获得更好的分类性能。将两种损失函数结合使用，比单纯基于交叉熵作为损失函数，能够有效地提高模型特征分类的效果。
[0161]
熵则表示的是所有信息量的期望，一般来说，手写汉字识别中预测的类内方差同样很大，即熵很大，将输出的熵进行正则化，使模型更加一般化，有效减轻过拟合。模型输出的熵的计算公式为：
[0162][0163]
其中，h(p)为模型输出的熵，pi为模型对第i个字的识别能力，c为汉字总类别。
[0164]
熵是一个热向量时达到最小值，在p时均匀分布时达到最大值。前者是通过普通的交叉熵损失自动实现的，而后者则有望促进正则化。因此，将负熵作为最大熵正则化项，直接作用于一般的交叉熵损失函数上。
[0165]
l
mer
＝-h(p)
[0166]
l
reg
＝l
ce
+λl
mer
[0167]
其中，λ是决定mer影响的超参数，回归的损失函数表示为l
reg
，由负熵(即熵的相反数)λl
mer
，与交叉熵函数l
ce
累加组成。
[0168]
从直观上看，mer降低了交叉熵损失造成的极端置信值。考虑正则化损失对输出分数的导数(与模型直接相关)，由于模型概率的分布只与l
mer
有关，那么导数公式如下:
[0169][0170]
其中，y为当前汉字类别。
[0171]
求导后根据链式法则(chainrule)即可确定，根据目标损失函数确定的梯度并不总是正的或负的，所以在更多分布的分数下，概率不会下降到0或增加到1，至此即可确定目标损失函数l
reg
满足要求，完成损失函数的构建。
[0172]
训练yolo卷积神经网络的步骤，具体包括：
[0173]
利用确定的带标签的样本汉字图像集，训练yolo卷积神经网络，基于确定的目标损失函数l
reg
，对yolo卷积神经网络的网络参数进行更新，并基于更新后的网络参数对yolo卷积神经网络进行迭代训练直至yolo卷积神经网络收敛。
[0174]
可以理解的是，基于该目标损失函数对神经网络的训练方法(例如，梯度下降法和反向传播法等)，以及确定神经网络停止迭代训练的条件(例如：训练次数达到预设阈值和目标函数满足预设条件等)可根据实际情况进行选择本发明对此不做限定。
[0175]
本发明提供的手写汉字识别方法，对以往的yolo神经网络训练所使用的损失函数进行改进，基于交叉熵损失函数和最大正则化方法确定目标损失函数，能够有效增加类间变异，减少类内变异，从而获得更好的分类性能。
[0176]
进一步地，在一个实施例中，根据本发明提供的一种手写汉字识别方法，在所述训练所述yolo卷积神经网络的步骤之前，还包括：确定所述yolo卷积神经网络的网络结构；
[0177]
所述确定所述yolo卷积神经网络的网络结构，具体包括：
[0178]
在yolo-9000网络结构的基础上减少瓶颈结构的卷积，删除两层1
×
1卷积，在每个最大池层后应用dropout层，确定所述yolo卷积神经网络的网络结构。
[0179]
可选的，在训练yolo卷积神经网络的步骤之前，还包括：确定yolo卷积神经网络的网络结构。本发明在现有技术已有的yolo-9000网络结构的基础上进行了改进。
[0180]
yolo-9000是指可以对9000类物体进行识别。在常见的票据合同中，每一个汉字均可以认为是一个物体，而票据合同中的常用的汉字约为500-1000个，因此改进的yolo-9000模型可以将分类减少到1000类。
[0181]
确定yolo卷积神经网络的网络结构的步骤，具体包括：
[0182]
图4是本发明提供的改进的yolo-9000神经网络结构示意图，如图4所示，在现有的yolo-9000网络结构的基础上减少瓶颈结构的卷积，删除两层1
×
1卷积，在每个最大池层后应用dropout层，确定本发明中改进的yolo卷积神经网络的网络(即改进的yolo-9000神经网络)结构。
[0183]
可以理解的是，图4中改进的yolo卷积神经网络的网络输入和输出的具体大小仅作为一个例子，在实际应用中可根据实际情况进行调整，本发明对此不做限定。
[0184]
本发明中的改进的yolo-9000神经网络具有15层卷积层，以yolov2为基础，结合googlenet的构建思想。改进的yolo-9000保留了通过预训练和进行多分类的能力。
[0185]
在构建网络结构时，利用带标注的分类数据集量比较大的特点进行预训练，确定网络模型中卷积层和层数。在本发明中改进卷积层，通过减少瓶颈结构的卷积的构造，删除了两层1
×
1卷积，将原本的检测头从9个卷积层减少到6个，同时在每个最大池化层后接入dropout层，以防止过拟合，并确定目标损失函数，使得神经网络体量更加轻便，更适合票据合同中手写体汉字识别的需求。与复杂深度学习网络相比，本发明有在程序上的识别速度更快、对算力要求低，减少识别时长的优势。
[0186]
可以理解的是，图5是本发明提供的汉字识别融合模型构建方法流程图，图6是本发明提供的手写汉字识别方法流程示意图，根据图5和图6所示，在训练好改进的yolo-9000模型之后，将其与训练好的深度置信网络进行模型融合，增添识别结果融合层，构建网站的汉字识别融合网络。将待识别的图像输入到汉字识别融合网络中，输出目标识别结果。
[0187]
本发明提供的手写汉字识别方法，通过调整yolo-9000网络的卷积层，使得cnn模型更加适应手写体汉字识别分类。通过改进的yolo-9000来完成网络的构建，在保证准确率高的情况下，相比vggnet、alexnet等模型识别速度更快，且适合手写体汉字的识别。进一步，同时结合网络对卷积层的改进和目标损失函数使神经网络在运行速度更快的情况下更契合手写体汉字的识别需求，有效提高识别准确性。
[0188]
图7是本发明提供的手写汉字识别系统的结构示意图，如图7所示，本发明还提供一种手写汉字识别系统，包括：待识别图像输入单元710、手写汉字识别单元720和识别结果
融合单元730；
[0189]
所述待识别图像输入单元710，用于将待识别图像输入汉字识别融合模型中；
[0190]
所述手写汉字识别单元720，用于基于多个不同的神经网络，确定不同的神经网络对应输出的多个待识别手写汉字的识别结果；
[0191]
所述识别结果融合单元730，用于基于所述多个待识别手写汉字的识别结果，确定待识别手写汉字的目标识别结果；
[0192]
其中，所述待识别图像包括所述待识别手写汉字的图像信息；所述汉字识别融合模型包括多个不同的神经网络。
[0193]
可选的，本发明可以应用于快递单、法律文件和票据合同等不同场景的汉字识别，特定的场景中，出现的汉字相对词库较为固定，范围相对窄，相对广义汉字识别要简单，圈定汉字类别少。以票据合同为例，手写体汉字的识别对于解放劳动力，提高生产效率有重要推进作用。可以理解的是，本发明中汉字识别融合模型的训练样本可根据具体的使用场景进行调整，本发明对此不做限定。
[0194]
以对票据合同手写汉字识别为例，对本发明进行解释说明。
[0195]
确定待识别的票据合同，获取该票据合同的待识别图像，待识别图像中包括票据合同中待识别手写汉字的图像信息。待识别图像输入单元710，用于将获取的待识别图像输入已经训练好的汉字识别融合模型中。训练好的汉字识别融合模型将基于输入的图像确定待识别手写汉字的目标识别结果。
[0196]
由于本发明中汉字识别融合模型包括多个不同的神经网络。手写汉字识别单元720，用于在进行手写汉字的识别时，每一个神经网络均可根据输入的待识别图像确定一个待识别手写汉字的识别结果。基于多个不同的神经网络，确定不同的神经网络对应输出的多个待识别手写汉字的识别结果。
[0197]
识别结果融合单元730，用于对确定的多个待识别手写汉字的识别结果进行融合，最终获得待识别手写汉字的目标识别结果。
[0198]
需要说明的是，将多个待识别手写汉字的识别结果进行融合的具体方法可根据实际情况进行调整，本发明对此不做限定。
[0199]
可以理解的是，在使用训练好的汉字识别融合模型之前，需要使用对应的训练样本对汉字识别融合模型进行训练。在本发明中，训练样本是根据样本图像确定的带标签的样本汉字图像集。本发明对图像集中包括的具体的汉字图像信息以及网络模型的具体结构(包含不同神经网络的数量，以及神经网络的具体类型)不做限定。
[0200]
不同的神经网络在提取特征时所采用的方法存在一定的差异，各有优势，因此，根据不同的神经网络确定的识别结果，进一步融合获得最终的识别结果。汉字识别融合模型的识别能力优于单一模型的识别能力。能够有效地解决现有技术中传统机器学习识别效果差与深度网络泛化能力、速度慢的问题。
[0201]
本发明提供的手写汉字识别系统，同时使用多个神经网络提取待识别汉字的特征，并基于提取的特征进行汉字识别，结合不同神经网络提取和识别特征的优势，相比于使用单一神经网络的方法，能够有效地提高汉字识别的精度。并且，相比于通过增加网络层数来增加网络提取特征能力的方法，本发明无需增加网络层数，能够在保证手写汉字高准确率识别的基础上，提高手写汉字识别效率。
[0202]
需要说明的是，本发明提供的手写汉字识别系统用于执行上述手写汉字识别方法，其具体的实施方式与方法实施方式一致，在此不再赘述。
[0203]
图8是本发明提供的一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(communication interface)811、存储器(memory)812和总线(bus)813，其中，处理器810，通信接口811，存储器812通过总线813完成相互间的通信。处理器810可以调用存储器812中的逻辑指令，以执行如下方法：将待识别图像输入汉字识别融合模型中；基于多个不同的神经网络，确定不同的神经网络对应输出的多个待识别手写汉字的识别结果；基于所述多个待识别手写汉字的识别结果，确定待识别手写汉字的目标识别结果；其中，所述待识别图像包括所述待识别手写汉字的图像信息；所述汉字识别融合模型包括多个不同的神经网络。
[0204]
此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机电源屏(可以是个人计算机，服务器，或者网络电源屏等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0205]
进一步地，本发明公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的手写汉字识别方法，例如包括：将待识别图像输入汉字识别融合模型中；基于多个不同的神经网络，确定不同的神经网络对应输出的多个待识别手写汉字的识别结果；基于所述多个待识别手写汉字的识别结果，确定待识别手写汉字的目标识别结果；其中，所述待识别图像包括所述待识别手写汉字的图像信息；所述汉字识别融合模型包括多个不同的神经网络。
[0206]
另一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的手写汉字识别方法，例如包括：将待识别图像输入汉字识别融合模型中；基于多个不同的神经网络，确定不同的神经网络对应输出的多个待识别手写汉字的识别结果；基于所述多个待识别手写汉字的识别结果，确定待识别手写汉字的目标识别结果；其中，所述待识别图像包括所述待识别手写汉字的图像信息；所述汉字识别融合模型包括多个不同的神经网络。
[0207]
以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0208]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该
计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机电源屏(可以是个人计算机，服务器，或者网络电源屏等)执行各个实施例或者实施例的某些部分所述的方法。
[0209]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征：

1.一种手写汉字识别方法，其特征在于，包括：将待识别图像输入汉字识别融合模型中；基于多个不同的神经网络，确定不同的神经网络对应输出的多个待识别手写汉字的识别结果；基于所述多个待识别手写汉字的识别结果，确定待识别手写汉字的目标识别结果；其中，所述待识别图像包括所述待识别手写汉字的图像信息；所述汉字识别融合模型包括多个不同的神经网络。2.根据权利要求1所述的手写汉字识别方法，其特征在于，所述多个不同的神经网络包括：第一神经网络和第二神经网络；所述汉字识别融合模型包括：第一神经网络层、第二神经网络层和识别结果融合层；所述基于多个不同的神经网络，确定不同的神经网络对应输出的多个待识别手写汉字的识别结果，具体包括：将所述待识别图像输入所述第一神经网络层中，根据所述第一神经网络，确定第一识别结果；将所述待识别图像输入所述第二神经网络层中，根据所述第二神经网络，确定第二识别结果；所述基于所述多个待识别手写汉字的识别结果，确定待识别手写汉字的目标识别结果，具体包括：将所述第一识别结果和所述第二识别结果输入所述识别结果融合层中，根据第一神经网络识别能力向量和第二神经网络识别能力向量，确定目标识别结果；其中，所述第一神经网络识别能力向量用于表示训练好的所述第一神经网络识别不同汉字的能力；所述第二神经网络识别能力用于表示训练好的所述第二神经网络识别不同汉字的能力。3.根据权利要求2所述的手写汉字识别方法，其特征在于，所述将所述第一识别结果和所述第二识别结果输入所述识别结果融合层中，根据第一神经网络识别能力向量和第二神经网络识别能力向量，确定目标识别结果，具体包括：将所述第一识别结果输入所述识别结果融合层中，确定第一汉字识别分类得分向量；其中，所述第一汉字识别分类得分向量包括所述第一神经网络层确定的待识别汉字的得分；将所述第二识别结果，输入所述识别结果融合层中，确定第二汉字识别分类得分向量；其中，所述第二汉字识别分类得分向量包括所述第二神经网络层确定的待识别汉字的得分；将所述第一汉字识别得分向量与所述第一神经网络识别能力点乘，确定第一目标识别得分向量；将所述第二汉字识别得分向量与所述第二神经网络识别能力点乘，确定第二目标识别得分向量；基于所述第一目标识别得分向量和所述第二目标识别得分向量，根据可信度累积，确定目标识别结果。4.根据权利要求2所述的手写汉字识别方法，其特征在于，在所述将待识别图像输入汉
字识别融合模型中的步骤之前，还包括：确定所述第一神经网络识别能力向量和第二神经网络识别能力向量；所述确定所述第一神经网络识别能力向量和第二神经网络识别能力向量，具体包括：基于所述第一神经网络，根据识别能力向量计算公式，确定第一神经网络识别能力向量；基于所述第二神经网络，根据识别能力向量计算公式，确定第二神经网络识别能力向量；其中，所述识别能力向量计算公式为：式中，c
i
表示第i种汉字被识别正确的次数，n
i
代表第i种汉字在样本汉字图像集出现的总次数，n为汉字种类总数。5.根据权利要求2-4任一项所述的手写汉字识别方法，其特征在于，所述第一神经网络为yolo卷积神经网络；所述第二神经网络为深度置信网络。6.根据权利要求5所述的手写汉字识别方法，其特征在于，在所述将待识别图像输入汉字识别融合模型中，还包括：训练所述yolo卷积神经网络；所述训练所述yolo卷积神经网络，具体包括：利用带标签的样本汉字图像集，训练所述yolo卷积神经网络；基于目标损失函数，对所述yolo卷积神经网络的网络参数进行更新，并基于更新后的网络参数对所述yolo卷积神经网络进行迭代训练直至所述yolo卷积神经网络收敛；其中，所述目标损失函数是基于交叉熵函数和最大熵正则化方法确定的。7.根据权利要求5所述的手写汉字识别方法，其特征在于，在所述训练所述yolo卷积神经网络的步骤之前，还包括：确定所述yolo卷积神经网络的网络结构；所述确定所述yolo卷积神经网络的网络结构，具体包括：在yolo-9000网络结构的基础上减少瓶颈结构的卷积，删除两层1
×
1卷积，在每个最大池层后应用dropout层，确定所述yolo卷积神经网络的网络结构。8.一种手写汉字识别系统，其特征在于，包括：待识别图像输入单元、手写汉字识别单元和识别结果融合单元；所述待识别图像输入单元，用于将待识别图像输入汉字识别融合模型中；所述手写汉字识别单元，用于基于多个不同的神经网络，确定不同的神经网络对应输出的多个待识别手写汉字的识别结果；所述识别结果融合单元，用于基于所述多个待识别手写汉字的识别结果，确定待识别手写汉字的目标识别结果；其中，所述待识别图像包括所述待识别手写汉字的图像信息；所述汉字识别融合模型包括多个不同的神经网络。9.一种电子设备，其特征在于，包括存储器和处理器，所述处理器和所述存储器通过总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至7任一项所述的手写汉字识别方法。10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述的手写汉字识别方法。

技术总结

本发明提供一种手写汉字识别方法及系统，其中，方法包括：将待识别图像输入汉字识别融合模型中；基于多个不同的神经网络，确定不同的神经网络对应输出的多个待识别手写汉字的识别结果；基于所述多个待识别手写汉字的识别结果，确定待识别手写汉字的目标识别结果；其中，所述待识别图像包括所述待识别手写汉字的图像信息；所述汉字识别融合模型包括多个不同的神经网络。相比于使用单一的神经网络模型的方法，本发明结合不同神经网络提取和识别特征的优势，能够有效地提高汉字识别的精度。并且无需通过增加网络层数的方法提高网络提取特征的能力，提高手写汉字识别效率。提高手写汉字识别效率。提高手写汉字识别效率。