一种卷烟物流收货票据的结构化信息提取方法与流程

1.本发明涉及物流领域，特别是涉及一种卷烟物流收货票据的结构化信息提取方法。

背景技术：

2.在烟草物流场景中，接收方必须对送货方的信息进行确认，需要将票据的信息与系统记录的信息进行核对审查。人工审核需要耗费大量的时间而且容易出错，一种替代方案为通过图像识别算法自动提取票据上的结构化信息（日期、编号等）与系统记录的结构化信息进行比对。
3.针对票据的结构化信息提取目前主要有两种主流的方法，一种是在ocr（optical character recognition，光学字符识别）的结果上使用正则表达式匹配等相关规则进行后处理，方法灵活但是准确率不高，尤其是无法解决印刷错位的情况，另外一种是使用深度学习的方法检测每一个字段的位置再对其进行ocr内容识别，方法准确率高，但是针对每一种票据都需要收集大量的数据进行标注和训练，不够灵活，适用性不高。

技术实现要素：

4.基于此，针对上述问题，本发明提出了一种卷烟物流收货票据的结构化信息提取方法，基于模板对齐和错位纠正的结构化信息提取，针对每种票据只需要标注一张模板图片，方法灵活且适用性高，同时还能解决印刷错位情况，识别准确率高。
5.本发明的技术方案是：一种卷烟物流收货票据的结构化信息提取方法，其特征在于，包括以下步骤：预标注步骤：设定票据的模板图片标准，挑选标准的模板图片，对模板图片标注key和value，其中，key为票据中固定不变的关键词，value为票据中可变的内容；识别步骤：确定待识别图片，匹配关联待识别图片的key与模板图片的key，设定待识别图片中除key以外的文本框为value候选框，根据key之间的对应关系对齐待识别图片与模板图片，错位纠正value候选框，根据模板图片value文本框中的内容提取结构化信息。
6.上述技术方案的思路如下：一张票据由两部分内容组成：固定不变的关键词key（比如：姓名）和可变的内容value（比如：张三），而每种票据都是符合特定的排版样式的，key内容不变且位置完全对齐，value内容可变甚至长度、行数都可变，但是位置基本也只是在一个预设的位置附近波动。
7.基于票据的这个特点，本发明设计的方案，针对每种票据挑选一张标准的模板图片进行key和value标注，匹配待识别图片中的key与模板key进行关联，通过透视变换进行模板对齐，这样在预设的value框位置附近即可提取对应的结构化信息，更进一步地，为了解决value印刷错位造成的干扰，在经过key模板对齐之后，根据待识别图片value和模板value的对齐程度进行错位纠正，极大地提高了结构化信息提取的准确率。
8.预标注步骤中，票据的模板图片标准为平整、不倾斜、印刷无错位的图片。
9.预标注步骤中，标注key的步骤如下：对模板图片进行矩形框标注和文本内容标注，设定紧凑的矩形框为关键词区域。
10.预标注步骤中，标注value的步骤如下：对模板图片中除标注key以外的需要识别的字段进行矩形框标注和字段名称标注。
11.识别步骤中，还包括以下步骤：以ocr检测和识别待识别图片中所有的文本框和文本内容。
12.识别步骤中，还包括以下步骤：对得到的待识别图片中所有文本框和文本内容通过关键词匹配，判断是否属于模板图片的key文本框，如果是，则待识别图片中的key跟模板图片的key关联后构成一组key对应关系，如果否，则将待识别图片中的文本框和文本内容作为value候选框，如果无任何一组key对应关系，则无法识别当前图片。
13.识别步骤中，还包括以下步骤：根据key之间的对应关系对齐待识别图片与模板图片，提取文本框的4个顶点，根据每组待识别图片key和模板图片key的对应关系建立4组顶点的对应关系；当存在n组key对应关系时，则建立n*4组顶点坐标的对应关系，根据顶点坐标之间的对应关系，计算单应性矩阵，通过透视变换对齐待识别图片与模板图片。
14.识别步骤中，还包括以下步骤：将所有value候选框在以预设定的规律平移至少一次，计算每一次位移的value候选框与模板value框的对齐程度，选取对齐程度最高的一次位移作为最终的错位位移，并且将所有value候选框按此位移进行错位纠正，得到所述待识别图片的错位纠正的value框以及其内容。
15.识别步骤中，还包括以下步骤：在模板图片value文本框附近提取结构化信息，对每一个value候选框，到与它重合面积最大的一个模板图片value文本框，如果二者重合程度大于设定的阈值，则将该value候选框关联给对应模板图片value文本框，否则忽略该value候选框；完成所有value候选框的关联后，每一个模板图片value文本框关联到的value候选框均为该模板图片value字段对应的内容，将文本内容串联起来即得到提取到的该字段的结构化信息，如果模板图片value文本框没有关联到value候选框，则该字段无法识别。
16.本发明的有益效果是：1、基于模板对齐和错位纠正的结构化信息提取，针对每种票据只需要标注一张模板图片，方法灵活且适用性高，同时还能解决印刷错位情况，识别准确率高；2、针对每种票据挑选一张标准的模板图片进行key和value标注，匹配待识别图片中的key与模板key进行关联，通过透视变换进行模板对齐，这样在预设的value框位置附近即可提取对应的结构化信息；3、为了解决value印刷错位造成的干扰，在经过key模板对齐之后，根据待识别图片value和模板value的对齐程度进行错位纠正，极大地提高了结构化信息提取的准确率。
具体实施方式
17.下面对本发明的实施例进行详细说明。
18.实施例：一种卷烟物流收货票据的结构化信息提取方法，包括以下步骤：预标注步骤：挑选一张标准的模板图片，对模板图片进行key和value标注；识别步骤：对待识别图片进行ocr检测和识别，从ocr中匹配key文本框与模板key进行关联，其余文本框作为value候选框，根据key之间的对应关系将待识别图片与模板图片进行对齐，对value候选框进行错位纠正，在模板预设的value框附近提取结构化信息。
19.上述实施例的思路如下：一张票据由两部分内容组成：固定不变的关键词key（比如：姓名）和可变的内容value（比如：张三），而每种票据都是符合特定的排版样式的，key内容不变且位置完全对齐，value内容可变甚至长度、行数都可变，但是位置基本也只是在一个预设的位置附近波动。
20.基于票据的这个特点，本发明设计的方案，针对每种票据挑选一张标准的模板图片进行key和value标注，匹配待识别图片中的key与模板key进行关联，通过透视变换进行模板对齐，这样在预设的value框位置附近即可提取对应的结构化信息，更进一步地，为了解决value印刷错位造成的干扰，在经过key模板对齐之后，根据待识别图片value和模板value的对齐程度进行错位纠正，极大地提高了结构化信息提取的准确率。
21.预标注步骤中，挑选的标准模板图片为平整、不存在倾斜、印刷没有错位的图片。
22.预标注步骤中，key为票据中固定不变的关键词，对其进行矩形框标注和文本内容标注，紧凑的矩形框只包含关键词区域，value为票据中可变的内容，不对所有内容进行标注，只标注需要识别的字段，对其进行矩形框标注和字段名称标注。
23.识别步骤中，通过ocr检测和识别得到图片中所有的文本框和文本内容。
24.识别步骤中，对所有ocr文本框通过关键词匹配判断是否属于key文本框，如果是，则跟其对应的模板key进行关联构成一组key对应关系，如果否，则将其作为value候选框，如果不存在任意一组key对应关系，则当前图片无法识别。
25.识别步骤中，根据key之间的对应关系将待识别图片与模板图片进行对齐，提取文本框的4个顶点，根据每组key文本框和模板key的对应关系建立4组顶点的对应关系，若存在n组key对应关系，则可建立n
×
4组顶点坐标的对应关系，根据顶点坐标之间的对应关系，计算单应性矩阵，通过透视变换将待识别图片与模板图片进行对齐，value候选框的位置也以同样的变换矩阵转换到对齐之后的图片上。
26.识别步骤中，对value候选框进行错位纠正，在进行模板对齐之后，如果不存在印刷错位，则value候选框落在模板value框内部，如果存在印刷错位，则value候选框存在偏移，与模板value框的对齐落在模板value框边缘上或者外部。
27.将所有value候选框在一定范围内平移多次，在以value候选框原来位置为中心、x、y方向半径均为50个像素的范围内往上下左右各个方向进行平移，以10个像素为单位，则平移的次数一共是(50/10*2+1)2=121，计算每一次位移的value候选框与模板value框的对齐程度，选取对齐程度最高的一次位移作为最终的错位位移，并且将所有value候选框按此位移进行错位纠正。
28.记第i个模板value框为，框的数量为n，第j个候选value框为，框的数量为m，intersection为交集操作，area为求面积操作，bin为二值化函数（满足条件则为1，否则为0），则对齐程度alignment_ratio的计算公式如下：为0），则对齐程度alignment_ratio的计算公式如下：为0），则对齐程度alignment_ratio的计算公式如下：为0），则对齐程度alignment_ratio的计算公式如下：为0），则对齐程度alignment_ratio的计算公式如下：。
29.识别步骤中，在模板预设的value框附近提取结构化信息，针对每一个value候选框，到与它重合面积最大的一个模板value框，如果二者重合程度大于设定的阈值，则将该value候选框关联给所述模板value框，否则忽略该value候选框，在所有value候选框进行关联之后，每一个模板value框关联到的所有value候选框均为该模板value字段对应的内容，将它们的文本内容串联起来即为提取到的该字段的结构化信息，如果模板value框没有关联到任意的value候选框，则该字段无法识别，记模板value框为tv，value候选框为v，则重合程度overlap-ratio的计算公式如下：。
30.本发明基于模板对齐和错位纠正的结构化信息提取，针对每种票据只需要标注一张模板图片，方法灵活且适用性高，同时还能解决印刷错位情况，识别准确率高。针对每种票据挑选一张标准的模板图片进行key和value标注，匹配待识别图片中的key与模板key进行关联，通过透视变换进行模板对齐，这样在预设的value框位置附近即可提取对应的结构化信息。为了解决value印刷错位造成的干扰，在经过key模板对齐之后，根据待识别图片value和模板value的对齐程度进行错位纠正，极大地提高了结构化信息提取的准确率。
31.在预标注阶段的步骤如下：1、挑选一张标准的模板图片。
32.模板图片应该尽可能平整，不存在倾斜，印刷没有错位。
33.2、对模板图片进行key和value标注。
34.key为票据中固定不变的关键词，对其进行矩形框标注（紧凑的矩形框只包含关键词区域）和文本内容标注。
35.value为票据中可变的内容，无需对所有内容进行标注，只标注需要识别的字段即可，对其进行矩形框标注（宽泛的矩形框应能涵盖该字段内容出现的所有位置范围）和字段名称标注（key和value不是一一对应的，有的value根本没有key，因此直接指定value对应的字段）。
36.综合上述实施例梳理之后，更进一步详细的说明如下。
37.在识别阶段的步骤如下：1、对待识别图片进行ocr检测和识别。
38.通过ocr检测和识别得到图片中所有的文本框和文本内容。
39.2、从ocr结果中匹配key文本框与模板key进行关联，其余文本框作为value候选框。
40.对所有ocr文本框通过关键词匹配判断是否属于key文本框，如果属于key文本框则跟其对应的模板key进行关联构成一组key对应关系，否则将其作为value候选框。
41.如果不存在任意一组key对应关系，则当前图片无法识别，否则继续执行步骤3。
42.3、根据key之间的对应关系将待识别图片与模板图片进行对齐。
43.提取文本框的4个顶点，根据每组key文本框和模板key的对应关系可以建立4组顶点的对应关系，若存在n组key对应关系，则可建立n
×
4组顶点坐标的对应关系。根据顶点坐标之间的对应关系，计算单应性矩阵，通过透视变换将待识别图片与模板图片进行对齐，value候选框的位置也以同样的变换矩阵转换到对齐之后的图片上。
44.单应性矩阵和透视变换相关介绍和原理为现有技术，不再赘述4、对value候选框进行错位纠正。
45.在进行模板对齐之后，如果不存在印刷错位，则value候选框应该尽可能落在模板value框内部，而如果存在印刷错位，则value候选框存在一定程度的偏移，与模板value框的对齐程度不是很好（落在模板value框边缘上或者外部）。
46.将所有value候选框在一定范围内平移多次（比如：在以value候选框原来位置为中心、x、y方向半径均为50个像素的范围内往上下左右各个方向进行平移，以10个像素为单位，则平移的次数一共是(50/10*2+1)2=121），计算每一次位移的value候选框与模板value框的对齐程度，选取对齐程度最高的一次位移作为最终的错位位移，并且将所有value候选框按此位移进行错位纠正。
47.记第i个模板value框为，框的数量为n，第j个候选value框为，框的数量为m，intersection为交集操作，area为求面积操作，bin为二值化函数（满足条件则为1，否则为0），则对齐程度alignment_ratio的计算公式如下：为0），则对齐程度alignment_ratio的计算公式如下：为0），则对齐程度alignment_ratio的计算公式如下：为0），则对齐程度alignment_ratio的计算公式如下：为0），则对齐程度alignment_ratio的计算公式如下：5、在模板预设的value框附近提取结构化信息。
48.针对每一个value候选框，到与它重合面积最大的一个模板value框，如果二者重合程度大于设定的阈值（比如0.6），则将该value候选框关联给所述模板value框，否则忽略该value候选框。在所有value候选框进行关联之后，每一个模板value框关联到的所有value候选框均为该模板value字段对应的内容，将它们的文本内容串联起来即为提取到的该字段的结构化信息，如果模板value框没有关联到任意的value候选框，则该字段无法识别。
49.记模板value框为tv，value候选框为v，则重合程度overlap_ratio的计算公式如下：
。
50.单应性矩阵的解释如下：分别获取模板图片经标注的key的文本框的坐标、待识别图片经匹配的key的文本框的坐标，根据获取的坐标之间的对应关系，建立相应的单应性矩阵；根据模板图片经标注的key与待识别图片经匹配的key的单应性矩阵，将待识别图片的value的坐标变换为对齐后的坐标，得到待识别图片的对齐的value。
51.具体的，针对上述每一个key对应的文本框，分别获取模板图片经标注的key的文本框的四个顶点坐标、待识别图片经匹配的key的文本框的四个顶点坐标，根据获取的四组顶点坐标之间的对应关系，建立如下单应性矩阵；（1）；其中，（x1、y1）、（x2、y2）、（x3、y3）、（x4、y4）为待识别图片经识别的当前key对应的文本框的四个顶点坐标，（x’1、y’1）、（x’2、y’2）、（x’3、y’3）、（x’4、y’4）为模板图片经标注的当前key对应的文本框的四个顶点坐标，h11、h12、h13、h21、h22、h23、h31、h32为待求解的未知参数。通过公式（1）带入相应的坐标值，便可求出单应性矩阵的8个未知参数，将求解后的单应性矩阵输入图像变换模型中得到待识别图片的对齐的key。本实施例的图像变换模型为透视变换模型。对于待识别图片经匹配的value的对齐，如上所示，在此不再具体赘述。
52.在真实的应用场景中，上述实施例计算的每组坐标点（如（x1、y1）与（x’1、y’1）构成一组坐标点，以下简称点对）中都会包含噪声。比如，坐标点的位置偏差几个像素，甚至出现特征点对误匹配的现象，如果只是用四个点来计算单应性矩阵，那会出现很大的误差。因此为了使得计算更精确，一般都会使用远大于四个点来计算单应性矩阵。
53.上述实施例是使用上述所有key的文本框的四个顶点去计算出一个单应性矩阵，使用的方法是ransac,具体步骤为：（1）从初始匹配点对集合s中随机选取4对匹配特征点作为内点集合si，估计初始的单应性矩阵hi；（2）用hi计算s中剩余的匹配点对。如果某个特征点的投影误差小于阈值t,则将其添加到si中；（3）记下si集合中匹配点对的数量；（4）重复（2）-（3）步骤直到迭代次数大于k；(5)比较哪次迭代计算得到的点对数量最多，点对数量最多的那次估计模型就是所要求解的单应性矩阵。
54.以上所述实施例仅表达了本发明的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

技术特征：

1.一种卷烟物流收货票据的结构化信息提取方法，其特征在于，包括以下步骤：预标注步骤：设定票据的模板图片标准，挑选标准的模板图片，对模板图片标注key和value，其中，key为票据中固定不变的关键词，value为票据中可变的内容；识别步骤：确定待识别图片，匹配关联待识别图片的key与模板图片的key，设定待识别图片中除key以外的文本框为value候选框，根据key之间的对应关系对齐待识别图片与模板图片，错位纠正value候选框，根据模板图片value文本框中的内容提取结构化信息。2.根据权利要求1所述的卷烟物流收货票据的结构化信息提取方法，其特征在于，预标注步骤中，票据的模板图片标准为平整、不倾斜、印刷无错位的图片。3.根据权利要求2所述的卷烟物流收货票据的结构化信息提取方法，其特征在于，预标注步骤中，标注key的步骤如下：对模板图片进行矩形框标注和文本内容标注，设定紧凑的矩形框为关键词区域。4.根据权利要求3所述的卷烟物流收货票据的结构化信息提取方法，其特征在于，预标注步骤中，标注value的步骤如下：对模板图片中除标注key以外的需要识别的字段进行矩形框标注和字段名称标注。5.根据权利要求1或2或3或4所述的卷烟物流收货票据的结构化信息提取方法，其特征在于，识别步骤中，还包括以下步骤：以ocr检测和识别待识别图片中所有的文本框和文本内容。6.根据权利要求5所述的卷烟物流收货票据的结构化信息提取方法，其特征在于，识别步骤中，还包括以下步骤：对得到的待识别图片中所有文本框和文本内容通过关键词匹配，判断是否属于模板图片的key文本框，如果是，则待识别图片中的key跟模板图片的key关联后构成一组key对应关系，如果否，则将待识别图片中的文本框和文本内容作为value候选框，如果无任何一组key对应关系，则无法识别当前图片。7.根据权利要求6所述的卷烟物流收货票据的结构化信息提取方法，其特征在于，识别步骤中，还包括以下步骤：根据key之间的对应关系对齐待识别图片与模板图片，提取文本框的4个顶点，根据每组待识别图片key和模板图片key的对应关系建立4组顶点的对应关系；当存在n组key对应关系时，则建立n*4组顶点坐标的对应关系，根据顶点坐标之间的对应关系，计算单应性矩阵，通过透视变换对齐待识别图片与模板图片。8.根据权利要求7所述的卷烟物流收货票据的结构化信息提取方法，其特征在于，识别步骤中，还包括以下步骤：将所有value候选框在以预设定的规律平移至少一次，计算每一次位移的value候选框与模板value框的对齐程度，选取对齐程度最高的一次位移作为最终的错位位移，并且将所有value候选框按此位移进行错位纠正，得到所述待识别图片的错位纠正的value框以及其内容。9.根据权利要求8所述的卷烟物流收货票据的结构化信息提取方法，其特征在于，识别步骤中，还包括以下步骤：在模板图片value文本框附近提取结构化信息，对每一个value候选框，到与它重合面积最大的一个模板图片value文本框，如果二者重合程度大于设定的阈值，则将该value
候选框关联给对应模板图片value文本框，否则忽略该value候选框；完成所有value候选框的关联后，每一个模板图片value文本框关联到的value候选框均为该模板图片value字段对应的内容，将文本内容串联起来即得到提取到的该字段的结构化信息，如果模板图片value文本框没有关联到value候选框，则该字段无法识别。

技术总结

本发明公开了一种卷烟物流收货票据的结构化信息提取方法，包括预标注步骤和识别步骤，其中，预标注步骤：设定票据的模板图片标准，挑选标准的模板图片，对模板图片标注key和value，其中，key为票据中固定不变的关键词，value为票据中可变的内容；识别步骤：确定待识别图片，匹配关联待识别图片的key与模板图片的key，设定待识别图片中除key以外的文本框为value候选框，根据key之间的对应关系对齐待识别图片与模板图片，错位纠正value候选框，根据模板图片value文本框中的内容提取结构化信息。本发明基于模板对齐和错位纠正的结构化信息提取，针对每种票据只需要标注一张模板图片，方法灵活且适用性高，同时还能解决印刷错位情况，识别准确率高。识别准确率高。