检测报告数据处理方法、装置和计算机设备与流程



1.本技术涉及数据处理技术领域,特别是涉及一种检测报告数据处理方法、装置和计算机设备。


背景技术:



2.质量检测是对产品质量把控的关键步骤,是监管部门保障消费者权益的重要举措,也是企业管控生产质量的重要依据。质量检测形成的检测报告种类繁多,其中承载了大量的企业和产品数据。现行的质量检测报告往往分散存储在于企业、监管机构、个人手中。相应的检测报告没有统一的管理口径,检测报告仅仅起到在监管过程中的质量认证功能。而作为质量监管部门,如果集中处理检测报告,面临大量数据处理的压力。


技术实现要素:



3.基于此,有必要针对上述技术问题,提供一种检测报告数据处理方法、装置、计算机设备和存储介质。
4.一种检测报告数据处理方法,所述方法包括:
5.获取检测报告原件对应的图像信息,以及将所述图像信息输入预先训练的ocr文本识别模型,得到所述图像信息对应的多特征信息;所述多特征信息中至少包括:中文文本信息、英文文本信息以及数字文本信息;
6.将所述图像信息以及图像信息对应的多特征信息作为待入库检测报告存储至检测报告数据库;
7.当所述检测报告数据库接收到所述待入库检测报告时,采用不同方式将所述待入库检测报告的所述多特征信息与所述检测报告数据库中检测报告的多特征信息进行匹配,匹配完成时,进行待入库检测报告入库。
8.在其中一个实施例中,所述ocr文本识别模型包括:ocr识别模块、语义提取模块以及特征分类模块,还包括:将所述图像信息输入预先训练的ocr文本识别模型,通过所述ocr识别模块将所述图像信息转化为文本信息,通过所述特征分类模块识别所述文本信息,得到中文文本、英文文本以及数字文本;通过所述语义提取模块分别提取所述中文文本、英文文本以及数字文本的语义,得到中文文本信息、英文文本信息以及数字文本信息。
9.在其中一个实施例中,还包括:通过所述特征分类模块识别所述文本信息,当所述文本信息中的长句包括中文文本、英文文本以及数字文本时,分别提取所述中文文本、英文文本以及数字文本,并且采用统一标签进行标记;其中,在中文文本中,长句对应的英文文本以及数字文本采用占位符进行填充。
10.在其中一个实施例中,还包括:通过所述语义提取模块提取所述中文文本的语义,得到中文文本信息;通过所述语义提取模块提取所述中文文本的占位符替换所述英文文本得到的文本对应的语义,得到英文文本信息;通过所述语义提取模块提取所述中文文本的占位符替换所述英文文本以及数字文本的文本对应的语义,得到数据文本信息。
11.在其中一个实施例中,还包括:采用语义匹配的方式将所述待入库检测报告的中文文本信息与所述检测报告数据库中检测报告的中文文本信息;采用全匹配的方式将所述待入库检测报告的英文文本信息与所述检测报告数据库中检测报告的英文文本信息;采用范围匹配的方式将所述待入库检测报告的数字文本信息与所述检测报告数据库中检测报告的数字文本信息。
12.在其中一个实施例中,还包括:通过中文文本信息的匹配信息,确定与待入库检测报告类型相同的检测报告;通过英文文本信息的匹配信息,确定待入库检测报告与检测报告的匹配位置;通过数字文本信息的匹配信息,确定待入库检测报告针对对应检测项目的合格信息。
13.在其中一个实施例中,还包括:合格信息包括:未合格、合格以及优异。
14.一种检测报告数据处理装置,所述装置包括:
15.特征提取模块,用于获取检测报告原件对应的图像信息,以及将所述图像信息输入预先训练的ocr文本识别模型,得到所述图像信息对应的多特征信息;所述多特征信息中至少包括:中文文本信息、英文文本信息以及数字文本信息;
16.存储模块,用于将所述图像信息以及图像信息对应的多特征信息作为待入库检测报告存储至检测报告数据库;
17.匹配模块,用于当所述检测报告数据库接收到所述待入库检测报告时,采用不同方式将所述待入库检测报告的所述多特征信息与所述检测报告数据库中检测报告的多特征信息进行匹配,匹配完成时,进行待入库检测报告入库。
18.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
19.获取检测报告原件对应的图像信息,以及将所述图像信息输入预先训练的ocr文本识别模型,得到所述图像信息对应的多特征信息;所述多特征信息中至少包括:中文文本信息、英文文本信息以及数字文本信息;
20.将所述图像信息以及图像信息对应的多特征信息作为待入库检测报告存储至检测报告数据库;
21.当所述检测报告数据库接收到所述待入库检测报告时,采用不同方式将所述待入库检测报告的所述多特征信息与所述检测报告数据库中检测报告的多特征信息进行匹配,匹配完成时,进行待入库检测报告入库。
22.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
23.获取检测报告原件对应的图像信息,以及将所述图像信息输入预先训练的ocr文本识别模型,得到所述图像信息对应的多特征信息;所述多特征信息中至少包括:中文文本信息、英文文本信息以及数字文本信息;
24.将所述图像信息以及图像信息对应的多特征信息作为待入库检测报告存储至检测报告数据库;
25.当所述检测报告数据库接收到所述待入库检测报告时,采用不同方式将所述待入库检测报告的所述多特征信息与所述检测报告数据库中检测报告的多特征信息进行匹配,匹配完成时,进行待入库检测报告入库。
26.上述检测报告数据处理方法、装置、计算机设备和存储介质,首先,将检测报告原件均已图像信息的方式存储在数据库中,为了便于检测报告的管理,通过ocr文本识别模型来提取图像信息对应的多特征信息,至少包括中文文本信息、英文文本信息以及数字文本信息,在进行检测报告入库时,通过多特征的匹配,不仅可以标记待入库检测报告的类别,也可以标记合格证报告中各项指标的合格信息,从而缓解大量检测报告处理的压力。
附图说明
27.图1为一个实施例中检测报告数据处理方法的流程示意图;
28.图2为一个实施例中检测报告数据处理装置的结构框图;
29.图3为一个实施例中计算机设备的内部结构图。
具体实施方式
30.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
31.在一个实施例中,如图1所示,提供了一种检测报告数据处理方法,包括以下步骤:
32.步骤102,获取检测报告原件对应的图像信息,以及将图像信息输入预先训练的ocr文本识别模型,得到图像信息对应的多特征信息。
33.多特征信息中至少包括:中文文本信息、英文文本信息以及数字文本信息。
34.值得说明的是,检测报告其中包含了大量的文本信息,与一般文本信息不同的是,其中包含了较多的结构化文本,例如:承口直径socket diameter 160.3。
35.一般而言,检测报告存在多种呈现形式,最常见的是表格,表格中包括样品的信息、单位信息、检测结果信息等,其中最核心的是检测结果信息,特别是在本发明进行检测报告入库时,主要是依赖于检测结果信息进行自动判别。
36.ocr文本识别模型最主要的功能是进行ocr文本识别,文本匹配以及语义获取等,ocr识别表格时,较为普遍的会存在乱码的情况,很难梳理出有效的信息,因此本技术在获取检测结果信息时,不同程度的利用中文文本信息、英文文本信息以及数字文本信息,可以显著提升检测报告入库的效率。
37.步骤104,将图像信息以及图像信息对应的多特征信息作为待入库检测报告存储至检测报告数据库。
38.检测报告数据库可以是监管部门的数据库,可以知道的是,随着时间的推移,检测报告数据库中的检测报告会越来越多,在初始情况下,很难做到自动入库,需要人工对监测报告中的结果进行分析对比,随着数据的增多,各个检测结果数据已经形成的数据梯度,因此在进行匹配时,容易匹配的相同或者基本相近的检测结果。
39.步骤106,当检测报告数据库接收到待入库检测报告时,采用不同方式将待入库检测报告的多特征信息与检测报告数据库中检测报告的多特征信息进行匹配,匹配完成时,进行待入库检测报告入库。
40.检测报告的类型繁多,在进行入库时,难以自动进行分类,然而,在进行多特征提取的基础上,进行匹配,很容易到相似的检测报告,从而确定最终的分类以及合格信息。
41.上述检测报告数据处理方法中,首先,将检测报告原件均已图像信息的方式存储在数据库中,为了便于检测报告的管理,通过ocr文本识别模型来提取图像信息对应的多特征信息,至少包括中文文本信息、英文文本信息以及数字文本信息,在进行检测报告入库时,通过多特征的匹配,不仅可以标记待入库检测报告的类别,也可以标记合格证报告中各项指标的合格信息,从而缓解大量检测报告处理的压力。
42.在其中一个实施例中,ocr文本识别模型包括:ocr识别模块、语义提取模块以及特征分类模块;将图像信息输入预先训练的ocr文本识别模型,通过ocr识别模块将所述图像信息转化为文本信息,通过特征分类模块识别文本信息,得到中文文本、英文文本以及数字文本;通过语义提取模块分别提取所述中文文本、英文文本以及数字文本的语义,得到中文文本信息、英文文本信息以及数字文本信息。
43.本实施例中,ocr识别模块和特征分类模块,可以是tesseract-ocr可以实现英文和数字的识别,通过中文识别模型的下载可以同时实现中文的识别。语义提取模块可以是lstm网络、textblob等。
44.在其中一个实施例中,通过特征分类模块识别文本信息,当文本信息中的长句包括中文文本、英文文本以及数字文本时,分别提取中文文本、英文文本以及数字文本,并且采用统一标签进行标记;其中,在中文文本中,长句对应的英文文本以及数字文本采用占位符进行填充。
45.本实施例中,需要提取出长句,特别是包含中文文本、英文文本以及数字文本,在同一长句中,采用统一标签进行标记,有利于后续的特征提取。对于中文文本的组成,可以将长句对应的英文文本以及数字文本采用占位符进行填充,以便后续获取完整的语义信息。
46.在其中一个实施例中,通过语义提取模块提取中文文本的语义,得到中文文本信息;通过语义提取模块提取中文文本的占位符替换英文文本得到的文本对应的语义,得到英文文本信息;通过语义提取模块提取中文文本的占位符替换英文文本以及数字文本的文本对应的语义,得到数据文本信息。
47.进一步的,采用语义匹配的方式将待入库检测报告的中文文本信息与检测报告数据库中检测报告的中文文本信息;采用全匹配的方式将待入库检测报告的英文文本信息与检测报告数据库中检测报告的英文文本信息;采用范围匹配的方式将待入库检测报告的数字文本信息与检测报告数据库中检测报告的数字文本信息。
48.本实施例中,通过检测报告中中文文本的语义提取,可以进行检测报告类型的匹配,进一步减小数据库数据匹配的数据量,英文文本只有融入中文文本中才能确定其真实含义,因此在确定英文文本的真实含义时,可以采用全匹配的方式,确定匹配的文本位置,最终,通过检测结果中的数据文本,确定检测结果。
49.在其中一个实施例中,通过中文文本信息的匹配信息,确定与待入库检测报告类型相同的检测报告;通过英文文本信息的匹配信息,确定待入库检测报告与检测报告的匹配位置;通过数字文本信息的匹配信息,确定待入库检测报告针对对应检测项目的合格信息。
50.在其中一个实施例中,合格信息包括:未合格、合格以及优异。
51.应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这
些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
52.在一个实施例中,如图2所示,提供了一种检测报告数据处理装置,包括:特征提取模块202、存储模块204和匹配模块206,其中:
53.特征提取模块202,用于获取检测报告原件对应的图像信息,以及将所述图像信息输入预先训练的ocr文本识别模型,得到所述图像信息对应的多特征信息;所述多特征信息中至少包括:中文文本信息、英文文本信息以及数字文本信息;
54.存储模块204,用于将所述图像信息以及图像信息对应的多特征信息作为待入库检测报告存储至检测报告数据库;
55.匹配模块206,用于当所述检测报告数据库接收到所述待入库检测报告时,采用不同方式将所述待入库检测报告的所述多特征信息与所述检测报告数据库中检测报告的多特征信息进行匹配,匹配完成时,进行待入库检测报告入库。
56.在其中一个实施例中,所述ocr文本识别模型包括:ocr识别模块、语义提取模块以及特征分类模块;特征提取模块202还用于将所述图像信息输入预先训练的ocr文本识别模型,通过所述ocr识别模块将所述图像信息转化为文本信息,通过所述特征分类模块识别所述文本信息,得到中文文本、英文文本以及数字文本;通过所述语义提取模块分别提取所述中文文本、英文文本以及数字文本的语义,得到中文文本信息、英文文本信息以及数字文本信息。
57.在其中一个实施例中,特征提取模块202还用于通过所述特征分类模块识别所述文本信息,当所述文本信息中的长句包括中文文本、英文文本以及数字文本时,分别提取所述中文文本、英文文本以及数字文本,并且采用统一标签进行标记;其中,在中文文本中,长句对应的英文文本以及数字文本采用占位符进行填充。
58.在其中一个实施例中,特征提取模块202还用于通过所述语义提取模块提取所述中文文本的语义,得到中文文本信息;
59.通过所述语义提取模块提取所述中文文本的占位符替换所述英文文本得到的文本对应的语义,得到英文文本信息;
60.通过所述语义提取模块提取所述中文文本的占位符替换所述英文文本以及数字文本的文本对应的语义,得到数据文本信息。
61.在其中一个实施例中,匹配模块206还用于采用语义匹配的方式将所述待入库检测报告的中文文本信息与所述检测报告数据库中检测报告的中文文本信息;
62.采用全匹配的方式将所述待入库检测报告的英文文本信息与所述检测报告数据库中检测报告的英文文本信息;
63.采用范围匹配的方式将所述待入库检测报告的数字文本信息与所述检测报告数据库中检测报告的数字文本信息。
64.在其中一个实施例中,匹配模块206还用于通过中文文本信息的匹配信息,确定与待入库检测报告类型相同的检测报告;
65.通过英文文本信息的匹配信息,确定待入库检测报告与检测报告的匹配位置;
66.通过数字文本信息的匹配信息,确定待入库检测报告针对对应检测项目的合格信息。
67.在其中一个实施例中,合格信息包括:未合格、合格以及优异。
68.关于检测报告数据处理装置的具体限定可以参见上文中对于检测报告数据处理方法的限定,在此不再赘述。上述检测报告数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
69.在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种检测报告数据处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
70.本领域技术人员可以理解,图3中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
71.在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
72.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
73.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
74.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
75.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并
不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。

技术特征:


1.一种检测报告数据处理方法,其特征在于,所述方法包括:获取检测报告原件对应的图像信息,以及将所述图像信息输入预先训练的ocr文本识别模型,得到所述图像信息对应的多特征信息;所述多特征信息中至少包括:中文文本信息、英文文本信息以及数字文本信息;将所述图像信息以及图像信息对应的多特征信息作为待入库检测报告存储至检测报告数据库;当所述检测报告数据库接收到所述待入库检测报告时,采用不同方式将所述待入库检测报告的所述多特征信息与所述检测报告数据库中检测报告的多特征信息进行匹配,匹配完成时,进行待入库检测报告入库。2.根据权利要求1所述的方法,其特征在于,所述ocr文本识别模型包括:ocr识别模块、语义提取模块以及特征分类模块;将所述图像信息输入预先训练的ocr文本识别模型,得到所述图像信息对应的多特征信息,包括:将所述图像信息输入预先训练的ocr文本识别模型,通过所述ocr识别模块将所述图像信息转化为文本信息,通过所述特征分类模块识别所述文本信息,得到中文文本、英文文本以及数字文本;通过所述语义提取模块分别提取所述中文文本、英文文本以及数字文本的语义,得到中文文本信息、英文文本信息以及数字文本信息。3.根据权利要求2所述的方法,其特征在于,通过所述特征分类模块识别所述文本信息,得到中文文本、英文文本以及数字文本,包括:通过所述特征分类模块识别所述文本信息,当所述文本信息中的长句包括中文文本、英文文本以及数字文本时,分别提取所述中文文本、英文文本以及数字文本,并且采用统一标签进行标记;其中,在中文文本中,长句对应的英文文本以及数字文本采用占位符进行填充。4.根据权利要求3所述的方法,其特征在于,通过所述语义提取模块分别提取所述中文文本、英文文本以及数字文本的语义,得到中文文本信息、英文文本信息以及数字文本信息,包括:通过所述语义提取模块提取所述中文文本的语义,得到中文文本信息;通过所述语义提取模块提取所述中文文本的占位符替换所述英文文本得到的文本对应的语义,得到英文文本信息;通过所述语义提取模块提取所述中文文本的占位符替换所述英文文本以及数字文本的文本对应的语义,得到数据文本信息。5.根据权利要求1至4任一项所述的方法,其特征在于,采用不同方式将所述待入库检测报告的所述多特征信息与所述检测报告数据库中检测报告的多特征信息进行匹配,包括:采用语义匹配的方式将所述待入库检测报告的中文文本信息与所述检测报告数据库中检测报告的中文文本信息;采用全匹配的方式将所述待入库检测报告的英文文本信息与所述检测报告数据库中检测报告的英文文本信息;采用范围匹配的方式将所述待入库检测报告的数字文本信息与所述检测报告数据库
中检测报告的数字文本信息。6.根据权利要求5所述的方法,其特征在于,匹配完成时,进行待入库检测报告入库,包括:通过中文文本信息的匹配信息,确定与待入库检测报告类型相同的检测报告;通过英文文本信息的匹配信息,确定待入库检测报告与检测报告的匹配位置;通过数字文本信息的匹配信息,确定待入库检测报告针对对应检测项目的合格信息。7.根据权利要求6所述的方法,其特征在于,合格信息包括:未合格、合格以及优异。8.一种检测报告数据处理装置,其特征在于,所述装置包括:特征提取模块,用于获取检测报告原件对应的图像信息,以及将所述图像信息输入预先训练的ocr文本识别模型,得到所述图像信息对应的多特征信息;所述多特征信息中至少包括:中文文本信息、英文文本信息以及数字文本信息;存储模块,用于将所述图像信息以及图像信息对应的多特征信息作为待入库检测报告存储至检测报告数据库;匹配模块,用于当所述检测报告数据库接收到所述待入库检测报告时,采用不同方式将所述待入库检测报告的所述多特征信息与所述检测报告数据库中检测报告的多特征信息进行匹配,匹配完成时,进行待入库检测报告入库。9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

技术总结


本申请涉及一种检测报告数据处理方法、装置和计算机设备。所述方法包括:获取检测报告原件对应的图像信息,以及将图像信息输入预先训练的OCR文本识别模型,得到图像信息对应的多特征信息,将图像信息以及图像信息对应的多特征信息作为待入库检测报告存储至检测报告数据库,当检测报告数据库接收到待入库检测报告时,采用不同方式将待入库检测报告的多特征信息与检测报告数据库中检测报告的多特征信息进行匹配,匹配完成时,进行待入库检测报告入库。采用本方法能够提高入库的效率。入库。采用本方法能够提高入库的效率。入库。采用本方法能够提高入库的效率。


技术研发人员:

戴铮 胡兴 谢小龙

受保护的技术使用者:

湖南航天天麓新材料检测有限责任公司

技术研发日:

2022.10.11

技术公布日:

2022/12/9

本文发布于:2024-09-24 01:22:38,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/31771.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:文本   所述   信息   检测报告
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议