一种专利文件的处理方法、装置及存储介质

著录项
  • CN201811564425.X
  • 20181220
  • CN109598649A
  • 20190409
  • 江苏省舜禹信息技术有限公司
  • 单杰;董柏雷
  • G06Q50/18
  • G06Q50/18

  • 江苏省南京市奥体大街69号新城科技大厦01栋12层
  • 江苏(32)
  • 北京品源专利代理有限公司
  • 孟金喆
摘要
本发明公开了一种专利文件的处理方法、装置及存储介质,其中,方法包括:建立附图参数与标记名称的对应关系,提取说明书中“标记名称+附图标记”形式的目标短语;基于附图参数与标记名称的对应关系,建立目标短语与目标短语中的附图标记指示的附图内容之间的映射关系;当触发目标短语的设定操作时,至少将目标短语对应的附图内容进行区别显示。本发明阅读者能够直观地看到说明书窗口中附图标记及标记名称在附图窗口中对应的附图内容,提升了阅读体验和阅读效率。
权利要求

1.一种专利文件的处理方法,其特征在于,包括:

建立附图参数与标记名称的对应关系,其中,所述附图参数包括附图标记、所述附图标记在对应附图中的附图标记图元和所述附图标记图元在对应附图中的图元位置信息;

提取说明书中“标记名称+附图标记”形式的目标短语;

基于附图参数与标记名称的对应关系,建立所述目标短语与所述目标短语中的附图标记指示的附图内容之间的映射关系;

当触发所述目标短语的设定操作时,至少将所述目标短语对应的所述附图内容进行区别显示。

2.根据权利要求1所述的专利文件的处理方法,其特征在于,所述建立附图参数与标记名称的对应关系,包括:

识别附图中的附图标记,生成第一列表,其中,所述第一列表包括附图标记、附图标记图元和图元位置信息的对应关系;

提取说明书中的附图标记及所述附图标记对应的标记名称,生成第二列表,其中,所述第二列表包括附图标记和标记名称的对应关系;

合并所述第一列表和所述第二列表,过滤重复的附图标记,生成第三列表。

3.根据权利要求2所述的专利文件的处理方法,其特征在于,所述识别附图中的附图标记,包括:

确定附图中附图标记的位置,截取包含所述附图标记的附图标记图元,对所述附图标记图元进行识别。

4.根据权利要求2所述的专利文件的处理方法,其特征在于,在所述生成第一列表之后,还包括:

对从附图中识别出的附图标记进行核对;

若识别出的附图标记与对应附图标记图元表示的附图标记不一致,则更新所述第一列表中的附图标记。

5.根据权利要求2所述的专利文件的处理方法,其特征在于,在所述生成第一列表之后,还包括:

对附图中的附图标记进行漏检;

将漏检到的附图参数添加到所述第一列表中。

6.根据权利要求2所述的专利文件的处理方法,其特征在于,还包括:

基于所述第三列表,若在一附图参数与标记名称的对应关系中存在同一附图标记对应至少两个标记名称,或者缺少标记名称,或者缺少附图标记图元及图元位置信息,则发出提示信息。

14.根据权利要求2所述的专利文件的处理方法,其特征在于,所述识别附图中的附图标记,包括:

基于神经网络算法,识别附图中的附图标记。

7.根据权利要求1所述的专利文件的处理方法,其特征在于,所述基于附图参数与标记名称的对应关系,建立所述目标短语与所述目标短语中的附图标记指示的附图内容之间的映射关系,包括:

基于附图参数与标记名称的对应关系,确定所述目标短语对应的图元位置信息;

基于所述目标短语对应的图元位置信息,确定对应指示标线指示端的位置信息,其中,所述指示端用于指向附图中对应的附图内容;

基于所述指示端的位置信息确定所述目标短语对应的附图内容。

9.根据权利要求7所述的专利文件的处理方法,其特征在于,还包括:

在所述附图标记图元附近的空白处显示对应的标记名称。

10.根据权利要求9所述的专利文件的处理方法,其特征在于,所述在所述附图标记图元附近的空白处显示对应的标记名称,包括:

在所述附图标记图元附近的空白区域生成标记名称显示框;

在所述标记名称显示框内显示对应的标记名称。

11.根据权利要求10所述的专利文件的处理方法,其特征在于,所述至少将所述目标短语对应的所述附图内容进行区别显示,包括:

将所述目标短语对应的附图标记图元、标记名称显示框、指示标线和附图内容,以边缘加亮、整体高亮、闪烁和填充颜中的至少一种方式进行显示。

8.根据权利要求1所述的专利文件的处理方法,其特征在于,所述设定操作包括点选、框选或悬停于所述目标短语。

12.根据权利要求1所述的专利文件的处理方法,其特征在于,还包括:

将所述专利文件的文字部分在文本窗口进行显示,并将所述专利文件的附图部分在附图窗口进行显示。

13.根据权利要求12所述的专利文件的处理方法,其特征在于,所述文本窗口包括用于显示专利文件原文的原文窗口和用于显示专利文件译文的译文窗口。

15.一种专利文件的处理装置,其特征在于,包括:

第一关系建立单元,用于建立附图参数与标记名称的对应关系,其中,所述附图参数包括附图标记、所述附图标记在对应附图中的附图标记图元和所述附图标记图元在对应附图中的图元位置信息;

目标短语提取单元,用于提取说明书中“标记名称+附图标记”形式的目标短语;

第二关系建立单元,用于基于附图参数与标记名称的对应关系,建立所述目标短语与所述目标短语中的附图标记指示的附图内容之间的映射关系;

显示单元,用于当触发所述目标短语的设定操作时,至少将所述目标短语对应的所述附图内容进行区别显示。

16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-14中任一所述的专利文件的处理方法。

说明书
技术领域

本发明实施例涉及图像处理技术,尤其涉及一种专利文件的处理方法、装置及存储介质。

专利文件中说明书的文本描述部分和附图通常是分开的,附图通常位于说明书的最后,这将会给相关人员的阅读与理解该文件的内容带来不便。在阅读专利文件时,为了对照文本描述与位于不同页面上各附图中的附图标记的相互关系,往往需要反复地前后翻页,这常常要耗费额外的时间与精力。

为了提高阅读效率,通常阅读者会开启两个显示窗口,第一个显示窗口用于显示说明书的文本部分,第二个显示窗口用于显示说明书附图,阅读者并行查看两个显示窗口显示的内容,依据第一个窗口中说明书的文本部分记载的附图标记和标记名称,在第二个显示窗口中到对应的附图标记以及该附图标记所指示的附图内容。

但该方法仍然需要阅读者仔细查两个显示窗口中的附图标记及该标记指示的附图内容,仍然不够直观,特别是当附图结构复杂且附图标记较多的时候,需要耗费大量的时间与精力,阅读者阅读效率较低。

本发明提供一种专利文件的处理方法、装置及存储介质,阅读者能够直观地看到说明书窗口中附图标记及标记名称在附图窗口中对应的附图内容,提升了阅读体验和阅读效率。

第一方面,本发明实施例提供了一种专利文件的处理方法,包括:

建立附图参数与标记名称的对应关系,其中,附图参数包括附图标记、附图标记在对应附图中的附图标记图元和附图标记图元在对应附图中的图元位置信息;

提取说明书中“标记名称+附图标记”形式的目标短语;

基于附图参数与标记名称的对应关系,建立目标短语与目标短语中的附图标记指示的附图内容之间的映射关系;

当触发目标短语的设定操作时,至少将目标短语对应的附图内容进行区别显示。

可选的,建立附图参数与标记名称的对应关系,包括:

识别附图中的附图标记,生成第一列表,其中,第一列表包括附图标记、附图标记图元和图元位置信息的对应关系;

提取说明书中的附图标记及附图标记对应的标记名称,生成第二列表,其中,第二列表包括附图标记和标记名称的对应关系;

合并第一列表和第二列表,过滤重复的附图标记,生成第三列表。

可选的,识别附图中的附图标记,包括:

确定附图中附图标记的位置,截取包含附图标记的附图标记图元,对附图标记图元进行识别。

可选的,在生成第一列表之后,还包括:

对从附图中识别出的附图标记进行核对;

若识别出的附图标记与对应附图标记图元表示的附图标记不一致,则更新第一列表中的附图标记。

可选的,在生成第一列表之后,还包括:

对附图中的附图标记进行漏检;

将漏检到的附图参数添加到第一列表中。

可选的,专利文件处理方法还包括:

基于第三列表,若在一附图参数与标记名称的对应关系中存在同一附图标记对应至少两个标记名称,或者缺少标记名称,或者缺少附图标记图元及图元位置信息,则发出提示信息。

可选的,基于附图参数与标记名称的对应关系,建立目标短语与目标短语中的附图标记指示的附图内容之间的映射关系,包括:

基于附图参数与标记名称的对应关系,确定目标短语对应的图元位置信息;

基于目标短语对应的图元位置信息,确定对应指示标线指示端的位置信息,其中,指示端用于指向附图中对应的附图内容;

基于指示端的位置信息确定目标短语对应的附图内容。

可选的,设定操作包括点选、框选或悬停于目标短语。

可选的,专利文件处理方法还包括:

在附图标记图元附近的空白处显示对应的标记名称。

可选的,在附图标记图元附近的空白处显示对应的标记名称,包括:

在附图标记图元附近的空白区域生成标记名称显示框;

在标记名称显示框内显示对应的标记名称。

可选的,至少将目标短语对应的附图内容进行区别显示,包括:

将目标短语对应的附图标记图元、标记名称显示框、指示标线和附图内容,以边缘加亮、整体高亮、闪烁和填充颜中的至少一种方式进行显示。

可选的,专利文件处理方法还包括:

将专利文件的文字部分在文本窗口进行显示,并将专利文件的附图部分在附图窗口进行显示。

可选的,文本窗口包括用于显示专利文件原文的原文窗口和用于显示专利文件译文的译文窗口。

可选的,识别附图中的附图标记,包括:

基于神经网络算法,识别附图中的附图标记。

第二方面,本发明实施例还提供了一种专利文件的处理装置,包括:

第一关系建立单元,用于建立附图参数与标记名称的对应关系,其中,附图参数包括附图标记、附图标记在对应附图中的附图标记图元和附图标记图元在对应附图中的图元位置信息;

目标短语提取单元,用于提取说明书中“标记名称+附图标记”形式的目标短语;

第二关系建立单元,用于基于附图参数与标记名称的对应关系,建立目标短语与目标短语中的附图标记指示的附图内容之间的映射关系;

显示单元,用于当触发目标短语的设定操作时,至少将目标短语对应的附图内容进行区别显示。

第三方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明第一方面任意所述的专利文件的处理方法。

本发明实施例通过建立附图参数与标记名称的对应关系,并提取说明书中“标记名称+附图标记”形式的目标短语,基于附图参数与标记名称的对应关系,建立目标短语与目标短语中的附图标记指示的附图内容之间的映射关系,当触发目标短语的设定操作时,将目标短语对应的附图内容进行区别显示,如此,阅读者能够直观地看到说明书窗口中附图标记及标记名称在附图窗口中对应的附图内容,提升了阅读体验和阅读效率。

图1为本发明实施例提供的一种专利文件的处理方法的流程图;

图2为本发明实施例中待处理专利文件的原始附图;

图3为触发“第一部件1”的设定操作后对应图2的一种示意图;

图4为本发明实施例提供的另一种专利文件的处理方法;

图5为触发“第一部件1”的设定操作后对应图2的另一种示意图;

图6为本发明实施例提供的一种专利文件的处理装置;

图7为本发明实施例中第一关系建立单元的结构示意图;

图8为本发明实施例中第二关系建立单元的结构示意图。

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

本发明实施例提供了一种专利文件的处理方法,图1为本发明实施例提供的一种专利文件的处理方法的流程图,如图1所示,该方法包括:

S110、建立附图参数与标记名称的对应关系。

其中,附图参数包括附图标记、附图标记在对应附图中的附图标记图元和附图标记图元在对应附图中的图元位置信息。具体的,附图标记为专利附图中用于指示附图内容的字符标记,可以是数字或字母形式。附图标记图元为包括完整的附图标记的图元,附图标记图元的尺寸可根据附图标记的尺寸进行自适应,形状可以是直角四边形,对应的附图标记包含在该直角四边形内。图元位置信息是指附图标记图元在专利附图中的具体位置,示例性的,可以基于专利附图,建立二维坐标系,根据附图标记图元在该坐标系中的坐标信息,确定该附图标记图元的图元位置信息。标记名称为附图标记指代的附图内容的名称。需要说明的是,上述确定的附图标记图元的图元位置信息的方法只是本发明的其中一实施例,事实上,只要能够用来确定附图标记图元的图元位置信息即可,本发明在此不做限定。

S120、提取说明书中“标记名称+附图标记”形式的目标短语。

专利文件的说明书中,标记名称和附图标记通常以“标记名称+附图标记”的形式出现,例如“第一部件101”,提取说明书中“标记名称+附图标记”形式的目标短语。具体的,可以采用正则表达式字符匹配算法、条件随机场算法或实体命名识别算法等提取说明书中“标记名称+附图标记”形式的目标短语。

S130、基于附图参数与标记名称的对应关系,建立目标短语与目标短语中的附图标记指示的附图内容之间的映射关系。

具体的,通过附图标记图元的图元位置信息可以确定该附图标记指示的附图内容,基于附图参数与标记名称的对应关系,建立目标短语与目标短语中的附图标记指示的附图内容之间的映射关系,如此,可以通过附图标记、标记名称或目标短语查到对应的附图内容。

S140、当触发目标短语的设定操作时,至少将目标短语对应的附图内容进行区别显示。

其中,设定操作包括点选、框选或悬停于目标短语,当鼠标指针以点选、框选或悬停的方式选中说明书中目标短语的标记名称或附图标记时,在专利附图中,将目标短语对应的附图内容进行区别显示,以区别于专利附图中的其他附图内容,以使阅读者快速准确地查看目标短语对应的附图内容。图2为本发明实施例中待处理专利文件的原始附图,其中,各附图标记的对应的标记名称分别为:1,第一部件;2,第二部件;3,第三部件;4,第四部件;5,第五部件。图3为触发“第一部件1”的设定操作后对应图2的一种示意图,如图3所示,当触发“第一部件1”的设定操作后,附图中“第一部件1”对应的附图内容突出显示(如阴影部分所示),以区别于专利附图中的其他附图内容。

本发明实施例通过建立附图参数与标记名称的对应关系,并提取说明书中“标记名称+附图标记”形式的目标短语,基于附图参数与标记名称的对应关系,建立目标短语与目标短语中的附图标记指示的附图内容之间的映射关系,当触发目标短语的设定操作时,将目标短语对应的附图内容进行区别显示,如此,阅读者能够直观地看到说明书窗口中附图标记及标记名称在附图窗口中对应的附图内容,提升了阅读体验和阅读效率。

可选的,建立附图参数与标记名称的对应关系,包括:

识别附图中的附图标记,生成第一列表,其中,第一列表包括附图标记、附图标记图元和图元位置信息的对应关系;

提取说明书中的附图标记及附图标记对应的标记名称,生成第二列表,其中,第二列表包括附图标记和标记名称的对应关系;

合并第一列表和第二列表,过滤重复的附图标记,生成第三列表。

相应的,图4为本发明实施例提供的另一种专利文件的处理方法,如图4所示,该方法包括:

S111、识别附图中的附图标记,生成第一列表。

其中,第一列表包括附图标记、附图标记图元和图元位置信息的对应关系。

可选的,从专利附图中识别附图标记可以采用神经网络算法,具体的,可以采用卷积神经网络(Convolutional Neural Networks,CNN)、深度残差网络(Deep ResidualLearning,DRN)、视觉几何组(Visual Geometry Group,VGG)、深度学习结构(GoogLeNet)。下面,以CNN为例进行具体说明:

(1)准备训练数据集:使用已核对过附图标记的专利文件,自说明书中提取附图标记,以所提取的附图标记为特征,使用ORB(Oriented FAST and Rotated BRIEF)算法定位专利附图中单独出现的数字、字母、或者两者的结合,完整截取定位到的图元,并建立该图元与附图标记的对应关系,作为训练数据集。

(2)处理训练数据集:使用图像处理软件(OpenCV)对训练数据集进行处理,将图元缩放为统一大小(采用GoogLeNet时也可不必统一尺寸),提取单通道转化为灰度图。

(3)训练测试:使用常用的神经网络开发构架(例如Tensorflow、Caffe、Keras、Python等)构建卷积神经网络进行训练和测试。

(4)将训练好的模型用于附图标记的识别,定位可能为附图标记的图元并识别其内容。

采用光学字符识别(Optical Character Recognition,OCR)来识别专利附图中的附图标记,该方法难以应对图片中的大量干扰字符,仍然需要翻译人员耗费大量精力一一核对,识别准确率不高,对于准确性要求极高的专利翻译来说,辅助性并不强。本发明实施例采用神经网络算法识别附图中的附图标记,提高识别了识别效率和准确率。

S112、提取说明书中的附图标记及附图标记对应的标记名称,生成第二列表。

其中,第二列表包括附图标记和标记名称的对应关系。具体的,优先从附图标记说明部分中提取附图标记及附图标记对应的标记名称,再从说明书提取附图标记及附图标记对应的标记名称。具体的,可以采用正则表达式字符匹配算法、条件随机场算法或实体命名识别算法等提取附图标记及附图标记对应的标记名称。

S113、合并第一列表和第二列表,过滤重复的附图标记,生成第三列表。

在专利文件中,可能会存在说明书中记载了附图标记,而在附图中没有画出的情况,导致在步骤S111中,该类附图标记无法被识别,将第一列表和第二列表进行合并,过滤重复的附图标记,生成第三列表,进而得到附图参数与标记名称的对应关系。

S120、提取说明书中“标记名称+附图标记”形式的目标短语。

S130、基于附图参数与标记名称的对应关系,建立目标短语与目标短语中的附图标记指示的附图内容之间的映射关系。

S140、当触发目标短语的设定操作时,至少将目标短语对应的附图内容进行区别显示。

可选的,识别附图中的附图标记,包括:

确定附图中附图标记的位置,截取包含附图标记的附图标记图元,对附图标记图元进行识别。具体的,如前文所述,采用神经网络算法,将训练好的模型用于附图标记的识别,定位可能为附图标记的图元,截取包含附图标记的附图标记图元,对附图标记图元进行识别。

可选的,在生成第一列表之后,还包括:

对从附图中识别出的附图标记进行核对。

在对附图标记的识别时,可能会存在识别错误的情况,例如,附图中存在但被错误地识别成另一个标记的一类附图标记,或附图中没有但被错误地识别到的一类附图标记。核对方式可采用列表形式对附图标记图元和识别的附图标记进行核对;也可以直接在附图上进行核对,例如对附图标记图元的截取边界加深显示,并根据附图标记图元的位置信息,在附图标记图元附近以不遮挡附图标记图元的方式设置包含识别内容的文本框,可选的,该文本框能够直接进行编辑改写。该文本框可进一步包括选单,其中包括若干选项,可将该图元的识别结果定义为“正确”、“识别有误”、“非标记”等。

若识别出的附图标记与对应附图标记图元表示的附图标记不一致,则更新第一列表中的附图标记。

若识别出的附图标记与对应附图标记图元表示的附图标记不一致,则更新第一列表中的附图标记,例如对识别有误的标记进行修正,对非标记进行删除,并将识别正确的附图标记和附图标记图元,用作神经网络算法用的训练数据。

可选的,在生成第一列表之后,还包括:

对附图中的附图标记进行漏检。

具体的,检漏是对附图中除已被读取的附图标记图元以外的其他部分再次检漏,当发现有没有被识别到的标记时,可采用人工选择的方式,截取完整包括漏检附图标记的图元,人工输入或机器识别其附图标记并提取该图元的位置信息,该附图标记有误时,可将该附图标记加以编辑改写。其中检漏时,可针对附图中除已被读取的图元以外的其他部分突出显示,或者将已被读取的图元减弱显示,以加强发现漏检标记的可能性。同样地,也可将漏检图元和附图标记用作神经网络算法的用训练数据。

将漏检到的附图参数添加到第一列表中。

更新第一列表,将漏检的附图标记、附图标记图元及该图元的位置信息添加到第一列表中。

可选的,专利文件处理方法还包括:

基于第三列表,若在一附图参数与标记名称的对应关系中存在同一附图标记对应至少两个标记名称,或者缺少标记名称,或者缺少附图标记图元及图元位置信息,则发出提示信息,以便进行核对并对第三列表进行修正。具体的,若同一个附图标记对应多个标记名称,可将该多个标记名称列在同一个附图标记下,也可并列列出,在列表中加以提示,并生成提示信息1,以提示附图标记的标记名称不唯一。若某一附图标记在第三列表中没有对应的标记名称,在列表中加以提示,并生成提示信息2,以提示在附图中有记载,但在说明书中没有记载的附图标记。若某一附图标记和对应的标记名称缺少对应的附图标记图元及图元位置信息,在列表中加以提示,并生成提示信息3,以提示在说明书中有记载,但在附图中没有标出的附图标记。

可选的,基于附图参数与标记名称的对应关系,建立目标短语与目标短语中的附图标记指示的附图内容之间的映射关系,包括:

基于附图参数与标记名称的对应关系,确定目标短语对应的图元位置信息。

附图参数包括附图标记、附图标记在对应附图中的附图标记图元和附图标记图元在对应附图中的图元位置信息。由附图参数与标记名称的对应关系,可以查到目标短语中附图标记的对应的图元位置信息。

基于目标短语对应的图元位置信息,确定对应指示标线指示端的位置信息,其中,指示端用于指向附图中对应的附图内容。

专利附图中,附图标记通常通过指示标线指示对应的附图内容,指示标线的一端指向附图标记,另一端(即指示端)指向该附图标记对应的附图内容。基于目标短语中附图标记对应的图元位置信息,确定对应指示标线,进而确定指示标线的指示端的位置信息。具体的,指示标线的位置是以常见的折线、弯曲线等标线为特征,以与目标短语对应的附图标记图元为中心,使用ORB算法进行定位,定位到指示标线的指向附图内容的指示端的位置。

基于指示端的位置信息确定目标短语对应的附图内容。

以该指示端位置为参考点,当该指示端指向被封闭线段包围的白等背景像素时,该封闭线段及其包围的白等背景部分即为目标短语对应的附图内容。或者,当该指示端指向的是封闭线段时,该封闭线段及其包围的部分即为目标短语对应的附图内容。

可选的,专利文件处理方法还包括:

在附图标记图元附近的空白处显示对应的标记名称。具体的,基于附图参数与标记名称的对应关系,在专利附图中,附图标记图元附近的空白处显示对应的标记名称。

可选的,在附图标记图元附近的空白处显示对应的标记名称,包括:

在附图标记图元附近的空白区域生成标记名称显示框;

在标记名称显示框内显示对应的标记名称。

可选的,至少将目标短语对应的附图内容进行区别显示,包括:

将目标短语对应的附图标记图元、标记名称显示框、指示标线和附图内容,以边缘加亮、整体高亮、闪烁和填充颜中的至少一种方式进行显示。图5为触发“第一部件1”的设定操作后对应图2的另一种示意图,如图5所示,当触发“第一部件1”的设定操作后,附图中“第一部件1”对应的附图标记图元、标记名称显示框、指示标线和附图内容突出显示,并隐藏其他附图标记和指示标线,避免附图中附图标记和指示标线过多时,阅读者难以分辨所需的附图标记和附图内容的问题。

可选的,专利文件处理方法还包括:

将专利文件的文字部分在文本窗口进行显示,并将专利文件的附图部分在附图窗口进行显示。

可选的,文本窗口包括用于显示专利文件原文的原文窗口和用于显示专利文件译文的译文窗口。在专利翻译作业界面中设置原文窗口、译文窗口和附图窗口,在原文窗口中显示原文,译文窗口中显示翻译人员正在翻译的中间处理文字,图片窗口中显示专利附图。

本发明实施例还提供了一种专利文件的处理装置,图6为本发明实施例提供的一种专利文件的处理装置,如图6所示,该装置包括:

第一关系建立单元100,用于建立附图参数与标记名称的对应关系,其中,附图参数包括附图标记、附图标记在对应附图中的附图标记图元和附图标记图元在对应附图中的图元位置信息。

目标短语提取单元200,用于提取说明书中“标记名称+附图标记”形式的目标短语。

第二关系建立单元300,用于基于第一关系建立单元100建立的附图参数与标记名称的对应关系,建立目标短语与目标短语中的附图标记指示的附图内容之间的映射关系。

显示单元400,用于当触发目标短语的设定操作时,至少将目标短语对应的附图内容进行区别显示。其中,设定操作包括点选、框选或悬停于目标短语,当鼠标指针以点选、框选或悬停的方式选中说明书中目标短语、标记名称或附图标记时,在专利附图中,将目标短语对应的附图内容进行区别显示,以区别于专利附图中的其他附图内容。

本发明实施例通过第一关系建立单元建立附图参数与标记名称的对应关系,目标短语提取单元提取说明书中“标记名称+附图标记”形式的目标短语,第二关系建立单元基于附图参数与标记名称的对应关系,建立目标短语与目标短语中的附图标记指示的附图内容之间的映射关系,当触发目标短语的设定操作时,显示单元将目标短语对应的附图内容进行区别显示,如此,阅读者能够直观地看到说明书窗口中附图标记及标记名称在附图窗口中对应的附图内容,提升了阅读体验和阅读效率。

可选的,图7为本发明实施例中第一关系建立单元的结构示意图,如图7所示,第一关系建立单元100包括附图标记识别模块110、第一列表生成模块120、提取模块130、第二列表生成模块140、列表合并模块150。

其中,附图标记识别模块110用于识别附图中的附图标记,第一列表生成模块120基于附图标记识别模块110获取的数据生成第一列表,第一列表包括附图标记、附图标记图元和图元位置信息的对应关系。提取模块130用于提取说明书中的附图标记及附图标记对应的标记名称,第二列表生成模块140根据提取模块130获取的数据生成第二列表,第二列表包括附图标记和标记名称的对应关系。列表合并模块150用于合并第一列表和第二列表,过滤重复的附图标记,并生成第三列表。

具体的,附图标记识别模块110确定附图中附图标记的位置,截取包含附图标记的附图标记图元,对附图标记图元进行识别。

可选的,第一关系建立单元100还包括核对模块160和第一列表更新模块170。核对模块160用于在生成第一列表之后,对从附图中识别出的附图标记进行核对。第一列表更新模块170用于在核对模块160发现识别出的附图标记与对应附图标记图元表示的附图标记不一致时,更新第一列表中的附图标记。

在对附图标记的识别时,可能会存在识别错误的情况,例如,附图中存在但被错误地识别成另一个标记的一类附图标记,或附图中没有但被错误地识别到的一类附图标记。核对方式可采用列表形式对附图标记图元和识别的附图标记进行核对;也可以直接在附图上进行核对,例如对附图标记图元的截取边界加深显示,并根据附图标记图元的位置信息,在附图标记图元附近以不遮挡附图标记图元的方式设置包含识别内容的文本框,可选的,该文本框能够直接进行编辑改写。该文本框可进一步包括选单,其中包括若干选项,可将该图元的识别结果定义为“正确”、“识别有误”、“非标记”等。若核对模块160发现识别出的附图标记与对应附图标记图元表示的附图标记不一致,则第一列表更新模块170更新第一列表中的附图标记,例如对识别有误的标记进行修正,对非标记进行删除,并将识别正确的附图标记和附图标记图元,用作神经网络算法用的训练数据。

可选的,第一关系建立单元100还包括漏检模块180,用于对附图中的附图标记进行漏检。检漏是对附图中除已被读取的附图标记图元以外的其他部分再次检漏,当发现有没有被识别到的标记时,可采用人工选择的方式,截取完整包括漏检附图标记的图元,人工输入或机器识别其附图标记并提取该图元的位置信息,该附图标记有误时,可将该附图标记加以编辑改写。其中检漏时,可针对附图中除已被读取的图元以外的其他部分突出显示,或者将已被读取的图元减弱显示,以加强发现漏检标记的可能性。同样地,也可将漏检图元和附图标记用作神经网络算法的用训练数据。第一列表更新模块170将漏检的附图标记、附图标记图元及该图元的位置信息添加到第一列表中。

可选的,本发明实施例提供的专利文件处理装置还包括提示单元500,用于基于列表合并单元150生成的第三列表,若发现在一附图参数与标记名称的对应关系中存在同一附图标记对应至少两个标记名称,或者缺少标记名称,或者缺少附图标记图元及图元位置信息,则发出提示信息,以便进行核对并对第三列表进行修正。

可选的,图8为本发明实施例中第二关系建立单元的结构示意图,如图8所示,第二关系建立单元300包括图元位置信息确定模块310、指示端位置信息确定模块320和附图内容确定模块330。其中,图元位置信息确定模块310用于基于附图参数与标记名称的对应关系,确定目标短语对应的图元位置信息。指示端位置信息确定模块320用于基于目标短语对应的图元位置信息,确定对应指示标线指示端的位置信息,其中,指示端用于指向附图中对应的附图内容,具体的,指示标线的位置是以常见的折线、弯曲线等标线为特征,以与目标短语对应的附图标记图元为中心,使用ORB算法进行定位,定位到指示标线的指向附图内容的指示端的位置。附图内容确定模块330用于基于指示端的位置信息确定目标短语对应的附图内容,具体的,以该指示端位置为参考点,当该指示端指向被封闭线段包围的白等背景像素时,该封闭线段及其包围的白等背景部分即为目标短语对应的附图内容。或者,当该指示端指向的是封闭线段时,该封闭线段及其包围的部分即为目标短语对应的附图内容。

可选的,显示单元400还用于在附图标记图元附近的空白处显示对应的标记名称。具体的,显示单元400基于附图参数与标记名称的对应关系,在专利附图中,附图标记图元附近的空白处显示对应的标记名称,可选的,显示单元400在附图标记图元附近的空白处显示标记名称显示框,在标记名称显示框内显示对应的标记名称。

可选的,显示单元400用于将目标短语对应的附图标记图元、标记名称显示框、指示标线和附图内容,以边缘加亮、整体高亮、闪烁和填充颜中的至少一种方式进行显示。

可选的,显示单元400还用于将专利文件的文字部分在文本窗口进行显示,并将专利文件的附图部分在附图窗口进行显示。可选的,文本窗口包括用于显示专利文件原文的原文窗口和用于显示专利文件译文的译文窗口。在专利翻译作业界面中设置原文窗口、译文窗口和附图窗口,在原文窗口中显示原文,译文窗口中显示翻译人员正在翻译的中间处理文字,图片窗口中显示专利附图。

本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明上述实施例所述的专利文件的处理方法。

当然,本发明实施例所提供的一种计算机可读存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明上述任意实施例所提供的专利文件的处理方法中的相关操作。

通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是,上述专利文件的处理装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

本文发布于:2024-09-22 07:07:00,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/69482.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议