专利文档检查方法、检查装置以及计算机可读存储介质

著录项
  • CN202110663910.8
  • 20210616
  • CN115481601A
  • 20221216
  • 深圳市唯客创新技术有限公司
  • 谢德意
  • G06F40/126
  • G06F40/126 G06F40/194 G06F16/33 G06Q50/18

  • 广东省深圳市福田区华强北街道上步中路1043号深勘大厦1303
  • 广东(44)
摘要
本申请公开了一种专利文档检查方法、检查装置以及计算机可读存储介质,其中,该专利文档检查方法包括:获取待检查专利文档;确定重复阈值;其中,重复阈值表示连续字符的字符数;根据重复阈值,将待检查专利文档与数据库中的现有文档进行对比,以确定待检查专利文档与每一现有文档的重复率。通过上述方式,能够对专利撰写提供帮助参考,提高专利撰写的质量。
权利要求

1.一种专利文档检查方法,其特征在于,所述方法包括:

获取待检查专利文档;

确定重复阈值;其中,所述重复阈值表示连续字符的字符数;

根据所述重复阈值,将所述待检查专利文档与数据库中的现有文档进行对比,以确定所述待检查专利文档与所述现有文档的重复率。

2.根据权利要求1所述的方法,其特征在于,

所述根据所述重复阈值,将所述待检查专利文档与数据库中的现有文档进行对比,以确定所述待检查专利文档与所述现有文档的重复率,包括:

将所述待检查专利文档与数据库中的目标现有文档进行对比,以确定至少一组相同的连续字符;

在所述连续字符的字符数大于所述重复阈值时,确定所述连续字符为重复字符;

根据所述重复字符的字符数与所述待检查专利文档的总字符数,确定所述待检查专利文档的重复率。

3.根据权利要求2所述的方法,其特征在于,

所述将所述待检查专利文档与数据库中的目标现有文档进行对比,以确定至少一组相同的连续字符,包括:

确定所述待检查专利文档中的第一字符,与所述目标现有文档中的第二字符;其中,所述第一字符与所述第二字符相同;

将所述第一字符之后的字符依次与所述第二字符之后的字符一一对比,以确定一组相同的连续字符。

4.根据权利要求3所述的方法,其特征在于,

所述将所述第一字符之后的字符依次与所述第二字符之后的字符一一对比,以确定一组相同的连续字符,包括:

当所述第一字符之后的第一目标字符,与所述第二字符之后对应的第二目标字符为标号时,跳过所述第一目标字符和所述第二目标字符;其中,所述标号由数字或字母中的至少一者组合形成。

5.根据权利要求1所述的方法,其特征在于,

所述方法还包括:

根据所述重复率,对所述数据库中的现有文档进行排序,形成排序队列;

显示所述排序队列前端的预设数量个现有文档的标识信息;其中,所述标识信息用于响应于选择指令,以显示对应现有文档的文档内容信息。

6.根据权利要求5所述的方法,其特征在于,

所述方法还包括:

在获取到对于目标标识信息的选择指令时,显示所述待检查专利文档相对于与所述目标标识信息对应的现有文档的重复进度条;

其中,所述重复进度条的长度对应所述待检查专利文档的文档内容,所述重复进度条上采用填充区域表示所述文档内容的重复部分,所述填充区域用于响应于点击指令,以使所述待检查专利文档显示所述填充区域对应的文档内容。

7.根据权利要求5所述的方法,其特征在于,

所述方法还包括:

在获取到对于目标标识信息的查看报告指令时,显示所述待检查专利文档相对于所述目标标识信息对应的现有文档的检查报告;

其中,所述检查报告包括信息栏、待检查专利文档栏和现有文档栏,所述信息栏用于显示所述待检查专利文档和所述现有文档的基础信息、以及所述待检查专利文档和所述现有文档的重复率,所述待检查专利文档栏用于显示所述待检查专利文档的文档内容,所述现有文档栏用于显示所述现有文档的文档内容。

8.根据权利要求7所述的方法,其特征在于,

所述方法还包括:

对所述待检查专利文档中的重复部分进行标注,以及采用相同的标注对所述现有文档中对应的重复部分进行标注;其中,同一文档中相邻两处重复部分的标注不同;

在获取到对于所述待检查专利文档中第一重复部分的点击指令时,在所述现有文档栏显示与所述第一重复部分对应的第二重复部分;其中,所述第一重复部分的首行字符与所述第二重复部分的首行字符对齐。

9.一种专利文档检查装置,其特征在于,所述专利文档检查装置包括:

存储器,用于存储程序数据;

处理器,连接所述存储器,用于执行所述程序数据以实现如权利要求1-8任一项所述的方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序数据,所述存储数据在被处理器执行时,用以实现如权利要求1-8任一项所述的方法。

说明书
技术领域

本申请涉及文档检查技术领域,特别是一种专利文档检查方法、检查装置以及计算机可读存储介质。

专利一般是由政府机关或者代表若干国家的区域性组织根据申请而颁发的一种文件,这种文件记载了发明创造的内容,并且在一定时期内产生这样一种法律状态,即获得专利的发明创造在一般情况下他人只有经专利权人许可才能予以实施。专利一般分为发明、实用新型和外观设计三种类型。

专利对新创性有所要求,在撰写专利文件之前一般会根据交底书的技术方案进行检索,检索一般是人工进行,并根据检索结果结合交底书的技术方案来进行专利文件的撰写。但是在撰写完成之后,一般不会对专利文件再次进行新创性的检查。

为解决上述问题,本申请提供了一种专利文档检查方法、检查装置以及计算机可读存储介质,能够对专利撰写提供帮助参考,提高专利撰写的质量。

本申请采用的一个技术方案是:提供一种专利文档检查方法,该方法包括:获取待检查专利文档;确定重复阈值;其中,重复阈值表示连续字符的字符数;根据重复阈值,将待检查专利文档与数据库中的现有文档进行对比,以确定待检查专利文档与每一现有文档的重复率。

其中,根据重复阈值,将待检查专利文档与数据库中的现有文档进行对比,以确定待检查专利文档与每一现有文档的重复率,包括:将待检查专利文档与数据库中的目标现有文档进行对比,以确定至少一组相同的连续字符;在连续字符的字符数大于重复阈值时,确定连续字符为重复字符;根据重复字符的字符数与待检查专利文档的总字符数,确定待检查专利文档的重复率。

其中,将待检查专利文档与数据库中的目标现有文档进行对比,以确定至少一组相同的连续字符,包括:确定待检查专利文档中的第一字符,与目标现有文档中的第二字符;其中,第一字符与第二字符相同;将第一字符之后的字符依次与第二字符之后的字符一一对比,以确定一组相同的连续字符。

其中,将第一字符之后的字符依次与第二字符之后的字符一一对比,以确定一组相同的连续字符,包括:当第一字符之后的第一目标字符,与第二字符之后对应的第二目标字符为标号时,跳过第一目标字符和第二目标字符;其中,标号由数字或字母中的至少一者组合形成。

其中,方法还包括:根据重复率,对数据库中的现有文档进行排序,形成排序队列;显示排序队列前端的预设数量个现有文档的标识信息;其中,标识信息用于响应于选择指令,以显示对应现有文档的文档内容信息。

其中,方法还包括:在获取到对于目标标识信息的选择指令时,显示待检查专利文档相对于与目标标识信息对应的现有文档的重复进度条;其中,重复进度条的长度对应待检查专利文档的文档内容,重复进度条上采用填充区域表示文档内容的重复部分,填充区域用于响应于点击指令,以使待检查专利文档显示填充区域对应的文档内容。

其中,方法还包括:在获取到对于目标标识信息的查看报告指令时,显示待检查专利文档相对于目标标识信息对应的现有文档的检查报告;其中,检查报告包括信息栏、待检查专利文档栏和现有文档栏,信息栏用于显示待检查专利文档和现有文档的基础信息、以及待检查专利文档和现有文档的重复率,待检查专利文档栏用于显示待检查专利文档的文档内容,现有文档栏用于显示现有文档的文档内容。

其中,方法还包括:对待检查专利文档中的重复部分进行标注,以及采用相同的标注对现有文档中对应的重复部分进行标注;其中,同一文档中相邻两处重复部分的标注不同;在获取到对于待检查专利文档中第一重复部分的点击指令时,在现有文档栏显示与第一重复部分对应的第二重复部分;其中,第一重复部分的首行字符与第二重复部分的首行字符对齐。

本申请采用的另一个技术方案是:提供一种专利文档检查装置,该专利文档检查装置包括:存储器,用于存储程序数据;处理器,连接存储器,用于执行程序数据以实现如上述的方法。

本申请采用的另一个技术方案是:提供一种计算机可读存储介质,该计算机可读存储介质中存储有程序数据,该存储数据在被处理器执行时,用以实现如上的方法。

本申请提供的专利文档检查方法包括:获取待检查专利文档;确定重复阈值;其中,重复阈值表示连续字符的字符数;根据重复阈值,将待检查专利文档与数据库中的现有文档进行对比,以确定待检查专利文档与每一现有文档的重复率。通过上述方法,将专利申请文档与现有技术进行重复查询,跟现有技术中的新创性检索不同的是,本实施例通过自动与现有文档的重复查询,能够快速的给出一个重复查询结果,一方面可以给新创性评估提供一个参考,另一方面为专利撰写提供现有文档的参考,有利于提高专利文档的撰写质量。

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:

图1是本申请提供的专利文档检查方法一实施例的流程示意图;

图2是图1中步骤13的流程示意图;

图3是本申请提供的专利文档检查方法另一实施例的流程示意图;

图4是本申请一实施例中检查界面的示意图;

图5是本申请一实施例中检查报告的示意图;

图6是本申请提供的专利文档检查装置一实施例的结构示意图;

图7是本申请提供的计算机可读存储介质一实施例的结构示意图。

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是,此处所描述的具体实施例仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请中的术语″第一″、″第二″等是用于区别不同对象,而不是用于描述特定顺序。此外,术语″包括″和″具有″以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及″实施例″意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

参阅图1,图1是本申请提供的专利文档检查方法一实施例的流程示意图,该方法包括:

步骤11:获取待检查专利文档。

专利一般是由政府机关或者代表若干国家的区域性组织根据申请而颁发的一种文件,这种文件记载了发明创造的内容,并且在一定时期内产生这样一种法律状态,即获得专利的发明创造在一般情况下他人只有经专利权人许可才能予以实施。专利一般分为发明、实用新型和外观设计三种类型。

专利文档一般是采用文档编辑软件进行编辑形成的文档,例如Offfice word、WPSword等,也可以是其他的文档编辑软件。专利文档一般包括说明书摘要、摘要附图、权利要求书、说明书、说明书附图五个部分,其中摘要附图和说明书附图均为图片,所以,本申请实施例中主要是对说明书摘要、权利要求书和说明书进行检查,或者,在其他实施例中,也可以不对说明书摘要进行检查,仅仅对权利要求书和说明书进行检查。

可选地,在一实施例中,本实施例中的方案采用一应用程序(APP)实现该APP包括一登录界面,通过输入账号、密码实现客户端的登录。在登录后,显示一主界面,主界面上至少包括一导入按钮,用于导入待检查专利文档。具体地,在点击导入按钮后,弹出一路径选择框,用户可根据路径选择相应的专利文档,在其他实施方式中,也可以将一个专利文档直接拖动至选择框中。

可选地,APP的主界面上包括一待检查专利文档栏,用于显示待检查专利文档。其中,待检查专利文档栏中的待检查专利文档处于可编辑状态,可以通过添加、删除、替换等方式对待检查专利文档中的字符进行再次编辑,以对待检查专利文档进行修改。另外,除了文字的修改,还可以对格式进行修改,例如批注、加粗、下划线、斜体、加底等方式。

步骤12:确定重复阈值;其中,重复阈值表示连续字符的字符数。

其中,字符根据专利文档所采用的语言种类有所区别,以中国专利为例,一个字符一般就是一个汉字,也可以进一步包括其中的数字、字母、数学符号或其他特殊符号等。重复阈值一般具有一默认数值,另外,用户可以根据实际需要对重复阈值进行修改。

其中,重复阈值用于判断待检查专利文档和现有文档中的某一段字符是否属于重复字符,例如,待检查专利文档中的一串连续字符与现有文档中的一串连续字符相同,就通过该重复阈值判断该连续字符的字符数是否大于或等于该重复阈值,则确认待检查专利文档中的该一串连续字符为重复字符。

可选地,在一实施例中,重复阈值的默认值可以设置为15。

步骤13:根据重复阈值,将待检查专利文档与数据库中的现有文档进行对比,以确定待检查专利文档与每一现有文档的重复率。

可选地,如图2所示,图2是图1中步骤13的流程示意图,步骤13可以具体包括:

步骤131:将待检查专利文档与数据库中的目标现有文档进行对比,以确定至少一组相同的连续字符。

具体地,确定待检查专利文档中的第一字符,与目标现有文档中的第二字符;其中,第一字符与第二字符相同;将第一字符之后的字符依次与第二字符之后的字符一一对比,以确定一组相同的连续字符。

举例而言,若待检查专利文档中的第一字符″A″与现有文档的第二字符″a″相同,则将″A″之后的字符依次与″a″之后的字符一一对比。具体地,″A″所在的字符串为″ABCD......″,″a″所在的字符串为″abcd......″,进一步判断″B″和″b″是否相同,如果相同,则继续依次判断之后的字符。

步骤132:在连续字符的字符数大于重复阈值时,确定连续字符为重复字符。

可选地,在一实施例中,当″A″所在的字符串为″ABCD......XYZ″中″A-X″与″a″所在的字符串″a-x″均相同,且″Y″与″x″之后的″y″不同,则确定″A-X″或″a-x″的字符数是否大于或等于重复阈值,若大于,则确定″A-X″为重复字符,若不大于,则舍弃″A-X″,从″X″之后查下一个与现有文档相同的字符。

可选地,在另一实施例中,在第一字符和第二字符后,每确定一个相同的字符,都对该连续字符串的字符数进行统计,当达到重复阈值后,则不再进行统计,但是需要继续判断之后的字符是否相同,无论之后相同的字符数量是多少,都被认为是该重复字符串当中的字符。

步骤133:根据重复字符的字符数与待检查专利文档的总字符数,确定待检查专利文档的重复率。

可以理解地,每一组重复字符具有一字符数,将每一组重复字符的字符数求和得到所有重复字符的字符数,然后根据求和得到的字符数与待检查专利文档的总字符数的比值,确定该待检查专利文档的重复率。

区别于现有技术,本实施例提供的专利文档检查方法包括:获取待检查专利文档;确定重复阈值;其中,重复阈值表示连续字符的字符数;根据重复阈值,将待检查专利文档与数据库中的现有文档进行对比,以确定待检查专利文档与每一现有文档的重复率。通过上述方法,将专利申请文档与现有技术进行重复查询,跟现有技术中的新创性检索不同的是,本实施例通过自动与现有文档的重复查询,能够快速的给出一个重复查询结果,一方面可以给新创性评估提供一个参考,另一方面为专利撰写提供现有文档的参考,有利于提高专利文档的撰写质量。

参阅图3,图3是本申请提供的专利文档检查方法另一实施例的流程示意图,该方法包括:

步骤31:获取待检查专利文档。

步骤32:确定重复阈值;其中,重复阈值表示连续字符的字符数。

步骤33:根据重复阈值,将待检查专利文档与数据库中的现有文档进行对比,以确定待检查专利文档与每一现有文档的重复率。

其中,步骤31-步骤33与上述实施例中的步骤11-步骤13类似,这里不再赘述。

步骤34:根据重复率,对数据库中的现有文档进行排序,形成排序队列。

其中,该数据库可以是本地数据库。例如,专利代理机构或企业拥有一数据库,该数据库中存储有该专利代理机构或企业所拥有的现有专利文档。

以专利代理机构为例,专利代理机构的数据库中存储有服务的多个申请人的现有文档;在检查时,可以与数据库中所有的现有文档进行比对,也可以与待检查专利文档的申请人相同的所有的现有文档进行比对。以企业为例,企业的数据库中存储有自己作为申请人的现有文档;在检查时,可以与数据库中所有的现有文档进行比对。

在一实施例中,数据库可以连接互联网,导入已公开的其他现有文档。例如,可以连接到一些用于专利查询的服务器、论文期刊查询的服务器,自动进行现有文档的导入和更新。在另一实施例中,文档的导入可以采用手动的方式,在一应用场景中,用户若觉得某一个现有文档有所帮助,可以采用手动的方式导入到数据库中。

其中,数据库中的文档可以根据公开时间、技术领域、申请人等不同的分类规则进行分类,在进行待检查专利文档的查询时,可以确定某一个分类,只与数据库中该分类下的现有文档进行对比。

步骤35:显示排序队列前端的预设数量个现有文档的标识信息;其中,标识信息用于响应于选择指令,以显示对应现有文档的文档内容信息。

参阅图4,图4是本申请一实施例中检查界面的示意图。

其中,检查界面可以包括重复阈值区域、导入区域、重复率区域、进度条区域、现有文档按照相似度或重复率的排序队列区域。具体地,重复阈值区域可以用于输入自定义的重复阈值;导入区域可以用于导入待检查专利文档,具体可以包括导入按钮和文档目录地址显示栏;重复率区域主要用于显示在排序队列中选中的现有文档对应的重复率和重复进度条;排序队列区域用于显示排序队列前端的预设数量个现有文档的标识信息。

进一步,在获取到对于目标标识信息的选择指令时,显示待检查专利文档相对于与目标标识信息对应的现有文档的重复进度条;其中,重复进度条的长度对应待检查专利文档的文档内容,重复进度条上采用填充区域表示文档内容的重复部分,填充区域用于响应于点击指令,以使待检查专利文档显示填充区域对应的文档内容。

可以理解地,重复进度条的左侧对应文档的头部,重复进度条的右侧对应文档的尾部,重复进度条上的填充区域表示重复的位置以及重复内容的多少,填充区域的宽度越大,表示该位置重复的内容越多。

进一步,现有文档的标识信息可以包括序号、查看按钮、下载按钮、文件名和相似度。其中,相似度可以替换为重复率,相似度和重复率可以是采用两种不同的统计方式对待检查专利文档与现有文件之间进行对比产生的,例如,相似度可以是某两段文字中的重复率达到一定的阈值时,确定两个段落是相似的。

可选地,在获取到对于目标标识信息的查看报告指令时,显示待检查专利文档相对于目标标识信息对应的现有文档的检查报告。

如图5所示,图5是本申请一实施例中检查报告的示意图。其中,检查报告包括信息栏、待检查专利文档栏和现有文档栏,信息栏用于显示待检查专利文档和现有文档的基础信息、以及待检查专利文档和现有文档的重复率,待检查专利文档栏用于显示待检查专利文档的文档内容,现有文档栏用于显示现有文档的文档内容。

可选地,对待检查专利文档中的重复部分进行标注,以及采用相同的标注对现有文档中对应的重复部分进行标注;其中,同一文档中相邻两处重复部分的标注不同;在获取到对于待检查专利文档中第一重复部分的点击指令时,在现有文档栏显示与第一重复部分对应的第二重复部分;其中,第一重复部分的首行字符与第二重复部分的首行字符对齐。

其中,标注的方式可以是批注、增加底、改变字体颜等方式,例如待检查专利文档的一处字符与现有文档中的一处字符相同,可以将该两处字符标记为第一种颜,待检查专利文档的另一处字符与现有文档中的另一处字符相同,可以将该两处字符标记为第二种颜,第一种颜和第二种颜不同。

进一步,在检查报告中,由于有左右文档的对比,其中左边的待检查专利文档是可编辑的,用户可以通过输入、删除、替换等方式对其中的文字进行修改。在修改后,依然可以重新进行检查,检查的过程如上面的实施例,这里不再赘述。

另外,还可以点击″下载报告″按钮,选择对应的目录后,将检查报告下载至对应的区域。

区别于现有技术,本实施例提供的专利文档检查方法包括:获取待检查专利文档;确定重复阈值;其中,重复阈值表示连续字符的字符数;根据重复阈值,将待检查专利文档与数据库中的现有文档进行对比,以确定待检查专利文档与每一现有文档的重复率。通过上述方法,将专利申请文档与现有技术进行重复查询,跟现有技术中的新创性检索不同的是,本实施例通过自动与现有文档的重复查询,能够快速的给出一个重复查询结果,一方面可以给新创性评估提供一个参考,另一方面为专利撰写提供现有文档的参考,有利于提高专利文档的撰写质量。

在一实施例中,在进行重复率检查的同时,还可以根据对应的专利要求撰写规范,对其中的撰写问题进行检查。具体如下:

一、专利撰写规范审核

专利撰写规范审核主要是根据专利撰写规范对专利文档进行审核,其中的专利撰写规范可以包括《专利法》《专利法实施细则》《专利审查指南》以及其他的自定义规范。下面通过几种例子来进行说明:

1、权利要求中的形式问题

例如:″多项引多项″问题,要求一个多项引用的权利要求所引用的多个权利要求中,没有多项引用的权利要求。具体可以通过获取权利要求中的阿拉伯数字信息,抓取其中的″A-B″″A至B″(A、B表示权利要求编号)等信息。具体举例,若权利要求5引用了权利要求1-4任一项,权利要求6引用了权利要求1-5任一项,即权利要求6引用的权利要求5也属于多项引用,因此,不符合专利撰写规范。

例如,″缺乏引用基础″问题,要求权利要求中通过″所述″引用的词句,需要在前述内容或引用的权利要求中出现过。具体可以通过获取权利要求中的″所述″,抓取″所述″之后的词句,在从前述内容和引用的权利要求中查是否已出现过。具体举例,若权利要求5中出现了″所述C″,则从权利要求5中″所述C″之前的内容中查是否有出现″C″,以及从权利要求5所引用的权利要求中查是否有出现″C″,若均未出现,则确定″所述C″缺乏引用基础。

例如,标点符号问题,按照规范每一个权利要求以″。″(句号)结尾,且每一个权利要求只能包含一个″。″。具体举例,可以查每一个权利要求中的″。″的数量,并确定权利要求结尾处是否以″。″结尾。

2、说明书中的形式问题

例如,说明书中的专利名称一般要求不超过25个字,具体可以检测说明书中的专利名称的字数来进行审核。

例如,附图说明和附图不一致的问题,附图说明一般对附图中的每一个图进行说明,附图中一般会以″图一″″图二″......的形式展示每一个附图,附图说明中需要对每一个附图进行说明,因此,可以检测附图说明中与附图是否对应。

例如,排版问题,对字体、行间距、段间距等进行检测,判断满足预设的要求。

例如,词句重复问题,一般连续出现两个相同的词句,则确定为重复问题,例如″所述所述″。

3、自定义规范

自定义规范可以根据日常的审核习惯或者用户自定义来设置。例如有的用户不喜欢在专利文档中出现一些太过于限制专利保护范围的用词,如″仅仅″″唯一″等,则可以将这次用词加入黑名单,在审核时,若文档中出现黑名单中的用词,则可以进行批注提醒。

二、元件信息一致性审核

元件信息一致性审核主要是对专利文档的文字部分进行审核,主要包括两个方面:同一元件名称对应的元件标号不同,以及同一元件标号对应的元件名称不同。

1、提取专利文档中的元件标号:

可以理解地,提取专利文档中的元件标号,主要是提取专利文档中说明书部分的元件标号。

可选地,在一种情况下,元件标号为阿拉伯数字。因此,可以提取专利文档中的阿拉伯数字;判断阿拉伯数字是否满足第一预设要求;若是,则确定阿拉伯数字为元件标号。

具体地,可以判断阿拉伯数字的位数是否小于预设位数阈值;若是,则确定阿拉伯数字满足第一预设要求。由于一般的标号都是两位数、三位数、四位数或五位数,一般不会有更多,可以根据实际情况在确定该预设位置阈值。如一连串的阿拉伯数字可能表示数据,例如″10111000″可能表示一个二进制数,例如″CNXXXXXXXX″(X表示任意阿拉伯数字)可能表示一个专利的申请号等。

可选地,在另一实施例中,元件标号为阿拉伯数字和英文字母的组合。因此,可以进一步提取阿拉伯数字之后的英文字母;判断英文字母是否满足第二预设要求;在阿拉伯数字满足第一预设要求,且英文字母满足第二预设要求时,将阿拉伯数字和英文字母组合作为元件标号。

具体地,一般以″阿拉伯数字+英文字母″组合形成元件标号时,英文字母的个数都是1个,因此,该第二预设要求可以判断英文字母的个数是否为1个。例如″101a″是一个满足要求的元件标号,而″101apple″则是一个不满足要求的元件标号。

2、对元件标号之前的文字进行切词处理,得到元件名称:

可选地,可以采用语义识别技术获取元件标号之前的词语作为元件名称,也可以通过大数据获取词库,将元件标号之前的语句与词库进行对比,以获取元件名称,通常元件名称的字数比较短,因此,也可以加入字数的要求。例如,获取元件标号至元件标号之前的第一个标点符号之间的目标文字;将目标文字与预设名称库中的元件名称进行匹配,以得到元件名称。

具体地,在一具体的实施例中,可以判断元件标号之前的设定数量个文字中是否有预设字/词;若有,则将最后的预设字/词和元件标号之间的文字作为元件名称。具体地,通过预先设置的″切词库″来进行切词处理,″切词库″中词一般是表示方位、关系、动作的连接词,例如″和″″或″″在″″至″″连接″″对子″″关于″″根据″″通过″″除了″″由于″″的″″包括″″包含″″设置于″″位于″等,在进行切词时,从元件标号开始往前查是否有″切词库″中的词,若有,则确定元件标号和″切词库″之间的词为元件名称。

举例说明:专利文档中的一个句子如下:″将显示信号输入至显示屏100″。首先提取其中的阿拉伯数字″100″,然后从″100″之前查是否有切词库中的词,查到″至″,则将″至″和″100″之间的词″显示屏″作为元件名称。

另外,也可以根据一些特殊的元件信息设置不同的规则。例如包含英文字母的元件信息″LED显示屏100″,切词处理可以将″LED显示屏100″和″显示屏100″均作为切词结果,以便用户可以进行修改。例如标号中包含字母的元件信息″显示屏100a″,切词处理可以将″显示屏100″和″显示屏100a″均作为切词结果,以便用户可以进行修改。另外,除上述的″文字+数字″″字母+文字+数字″组合之外,还可以包括″字母+数字″(如LED 200)″文字+字母+数字″(如红光LED 300)″字母+汉字+数字″(如MOS管400)″数字+汉字+数字″(如4选1选择器500)。

在其他实施例中,也可以判断元件标号至元件标号之前的第一个标点符号之间的文字中是否有预设字/词。这里不再一一举例。

3、将元件名称和元件标号组合形成元件信息:

在完成上述的切词处理后,可以得到文字部分的多个元件信息,则可以进行一致性审核,元件信息一致性审核主要包括两种:

同一元件名称对应的元件标号不同,例如″显示屏100″和″显示屏200″。具体可以将提取的元件信息进行一一对比,具体地,将所有元件名称相同的元件信息进行比对,判断其元件标号是否一致。可以理解地,若元件名称后面没有元件标号,也可以认定为不一致。

同一元件标号对应的元件名称不同,例如″显示屏100″和″摄像头100″。具体可以将提取的元件信息进行一一对比,具体地,将所有元件标号相同的元件信息进行比对,判断其元件名称是否一致。

三、图文一致性审核

1、提取专利文档中文字部分的元件信息,以及提取所述专利文档中附图部分的元件标号;其中,所述元件信息包括元件名称和元件标号。

其中,可以采用切词法提取专利文档中文字部分的元件信息,上述实施例中已作介绍,这里不再赘述。

其中,可以对附图部分进行图像识别处理,得到多个元件标号。

元件标号一般是阿拉伯数字、英文字母、或阿拉伯数字和英文字母的组合,本实施例通过对附图进行图像识别处理,提取附图中的阿拉伯数字和英文字母,以得到每一附图中的元件标号。

具体地,对几种标号进行举例说明,阿拉伯数字一般可以是例如″100″″101″之类的标号,英文字母一般可以是例如″A″″b″之类的标号,阿拉伯数字和英文字母的组合一般可以是例如″200a″″101b″之类的标号。

可选地,上述的识别可以通过深度学习的方式来进行识别,具体可以通过有监督的深度神经网络来进行识别。例如,采用大量的附图作为训练数据,预先获取附图中的标号对每一附图进行标记,然后输入至神经网络中进行学习,通过计算输出值和真实值之间的损失值,对神经网络中的参数不断进行修正,以得到满足要求的神经网络,以便对附图中的标号进行识别。

可以理解地,专利文档中的附图在尺寸过大时,为了清晰的展示附图,一般会将附图的方向进行调整,在一实施例中,按照附图部分的当前排版格式,对附图部分进行第一次图像识别处理,得到第一类元件标号;将附图部分顺时针旋转90度,对附图部分进行第二次图像识别处理,得到第二类元件标号;将第一类元件标号和第二类元件标号组合得到多个元件标号。通过这样的方式,从两个方向分别通过图像识别获取元件标号,可以对进行旋转后的附图进行识别。

2、基于所述元件信息,在所述附图部分的元件标号中进行查,以进行第一次图文一致性审核。

上述步骤中得到附图中的标号,本步骤中将切词得到的元件信息中的标号与附图中的标号进行一致性审核。具体可以包括以下情况:文字部分中的元件标号,在附图部分查到相同的元件标号,或者文字部分中的元件标号,在附图部分未查到。

3、基于所述元件信息,在所述附图部分的元件标号中进行查,以进行第一次图文一致性审核。

上述步骤中得到附图中的标号,本步骤中针对附图中的每一标号,在文字部分中查是否有相匹配的标号,以进行图文一致性审核。具体可以包括以下情况:附图部分中的元件标号,在文字部分查到相同的元件标号,或者附图部分中的元件标号,在文字部分未查到。

参阅图6,图6是本申请提供的专利文档检查装置一实施例的结构示意图,该专利文档检查装置60包括处理器61和存储器62,其中,存储器62用于存储程序数据,处理器61用于执行该程序数据,以实现如下的方法:

获取待检查专利文档;确定重复阈值;其中,重复阈值表示连续字符的字符数;根据重复阈值,将待检查专利文档与数据库中的多个现有文档进行对比,以确定待检查专利文档与每一现有文档的重复率。

参阅图7,图7是本申请提供的计算机可读存储介质一实施例的结构示意图,该计算机可读存储介质70中存储有程序数据71,该程序数据71在被处理器执行时,用以实现如下的方法:

获取待检查专利文档;确定重复阈值;其中,重复阈值表示连续字符的字符数;根据重复阈值,将待检查专利文档与数据库中的多个现有文档进行对比,以确定待检查专利文档与每一现有文档的重复率。

在本申请所提供的几个实施方式中,应该理解到,所揭露的方法以及设备,可以通过其它的方式实现。例如,以上所描述的设备实施方式仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外,在本申请各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是根据本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

本文发布于:2024-09-24 20:20:52,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/68887.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议