一种涉外专利翻译需求识别方法及系统

著录项
  • CN202010527511.4
  • 20200611
  • CN111680518A
  • 20200918
  • 南通赛优科技服务有限公司
  • 倪海斌;施建建;徐可欣
  • G06F40/49
  • G06F40/49 G06F16/35 G06F40/103 G06F40/232 G06F40/56 G06Q50/18

  • 江苏省南通市崇川区通京大道51号学士府B座10层1008室
  • 江苏(32)
  • 深圳紫晴专利代理事务所(普通合伙)
  • 陈映辉
摘要
本发明提供一种涉外专利翻译需求识别方法及系统,涉及涉外专利翻译技术领域。该涉外专利翻译需求识别方法,包括以下步骤:S1、创建搜索关键词,基于各大网站及语言搜索相关涉外专利,获取涉外专利样本;S2、基于人工智能算法,对涉外专利样本进行迭代训练;S3、判断分析搜索的涉外专利真实性,筛选无关内容、重复内容及覆盖残缺内容。本发明,通过获取涉外专利样本,然后再利用人工智能算法,对涉外专利样本进行迭代训练,使得后期根据关键词获取的涉外专利相关性大大提高,从而能够大大减少后续人工筛选的操作,工作量大大减少,翻译过程比较简单,大大提高了翻译之后的专利文件准确度。
权利要求

1.一种涉外专利翻译需求识别方法,其特征在于:所述方法包括以下步骤:

S1、创建搜索关键词,基于各大网站及语言搜索相关涉外专利,获取涉外专利样本;

S2、基于人工智能算法,对涉外专利样本进行迭代训练;

S3、判断分析搜索的涉外专利真实性,筛选无关内容、重复内容及覆盖残缺内容;

S4、下载涉外专利文档,提取涉外专利文档中文字信息,调整格式以及乱码;

S5、设定分类关键字词,对所有的涉外专利进行分类并保存;

S6、选择语言种类,翻译涉外专利,导出翻译结果。

2.根据权利要求1所述的一种涉外专利翻译需求识别方法,其特征在于:所述步骤1中具体内容如下:

1)根据需要获取的涉外专利信息提取出标题关键词,检查所有关键词是否重复;

2)按照提取的关键词在各大网站上搜索涉外专利,然后根据每一个关键词从搜索的所有涉外专利中获取涉外专利样本,涉外专利样本不得出现重复关键词的涉外专利。

3.根据权利要求1所述的一种涉外专利翻译需求识别方法,其特征在于:所述步骤2中具体内容如下:

1)建立涉外专利训练模型以及数据库系统,将采集的所有涉外专利导入到数据库系统中;

2)建立训练模型以及数据库系统数据传输通道,数据库系统中的所有数据同步到涉外专利训练模型中;

3)将获取涉外专利样本导入到涉外专利训练模型中进行训练,同时导入关键词,直到训练模型能够精准的将关键词与涉外专利样本中的涉外专利一一对应。

4.根据权利要求1所述的一种涉外专利翻译需求识别方法,其特征在于:所述步骤3中具体内容如下:

1)分析每一个关键词下的涉外专利内容真实性,提取涉外专利中部分内容,分析提取的内容与对应关键词是否具有一定的关联性,设定关联性为P,若P≤0.1,则判定无关联性,删去该涉外专利所有信息;

2)P>0.1,则判定有关联性,保留该涉外专利所有信息,然后对该涉外专利进行检测,删去涉外专利文档中无关的内容,若出现重复的涉外专利,则选择覆盖该涉外专利或删除该涉外专利,若原先的涉外专利出现内容不全的情况,则选择覆盖该涉外专利。

5.根据权利要求1所述的一种涉外专利翻译需求识别方法,其特征在于:所述步骤4中具体内容如下:

1)对无法提取文档中文字的涉外专利进行下载,然后利用文字提取器提取下载文档中的文字,对于可以直接提取文档中文字的涉外专利,直接提取或复制涉外专利内容;

2)将每一个涉外专利提取的文字放入到Word或WPS文档中,调整好文档中内容的格式,同时,对于乱码文字进行修复。

6.根据权利要求1所述的一种涉外专利翻译需求识别方法,其特征在于:所述步骤5中具体内容如下:

1)对所有涉外专利按照关键词进行划分,设定若干个独立的关键词;

2)对所有的关键词进行标记,然后将所有的涉外专利归类到对应的分类中,同时对所有的涉外专利进行保存。

7.根据权利要求1所述的一种涉外专利翻译需求识别方法,其特征在于:所述步骤6中具体内容如下:

1)确定涉外专利的语言种类,选择翻译软件,导入涉外专利文件,一键生成翻译文件;

2)对翻译之后的文件进行检查,排除错误的字、词、标点符号等,在线进行修改,最后导出翻译文件即可。

8.一种涉外专利翻译需求识别系统,其特征在于:所述系统包括数据采集单元、数据分析单元、数据下载单元、数据分类单元、中央处理单元、数据保存单元、数据翻译单元、语言选择单元、结果导出单元与模型训练单元,所述数据采集单元与数据分析单元连接,所述数据分析单元与数据下载单元连接,所述语言选择单元与数据翻译单元连接,所述数据下载单元、数据分类单元、数据保存单元、数据翻译单元、结果导出单元与模型训练单元均和中央处理单元连接。

9.根据权利要求8所述的一种涉外专利翻译需求识别系统,其特征在于:所述数据采集单元用于采集各大网站上的相关涉外专利,所述数据分析单元用于分析搜索的涉外专利真实性,所述数据下载单元用于下载需要的涉外专利文件,所述数据保存单元用于保存下载的所有涉外专利文件。

10.根据权利要求8所述的一种涉外专利翻译需求识别系统,其特征在于:所述数据翻译单元用于将不同语言的涉外专利翻译成中文或者其他文字类型,所述语言选择单元用于选择以及切换不同类型的语言,所述结果导出单元用于导出翻译之后的结果,所述模型训练单元基于人工智能算法,对涉外专利样本进行迭代训练。

说明书
技术领域

本发明涉及涉外专利翻译技术领域,具体为一种涉外专利翻译需求识别方法及系统。

专利合作条约(PCT)是一个专门性条约,由世界知识产权组织进行管理。其成员国均为巴黎公约成员国,目前已达151个。按照PCT的规定,在任何一个PCT成员国提出的一项专利申请,可以视为在指定的其它成员国同时提出了申请。实现了一国申请,多国有效。PCT申请的审批程序分为国际阶段和国家阶段。国际阶段进行受理、公布、检索和初审,国家阶段由具体的国家局进行审查和授权。一项PCT申请进入具体国家阶段的时间为自申请日起30个月内。这样当申请人希望以一项发明创造得到多国(一般为5个以上)保护时,利用PCT途径是很适宜的。

目前,由于全球对专利的保护意识越来越强,越来越多的个人或者公司都会将自己的产品及技术申请专利,从而得到法律保护,随着专利数量的增加,专利的体制也越来越完善,涉外专利对于我们的参考也越来越有价值,但是,现有技术中对于一些涉外专利的翻译比较麻烦,工作量较大,且翻译之后的专利文件准确度有待提高。

(一)解决的技术问题

针对现有技术的不足,本发明提供了一种涉外专利翻译需求识别方法及系统,解决了现有技术中存在的缺陷与不足。

(二)技术方案

为实现以上目的,本发明通过以下技术方案予以实现:一种涉外专利翻译需求识别方法,所述方法包括以下步骤:

S1、创建搜索关键词,基于各大网站及语言搜索相关涉外专利,获取涉外专利样本;

S2、基于人工智能算法,对涉外专利样本进行迭代训练;

S3、判断分析搜索的涉外专利真实性,筛选无关内容、重复内容及覆盖残缺内容;

S4、下载涉外专利文档,提取涉外专利文档中文字信息,调整格式以及乱码;

S5、设定分类关键字词,对所有的涉外专利进行分类并保存;

S6、选择语言种类,翻译涉外专利,导出翻译结果。

优选的,所述步骤1中具体内容如下:

1)根据需要获取的涉外专利信息提取出标题关键词,检查所有关键词是否重复;

2)按照提取的关键词在各大网站上搜索涉外专利,然后根据每一个关键词从搜索的所有涉外专利中获取涉外专利样本,涉外专利样本不得出现重复关键词的涉外专利。

优选的,所述步骤2中具体内容如下:

1)建立涉外专利训练模型以及数据库系统,将采集的所有涉外专利导入到数据库系统中;

2)建立训练模型以及数据库系统数据传输通道,数据库系统中的所有数据同步到涉外专利训练模型中;

3)将获取涉外专利样本导入到涉外专利训练模型中进行训练,同时导入关键词,直到训练模型能够精准的将关键词与涉外专利样本中的涉外专利一一对应。

优选的,所述步骤3中具体内容如下:

1)分析每一个关键词下的涉外专利内容真实性,提取涉外专利中部分内容,分析提取的内容与对应关键词是否具有一定的关联性,设定关联性为P,若P≤0.1,则判定无关联性,删去该涉外专利所有信息;

2)P>0.1,则判定有关联性,保留该涉外专利所有信息,然后对该涉外专利进行检测,删去涉外专利文档中无关的内容,若出现重复的涉外专利,则选择覆盖该涉外专利或删除该涉外专利,若原先的涉外专利出现内容不全的情况,则选择覆盖该涉外专利。

优选的,所述步骤4中具体内容如下:

1)对无法提取文档中文字的涉外专利进行下载,然后利用文字提取器提取下载文档中的文字,对于可以直接提取文档中文字的涉外专利,直接提取或复制涉外专利内容;

2)将每一个涉外专利提取的文字放入到Word或WPS文档中,调整好文档中内容的格式,同时,对于乱码文字进行修复。

优选的,所述步骤5中具体内容如下:

1)对所有涉外专利按照关键词进行划分,设定若干个独立的关键词;

2)对所有的关键词进行标记,然后将所有的涉外专利归类到对应的分类中,同时对所有的涉外专利进行保存。

优选的,所述步骤6中具体内容如下:

1)确定涉外专利的语言种类,选择翻译软件,导入涉外专利文件,一键生成翻译文件;

2)对翻译之后的文件进行检查,排除错误的字、词、标点符号等,在线进行修改,最后导出翻译文件即可。

一种涉外专利翻译需求识别系统,所述系统包括数据采集单元、数据分析单元、数据下载单元、数据分类单元、中央处理单元、数据保存单元、数据翻译单元、语言选择单元、结果导出单元与模型训练单元,所述数据采集单元与数据分析单元连接,所述数据分析单元与数据下载单元连接,所述语言选择单元与数据翻译单元连接,所述数据下载单元、数据分类单元、数据保存单元、数据翻译单元、结果导出单元与模型训练单元均和中央处理单元连接。

优选的,所述数据采集单元用于采集各大网站上的相关涉外专利,所述数据分析单元用于分析搜索的涉外专利真实性,所述数据下载单元用于下载需要的涉外专利文件,所述数据保存单元用于保存下载的所有涉外专利文件。

优选的,所述数据翻译单元用于将不同语言的涉外专利翻译成中文或者其他文字类型,所述语言选择单元用于选择以及切换不同类型的语言,所述结果导出单元用于导出翻译之后的结果,所述模型训练单元基于人工智能算法,对涉外专利样本进行迭代训练。

(三)有益效果

本发明提供了一种涉外专利翻译需求识别方法及系统。具备以下有益效果:

1、本发明,通过获取涉外专利样本,然后再利用人工智能算法,对涉外专利样本进行迭代训练等等流程,使得后期根据关键词获取的涉外专利相关性大大提高,从而能够大大减少后续人工筛选的操作,工作量大大减少,翻译过程比较简单,大大提高了翻译之后的专利文件准确度。

2、本发明,通过对所有的关键词进行标记,然后将所有的涉外专利归类到对应的分类中,同时对所有的涉外专利进行保存,使得所有的专利文档有序不乱,为后续的翻译工作提供了有力的保障。

图1为本发明流程示意图;

图2为本发明系统结构框图。

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例:

如图1-2所示,本发明实施例提供一种涉外专利翻译需求识别方法,该方法包括以下步骤:

S1、创建搜索关键词,基于各大网站及语言搜索相关涉外专利,获取涉外专利样本,具体内容如下:

1)根据需要获取的涉外专利信息提取出标题关键词,检查所有关键词是否重复;

2)按照提取的关键词在各大网站上搜索涉外专利,然后根据每一个关键词从搜索的所有涉外专利中获取涉外专利样本,涉外专利样本不得出现重复关键词的涉外专利;

S2、基于人工智能算法,对涉外专利样本进行迭代训练,具体内容如下:

1)建立涉外专利训练模型以及数据库系统,将采集的所有涉外专利导入到数据库系统中;

2)建立训练模型以及数据库系统数据传输通道,数据库系统中的所有数据同步到涉外专利训练模型中;

3)将获取涉外专利样本导入到涉外专利训练模型中进行训练,同时导入关键词,直到训练模型能够精准的将关键词与涉外专利样本中的涉外专利一一对应;

S3、判断分析搜索的涉外专利真实性,筛选无关内容、重复内容及覆盖残缺内容,具体内容如下:

1)分析每一个关键词下的涉外专利内容真实性,提取涉外专利中部分内容,分析提取的内容与对应关键词是否具有一定的关联性,设定关联性为P,若P≤0.1,则判定无关联性,删去该涉外专利所有信息;

2)P>0.1,则判定有关联性,保留该涉外专利所有信息,然后对该涉外专利进行检测,删去涉外专利文档中无关的内容,若出现重复的涉外专利,则选择覆盖该涉外专利或删除该涉外专利,若原先的涉外专利出现内容不全的情况,则选择覆盖该涉外专利;

S4、下载涉外专利文档,提取涉外专利文档中文字信息,调整格式以及乱码,具体内容如下:

1)对无法提取文档中文字的涉外专利进行下载,然后利用文字提取器提取下载文档中的文字,对于可以直接提取文档中文字的涉外专利,直接提取或复制涉外专利内容;

2)将每一个涉外专利提取的文字放入到Word或WPS文档中,调整好文档中内容的格式,同时,对于乱码文字进行修复;

S5、设定分类关键字词,对所有的涉外专利进行分类并保存,具体内容如下:

1)对所有涉外专利按照关键词进行划分,设定若干个独立的关键词;

2)对所有的关键词进行标记,然后将所有的涉外专利归类到对应的分类中,同时对所有的涉外专利进行保存;

S6、选择语言种类,翻译涉外专利,导出翻译结果,具体内容如下:

1)确定涉外专利的语言种类,选择翻译软件,导入涉外专利文件,一键生成翻译文件;

2)对翻译之后的文件进行检查,排除错误的字、词、标点符号等,在线进行修改,最后导出翻译文件即可。

一种涉外专利翻译需求识别系统,该系统包括数据采集单元、数据分析单元、数据下载单元、数据分类单元、中央处理单元、数据保存单元、数据翻译单元、语言选择单元、结果导出单元与模型训练单元,数据采集单元与数据分析单元连接,数据分析单元与数据下载单元连接,语言选择单元与数据翻译单元连接,数据下载单元、数据分类单元、数据保存单元、数据翻译单元、结果导出单元与模型训练单元均和中央处理单元连接。

数据采集单元用于采集各大网站上的相关涉外专利,数据分析单元用于分析搜索的涉外专利真实性,数据下载单元用于下载需要的涉外专利文件,数据保存单元用于保存下载的所有涉外专利文件。

数据翻译单元用于将不同语言的涉外专利翻译成中文或者其他文字类型,语言选择单元用于选择以及切换不同类型的语言,结果导出单元用于导出翻译之后的结果,模型训练单元基于人工智能算法,对涉外专利样本进行迭代训练。

本发明,通过获取涉外专利样本,然后再利用人工智能算法,对涉外专利样本进行迭代训练,使得后期根据关键词获取的涉外专利相关性大大提高,从而能够大大减少后续人工筛选的操作,工作量大大减少,翻译过程比较简单,大大提高了翻译之后的专利文件准确度。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

本文发布于:2024-09-22 15:45:27,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/67917.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议