210987416_南京市新一代信息技术领域专利检索关键词库构建

科技与创新┃Science and Technology&Innovation ·146·2023年第06期
文章编号:2095-6835(2023)06-0146-03
南京市新一代信息技术领域专利检索关键词库构建
刘连政,唐尧,笪伟
(南京市知识产权保护中心,江苏南京210000)
摘要:基于南京市新一代信息技术领域近五年专利申请情况,对相关专利申请,进行关键词提取,筛选出频率较高的相关领域关键词,并利用人工标注和同义词词林扩展技术,构建南京市新一代信息技术领域专利检索关键词库。该专用领域词库的构建可以作为专利申请预审员在专利申请预审和检索中扩展关键词的参照和对比,并以此提高南京市新一代信息技术领域专利申请预审效率,同时词库亦可作为专利申请预审智能检索系统开发中的关键词扩展的语义库,对促进专利申请预审检索和审查技术发展具有显著的实践意义。
关键词:新一代信息技术;专利检索;关键词库;同义扩展
中图分类号:TP391;G306文献标志码:A DOI:10.15913/jki.kjycx.2023.06.044
2016年国家知识产权局陆续开始在各地建设知识产权保护中心过程中提出专利申请预审业务,其作为知识产权保护中心核心业务职能,主要负责对特定区域创新主体符合特定领域的专利申请进行预先审查,对审查合格的案件准予进入快速审查通道。预审业务的开展一方面可以提高备案主体专利申请质量,另一方面也可大幅缩短专利申请授权周期。知识产权保护中心预审员主要针对备案主体提交的预审案件的新颖性和明显创造性进行检索,因此在整个专利申请预审机制中,专利申请文件的检索准确率和效率对整个预审业务的开展显得尤为重要。而在检索过程中,预审员输入的检索关键词对最终检索结果影响甚大。
目前预审员对于在预审案件审查中的关键词输入主要依靠预审员自我提取,预审员在阅读专利申请文件后提取出能体现专利申请技术方案发明点的关键词,然后通过预审员的审查经验进行关键词扩展,这种方式过多依赖预审员的个人经验,如果能辅助使用相关关键词词库自动扩展技术,将在一定程度上提升预审员的审查效率,而目前市场上并没有统一的针对新一代信息技术领域的专利检索词库帮助预审员对关键词进行有效的拓展。即使有可供部分预审员参照使用的也是不同的各类技术词典和互联网搜索碎片,也需要预审员花费时间精力去寻类似关键词拓展资料,且该类资料并没有突出特定行政区域内的产业技术发展共性。因此有必要通过构建统一、全面、动态的针对南京市新一代信息技术这一特定领域的关键词库,使得预审员在检索关键词扩展的时候具有更有效、更便捷的参考,从而解决专利申请预审员在检索关键词扩展中的词条局限性和检索效率低下的问题。
1相关理论
关键词提取技术随着自然语言处理技术发展而来,属于文本挖掘的一种,广泛应用于人工智能和语义识别等诸多领域。在现有应用中,关键词提取算法一般可以分为无监督和有监督2种关键词提取方法。
无监督关键词提取方法是指没有监督学习的过程,不需要进行人工语料标注,只需要利用某种规则对文本中比较重要的词进行提取即可形成主要关键词。根据提取过程中使用的规则,大致可以分为基于统计特征的关键词提取、基于词图模型的关键词提取和基于主题模型的关键词提取方法。基于统计特征的关键词提取算法的思想是利用文档中词语的统计信息抽取文档的关键词;基于词图模型的关键词提取首先要构建文档的语言网络图,然后对语言进行网络图分析,在这个图上寻具有重要作用的词或者短语,这些短语就是文档的关键词;基于主题关键词提取算法主要利用的是主题模型中关于主题分布的性质进行关键词提取[1],这一类关键词提取方法由于不需要进行大量的人工标注语料集合训练,使用过程更加便捷,多用于科研和实验环境中。
有监督关键词提取方法是运用二分类原理,简化关键词提取过程,训练关键词抽取分类器。对于新的待选文档,首先提取出所有的候选词,并利用训练好的关键词提取分类器,然后对每个候选词进行分类,最终生成具有关键词标签的候选词作为关键词[2]。此类
Copyright©博看网. All Rights Reserved.
Science and Technology &Innovation ┃科技与创新
2023年第06期
·147·
关键词提取方法由于需要不断进行训练器训练,调节多种影响关键词提取的参数信息,因此提取效果要高于无监督关键词提取方法,但是由于训练过程需要花费高昂的人工成本,因此现有的文本关键词提取方法主要还是使用无监督关键词提取方法。
《同义词词林》是梅家驹等人于1983年编纂而成,时间久远,收录内容相对较少,对于目前的使用不太适合,哈尔滨工业大学实验室基于该词林进行扩展,构建了《同义词词林扩展版》,它按照树状的层次结构把所有收录的词条分成大、中、小3类,12个大类分为人、物、时间和空间、抽象事物、特征、动作、心理活动、活动、现象与状态、关联、助语、敬语,共18490个词,每个词有1个8位的编码,第8位编码有3种,分别是“=”“#”“@”,其中“=”表示本词的所有词条在意义上相等或同义[3]。扩展后的词林相比于原先的词林,词条数从53895个扩展到77343个,编码层数从三层提高到了五层,前三层与1983版的词林相同,而后两层中的第四层用大写英文字母表示,第五层使用二位十进制整数表示。具体编码规则如表1所示。
表1编码说明
编码位性质级别举例1大类第一级A 2中类第二级b 3小类第三级3455词第四级C 6原子词
第五级
1738
=/#/@
2构建过程2.1IPC 聚类与分组
构建南京市新一代信息技术关键词库的首要步骤是对符合该领域的专利申请文件中最常见的关键词进行聚类分析,在聚类前需要对南京市新一代信息技术领域专利申请文件进行分类号筛选,以便更精准筛选属于新一代信息技术领域的专利申请文件。
对分类号进行筛选的过程主要包括对照国民经济行业代码和专利IPC 分类号,选取与新一代信息技术领域最相关且申请量排名靠前的60个新一代信息技术领域分类号作为南京市新一代信息技术领域关键词库基础分类号,并对该60个分类号细分为10个具体领域组,分别为半导体,测量,电机、电气装置、电能,电信,光学,基础通信程序,计算机技术,控制,数字通信和音像技术。分组后的部分分类号如表2所示。
最后通过使用incopat 商业专利检索网站,并根据该分组后的60个IPC 分类号筛选出中国专利库中近五年该部分分类号内的南京市的全部专利申请文本。
表2技术领域IPC 分类
序号技术领域IPC 小
类示例
注释
1半导体
H01L 半导体器件,其他类目中不包括
的电固体器件2
测量G01C 测量距离、水准或者方位,勘测,
导航,陀螺仪,摄影测量学或视
频测量学
3
电机、电气装置、电能H02P 电动机、发电机或机电变换器的
控制或调节,控制变压器、电抗
器或扼流圈
4
电信H01Q
天线。本小类除一次有源辐射单元外还包括吸收天线辐射波或改变天线辐射波主向或极化的
二次装置,以及与辅助装置如接地开关、引入装置以及避雷器的组合5光学G02B 光学元件、系统或仪器6基础通信程序H03H 阻抗网络,例如谐振电路、谐振器7计算机技术G06F 电数字数据处理。“处理”包括数据的处理或传送
8
控制
G05B
一般的控制或调节系统,这种系统的功能单元用于这种系统或单元的监视或测试装置
9
数字通信H04L
数字信息的传输,例如电报通信。本小类包括传输以数字形式提供的信号,并包括数据传输、电报通信以及监控的方法和设备
10音像技术
H04N
图像通信,如电视。本小类包含近距离或远距离的图像传输及它们永久性或非永久性的重现
2.2关键词提取
关键词提取的步骤即为对在IPC 聚类与分组过程中筛选出的专利申请文本进行关键词提取,提取出的专利关键词应该是可以体现专利发明主要内容和主要发明点的词语。本文选取无监督关键词提取方法
中的RAKE (Rapid Automatic Keyword Extraction )工具用来提取主要关键词,该工具的设计思路是首先使用标点符号将一篇文档分成若干分句,然后对于每一个分句,使用停用词作为分隔符,将分句分为若干作为最终关键词的候选词短语,最后利用词频等统计信息降序输出提取出的关键词。该关键词提取方法的优势在于算法简单高效而且能取得不错的效果,并且适用于提取一些较长的专业术语。
对每一个分类号下的专利申请文本提取关键词后,通过自动化软件自动摘选出在这些专利申请文本
Copyright ©博看网. All Rights Reserved.
科技与创新┃Science and Technology&Innovation ·148·2023年第06期
中出现频次排名靠前的主要关键词,并进行人工分类和组合,最终形成约15万条有效的关键词条原始数据,作为南京市新一代信息技术领域关键词库的基础标引词。
2.3关键词扩展
在关键词提取步骤中对所有符合领域的专利申请文本进行关键词提取和筛选后,需要对基础标引词进行词义扩展,本文主要将关键词扩展词段分为技术领域、IPC分类、英文词、上位词、下位词、同义词和相关词等部分。其中技术领域、IPC分类和英文词主要通过人工标注的方式拓展,而对于其中的上位词、下位词、同义词和相关词主要通过同义词词林进行扩展。其同义扩展的主要步骤包括以前述关键
词提取过程后形成的基础标引词的集合作为算法输入,在同义词词林中查与基础标引词对应的词,将该词下的词语作为该关键词的同义词和相关词进行输出,重复上述步骤可完成关键词同义词和相关词扩展。
通过上述关键词提取和关键词扩展过程后,最终形成完整的南京市新一代信息技术领域专利检索关键词库。最终构建的关键词库中某条数据的示例如表3所示。
表3关键词扩展示例
标引词/Word手机银行
技术领域/JSLY数字通信
IPC分类/IPC H04W
英文词/English Mobile banking
上位词/SW银行
下位词/XW智能手机银行
同义词/TYC移动银行
相关词/XGC 支付安全、电话银行、消费金额、支付平台、支付密码、账务处理、网上交易、银行业务、银行服务、银行卡号、支付业务、银行账号、第三方支付平台、支付指令、银行账户
为解决构建的关键词库更新的问题,本文还建立了词库共享机制,在关键词库使用过程中预审员可以动态地对词库进行修改和补充,不断循环改进关键词
库的内容。在具体的预审工作中,预审员可以通过专用平台系统录入检索词后,由专人进行分类后补充专利检索关键词库。
3结束语
专利申请预审机制的关键在于通过检索在现有技术中寻相关对比文件,而输入的检索关键词的准确度和全面性决定检索结果的查准率和查全率。因此本文针对专利申请预审员在专利检索过程中关键词扩展不全面的问题,利用专利主题分析、关键词聚类和同义词扩展技术构建针对南京市新一代信息技术领域的专利检索关键词库。该词库的构建可以使专利申请预审员在检索关键词的拓展中得到有效的参考,避免出现专利申请人通过规避检索的方式转换技术表述导致审查员检索结果查准率低的情况,该词库对于提高专利申请预审效率也具有重要的意义。下一步,笔者将把该特定领域关键词库融入专
利智能检索开发过程中,完成关键词自动摘取、自动扩展、自动检索和自动排序的智能化检索系统的设计和实现。
参考文献:
[1]韩伟.如何做好文本关键词提取?从三种算法说起[DB/OL].[2022-12-08].blog.csdn/
DataGrand/article/details/84069460.
[2]晁珍珍.基于关键词提取的专利新颖性分析技术研究[D].南京:南京邮电大学,2020.
[3]段利国,陈俊杰.限定语义距离的关键词同义扩展及精简[J].计算机工程与应用,2011,47(23):
13-16,24.
————————
作者简介:唐尧(1994—),男,江苏盐城人,工学硕士,工程师,研究方向为专利审查、知识产权
保护。笪伟(1988—),男,安徽安庆人,工学硕士,工程师,研究方向为专利审查、知识产权保护。
通信作者:刘连政(1989—),男,安徽天长人,工学硕士,工程师,研究方向为专利审查、知识产权保护。
(编辑:张超)
————————————————————————————————————————————————(上接第145页)
成型修整机床设计、各种异型边槽金属结合剂金刚石磨轮的精密成型修整磨削工艺。沈文达(1948—),男,江苏苏州人,高级工程师,主要研究方向为电火花磨削专用脉冲电源设计、金属结合剂金刚石磨轮成型修整机床设计、各种异型边槽金属结合剂金刚石磨轮的精密成型修整磨削工艺。
(编辑:严丽琴)
Copyright©博看网. All Rights Reserved.

本文发布于:2024-09-22 15:49:44,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/407952.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:关键词   提取   专利申请   检索
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议