中文工艺专利自动分类系统及利用该系统进行专利分类的方法

著录项
  • CN201410441093.1
  • 20140901
  • CN104216979A
  • 20141217
  • 西北工业大学
  • 耿俊浩;刘永刚;王刚锋
  • G06F17/30
  • G06F17/30

  • 陕西省西安市友谊西路127号
  • 陕西(61)
  • 西北工业大学专利中心
  • 王鲜凯
摘要
本发明公开了一种中文工艺专利自动分类系统及利用该系统进行专利分类的方法,用于解决现有专利分类系统分类效率低的技术问题。技术方案是该系统包括客户端计算机、应用服务器和数据库。客户端计算机用于分类参数设置、类别标注设置以及查看分类结果。应用服务器包括专利获取模块、静态匹配模块和动态聚类模块。其中,专利获取模块用于获取一篇专利文献的标题和摘要。静态匹配模块用于分类词库匹配查专利的标题或摘要来进行初步分类。动态聚类模块用于对静态匹配剩余的专利集进行分类处理。数据库用于存储专利信息和存储分类结果。由于采用静态匹配分类与动态聚类相结合处理中文工艺专利分类,提高了专利分类系统的效率。
权利要求

1.一种中文工艺专利自动分类系统,其特征在于包括客户端计算机、应用服务器 和数据库;客户端计算机有多台,多台客户端计算机分别通过网络与应用服务器连接, 应用服务器通过数据线与数据库连接;客户端计算机用于分类参数设置、类别标注设 置以及查看分类结果;应用服务器包括专利获取模块、静态匹配模块和动态聚类模块; 其中,专利获取模块用于获取一篇专利文献的标题和摘要;静态匹配模块用于分类词 库匹配查专利的标题或摘要来进行初步分类;动态聚类模块包括中文分词功能、词 性标注功能、去除停用词功能、词频统计功能、特征词提取功能、聚类处理功能和类 别标注功能;动态聚类模块用于对静态匹配剩余的专利集进行分类处理;数据库用于 存储专利信息和存储分类结果。

2.一种利用权利要求1所述中文工艺专利自动分类系统进行专利分类的方法, 其特征在于包括以下步骤:

步骤一、以工艺方法为中心,结合制造对象和制造特征,将工艺专利按照两种方 式进行分类;一种是工艺方法和制造对象;另一种是工艺方法和制造特征;

步骤二、用工艺领域分类词汇库静态匹配查工艺专利集,

1)领域专家集体归纳构建工艺领域分类词汇库;

2)将工艺专利集的标题或摘要与分类词汇库相匹配,直接匹配到分类词的专利集 即归属到此类别下;

步骤三、对未匹配到的工艺专利集进行动态聚类,最后进行类别标注并加入到分 类词汇库中,

1)获取静态匹配剩余专利的标题和摘要;

2)对工艺专利进行分词、词性标注和去停用词预处理;

3)对每个工艺专利的标题和摘要进行词频统计和特征词提取,包括三部分:制造 对象、工艺方法和制造特征,三个部分作为专利的特征,每个部分均从专利中提取出 关键词来代表专利的类别;

4)进行聚类处理,对专利集三类关键词组分别进行聚类,将专利分到的类别进行 标记、统计,同时匹配到组合特征的专利则为目的要求的类别;

5)对聚类的结果进行类别标注并加入到分类词汇库中。

说明书
技术领域

本发明涉及一种专利分类系统,特别涉及一种中文工艺专利自动分类系统。还涉 及一种利用该中文工艺专利自动分类系统进行专利分类的方法。

工艺研发是一种面向制造技术领域、运用大量工艺知识进行创新性活动的复杂过 程,其结果是创造性的应用特定的工艺方法,实现特定制造对象及其制造特征的处理。 因此,如果工艺研发人员能够快速、大量借鉴具有相似工艺方法、制造对象或者制造 特征的高质量多学科工艺知识,将能够有效的提升工艺研发的效率。

工艺专利一般是为解决现有工艺问题中的技术冲突而提出一种新的工艺方法或解 决方案,蕴含了求解工艺问题的多学科原理性知识。同时,工艺专利的标题或摘要中 一般包含其涉及的工艺方法、制造对象或制造特征这三个区分工艺领域特点的特征。 因此,工艺专利因其创新性和实用性的特点而成为了工艺研发的重要知识来源。如果 将工艺专利按照工艺方法、制造对象和制造特征的方式进行分类,为工艺研发提供相 似知识的借鉴,将能够有效地促进工艺研发的效率。但是,目前还缺乏类似的工艺专 利分类方法,工艺研发人员主要采用手工分类的方式来使用专利知识,影响了工艺研 发的效率。

目前中文专利自动分类的研究主要是基于国际专利分类法IPC(Inter-Process  Communication)的分类,根据专利描述对象的所属工程领域来划分。文献“依据TRIZ 发明原理的中文专利自动分类,哈尔滨理工大学学报,2013,Vol.18NO.3Jun.2013,p1-5” 公开了一种针对借助TRIZ理论进行发明创新的专利检索需要,提出利用文本挖掘技 术实现对中文专利进行面向TRIZ发明原理的自动分类。此方法首先对40个基本的 TRIZ发明理论进行分析和重新分组,然后对专利文本进行分词处理,特征选择算法进 行特征降维,最后对中文专利进行分类测试,结果表明借助于文本分类技术可以实现 依据TRIZ发明原理对中文专利自动分类。但是,该文献中的方法并不针对工艺专利, 其分类方式没有根据工艺研发需求的三个特点:工艺方法、制造对象、制造特征将工 艺专利集进行目标归类,因而其分类方式不适用于工艺研发需求,不能有效地支撑工 艺研发活动。

为了克服现有专利分类系统分类效率低的不足,本发明提供一种中文工艺专利 自动分类系统。该系统包括客户端计算机、应用服务器和数据库。计算机分别通过网 络与应用服务器连接,应用服务器通过数据线与数据库连接。客户端计算机用于分类 参数设置、类别标注设置以及查看分类结果。应用服务器包括专利获取模块、静态匹 配模块和动态聚类模块。其中,专利获取模块用于获取一篇专利文献的标题和摘要。 静态匹配模块用于分类词库匹配查专利的标题或摘要来进行初步分类。动态聚类模 块包括中文分词功能、词性标注功能、去除停用词功能、词频统计功能、特征词提取 功能、聚类处理功能和类别标注功能。动态聚类模块用于对静态匹配剩余的专利集进 行分类处理。数据库用于存储专利信息和存储分类结果。由于采用静态匹配分类与动 态聚类相结合处理中文工艺专利分类,可以提高专利分类系统的效率。

本发明还提供利用该中文工艺专利自动分类系统进行专利分类的方法。

本发明解决其技术问题所采用的技术方案是:一种中文工艺专利自动分类系统, 其特点是:包括客户端计算机、应用服务器和数据库。客户端计算机有多台,多台客户 端计算机分别通过网络与应用服务器连接,应用服务器通过数据线与数据库连接。客 户端计算机用于分类参数设置、类别标注设置以及查看分类结果。应用服务器包括专 利获取模块、静态匹配模块和动态聚类模块。其中,专利获取模块用于获取一篇专利 文献的标题和摘要。静态匹配模块用于分类词库匹配查专利的标题或摘要来进行初 步分类。动态聚类模块包括中文分词功能、词性标注功能、去除停用词功能、词频统 计功能、特征词提取功能、聚类处理功能和类别标注功能。动态聚类模块用于对静态 匹配剩余的专利集进行分类处理。数据库用于存储专利信息和存储分类结果。

一种利用上述中文工艺专利自动分类系统进行专利分类的方法,其特点是包括以 下步骤:

步骤一、以工艺方法为中心,结合制造对象和制造特征,将工艺专利按照两种方 式进行分类。一种是工艺方法和制造对象;另一种是工艺方法和制造特征;

步骤二、用工艺领域分类词汇库静态匹配查工艺专利集,

1)领域专家集体归纳构建工艺领域分类词汇库;

2)将工艺专利集的标题或摘要与分类词汇库相匹配,直接匹配到分类词的专利集 即归属到此类别下;

步骤三、对未匹配到的工艺专利集进行动态聚类,最后进行类别标注并加入到分 类词汇库中,

1)获取静态匹配剩余专利的标题和摘要;

2)对工艺专利进行分词、词性标注和去停用词预处理;

3)对每个工艺专利的标题和摘要进行词频统计和特征词提取,包括三部分:制造 对象、工艺方法和制造特征,三个部分作为专利的特征,每个部分均从专利中提取出 关键词来代表专利的类别;

4)进行聚类处理,对专利集三类关键词组分别进行聚类,将专利分到的类别进行 标记、统计,同时匹配到组合特征的专利则为目的要求的类别;

5)对聚类的结果进行类别标注并加入到分类词汇库中。

本发明的有益效果是:该系统包括客户端计算机、应用服务器和数据库。计算机 分别通过网络与应用服务器连接,应用服务器通过数据线与数据库连接。客户端计算 机用于分类参数设置、类别标注设置以及查看分类结果。应用服务器包括专利获取模 块、静态匹配模块和动态聚类模块。其中,专利获取模块用于获取一篇专利文献的标 题和摘要。静态匹配模块用于分类词库匹配查专利的标题或摘要来进行初步分类。 动态聚类模块包括中文分词功能、词性标注功能、去除停用词功能、词频统计功能、 特征词提取功能、聚类处理功能和类别标注功能。动态聚类模块用于对静态匹配剩余 的专利集进行分类处理。数据库用于存储专利信息和存储分类结果。由于采用静态匹 配分类与动态聚类相结合处理中文工艺专利分类,提高了专利分类系统的效率。

以下结合附图和具体实施方式详细说明本发明。

图1是本发明中文工艺专利自动分类系统的架构图。

图2是本发明中文工艺专利自动分类系统框图。

图3是本发明利用中文工艺专利自动分类系统进行专利分类的方法流程图。

图4是利用上述中文工艺专利自动分类系统进行专利分类的方法之静态匹配分类 作业流程图。

图5是利用上述中文工艺专利自动分类系统进行专利分类的方法之动态聚类过程 作业流程图。

实施例1。参照图1-5。本发明中文工艺专利自动分类系统包括客户端计算机1、应 用服务器3和数据库4。所述客户端计算机1通过网络2与应用服务器3连接,所述应用服 务器3通过数据线与数据库4连接,应用服务器3用于对工艺专利进行分类。本实施例的 专利属于某一特定工艺领域内的工艺专利集合。客户端计算机1用于操作人员进行专利 分类设置与分类结果的展示。数据库4用于存储专利信息及专利分类结果。上述专利信 息指已经公开或公告的专利的全部信息,包括专利的专利号,标题,摘要,技术领域, 背景技术,发明内容,附图说明,具体实施方式,专利文件等。

本发明系统整体的功能模块。客户端计算机包括设置分类参数功能,标注类别设 置功能,展示分类结果功能。应用服务器包括一专利获取模块,静态匹配模块和动态 聚类模块。其中,专利获取模块用于获取一篇专利文献的标题和摘要。静态匹配模块 用于分类词库匹配查专利的标题或摘要来进行初步分类。动态聚类模块用于对静态 匹配剩余的专利集进行分类处理。动态聚类模块包括一中文分词功能、一词性标注功 能、一去除停用词功能、一词频统计功能、一特征词提取功能、一聚类处理功能和一 类别标注功能。数据库用于存储专利的信息和分类的结果。

首先对工艺专利集进行静态匹配模块的处理,和工艺领域分类词库相匹配的专利 集归类到各分类下,然后剩余未匹配到的工艺专利集进行动态聚类模块的处理,之后 对动态聚类的结果进行类别标注,并把标注好的类别词加入到分类词库里。

领域专家根据工艺方法+制造对象,工艺方法+制造特征的分类方式,集体归纳工 艺专利的类别词汇库,制造企业可按照具体的工艺特点建立企业工艺分类体系,如某 航空发动机制造企业将制造对象分为涡轮,叶片,扩压器等,将工艺方法分为铣削, 磨削,电火花等,将制造特征分为外圆,孔,根斜面等。然后用领域词汇库静态匹配 专利集D0的标题,若匹配则直接归类,再次对剩余专利集D1的摘要进行匹配,归类, 最后剩余未匹配到的专利集D2,词汇库未包含分类词,需要动态聚类。

工艺专利动态聚类包括以下步骤:

1)对专利集D2进行成分获取,选择标题+摘要作为动态聚类的部分,用户在客户 端计算机1上实现;

2)对中文工艺专利进行分词、词性标注处理,构建工艺领域的分词词库对专利标 题和摘要进行中文分词操作,通过应用服务器3访问数据库4实现;

3)在2)的基础上判断分词的属性,去除停用词,去除没有实际意义的虚词,状 词,连接词,中性词,特征性不明显对分类帮助不大的词汇等,留下名词、名动词、 动词等,通过应用服务器3访问数据库4实现;

4)对这些名词、名动词、动词等作词频统计和消重处理。将对应的专利名称和摘 要的关键词按词频进行排序。将在整个专利集中词频最高的关键词放在首位,依次列 出其他关键词。另外,对那些与专利技术主题关系不大的名词也做去除处理,如“系 统”,“方法”,“装置”,“程序”等,通过应用服务器3访问数据库4实现;

5)对每个专利文档进行特征词提取,包括三部分:制造对象,工艺方法,制造特 征。三个部分作为专利的特征,制造对象从标题部分提取名词,工艺方法从摘要部分 提取动词,分别选取0-3个关键词作为专利的代表,通过增加一列“分类关键词”存入 专利数据库中,通过应用服务器3访问数据库4实现;

6)基于密度的工艺专利分类方法,类似于层次凝聚聚类算法。计算各文档之间的 语义相似度,各专利文档的语义相似度通过特征词相似度来计算。分别针对制造对象, 工艺方法,制造特征的关键词对所有专利文档集遍历聚类,语义相似度最高的专利合 并为一个簇,再重新上述步骤,直至形成特定阀值的聚类结果,通过应用服务器3访问 数据库4实现;

7)根据聚类结果与各专利号相关联,对分类后的结果进行统计,同时分到工艺方 法和制造对象或者工艺方法和制造特征的专利集就归为一类,成为目标类别的专利集。 最后,对动态聚类得到的工艺专利类别进行人工标记,加入到工艺分类词汇库中,用 户在客户端计算机1上处理并查看分类结果。

本文发布于:2024-09-25 14:27:29,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/67436.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议