一种中文专利关键信息语料库的构建方法、系统和计算机设备

著录项
  • CN202211172672.1
  • 20220926
  • CN115617989A
  • 20230117
  • 无锡睿文科技有限公司;哈尔滨工业大学
  • 李响;马翊轩;赵美含;张文婷;王文瑞;刘宇哲;杨沐昀
  • G06F16/35
  • G06F16/35 G06F40/295 G06F40/30

  • 江苏省无锡市滨湖区锦溪路99号江大科技园2#102-52室
  • 江苏(32)
  • 哈尔滨市阳光惠远知识产权代理有限公司
  • 张宏威
摘要
一种中文专利关键信息语料库的构建方法、系统和计算机设备,属于专利分析技术领域,解决专利语料库的标注质量不高问题。本发明的方法包括:选取某一技术领域,并获取某一技术领域的专利数据集;确定所述专利数据集的标注范围;设置专利关键信息和若干个标注规范,对所述专利数据集进行试标注,利用一致性分析,获取试标注规范;根据所述试标注规范,获取若干个正式标注规范;根据所述若干个正式标注规范,利用多轮迭代标注策略,对所述专利数据集进行标注,建立所述某一技术领域的专利语料库。本发明适用于专利的信息检索和跨语言翻译。
权利要求

1.一种中文专利关键信息语料库的构建方法,其特征在于,所述方法包括:

步骤1、选取某一技术领域,并获取某一技术领域的专利数据集;

步骤2、确定所述专利数据集的标注范围;

步骤3、设置专利关键信息和若干个标注规范,对所述专利数据集进行试标注,利用一致性分析,获取试标注规范;

步骤4、根据所述试标注规范,获取若干个正式标注规范;

步骤5、根据所述若干个正式标注规范,利用多轮迭代标注策略,对所述专利数据集进行标注,建立所述某一技术领域的专利语料库。

2.根据权利要求1所述的一种中文专利关键信息语料库的构建方法,其特征在于,所述专利数据集的标注范围具体包括发明名称和说明书摘要。

3.根据权利要求1所述的一种中文专利关键信息语料库的构建方法,其特征在于,所述专利关键信息包括技术问题、技术方案以及技术效果。

4.根据权利要求3所述的一种中文专利关键信息语料库的构建方法,其特征在于,所述技术问题包括技术问题的主体和技术问题的预期效果;所述技术方案包括学科知识和主要步骤;所述技术效果的标注位置为说明书摘要的结尾部分。

5.根据权利要求1所述的一种中文专利关键信息语料库的构建方法,其特征在于,步骤3,具体包括:

步骤3.1、设置专利关键信息和若干个标注规范,根据所述专利关键信息和若干个标注规范,对所述专利数据集进行试标注,具体包括:

步骤3.1.1、对所述专利数据集进行划分,划分为若干个专利数据子集;

步骤3.1.2、根据所述专利关键信息和所述若干个标注规范,分别对一个专利数据子集进行试标注,获取若干个相互独立的标注结果;

步骤3.1.3、对同一标注内容的若干个相互独立的标注结果进行一致性分析,判断所述一致性分析结果是否满足预设标准,若满足,根据一致的标注结果,获取试标注规范;否则,获取不一致的标注结果,执行步骤3.1.4;

步骤3.1.4、将所述不一致的标注结果进行一致性处理,确定修正标注规范;

步骤3.1.5、根据所述修正标注规范和步骤3.1.2中的若干个标注规范,获取若干个新标注规范;

步骤3.1.6、根据所述专利关键信息和所述若干个新标注规范,分别对另一个专利数据子集进行试标注,获取若干个相互独立的标注结果,返回步骤3.1.3。

6.根据权利要求1所述的一种中文专利关键信息语料库的构建方法,其特征在于,步骤5具体包括:

步骤5.1、根据所述若干个正式标注规范的个数,对所述专利数据集进行划分,获取若干个专利数据子集;

步骤5.2、为每个正式标注规范分配一个专利数据子集,并进行标注,获取若干个第一标注结果;

步骤5.3、为每个正式标注规范分配另一个专利数据子集,并进行标注,获取若干个第二标注结果;

步骤5.4、对同一标注内容的第一标注结果和第二标注结果进行一致性分析,获取不一致的标注结果,并修正所述不一致的标注结果,确定修正后的正式标注规范;

步骤5.5、根据所述修正后的正式标注规范和所述若干个正式标注规范,获取若干个专利标注规范;

步骤5.6、根据所述若干个专利标注规范对相应的专利数据子集进行标注,获取若干个第三标注结果;

步骤5.7、对所述若干个第三标注结果进行抽样检查,若正确率满足预设比例,对不正确的标注结果进行修正,获取修正后的第三标注结果;否则,返回步骤4;

步骤5.8、根据所述修正后的第三标注结果对所述专利数据集进行标注,建立所述某一技术领域的专利语料库。

7.根据权利要求6所述的一种中文专利关键信息语料库的构建方法,其特征在于,步骤5.4中的一致性分析采用Kappa检验方法。

8.一种中文专利关键信息语料库的构建系统,其特征在于,所述系统包括:

数据集采集模块,用于选取某一技术领域,并获取某一技术领域的专利数据集;

标注范围确定模块,用于确定所述专利数据集的标注范围;

试标注模块,用于设置专利关键信息和若干个标注规范,对所述专利数据集进行试标注,利用一致性分析,获取试标注规范;

正式标注规范获取模块,用于根据所述试标注规范,获取若干个正式标注规范;

语料库建立模块,用于根据所述若干个正式标注规范,利用多轮迭代标注策略,对所述专利数据集进行标注,建立所述某一技术领域的专利语料库。

9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,当所述处理器运行所述存储器存储的计算机程序时执行权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有多条计算机指令,所述多条计算机指令用于使计算机执行权利要求1至7中任一项所述的方法。

说明书
技术领域

本申请涉及专利分析技术领域,尤其涉及中文专利关键信息语料库的构建。

专利是专利权的简称,是由专利机构依据发明申请所颁发的一种文件。专利文献作为技术信息最有效的载体,囊括了全球最新的技术情报,相对于其他文献形式,专利更具有新颖、实用、可比较、结构一致的特征。专利信息的分析利用可为企业提供技术发展路线、竞争对手动态、重点专利技术方案和技术功效矩阵,是高效开展技术攻关活动不可或缺的助手。

专利被认为是世界上最大的技术信息来源。据世界知识产权组织公布的2021年度《世界知识产权指标》显示:2020年全球发明专利申请量达到327万件,中国发明专利申请量达150万件。现有的专利自动处理技术主要围绕检检索和翻译展开,还不能对专利内容进行深层次理解,无法满足海量的专利数据的智能化分析及加工需求。

另一方面,自然语言处理技术的近来日益成熟,应用愈发广泛。但是,当前主流的基于深度学习的自然语言处理模型往往依赖于大规模高质量的标注语料库,而现有专利的语料库主要用于信息检索和跨语言翻译目的,缺乏细粒度语义标注的语料库,尚不能有效支撑智能专利处理技术的研发。目前专利语料库多集中于信息检索、机器翻译以及文本实施方式分类等领域,尚缺乏更细粒度的标注,缺乏更深层次能够支撑智能专利分析和理解技术研发的专利标注语料库,不足以支持问答、阅读理解等新形态的人工智能技术研发。

本发明目的是为了解决现有专利语料库的标注质量不高的问题,提供了一种中文专利关键信息语料库的构建方法、系统和计算机设备。

本发明是通过以下技术方案实现的,本发明一方面,提供一种中文专利关键信息语料库的构建方法,所述方法包括:

步骤1、选取某一技术领域,并获取某一技术领域的专利数据集;

步骤2、确定所述专利数据集的标注范围;

步骤3、设置专利关键信息和若干个标注规范,对所述专利数据集进行试标注,利用一致性分析,获取试标注规范;

步骤4、根据所述试标注规范,获取若干个正式标注规范;

步骤5、根据所述若干个正式标注规范,利用多轮迭代标注策略,对所述专利数据集进行标注,建立所述某一技术领域的专利语料库。

进一步地,所述专利数据集的标注范围具体包括发明名称和说明书摘要。

进一步地,所述专利关键信息包括技术问题、技术方案以及技术效果。

进一步地,所述技术问题包括技术问题的主体和技术问题的预期效果;所述技术方案包括学科知识和主要步骤;所述技术效果的标注位置为说明书摘要的结尾部分。

进一步地,步骤3,具体包括:

步骤3.1、设置专利关键信息和若干个标注规范,根据所述专利关键信息和若干个标注规范,对所述专利数据集进行试标注,具体包括:

步骤3.1.1、对所述专利数据集进行划分,划分为若干个专利数据子集;

步骤3.1.2、根据所述专利关键信息和所述若干个标注规范,分别对一个专利数据子集进行试标注,获取若干个相互独立的标注结果;

步骤3.1.3、对同一标注内容的若干个相互独立的标注结果进行一致性分析,判断所述一致性分析结果是否满足预设标准,若满足,根据一致的标注结果,获取试标注规范;否则,获取不一致的标注结果,执行步骤3.1.4;

步骤3.1.4、将所述不一致的标注结果进行一致性处理,确定修正标注规范;

步骤3.1.5、根据所述修正标注规范和步骤3.1.2中的若干个标注规范,获取若干个新标注规范;

步骤3.1.6、根据所述专利关键信息和所述若干个新标注规范,分别对另一个专利数据子集进行试标注,获取若干个相互独立的标注结果,返回步骤3.1.3。

进一步地,步骤5具体包括:

步骤5.1、根据所述若干个正式标注规范的个数,对所述专利数据集进行划分,获取若干个专利数据子集;

步骤5.2、为每个正式标注规范分配一个专利数据子集,并进行标注,获取若干个第一标注结果;

步骤5.3、为每个正式标注规范分配另一个专利数据子集,并进行标注,获取若干个第二标注结果;

步骤5.4、对同一标注内容的第一标注结果和第二标注结果进行一致性分析,获取不一致的标注结果,并修正所述不一致的标注结果,确定修正后的正式标注规范;

步骤5.5、根据所述修正后的正式标注规范和所述若干个正式标注规范,获取若干个专利标注规范;

步骤5.6、根据所述若干个专利标注规范对相应的专利数据子集进行标注,获取若干个第三标注结果;

步骤5.7、对所述若干个第三标注结果进行抽样检查,若正确率满足预设比例,对不正确的标注结果进行修正,获取修正后的第三标注结果;否则,返回步骤4;

步骤5.8、根据所述修正后的第三标注结果对所述专利数据集进行标注,建立所述某一技术领域的专利语料库。

进一步地,步骤5.4中的一致性分析采用Kappa检验方法。

第二方面,本发明提供一种中文专利关键信息语料库的构建系统,所述系统包括:

数据集采集模块,用于选取某一技术领域,并获取某一技术领域的专利数据集;

标注范围确定模块,用于确定所述专利数据集的标注范围;

试标注模块,用于设置专利关键信息和若干个标注规范,对所述专利数据集进行试标注,利用一致性分析,获取试标注规范;

正式标注规范获取模块,用于根据所述试标注规范,获取若干个正式标注规范;

语料库建立模块,用于根据所述若干个正式标注规范,利用多轮迭代标注策略,对所述专利数据集进行标注,建立所述某一技术领域的专利语料库。

第三方面,本发明提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时执行如上文所述的一种中文专利关键信息语料库的构建方法的步骤。

第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质中存储有多条计算机指令,所述多条计算机指令用于使计算机执行如上文所述的一种中文专利关键信息语料库的构建方法。

本发明的有益效果:

首先,本发明的方法提出聚焦专利的关键信息进行标注,例如围绕一个专利技术问题、技术方法以及技术效果这的三要素来标注概括该专利的要点,关键信息的提炼有助于提高语料库的标注精度;

其次,本发明的方法为了提升标注精度,将专利预料库建立过程分为两部分,即试标注阶段和正式标注阶段,试标注阶段有助于减少重复劳动,节省人力和资源,提高效率,提升标注的速度与精度;正式标注阶段有助于提高标注结果的准确性。

本发明建立的语料库可以实现利用命名实体识别技术对语料库关键信息进行识别和验证。

本发明适用于专利的信息检索和跨语言翻译。

为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为语料库构建方法流程示意图。

下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

实施方式一、一种中文专利关键信息语料库的构建方法,所述方法包括:

步骤1、选取某一技术领域,并获取某一技术领域的专利数据集;

步骤2、确定所述专利数据集的标注范围;

步骤3、设置专利关键信息和若干个标注规范,对所述专利数据集进行试标注,利用一致性分析,获取试标注规范;

步骤4、根据所述试标注规范,获取若干个正式标注规范;

步骤5、根据所述若干个正式标注规范,利用多轮迭代标注策略,对所述专利数据集进行标注,建立所述某一技术领域的专利语料库。

本实施方式中,语料库构建的核心工作是依据制定的标注规范对语料进行标注。由于人工智能机器人领域尚处于发展阶段,专业性较强,而业内缺乏统一的定义和标准,为了确定更加领域适配的标注规范和标注策略,将标注过程分为试标注和正式标注两个阶段,在试标注阶段采用反复标注并修正的策略制定初步的标注规范,在正式标注阶段使用了多轮迭代标注模式进行标注规范的更新以及标注工作,如图1所示。

实施方式二,本实施方式是对实施方式一所述的一种中文专利关键信息语料库的构建方法的进一步限定,本实施方式中,对所述专利数据集的标注范围,做了进一步限定,具体包括:

所述专利数据集的标注范围具体包括发明名称和说明书摘要。

本实施方式中,考虑到标注的成本,将专利关键信息的标注范围限定在专利的标题和摘要范围。可以避免下载专利全文的负担,也节省了大量的标注时间。

实施方式三,本实施方式是对实施方式一所述的一种中文专利关键信息语料库的构建方法的进一步限定,本实施方式中,对所述专利关键信息,做了进一步限定,具体包括:

所述专利关键信息包括技术问题、技术方案以及技术效果。

目前,针对专利的标注内容和标注粒度并没有统一的范式,针对不同的具体任务,需求各不相同。比如从专利竞争分析角度出发,专利的所属权较为关键,而从专利的行业分析角度出发,专利的所属领域更加关键。考虑到专利本身的技术文献属性,本实施方式在首先考虑的是更为广泛和经典的技术术语标注。但是,专利的技术术语无法完整的刻画一篇专利,表1所示:其中列出的示例一和示例二两个专利的术语列表,虽然大致表示了这两个专利的领域和相关技术,但是对于其专利要点以及区分这两个同主题(工业机器人)的专利来说,作用并不显著。

如下例所示:

示例一:本发明公开了一种工业机器人模型仿真控制方法及装置。其中,该方法包括:接收由三维建模软件构建的工业机器人模型;基于工业机器人模型确定控制参数;根据控制参数确定工业机器人仿真机械模型;根据小脑模型神经网络CMAC控制策略和比例积分微分PID控制策略对工业机器人仿真机械模型进行仿真控制。本发明解决了相关技术中用于工业机器人的控制策略无法满足工业机器人对高速度和高精度的要求的技术问题。

示例二:本发明公开了一种考虑系统延迟的不确定工业机器人运动控制方法,首先建立工业机器人机电耦合非线性动力学模型,再利用反馈线性化技术使工业机器人非线性动力学方程线性化,构建动态递归神经网络估计并补偿系统的不确定性,最后提出改进的Smith预测控制方法消除系统延迟的影响。本发明对于系统延迟和不确定性参数具有较好鲁棒性,极大地提高了工业机器人的控制精度。

表1专利示例中的专业术语

需要说明的是,技术问题关键词定义为专利的技术所要解决的问题,技术方法关键词定义为解决技术问题所采用的技术方案以及关键技术手段,技术效果关键词定义为具有技术贡献的技术方案直接带来的、或者由所述的技术特征必然产生的效果。

根据上述的定义,上述两个示例专利的关键信息的关键词如下表2所示:

表2专利示例中的关键信息

可以发现,虽然两篇专利均为工业机器人领域,但是在问题关键词上示例一和工业机器人模型有关而示例二和工业机器人有关且示例二考虑到了系统延迟,在方法关键词上二者所采用的方法也不同,在效果关键词上示例一提升了精度而示例二具有较好的鲁棒性,两篇专利有着实质的区别。

标注了这三个方面的关键信息之后,可以比较准确地区分出这两个专利。对于理解和梳理这一领域的专利布局、挖掘专利覆盖的方向,都具有明显的助力。

实施方式四,本实施方式是对实施方式三所述的一种中文专利关键信息语料库的构建方法的进一步限定,本实施方式中,对所述技术问题、技术方案以及技术效果,做了进一步限定,具体包括:

所述技术问题包括技术问题的主体和技术问题的预期效果;所述技术方案包括学科知识和主要步骤;所述技术效果的标注位置为说明书摘要的结尾部分。

本实施方式中,将以以下专利的标题和摘要为例,说明本实施方式对于问题、方法和效果这三种信息标注的适用原则。

发明名称:一种考虑系统延迟的不确定工业机器人运动控制方法

说明书摘要:本发明公开了一种考虑系统延迟的不确定工业机器人运动控制方法,首先建立工业机器人机电耦合非线性动力学模型,再利用反馈线性化技术使工业机器人非线性动力学方程线性化,构建动态递归神经网络估计并补偿系统的不确定性,最后提出改进的Smith预测控制方法消除系统延迟的影响。本发明对于系统延迟和不确定性参数具有较好鲁棒性,极大地提高了工业机器人的控制精度。

一、技术问题关键词

在上述示例技术问题关键词为:

考虑系统延迟的不确定工业机器人运动控制方法

该关键词说明了这篇专利要解决在考虑系统延迟情况下工业机器人的运动控制方法。而技术问题关键词在实际标注过程中还可以分为两个方面,即技术问题的主体和技术问题的预期效果,分别对应上述的工业机器人和运动控制方法。技术问题关键词一般均可以直接在题目中到,但是在一些特殊情况下如外文译为中文的专利题目中可能不到关键词,需要从专利摘要中寻概括。

二、技术方法关键词

上述示例的技术方法关键词为:

建立工业机器人机电耦合非线性动力学模型、反馈线性化技术、动态递归神经网络、改进的Smith预测控制

该关键词说明了解决系统延迟的不确定工业机器人运动控制问题所采取的具体学科知识和主要步骤,而实际标注中也是将对技术方法关键词的标注分为学科知识和主要步骤两大类关键词。

三、技术效果关键词

上述实例的技术效果关键词为:鲁棒性、提高、控制精度

该关键词说明了上述专利提出的针对考虑系统延迟的不确定工业机器人运动控制领域的技术方法所取得的效果。在实际标注中,发现技术效果一般存在于摘要结尾,直接提取即可。

此外,考虑到中文的语言特点,在标注过程中还遵循一下标注规则:

1、以顿号分隔关键词

为了统一标注格式,便于后期语料库的应用,规定若出现多个关键词,均以顿号分隔开,并且最后一个关键词后不加标点符号,如上述技术方法关键词的提取:建立工业机器人机电耦合非线性动力学模型、反馈线性化技术、动态递归神经网络、改进的Smith预测控制

2、技术问题关键词作为一个整体短语

由于技术问题一般出现在标题或者摘要中的第一句并且为复合短语,为了保证语义的完整性,规定提取整个的复合短语而不将其分隔开,讲技术问题关键词最大化,如上述技术问题关键词的提取:考虑系统延迟的不确定工业机器人运动控制方法

3、技术方法、效果关键词提取语义片段

有的技术方法和技术效果一般是句子内部的短语,并且动宾语之间间隔较远,若最大化提取的话会造成关键词过于冗杂,所以规定在动宾语距离较远的情况下单独提取动词和宾语,仅提取关键的语义片段。如上述技术关键词所示,将提高了工业机器人的控制精度提取为提高、控制精度。

实施方式五,本实施方式是对实施方式一所述的一种中文专利关键信息语料库的构建方法的进一步限定,本实施方式中,对步骤3,做了进一步限定,具体包括:

具体包括:

步骤3.1、设置专利关键信息和若干个标注规范,根据所述专利关键信息和若干个标注规范,对所述专利数据集进行试标注,具体包括:

步骤3.1.1、对所述专利数据集进行划分,划分为若干个专利数据子集;

步骤3.1.2、根据所述专利关键信息和所述若干个标注规范,分别对一个专利数据子集进行试标注,获取若干个相互独立的标注结果;

步骤3.1.3、对同一标注内容的若干个相互独立的标注结果进行一致性分析,判断所述一致性分析结果是否满足预设标准,若满足,根据一致的标注结果,获取试标注规范;否则,获取不一致的标注结果,执行步骤3.1.4;

步骤3.1.4、将所述不一致的标注结果进行一致性处理,确定修正标注规范;

步骤3.1.5、根据所述修正标注规范和步骤3.1.2中的若干个标注规范,获取若干个新标注规范;

步骤3.1.6、根据所述专利关键信息和所述若干个新标注规范,分别对另一个专利数据子集进行试标注,获取若干个相互独立的标注结果,返回步骤3.1.3。

本实施方式中的预标注有助于减少重复劳动,节省人力和资源,提高效率,提升标注的速度与精度。例如,在预标注阶段,以50篇专利为一周期,采集若干个不同的标注规范,如利用二名标注规范制定者分别独立进行标注,全部完成后计算一致性,并对不一致的结果进行修正,动态更新标注规范,得出一致的标注结果。之后按照新标注规范重复该周期以完善标注规范,直至标注结果的一致性达到80%以上,确定最终的标注规范。

实施方式六,本实施方式是对实施方式一所述的一种中文专利关键信息语料库的构建方法的进一步限定,本实施方式中,对步骤5,做了进一步限定,具体包括:

步骤5.1、根据所述若干个正式标注规范的个数,对所述专利数据集进行划分,获取若干个专利数据子集;

步骤5.2、为每个正式标注规范分配一个专利数据子集,并进行标注,获取若干个第一标注结果;

步骤5.3、为每个正式标注规范分配另一个专利数据子集,并进行标注,获取若干个第二标注结果;

步骤5.4、对同一标注内容的第一标注结果和第二标注结果进行一致性分析,获取不一致的标注结果,并修正所述不一致的标注结果,确定修正后的正式标注规范;

步骤5.5、根据所述修正后的正式标注规范和所述若干个正式标注规范,获取若干个专利标注规范;

步骤5.6、根据所述若干个专利标注规范对相应的专利数据子集进行标注,获取若干个第三标注结果;

步骤5.7、对所述若干个第三标注结果进行抽样检查,若正确率满足预设比例,对不正确的标注结果进行修正,获取修正后的第三标注结果;否则,返回步骤4;

步骤5.8、根据所述修正后的第三标注结果对所述专利数据集进行标注,建立所述某一技术领域的专利语料库。

本实施方式中,在正式标注阶段,获取若干个正式标注规范,该规范可以通过若干个名标注人员根据试标注规范进行重新设置。

为提高结果可信度,采用了多轮迭代标注的策略,例如:

(1)将人工智能机器人专利文本随机分成组,并采集五名标注人员的标注结果。

(2)迭代式交换标注内容,进行第二轮标注。

(3)计算两次标注的一致性,对不一致的结果进行修正,进一步完善和细化标注规范,综合前两轮结果进行第三轮标注。

(4)对第三轮标注结果进行抽样检查并进行聚类计算,若正确率达到或超过0.84则认为标注结果可信,否则重复上述过程直至正确率达标。

(5)最后,对仍有分歧的标注进行校对,修正或删除不合理项,形成人工智能机器人专利语料库。

实施方式七,本实施方式是对实施方式六所述的一种中文专利关键信息语料库的构建方法的进一步限定,本实施方式中,对步骤5.4中的一致性分析,做了进一步限定,具体包括:

步骤5.4中的一致性分析采用Kappa检验方法。

本实施方式给出了计算正式阶段标注结果准确性的方法,以提高专利标注质量。计算如式(1)所示。

其中,P0表示观察一致率,Pc表示偶然一致率。我们选取五名标注人员,对全部文档进行独立标注,根据标注结果进行一致性测试。

实施方式八,本实施方式是基于如上文所述的一种中文专利关键信息语料库的构建方法的具体实施例,具体为:

语料库构建的核心工作是依据制定的标注规范对语料进行标注。由于人工智能机器人领域尚处于发展阶段,专业性较强,而业内缺乏统一的定义和标准,为了确定更加领域适配的标注规范和标注策略,我们将标注过程分为试标注和正式标注两个阶段,在试标注阶段采用反复修正的策略制定初步的标注规范,在正式标注阶段使用了多轮迭代标注模式进行标注规范的更新以及标注工作,如图1所示。

预标注有助于减少重复劳动,节省人力和资源,提高效率,提升标注的速度与精度。在预标注阶段,我们以50篇专利为一周期,采集若干个不同的标注规范,即由二名标注规范制定者分别独立进行标注,全部完成后计算一致性,并对不一致的结果进行修正,动态更新标注规范,得出一致的标注结果。之后按照新标注规范重复该周期以完善标注规范,直至二人一致性达到80%以上,确定最终的标注规范。

在正式标注阶段,为提高结果可信度,采用了多轮迭代标注的策略,即:

(1)将人工智能机器人专利文本随机分成五组,并采集五名标注人员的标注结果,即由五名标注人员分别标注。

(2)迭代式交换标注内容,进行第二轮标注。

(3)计算两次标注的一致性,对不一致的结果进行修正,进一步完善和细化标注规范,综合前两轮结果进行第三轮标注。

(4)对第三轮标注结果进行抽样检查并进行分析,若正确率达到或超过0.84则认为标注结果可信,否则重复上述过程直至正确率达标。

(5)最后,对仍有分歧的标注进行修正,修正或删除不合理项,形成人工智能机器人专利语料库。

基于上述实施例,最终实现的中文专利关键信息语料库共标注技术问题366个,技术方法1384个,技术效果691个。如表3所示,这批机器人专利中关注的问题主要集中在运动控制、可编程性、路径规划等;解决问题所用的技术方法主要包括深度学习、图像采集、坐标转换等;所达到的技术效果包括提高精度,提高效率,避免碰撞等。

表3语料库词频分析统计

通过计算,本发明建立的语料标注的Kappa值为0.88,达到了用户预期的要求。

本文发布于:2024-09-24 22:30:30,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/68788.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议