基于主体-行为-客体(SAO)三元结构的专利分析方法研究综述

2021年第4期科技管理研究Science and Technology Management Research 2021 No. 4
doi:10.3969/j.issn.l000-7695.2021.04.021
基于主体-行为-客体(SAO  )三元结构
专利分析方法研究综述
曹国忠1>2,杨雯丹1>2,刘新星3
(1.河北工业大学机械工程学院,天津300401;
2.国家技术创新方法与实施工具工程技术研究中心,天津300401;
3.肇庆小鹏新能源投资有限公司,广东肇庆526060 )
摘要:分析目前最具代表性的基于主体-行为-客体(S A O )三元结构的专利分析工具研究现状,包括SAO 结构 研究主要内容和基于SAO 结构的专利分析流程及其应用。研究发现:(l )S A O 结构研究主要包括S 、A 、O 元素 的独立研究、两两组合研究及其相互关系研究;(2)基于SAO 结构的专利分析流程主要分为数据预处理、SAO 结构提取、SAO 结构后处理和图表解释4个阶段;(3)基于SAO 结构的
专利分析方法主要分别从扩大研究词覆 盖范围、构建和分析SAO 结构网络、优化SAO 结构提取方法和分类研究SAO 结构来提高专利分析的全面性、深 入性和准确性,研究难点是对SAO 结构中非分类关系的提取;(4)基于SAO 结构的专利分析方法在专利情报分 析领域跟踪科学研究发展并预测其发展前沿,在创新设计领域分析产品需求、结构和功能及推送设计概念,.在专利 知识管理系统开展专利分类、技术信息挖掘和展示以及发明知识推送,在企业管理领域帮助企业管理知识产权和组 织实施战略,在各技术领域的应用扩展将是其未来发展趋势和研究热点。
关键词:主体-行为-客体(S A O );专利分析方法;专利情报分析;创新设计;专利知识管理系统;企业管理 中图分类号:G306; G250.252; G301 文献标志码:A 文章编号:1000-7695 ( 2021 ) 04-0158-10
Review of Patent Analysis Methods Based on Subject-Action-Object Ternary Structure
Cao Guozhong1 % Yang Wendan 丨 ‘,Liu Xinxing3
(1.School of Mechanical Engineering, Hebei University of Technology, Tianjin 300401,China;莫迪利亚尼
2.National Engineering Research Center for Technological Innovation Methods and Tool, Tianjin 300401,China;
3.Zhaoqing Xiaopeng New Energy Investment Company Ltd., Zhaoqing 526060, China)
Abstract: This  paper  reviews  the  present  situation  of  the  most  representative  patent  analysis  methods  based  on  Subject - Action—Object  (SAO  ) ternary  stmcture , the  study  involves  the  main  content  of  SAO  ternary  structure  research , the patent  analysis  process  based  on  SAO  ternary  structure , and  its  application . Results  show  that :(l ) The  research  of  SAO ternary  structure  including  the  independent  study  of  S , A  and  O , the  study  of  pain\r ise  combination , and  the  study  of their  interrelationships . (2)The  patent  analysis  process  based  on  SAO  ternary  structure  consists  of  data  preprocessing , SAO  ternary  structure  extraction , SAO  ternary  structure  post —processing , and  chart  interpretation . (3)Patent  analysis methods  based  on  SAO  ternary  structure  improves  the  comprehensiveness , in—depth  and  accuracy  of  patent  analysis from  four  aspects : expansion  of  the  coverage  of  research  words , construction  and  analysis  of  SAO  ternary  structure network , optimization  of  SAO  ternary  structure  extraction  method , and  classification  research  of  SAO  ternary  structure , among  them , non-classification  relation  extraction  is  its  challenge .(4)Patent  analysis  methods  based  on  SAO  ternary structure  tracts  the  development  of  scientific  research  and  predicts  its  frontiers  in  patent  intelligence  analysis , analyzes product  requirements , structure  and  functions
  to  provide  design  concepts  in  innovation  design , classifies  patents , mines technical  information , and  displays  them  to  recommend  inventive  knowledge  in  patent  management  system , manages intellectual  property  rights  and  organizes  implementation  strategies  in  enterprise  management , broadening  its  application fields  is  one  of  the  development  trends  and  hot  topics .
Key words: Subject —Action—Object  ( SAO  ) ; patent  analysis  method ; patent  intelligence  research ; innovation  design ; knowledge  management  system ; enterprise  management
收稿日期:2020-06-08,修回日期:2020-08-21
超低碳钢基金项目:国家创新方法工作专项项目“‘端端驱动、融合赋能’创新方法新系统研究与应用示范”(2019IM020200)
1专利分析概述
曹国忠等:基于主体-行为-客体(S A O  )三元结构的专利分析方法研究综述159
专利的技术信息具有新颖性、创造性和实用性 的特点,且专利的表述专业、内容详尽、格式规范, 是开展技术分析和技术管理的重要技术资料。从专 利中挖掘技术信息并予以有效管理和解读,对专利
的分析和利用具有重要意义。专利分析通常可分为 结构化数据分析和非结构化数据分析。典型的专利 结构化数据包括申请日、发明人、IPC 分类号、引 用量和被引用量等,通过分析该类数据可获知专利 的价值、技术/产品的发展路径和技术/产品的成熟 度等[w ]。专利的非结构化数据通常指专利的标题、 摘要和说明书中的文本信息,分析该类数据所展示 的技术信息是对结构化数据分析结果的有效补充[4]。 近年来,专利对于企业的作用逐渐从保护知识产权 扩展为技术信息的管理和应用15],因此,专利的非 结构化数据分析越来越受到学者们的重视。专利的非结构化数据分析也称为专利文本分析。 由于专利的标题和摘要是专利全文的概括性表述, 早期的专利文本分析主要集中于标题和摘要,此后 随着研究成果的应用推广,人们要求专利分析应当 做到更全面、更深人和更准确,因此专利文本分析 的研究范围逐渐向权利要求书和说明书延伸。依托 文本挖掘和自然语言处理技术的发展,专利文本分
析的研究对象也逐渐由关键字向语义倾斜[6 ]。目前,
专利文本分析已被广泛应用于人力资源管理、专利
侵权判定、专利新颖性判定、技术机会识别和技术
信息管理等。
基于主体-彳了为-客体,即Subject -Action -
Object  (SAO )三元结构的专利分析方法,是一种随
着专利语义分析需求而兴起的专利分析工具,它不
但能提取专利文本中的关键概念,辅助构建专利知
识管理系统,还能更有效地挖掘专利知识用以辅助
创新设计。近年来,人工智能方法和可视化工具的
发展更是促进了基于SAO 结构的专利分析方法的发
展和应用,基于SAO 结构的专利分析方法在知识获
取、科学研究等领域有着广阔的应用前景>8]。本
研究通过选取和分析中国知网(CNKI )和美国科学
网(Web  of  Science  )数据库平台中基于SAO 结构的
专利分析方法的研究成果,总结了 SAO 结构研究的
主要内容和基于SAO 结构的专利分析流程,讨论了
基于SAO 结构的专利分析方法提高传统专利分析方
法全面性、深人性和准确性的主要研究成果,并对
SAO 结构分析方法在专利情报分析、创新设计、专
利知识管理系统和企业管理领域的应用进行了阐述,
以期为如何应用基于SAO 结构的专利分析方法更好
地服务于知识获取和科学研究提供帮助。  2 SAO 结构研究Subject -Action-Object  ( SAO  )结构是从文本语
料库中提取的二兀组。其中,主体(Subject ) S 兀
素和客体(Object ) 0元素是名词,行为(Action )
A 元素是这些名词的动作或表示它们之间的关系。
SAO 结构研究的主要内容包括以下4个方面:
一是对S 元素或0元素的分析,即实体分析。
例如,计算S 元素或0元素在文本中出现的频率,
用来识别核心技术组件[9]。
二是对A 元素的分析,即关系分析。例如,通
过表示系统组成类的动词(如:有、包含等),可
辅助构建产品形态结构[1<>];通过表示系统属性类
的动词(如:测量、分解等),可获取特定问题的
解决方案[11]。
三是将SAO 结构作为一个整体分析其语义信息,
即文本语义信息分析。例如,将S 元素和0元素视
为作用对象和被作用对象,则A 元素代表了 S 元素
的功能[12];将SA 组合视为产品的功能,则0元素
代表了产品功能的效应[12];将A 0组合视为问题,
则S 元素代表了解决该问题的方案[13]。
四是研究不同SAO 结构之间的关系。例如,构建
冯永军SAO 结构网络,使用社会网络分析技术分析领域中的
通用技术、核心技术、新颖技术和技术成熟度等[14]。3基于SAO 结构的专利分析流程基于SAO 结构的专利分析是指从专利文本中获 取和研究SAO 结构的过运,其通用流程如图1所示, 包括数据预处理、SAO 结构提取、SAO 结构后处理 和图表解释4个主要步骤。(1 )数据预处理,包括将专利文本拆分为句子、 将句子拆分为词语(处理英文文本时不含该步骤)、 将词语词干化(具体为将名词的复数形式、动词的 过去式、过去分词等转化为原形,但处理中文文本 是不含该步骤)、标记词性等自然语言处理步骤, 以及基于统计学原理的数据清洗步骤。(2) SAO 结构提取,主要通过基于符号的方法 或基于统计的方法实现。基于符号的SAO 结构提取 方法通常包含元素识别和关系构建两个步骤[151。 其中,关系构建的任务是识别和抽取元素对之间的 关系,是最核心、最具有挑战的部分[16]。另一种 基于统计的SAO 结构提取方法是指,使用统计模型 或机器学习算法学习语言规则,进而匹配
词法、语法、 语义等特征来提取SAO 结构[7]。目前,学者们多 使用 Link  Grammar 、StanfordNLP 、OpenNRE、Jieha 等开源自然语言处理工具半自动化提取SAO 结构, 或使用 Goldfire  Innovator、VantagePoint  等专利分析
160曹国忠等:基于主体-行为-客体(S A O  )三元结构的专利分析方法研究综述工具自动提取。为了提高SA 0结构在后续分析任务 中的可用性,学者们也常将自动化方法、基于符号 和基于统计的方法相结合[16]。(3 ) SAO 结构后处理,主要是指对SAO 结构进行分类研究,以及绘制基于SA 0结构的专利图表。 该步骤依据专利分析的最终目的开展。(4)图表解释,即是从上一步构建的专利图表
中获取知识的过程。
主臟-----►
分步骤:------->
秘密花园入口
数据流:------►
图1基于S A O 结构的专利分析通用流程
4基于S A O 结构的专利分析方法研究现状首先,自然语言处理技术在专利分析中的应用 改善了过去需要大量专家参与且费时费力的缺点, 基于SA 0结构的专利分析方法作为一种自然语言处 理技术与专利分析方法的融合产物,得到了学者们 的广泛关注。近年来,机器学习算法的推广,更是 提高了基于SA 0结构的专利分析方法处理大型语料 库的能力;此外,基于SA 0结构的专利分析方法不 但关注文本中的主谓宾结构,还能研究复杂句式中 的定状补表等特殊成分[17_~。因此,基于SA 0结 构的专利分析方法相较于传统专利分析方法,不再 受到数据量的限制,在研究内容上也能覆盖更多的 文本信息,即提高了专利分析的全面性。其次,由 于专利分析逐渐由线性向网络化转变,部分学者开 展了专利网络的研究[2°]。传统专利网络多以专利 文献或专利权利人为节点,以文献间的引用关系或 作者合作关系为连接;SA 0结构的引人,使专利网 络的研究对象深人为文本的语义结构,为研究专利的隐性知识提供了一种新的思路。因此,基于SA 0
结构的专利分析方法相较于传统专利分析方法,能 够解读更加深刻的关系,即提高了专利分析的深人 性。第三,专利分析不但需要全面、深入地认识和 把握专利中的技术信息,还需要准确获取和理解专 利中的知识。相较于基于关键字的专利分析方法, 基于SA 0结构的专利分析方法从句法关系角度研究 专利信息,解读的是关键字之间的语义关系;另外, 基于SA 0结构的专利分析方法不但能提取到专利中 的技术主题、技术应用领域、技术功能、技术功能 达到的效果以及为达到效果可采用的方案等技术信 息,还能解读不同类别技术信息之间的内在关联性。 因此,基于SA 0结构的专利分析方法相较于传统专 利分析方法,能获取专利信息中的核心概念,能解 读核心概念之间的逻辑,即提高了专利分析的准确 性。表1所示为基于SA 0结构的专利分析方法提高 传统专利分析方法全面性、深入性和准确性的主要 研究成果。
研究目的 学者姓名提高专利分析温亮等i 方法的全面性Kim 等1苗红等1提高专利分析Yoon 等方法的深人性Choi 等 Yang 等表1基于S A O 结构的专利分析方法主要研究成果
主要研究成果增加了对复杂句式中状语的分析;增加了对介词性名词语块、动词性名词语块和连词性名词语块的处理 从复杂句式中的宾语位置提取SAO 结构;从“for”和“to”引导的短语中提取SA0结构余姚瀑布茶
使用Technology-Relationship-Technology ( TRT )结构分析方法与基于SA 0结构的专利分析方法相结合的方式,
进一步扩大词的覆盖范围
使用SA0结构网络的子网络密度进行专利分类;使
用网络的节点度分布、全局中心性评价专利的技术重
要度和技术适用性
使用节点的出人度值分析S 元素和0元素的价值;使用SA0结构在网络中的密度和聚系数分析技术的价值等 通过观察节点度的概率分布在技术发展时间线上的变化,分析技术发展的成熟度;使用节点的Burt 约束值评价
节点的竞争优势____________
______________________________________________________________________
曹国忠等:基于主体-行为-客体(S A O)三元结构的专利分析方法研究综述161
表1 (续)
研究目的学者姓名
-★达雄[23]
主要研究成果
方法的准确性
马勋等[24]
翟东升等[25]
饶齐等[26]
何宇等[27]
张永真等[28]
Choi 等[29]结构
使用依存句法分析,计算实体对与关系词之间的结合强度,设置SA O结构的提取规则
使用依存句法分析,对文本进行分词和依存关系标注,进而设置SA O结构的提取规则
使用一种有指导的支持向量机(SVM )学习算法提取SA O结构
在基于SV M的SA O结构抽取模型中加人基于句法特征的关系词距核心关系词的距离、SA O结构强度和关系词 词典等特征
使用XGBoost机器学习算法提取SA O结构
将专利文本中的S元素和0元素分为产品、技术、材料和技术特征4类,将A O s分为组成、效果和属性3类,构建一种新型技术树
Vicente-Gomila 等[30)
段庆锋等[3n
Yang等[15]将专利文本中的SA O结构分为“what” “who” “where” “why” “how” 5类,研究$A0元素或结构之间的逻 辑关系
将SA O结构分类为问题、功能、效果、方案4类,构建技术功效矩阵
为了开展有针对性的设计活动,将表述为包含“增加”“稳定’’“质量”等元素的SA O结构定义为“与需求高 度相关的”_______________________________________________________
4.1提高专利分析方法的全面性
随着对专利分析方法全面性要求的提升,许多 文献的研究对象已由过去的专利标题和摘要扩展为 专利权利要求书和说明书。基于SAO结构的专利分 析方法的出现,为提高专利分析方法的全面性提供 了一个新的研究方向,即,从研究专利文本中的句 法结构扩大到研究词的覆盖范围。例如,温亮等[n] 使用基于SAO结构的专利分析方法研究了复杂句式 中状语位置的名词语块,主要采用句子主干提取规 则和复杂名词语块分解规则相结合的方式提取一个 句子中的多个SAO结构,具体步骤为:先使用句子 主干提取规则提取一个句子中的主要A元素,然后 将句子中的状语作为新的简单句,再使用复杂名词 语块分解规则分析介词性名词语块、动词性名词语 块和连词性名词语块,并提取SAO结构。幻111等[18]提出了一种SAOx方法来提高专利分析方法的全面 性,该方法提取了复杂句式中宾语位置的SAO结构,同时还从复杂句式中“for”和“to”引导的短语中 提取了 SAO结构。苗红等[19]提出使用技术-关系- 技术(TRT)结构分析方法与基于SAO结构的专利 分析方法相结合来提高专利分析方法的全面性,其 中TRT结构中的TR组合相当于SAO结构中的S元 素,TRT结构中的T元素相当于SAO结构中的A0组合,TRT结构通过Python开发的NP-PP (名词短 语-介词短语)模块获取。苗红等[19]提出的方法中,TRT结构分析方法与基于SAO结构的专利分析方法 互为补充,进一步补充了专利分析的词覆盖范围。4.2提高专利分析方法的深入性
专利网络作为一种专利分析工具,由于引人了 社会网络分析技术,能将专利关系进行量化处理,得到
了学者们的广泛关注。SAO结构的引入,使专 利网络的研究对象能够深入为专利文本中的语义结 构,据此构建的专利SAO结构网络能从网络结构、节点位置和节点关系三方面研究更深层次的专利隐 性知识,依托社会网络分析技术的量化指标能解读 更加深刻的关系,进而增加了专利分析方法的深入 性。一种常见的专利SAO结构网络构建和分析流程 如下:(1)获取专利文本中的S元素、A元素和0元素;(2)将S元素和0元素作为网络的节点,  A 元素作为节点的连线,按元素的共现频次绘制SAO 结构网络;(3 )使用社会网络分析技术分析网络中 的节点和连线。例如,¥〇〇1!等[21]使用专利SAO结 构网络的子网络密度(density of suh-networks)研究 了专利的分类,其中SAO结构直观表述了不同专利 类别的技术特征;丫〇〇11等[21]还提出,SAO结构网 络的节点度分布(degree sum index).和全局中心性 (global centrality index)可以用来解读专利的技术重 要度和技术适用性。〇^等[22]构建的专利SAO结 构网络是一个加权有向网络,主要用于识别技术趋 势,网络中的节点由S元素、A元素和0元素构成,节点间的连线由SAO结构中的S元素指向A元素、指向0元素,权重为直接指向在专利中出现的次数,认为在该网络中:入度高的0元素是极有可能成为 对各个领域均有用的技术,或是某项技术绩效的重 要指标;出度高的S元素是相关领域的一项通用技 术;具有高密度和高聚系数的SAO结构是核心技 术,或是一种少数研究团队开发的技术;具有高密 度和低聚系数的SAO结构是一项通用技术;具有 低密度和高聚系数的SAO结构是一项核心技术,或是一种少数研究团队开发的新颖技术。Yang等[141提出了一种基于SAO结构的专利技术发展成熟度分 析方法,使用该方法绘制了一组基于时间切片的专 利SAO结构网络,通过观察网络节点度的概率分布在技术发展时间线上的变化,
分析了专利技术发 展的成熟度;他们还指出,SAO结构网络中节点的 Burt约束值(Burt constraint值),即与更多的节点
162曹国忠等:基于主体-行为-客体(S A O)三元结构的专利分析方法研究综述
连接但是与它连接的节点没有直接或相互关联的现 象,展示了节点的竞争优势。
4.3提高专利分析方法的准确性
绝密武器电影使用增加专利数据量和扩大专利文本研究词覆 盖范围的方法,可以有效避免专利分析中数据稀疏 和部分核心内容可能丢失的情况,但同时也会带来 数据冗余的问题。为了提高SAO结构在后续专利分 析任务中的可用性,进而提高专利分析的准确性,学者们主要从优化SAO结构提取方法和分类研究 SAO结构两个方面开展研究。
4.3.1优化SAO结构提取方法
基于SAO结构的专利分析方法相较于基于关键 字的专利分析方法,还能够获取句法结构中的关系,而关键字和关键字间的句法关系又构成了文本的语 义信息,因此,SAO结构提取方法的性能成为了影 响专利分析准确性的关键因素之一。
SAO结构提取方法可分为基于符号的方法和基 于统计的方法。在基于符号的SAO结构提取方法方 面,许琦等1231提出使用专利结构化数据分析方法 与基于符号的SAO结构提取方法相结合的方式来提 取SAO结构,具体步骤为:(1)构建专利的引证 网络,并依据引证路径的连接统计值(search path link count,SPLC)和节点对统计值(search path node pair,SPNP)提取领域知识进化轨迹;(2)使用 Link Grammar语法分析器从领域知识进化轨迹上的 专利中提取SAO结构。使用优化的SAO结构提取方 法提取的SAO结构具有稳定性、统摄性、遗传性和 变异性的特征,是有效的领域知识基因。另外,依 存句法分析(dependency parsing)由于主要研究句 子中词语之间的依存关系,能准确识别主谓宾、定 状补等句子成分,得到了学者们的重视[244]。借助 依存句法关系,可利用句法分析器自动标注词间关 系,进而设定SAO结构的提取规则。
在基于统计的SAO结构提取方法方面,使用 机器学习算法将文本信息做分类处理是一种最典型 的做法,其中,机器学习算法与特征的选择是影响 SAO结构提取性能的主要因素。例如,饶齐等[26]使用一种有指导的支持向量机(SVM)的机器学习 算法,依据实体距离特征和句法树特征提取了中文 专利中的SAO结构,实验证明,引入距离特征和简 单的上下文词法特征能有效提高SAO结构中关系提 取的准确性;何宇等[27]基于以上特征又加入了关 系词距核心关系词的距离、SAO结构强度和关系词 词典等特征,提取了中文专利中的SAO结构,实验 证明,优化特征后SAO结构提取方法在正确率、召回率和F值上都优于饶齐等[26]提出的方法。张永真等[28]则是使用了预测准确率高、速度较快、性 能较
好的XGBoost算法来优化关系提取方法的性能。近年来,面向自然语言处理的预训练模型发展迅猛,且有效地提高了关系抽取任务挖掘出更多非线性语 义特征的能力[16]。由此可知,深度学习的方法在 基于SAO结构的专利分析方法上的应用,将为提高 专利分析的篇章理解能力提供新的思路。
4.3.2分类研究SAO结构
优化SAO结构的提取方法属于提高SAO结构在 下游任务中可用性的前置优化方法,分类研究SAO 结构则属于其后置优化方法。优化SAO结构的提取 方法能有效提高关键字及其关系提取的准确性,进 而提高专利分析的准确性;而分类研究SAO结构的 方法则是从提高待解读SAO结构对下游特定任务 和目标的针对性来提高专利分析的准确性。例如,Choi等[291使用分类研究SAO结构的方法构建了一 种由产品、技术和功能3个维度构成的技术树,将 从专利中提取的S元素和0元素分为产品、技术、材料和技术特4类,A0组合分为组成、效果和属性 3类;相较于传统的技术树,使用该方法构建的技 术树包含了更丰富、更详细也更准确的技术信息,对于后续设计决策更具指导性。Vicente-Gomila等[M] 使用语义技术创新方法(TRIZ)和基于SAO结构的 专利分析方法相结合的方式,将专利中的技术信息八、f,“1■”“1”“1”“|”-f-n “1”7T7)J J w hat who where why和 how
等5类;迳样的分类同时考虑了技术与其周围元素 的关系,使专利分析的结果更具逻辑性。段庆峰等[31]为了能构建一种表达更准确技术信息的专利技术功 效图,将从专利中提取的SAO结构依据其逻辑
关系 分为问题、功能、效果和方案4类。Yang等[9]为 了识别具有巨大市场潜力的核心技术组件,开展了 SAO结构的分类研究,将包含“增加”“稳定”“质 量”等元素的SAO结构定义为“与需求具有高度相 关性的SAO结构”,据此提取的待解读SAO结构对 于后续设计任务来说具有更强的指导性。
5基于S A O结构的专利分析方法应用领域
在当前数据驱动发展的形势下,为决策者提供 数据支持是专利分析的重要职责。基于SAO结构的 专利分析的主要应用领域包括专利情报分析、创新 设计、专利知识管理系统和企业管理,其研究成果 的应用领域分布如图2所示。
5.1在专利情报分析中的应用
专利情报分析的结果主要应用于跟踪科学研究 领域的发展变化和预测前沿科学研究[8]。SAO结构 的引人,为传统的基于非结构化数据或基于关键词

本文发布于:2024-09-22 09:44:47,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/211152.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:专利   结构   分析   技术   研究   分析方法   提取
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议