基于SAO结构语义分析的新兴技术识别研究

基于SAO结构语义分析的新兴技术识别研究
李欣;王静静;杨梓;黄鲁成
【摘 要】Purpose/Significance] How to detect and identify the emerging technologies with commercial potentials in the new technolo-gies sea is a crucial issue for the national R&D strategic planning of China and enterprises practices. [ Method/Process] As for avoiding the weaknesses of using patent citation and keywords analysis approach to identify the emerging technologies,this paper proposes a method to identify emerging technologies based on Subject-Action-Object ( SAO) structures. Firstly,the paper uses the data mining method to ex-tract the SAO structures from the claims of patents. Then,the patent clustering topics are obtained by applying the semantics similarity anal-ysis method. After that,emerging technologies are identified by using patents map and SAO structures analysis method. [ Result/Conclu-sion] Finally,the perovskite solar cells technology domain case is used to analyze the effectiveness and feasibility of the method.%[目的/意义]如何在新技术不断涌现的技术大海中寻和识别有颠覆性潜力的新兴技术,对于企业或国家来说是至关重要的
战略议题。针对目前在新兴技术识别中存在的不足,即专利引用信息的滞后性和关键词聚类既不能深入反映专利文献表达的主题,也不能很好地揭示技术主题之间的关联关系等问题。[方法/过程]研究提出了基于SAO结构语义分析法的新兴技术识别模型。并首先利用文本挖掘方法抽取专利权利要求项中的Subject–Action-Object( SAO)结构,其次利用改进的语义相似度算法对专利文本进行聚类,然后结合基于时间切片的专利地图和语义分析法识别新兴技术。[结果/结论]用钙钛矿太阳能电池作为实证进行了研究,验证了该模型的可行性和有效性。
【期刊名称】《情报杂志》
【年(卷),期】2016(035)003
【总页数】5页(P80-84)
【关键词】SAO结构;语义分析;专利数据;专利技术;新兴技术识别
【作 者】李欣;王静静;杨梓;黄鲁成
【作者单位】北京工业大学 经济与管理学院 北京 100124;北京工业大学 经济与管理学院 北京 100124;北京工业大学 经济与管理学院 北京 100124;北京工业大学 经济与管理学院 北京 100124
【正文语种】中 文
【中图分类】F204;G350
进入21世纪,随着科学技术发展的高度融合,技术创新过程日益缩短,以纳米技术、生物技术、新材料技术等为代表的新一代高科技技术正不断涌现。这些技术的出现与发展不仅改变了传统产业的发展形态,而且改变了人们的意识、观念和生活方式,改变了社会经济生产方式[1]。这类技术被管理学界称为新兴技术(Emerging Technology)。它具有创造一个新行业或改变一个现存行业并对经济结构产生重大影响的潜力[2]。这种现象也突出体现了熊彼特1934年提出的技术创新的“创造性破坏”特征[3]。这种由不连续创新而产生的新兴技术既可能会导致现有产业技术范式的转变或技术轨道的变迁,也可能会导致新兴产业的产生,并衍生出一系列新的发展模式。也正因为如此,关于新兴技术的研究已广泛受到各国政府、企业界和学者的高度重视。同时,在新技术不断涌现的技术大海中如何寻和识别有行业颠覆性潜力的
新兴技术,对于企业来说也是至关重要的。
基于此,学者们就如何寻、发现和识别新兴技术开展了大量的研究工作。文献计量学中的引文分析被广泛用来发现和识别新兴技术或新兴技术主题。文献之间的引用关系代表他们之间的知识关联关系,而利用引文聚类可以将有相互关系的文献聚在一起,并通过分析引文聚类随时间的变化可以很清晰的发现或识别出新兴技术或新兴技术主题。因此,通过引文聚类方法来发现新兴技术或新兴技术主题已被学者们所广泛利用。Choi C,et al.提出一种主路径分析算法,通过从专利和专利引文信息中提取专利发展的主路径,分析技术发展的历史路径和发展趋势,以此来发现技术领域内的新技术,并以闪存技术为例进行了实证研究[4]。Chen S H.,et al.以智能电网技术领域中专利引文数据为分析对象,通过利用时间切片的形式对专利引文进行分析来描绘技术演化的轨迹,进而发现新兴技术主题[5]。Fu Jita,et al.以氮化镓、复杂网络和纳米碳三个领域内的引文网络为研究对象,通过分析引文网络权重随时间的变化来发现新兴技术主题[6]。
基于引文的新兴技术识别方法,都是以引文文献为数据源来进行聚类,不可避免地会存在引文在发现新兴技术上的潜在弱点:引用文献与被引文献在时间上的滞后性。即一篇文献从发
表到被引用需要一定的时间,而施引文献从完成到发表又需要一段时间,这样基于引文的方法探寻出来的结果更趋于热点而非新兴。由于引文的滞后性,很多学者试图从文本内容(如关键词等)入手来探寻新兴技术。因为专利中的关键词能够反映专利中的技术主题。通过分析术语词或关键词随时间变化的特征,对于发现和识别新兴技术或新兴技术主题是非常有价值的。因此,通过研究科技文献中的高频关键词或术语词的变化可以发现新兴技术或新兴技术主题。Tseng Y H.,et al.利用文本挖掘技术对专利数据进行分析,并通过分析共现词的变化来发现新兴技术主题[7]。Kim Y.G.,et al.提出一种基于语义专利分析的可视化方法,用于发现和预测新兴技术,其方法主要是利用关键词在专利文本聚类中的层次分布关系,并结合专利的申请日期绘制出揭示技术主题演变趋势的专利网络图,进而发现和预测新兴技术[8]。方曙,等在此分析方法的基础上,提出一种更完善的基于专利文献的技术演化分析方法,并以石墨烯传感技术为例进行了实证对比研究[9]。
虽然基于文本内容的关键词分析法在识别新兴技术上相比基于引用关系的方法更加直接,不存在引文分析在时间滞后的弱点。但这种基于关键词的新兴技术或新兴技术主题识别方法存在如下局限:a.关键词既不能深入反映专利文献表达的主题,也无法反映词与词之间的关联关系,因而也不能很好地揭示技术主题之间的关联关系[10];b.在利用关键词向量进行聚类
并生成聚簇主题时,不是基于对聚簇内容的理解,而只是相对简单地选取高频关键词术语来代表聚簇的技术主题,且聚簇主题的命名多依赖于专家知识[11]。因此,利用基于关键词分析法可能并不足以揭示新兴技术或新兴技术主题。
文本挖掘是指从大量、无结构、有噪音的文本信息中发现潜在的数据模式、内在联系、发展趋势等,抽取文本中有价值的信息和知识的过程[12]。因对文本信息具有分析、挖掘能力,文本挖掘是分析和发现新技术的有效手段[13]。文本挖掘最初应用于发现新兴技术是通过分析文献中词频的变化来实现[14]。而随着信息技术的不断发展,基于语义分析的文本挖掘方法得到快速发展。相对基于统计的文本挖掘,基于语义分析的方法能考虑更多的文本信息,从而显著提高文本挖掘的性能。而在基于语义分析的文本挖掘中,基于Subject-Action-Object(SAO)结构的文本语义分析方法已在许多领域得到广泛应用。因此,为了有效解决基于引文和关键词分析法在发现和识别新兴技术上存在的局限性,本文利用基于SAO结构语义分析的文本挖掘方法来进行新兴技术发现和识别研究。首先,利用文本挖掘方法抽取专利权利要求项中的SAO结构;其次,利用语义相似度算法对专利文本进行聚类,然后结合基于时间切片的专利地图和语义分析法识别新兴技术。

本文发布于:2024-09-24 20:19:00,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/415521.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:技术   专利   分析   文本   发现
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议