基于论文和专利数据的研究前沿挖掘研究——以智能网联汽车领域为例

(北京林业大学经济管理学院,北京100081)
摘 要:[目的/意义]对比论文数据和专利数据的特征指标,识别热点、新兴、潜在和消亡研究前沿主题。[方法/过程]利用LDA主题模型,对智能汽车领域相关的论文数据和专利数据进行主题提取,计算两个数据源下各主题的强度和主题新颖度并进行对比分析。[结果/结论]本文识别出路径规划技术等热点研究前沿6个、智能计算等新兴研究前沿2个、安全认证技术等潜在研究前沿6个、车载平台等消亡研究前沿6个。本文在前沿识别方法上进行了创新,有效识别出领域内研究前沿并进行分类,为相关机构和研究人员提供借鉴。
关键词:研究前沿主题识别LDA主题模型智能网联汽车
中图分类号: G306;G353.1 文献标识码:A
0引言
科技创新能力作为综合国力竞争的决定性因素,在当今社会发挥巨大作用。研究前沿是科学技术创新中最新、最具有潜力和前瞻性的研究方向。[1]因此,准确识别研究前沿,可为国家明确科技战略重点、前瞻性部署科技创新主要方向提供支持,实现有限资源的最佳配置。科技论文是科学工作者理论研究进展和成果的产出形式,专利则体现出从理论研究走向实践、走向商业化的程度,将论文、专利数据相结合,可以在基础研究层面和应用研究层面上探测科学技术发展的前沿趋势,有效提升预测结果的准确性。
智能网联汽车是未来全球汽车产业发展的必然趋势,具有可观的商业利润和巨大的应用前景,是新一轮世界新兴产业发展变革的战略制高点。我国对这片蓝海给予高度重视:2018年12月,工业和信息化部发布《车联网(智能网联汽车)产业发展行动计划》,指出要加快智能网联汽车产业发展。2019年9月,中共中央、国务院印发的《交通强国建设纲要》强调要加强智能网联汽车(智能汽车、自动驾驶、车路协同)研发,形成自主可控完整的产业链。[2]2020年2月,《智能汽车创新发展战略》正式发布,为我国智能网联汽车的未来发展指明了方向。
在科学研究意义上,论文反映基础研究,专利反映应用研究。[3]本文以智能网联汽车领域为例,结合论文数据和专利数据,通过对比主题强度和主题新颖度,识别研究前沿,为我国智能网联汽车领域创新决策和管理提供支持。
1研究现状
1.1“研究前沿”内涵
1965年,Price首次提出了研究前沿这一概念,他认为研究前沿体现在被引文献中,是一组新颖且拥有高被引量的论文集合,可用于划分科学和非科学。[4]1994年,Perrson指出研究前沿的知识基础是被引文献,施
作者简介:卢嘉悦(1999—),女,浙江湖州人,本科(在读),研究方向:文本数据挖掘,信息管理与信息系统;李艳(1971—),女,辽宁沈阳人,博士,教授,研究方向:技术竞争情报,知识与创新管理。
前沿是具有这两个特点的研究主题。[9]
在现有的研究中,学者通过不同的探测识别方法,得到了不同表现形式的研究前沿,从而给予研究前沿不同的定义。关于研究前沿的定义可以分为三类:通过共被引聚类得到的高被引文献,通过文献耦合得到的施引文献和通过词语分析得到的突发或热点主题。1.2研究前沿识别的数据来源
数据的选取对研究前沿识别的效果有重要影响。王贤文等人根据计量学数据的特点和用途,将数据对象分为发文数据、引用数据、使用数据和替代计量数据。[10]在科学前沿识别的研究中,科技论文、专利
、基金项目、科技规划等数据源被广泛使用。李小涛等人基于ESI 高被引论文对医学信息领域的研究前沿进行了可视化分析。[11]王效岳等人基于基金数据对碳纳米管领域的研究前沿主题进行了识别。[12]高楠等人利用专利数据及专利IPC分类号分析了人工智能领域的前沿技术演化。[13]白如江等人基于科技规划文本,进行了碳纳米管领域的研究前沿主题地图构建。[14]
近年来,多源数据融合的前沿识别方法逐渐受到关注。刘博文等人将美国国家科学基金会(NSF)基金项目和WOS论文相结合,提取出了碳纳米管领域的科学研究前沿。[15]许晓阳等人利用德温特专利数据库和WOS论文数据,对LED领域的研究前沿进行了识别。[16]
1.3LDA模型理论基础
罗瑞等人指出,现有的研究前沿识别方法可分为专家判断法和计量分析法两大类,[17]前者以德尔菲法、专家咨询法等为主要方法,后者以Blei提出的LDA 主题模型为代表。LDA主题模型是Blei等人在PLSA (概率隐语义分析)模型的基础上进行贝叶斯改进而提出的,受到了广泛的认可和使用。
图1 LDA生成图
一个文档的生成过程如下:
采样
对于文档d中的每一个词 w,我们:
——采样一个主题标签;
——生成对应的。
其中
通过“文档→主题→词汇”这一生成链,得到两个重要的概率分布:“文档→主题”分布和“主题→词汇”分布。因为这两种分布都是采用多项式分布来刻画的,因此其生成过程可以看作是概率的选择过程。第一次在“文档-主题”分布上以概率选择了一个主题,第二次在“主题-词汇”分布上以概率来生成对应的词汇。
在主题抽取中,现有研究中还使用了基于词频和逆文档频角度的TF-IDF模型[19],基于网页推荐系统的Textrank算法[20]及基于上下文语义的Word2Vec模型[21]。但LDA模型无需预先进行人工标记,能够很
好地模拟文档生成过程,更准确地进行主题分析和主题预测,因此本文选用LDA主题模型作为主题提取的方法。
总体而言,科学研究前沿相关的研究存在以下不
足之处。
尝试和探索。
2数据来源与研究方法
2.1数据来源
本文选择智能网联汽车领域进行应用分析,论文数据来源为中国知网(CNKI),专利数据来源为智慧芽全球专利数据库(patsnap)。
本研究检索时间范围为2000年1月1日至2019年1月1日。国内在智能网联汽车领域的研究起步较晚,进入21世纪后,大规模的研究开始开展,因此,选择2000年为起始点。[22]本研究数据获取时间为2020年10月,2020年的数据不全,因此选择2019年为终止点。为提高检索的准确性,本文参考中国汽车工程学会发布的《节能与新能源汽车技术路线图》,归纳得到智能网联汽车领域技术路线图如图2
所示。
图2 智能网联汽车技术路线图
名词,通过中国知网,共检索到数据3148条。
专利数据检索时,根据技术路线图获取领域内IPC分类号并加入专利数据检索式中,得到检索式为:(TITLE =“智能网联汽车” OR “自动驾驶汽车” OR “无人驾驶汽车” OR “车联网”) AND (MIPC_MAIN_ GROUP:("G08G1" OR "H04L29" OR "H04W4" OR "H04W72" OR "G06K9" OR "G05D1" OR "G01C21" OR "H04L12" OR "B60W30" OR "H04L1" OR "B60R16" OR "H04L5" OR "G01S17" OR "G06F17" OR "G06T7" OR "G07C5" OR "G05B23" OR "G06F9" OR "B60R25" OR "G01S7" OR "G01S19" OR "B60W50" OR "B60W40" OR "B60R11" OR "H04W16" OR "G01S13")) AND PATSNAPFILTER=(APD_Y:("2019" OR "2018" OR "2017" OR "2016" OR "2015" OR "2014" OR "2013" OR "2012" OR "2011" OR "2010" OR "2009" OR "2008" OR "2007" OR "2006" OR "2005" OR "2004" OR "2003" OR "2002" OR "2001" OR "2000"))。通过智慧芽,共检索到专利申请记录9971条。
2.2研究方法
本文研究思路如图3所示。首先获取论文和专利数据,对数据进行清洗、分词处理、去停用词和向量化
后,计算困惑度、得到最佳分类主题数目,并在Python环境下利用机器学习工具包sklearn构建LDA 模型提取文本主题。随后计算各主题的主题强度和主题新颖度两项指标,并对论文数据和专利数据所求出的指标进行对比分析,识别研究前沿。
主题强度指标和主题新颖度指标可以通过EXCEL 的透视表功能求得。主题强度表示主题内所包含的论文/专利数量,主题强度高,说明对该主题进行的研究与应用较多,该主题具有较高的热度。主题新颖度
表示主题内论文/专利的发表/公开时间,主题新颖度越大,说明对该主题进行研究与应用的时间越新,该主题具有较高的新颖性。
本文将研究前沿分为热点研究前沿、新兴研究前沿、潜在研究前沿、消亡研究前沿四大类。通过将单个主题的主题强度、主题新颖度与整体平均主题强度、主题新颖度进行比较,划分出高/低强度主题、高/低新颖度主题。对比分析流程如图4所示:首先判断是否为共同主题。对于共同主题,先比较新颖度,低新颖度的归为消亡研究前沿;高新颖度的主题若高强度、则为热点研究前沿,若低强度、则为新兴研究前沿。对于非共同主题,若新颖度高,则为潜在研究前沿,若新颖度低,则为低消亡研究前沿。最终划分各主题所属的类别,完成前沿识别。
图4 对比分析流程词词典以提高分词的准确性,采用Python环境下的中文分词工具“JIEBA分词”对论文和专利的题目、摘要进行文本分词。数据中存在一些无用信息,因此构建停用词表,去除中文语境下常用的无意义词汇和本研究领域内的无意义词汇(如智能网联汽车、无人驾驶汽车)。
3.2LDA主题模型
首先确定最佳主题数目。主题数目的选择会影响LDA模型的最终效果,Blei等提出利用困惑度指标作为主题数目选择的依据,以困惑度最小的模型为最优分类数。[28]困惑度的计算公式如下所示:
其中,D是语料库内的测试集,M为文档数量,表示在文档N d中拥有的单词数目,表示产
生的概率。较低的困惑度表示较好的分类效果。
论文数据的困惑度计算结果如图5所示,论文最佳分类主题数目为14。
图5 论文数据主题困惑度计算结果
然后进行LDA模型运算,得到主题-关键词矩阵,根据主题内的关键词、逻辑和智能网联汽车相关知识,为每个主题进行命名,例如以“状态”“信息”“GPS”“
图3 研究思路
2   主题强度和主题新颖度结果

本文发布于:2024-09-23 01:30:46,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/436797.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:主题   研究   数据   进行   汽车   专利
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议