科研热点主题分析方法、装置与电子设备[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201811374249.3
(22)申请日 2018.11.19
(71)申请人 中国农业大学
地址 100193 北京市海淀区圆明园西路2号
(72)发明人 高万林 何东彬 王敏娟 郝霞 
张国锋 张莉 王兵兵 赵龙 
(74)专利代理机构 北京路浩知识产权代理有限
公司 11002
代理人 王莹 吴欢燕
(51)Int.Cl.
G06F  16/2452(2019.01)
G06F  16/2458(2019.01)
(54)发明名称
科研热点主题分析方法、
装置与电子设备(57)摘要
本发明实施例提供一种科研热点主题分析
方法、装置与电子设备,其中所述方法包括:建立
基于科研文献的引用网络,并采用随机游走算
法,计算每篇文档的文献排序权重,以过滤文献,
获取引文数据和语料库;基于概率主题层次组合
模型,对获取的所述引文数据和语料库进行评价
筛选,获取热点科研主题。本发明实施例依据文
献结构信息和主题所属信息构建主题演化图,并
通过主题演化图,将主题描述优化、主题排序和
主题演化结合起来,在提高时间效率的前提下获
取更准确结果。权利要求书2页  说明书8页  附图3页CN 111198897 A 2020.05.26
C N  111198897
A
1.一种科研热点主题分析方法,其特征在于,包括:
建立基于科研文献的引用网络,并采用随机游走算法,计算每篇文档的文献排序权重,以过滤文献,获取引文数据和语料库;
基于概率主题层次组合模型,对获取的所述引文数据和语料库进行评价筛选,获取热点科研主题。
2.根据权利要求1所述的方法,其特征在于,在所述获取热点科研主题的步骤之后,还包括:
基于所述概率主题层次组合模型模拟出的主题信息及分布,将不同主题视为节点,建立节点之间的有向边连接,形成主题演化图,以获取主题趋势和不同主题间的演化发展情况。
3.根据权利要求2所述的方法,其特征在于,在所述基于概率主题层次组合模型,对获取的所述引文数据和语料库进行评价筛选的步骤之前,还包括:
采用马尔科夫随机场,通过对主题分布变量进行描述,构建所述基于概率主题层次组合模型的上层,以通过主题分布之间的关系来解释文档网络的依赖性;
采用潜在狄利克雷分布模型,对所述语料库中的文献进行建模,构建所述基于概率主题层次组合模型的下层,以产生文献和词。
4.根据权利要求3所述的方法,其特征在于,在所述基于概率主题层次组合模型,对获取的所述引文数据和语料库进行评价筛选的步骤之后,还包括:
基于主题拓展模型,对主题进行挖掘,获取潜在主题,并通过困惑度和SKL对概率主题模型生成主题质量进行评价,结合评价标准建立主题结果集;
基于所述主题结果集,构建主题节点集,获取主题推荐文献列表。
5.根据权利要求4所述的方法,其特征在于,所述基于所述主题结果集,构建主题节点集,获取主题推荐文献列表的步骤具体包括:
构建模型对所述主题结果集中的主题结果进行分析处理,并根据隐含狄利克雷分布模型模拟出的主题信息及分布,将不同主题视为节点,通过不同主题间的共词和共引关系,建立节点之间的有向边连接,获取所述主题推荐文献列表。
6.根据权利要求4所述的方法,其特征在于,所述获取主题趋势和不同主题间的演化发展情况的步骤具体包括:
基于引用本身的时间属性和预处理文档的文献排序权重,计算每个主题中的文献依赖关系强度;
将所述文献依赖关系强度投射到时间轴上,并通过合并统计得到主题间演化发展情况,形成主题演化图;
基于所述主题演化图,获取不同主题间趋势演化和发展的情况。
7.根据权利要求6所述的方法,其特征在于,所述基于所述主题演化图,获取不同主题间趋势演化和发展的情况的步骤具体包括:
根据所述主题演化图进行主题分析,建立年度主题权重矩阵,并以年为单位,利用最小二乘法对各个重要科技主题的时序权重变化进行计算和拟合,获取对每个科技主题发展趋势的定量预测及分析。
8.一种科研热点主题分析装置,其特征在于,包括:
预处理模块,用于建立基于科研文献的引用网络,并采用随机游走算法,计算每篇文档的文献排序权重,以过滤文献,获取引文数据和语料库;
输出模块,用于基于概率主题层次组合模型,对获取的所述引文数据和语料库进行评价筛选,获取热点科研主题。
9.一种电子设备,其特征在于,包括:至少一个存储器、至少一个处理器、通信接口和总线;
所述存储器、所述处理器和所述通信接口通过所述总线完成相互间的通信,所述通信接口还用于所述电子设备与科研文献获取设备之间的信息传输;
所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1至7中任一所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至7中任一所述的方法。
科研热点主题分析方法、装置与电子设备
技术领域
[0001]本发明实施例涉及科研文献主题挖掘技术领域,更具体地,涉及一种科研热点主题分析方法、装置与电子设备。
背景技术
[0002]在科研分析工作中,从海量的文献信息中有效的发掘出热点科研主题以及热点主题发展变化的情况,正逐渐成为当前科研相关管理部门和科研工作者所关注的问题。[0003]在传统的科研数据分析方法中,引入了概率主题模型的机器学习方法,该模型的使用,为从事科研数据分析的科研人员提供了一种新的研究思路。同时,从科研人员个人角度来说,及时了解其研究领域内的热点动态和自己研究方向的契合程度,对于自身科研方向和进展的安排与调整也具有积极的作用。
[0004]概率主题模型拓展了目前文本挖掘技术的范畴,相比文本挖掘技术(如向量空间模型)的传统方法,针对词频的统计不仅从文档角度,还从语料库角度入手,通过先验概率分布描述词频的分布,将传统的文档-词结构模型改进为文档-主题-词三重层次的概率主题模型。从而,把原本在高维稀疏的词空间表示的文本形式转换为低维的主题空间表示,并逐渐成为机器学习、自然语言处理等领域中的重要研究课题。同时,在科研检索、舆情监控、文本挖掘、推荐系统、活动检测中获得了广泛应用。
[0005]通常科研文献包含了更加丰富的结构信息,例如文献的作者、发表的时间、参考文献等,对科研主题的发现有一定的影响,而且科研文献具有一定的传承性,利用其引用信息,对主题演化的研究具有
积极的作用。
[0006]但是,目前的概率主题模型在运算效率上相对较低,并且准确度不高,发现的主题中可能混有背景等无意义的主题,对主题描述的可解释性也不强,因此很难进行优化和利用。
发明内容
[0007]为了克服上述问题或者至少部分地解决上述问题,本发明实施例提供一种科研热点主题分析方法、装置与电子设备,用以在提高时间效率的前提下获取更准确的结果,更好的量化热点主题。
[0008]第一方面,本发明实施例提供一种科研热点主题分析方法,包括:
[0009]建立基于科研文献的引用网络,并采用随机游走算法,计算每篇文档的文献排序权重,以过滤文献,获取引文数据和语料库;
[0010]基于概率主题层次组合模型,对获取的所述引文数据和语料库进行评价筛选,获取热点科研主题。
[0011]第二方面,本发明实施例提供一种科研热点主题分析装置,包括:
[0012]预处理模块,用于建立基于科研文献的引用网络,并采用随机游走算法,计算每篇文档的文献排序权重,以过滤文献,获取引文数据和语料库;
[0013]输出模块,用于基于概率主题层次组合模型,对获取的所述引文数据和语料库进行评价筛选,获取热点科研主题。
[0014]第三方面,本发明实施例提供一种电子设备,包括:至少一个存储器、至少一个处理器、通信接口和总线;所述存储器、所述处理器和所述通信接口通过所述总线完成相互间的通信,所述通信接口用于所述电子设备与科研文献获取设备之间的信息传输;所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上第一方面所述的科研热点主题分析方法。
[0015]第四方面,本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如上第一方面所述的科研热点主题分析方法。
[0016]本发明实施例提供的科研热点主题分析方法、装置与电子设备,通过构建一种概率主题层次组合模型,根据主题发现的结果,依据文献结构信息和主题所属信息构建主题演化图,并通过主题演化图,将主题描述优化、主题排序和主题演化结合起来,在提高时间效率的前提下获取更准确结果。另外,通过排序能够更好的量化热点主题,通过给出每个主题的文献推荐列表,能够获取更准确的趋势演化分析结果。
附图说明
[0017]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0018]图1为本发明一实施例提供的科研热点主题分析方法的流程示意图;
[0019]图2为根据本发明实施例提供的科研热点主题分析方法中建立的概率主题层次组合模型的结构示意图;
[0020]图3为本发明另一实施例提供的科研热点主题分析方法的流程示意图;[0021]图4为本发明实施例提供的科研热点主题分析装置的结构示意图;
[0022]图5为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
[0023]为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明实施例的一部分实施
例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明实施例保护的范围。
[0024]本发明实施例通过对当前主流的推断算法进行分析,针对应用场景对算法进行加速和优化,以获取更佳的时空效率。与现有技术相比,本发明提供可对科研文献构建一种概率主题层次组合模型,上层模型通过文献的主题分布来构建文献网络的依赖关系,采用一种网络链接分析和随机游走算法来计算文档权值,并据此过滤非重要文献,下层通过LDA拓展模型产生文档和词,上下层通过一个联合分布函数对文档结构信息和内容信息进行结

本文发布于:2024-09-20 16:28:45,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/799531.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:主题   科研   文献   获取   热点   模型
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议