基于深度学习的学术领域数据相关性预测方法、计算机

著录项
  • CN201910500836.0
  • 20190611
  • CN110209822A
  • 20190906
  • 中译语通科技股份有限公司
  • 隗公程;万洪波;程国艮
  • G06F16/35
  • G06F16/35 G06F17/27 G06K9/62

  • 北京市石景山区石景山路20号16层1601
  • 北京(11)
  • 北京万贝专利代理事务所(特殊普通合伙)
  • 马红
摘要
本发明属于计算机网络数据预测技术领域,公开了一种基于深度学习的学术领域数据相关性预测方法、计算机,收集公开的通用数据、学术领域的论文和专利数据;利用深度学习的词向量技术在学术语料上训练学术领域词向量;对于给定的领域可根据词向量预测语义相关的其它领域,实现相关学术领域的预测。本发明的系统包括:数据收集模块,用于收集公开的数据;词向量训练模块,用于利用深度学习的词向量技术在学术语料上训练学术领域词向量;学术领域预测模块,用于对于给定的领域可根据词向量预测语义相关的其它领域,实现相关学术领域的预测。本发明通过构造基于深度学习的学术领域词向量,借助词向量实现领域相关的快速和准确预测。
权利要求

1.一种基于深度学习的学术领域数据相关性预测方法,其特征在于,所述基于深度学习的学术领域数据相关性预测方法包括以下步骤:

第一步,收集公开的通用数据、学术领域的论文和专利数据;

第二步,利用深度学习的词向量技术在学术语料上训练学术领域词向量;

第三步,对于给定的领域可根据词向量预测语义相关的其它领域,实现相关学术领域的预测。

2.如权利要求1所述的基于深度学习的学术领域数据相关性预测方法,其特征在于,所述第一步的收集公开的通用数据、学术领域的论文和专利数据的方法根据数据源开发相应的爬虫程序,自动获取大量的数据;在数据爬取过程中,对于数据的更新和动态变化,采用定期爬取的策略;对大规模持续爬取中的反爬策略采取购买匿名代理池的方式;

公开的通用数据收集,爬取了基于英文的数据;经过解析获取其中的数据内容,并去除无用的链接、多媒体、词条类别;

在学术数据集上,从多个数据库中爬取降低收集的数据中的噪音。

3.如权利要求1所述的基于深度学习的学术领域数据相关性预测方法,其特征在于,所述第二步的基于深度学习的学术领域词向量训练包括:在语言模型预训练的阶段,采用BERT模型;模型中,每一个Trm是一个Transformer模型;通过遮挡语言模型Masked LM和预测下一个句子两种方式进行模型训练;Masked LM是在输入的词序列中,随机选15%的词准备[MASK],然后在15%的词中,有80%的词被打上[MASK]标签,有10%的词被随机替换成任意词汇,10%的词不做任何处理;

在模型训练中提供一个词表,该词表的构造过程为:在语料中出现频次越高的词在词表中对应的位置越靠前,该词表的每一行存储一个原子词汇;原子词汇表示一个英文单词可以被切分的最小单元;将句子里面的词进行切分,然后在词表中到该词对应的ID;BERT模型的一条训练语料由两个句子组成,句子之间通过“[SEP]”分隔符进行分割,句子开头用“[CLS]”符号表示,结尾用“[SEP]”符号表示。

4.如权利要求3所述的基于深度学习的学术领域数据相关性预测方法,其特征在于,在训练初始模型采用的句子长度为128,两个句子对应拼接后对应的长度为256;对于每次输入的句子长度不足128时,进行补0处理;当单个句子长度大于128时,将句子截成128的长度或者直接忽略该句子;在数据预处理阶段,将词表转换成字典的形式,字典的键为原子词汇,值为对应的行号加2,加2的原因是有[PAD]和[UNK]两个词汇,对应的值分别为0和1;[PAD]是表示句子长度小于128时进行的补0操作;[UNK]表示的是未登录词汇,即词表里面没有但在语料里面出现的词汇;

构建的字典将预处理后句子中的词转成对应的ID,并为每个词随机初始化一个维度大小为768的向量,该向量称为T标识嵌入;训练模型的输入是标识嵌入、分段嵌入和位置嵌入各个维度累加求和。

5.如权利要求3所述的基于深度学习的学术领域数据相关性预测方法,其特征在于,所述Transformer编码是由12层Transformer组成;

Transformer编码器内部是由多重注意力机制层和前馈层组成;层与层之间使用残差网络连接,并对每层的输出使用层正则化表示;多重注意力机制层是使用多头的自注意力机制为每个词计算注意力权重,对应的公式如下:

MultiHead(Q,K,V)=Concat(head1,...,headh)Wo;

where headi=Attention(QWiQ,KWiK,VWiV);

其中Q,K,V的值是由Token Embedding、Segment Embedding和Position Embedding两者的值拼接;

将输入的句子经过Transformer编码层后,每个词的向量表示都蕴含上下文语义信息;然后将词向量分别输入到遮挡语言模型任务和预测下一句子语言模型任务中;分别计算两个任务的损失并求和,通过反向更新模型的参数来不断优化模型;模型经过上万次的迭代后,训练出新的语言模型。

6.如权利要求1所述的基于深度学习的学术领域数据相关性预测方法,其特征在于,所述第三步构造给定领域的词向量通过特征提取的方式获得句子和单词的向量表示;当参数确定后,给BERT模型输入一个句子,输出该句子中每个词的向量表示,向量的维度与训练模型时确定的维度一致;通过对该句子中所有的词的向量进行平均池化操作,以获得句子的向量表示。

7.如权利要求1所述的基于深度学习的学术领域数据相关性预测方法,其特征在于,所述基于深度学习的学术领域数据相关性预测方法将学术领域的相关性预测转变为向量相似度计算问题,通过求解向量空间夹角余弦,预测相关领域;具体分为;

首先,对于搜集的语料库,利用主题模型获得长文本对应的主题词,与学术论文和专利中的关键词进行合并,得到学术领域的主题词库;根据主题词库的标题、摘要和关键词中的共现,构造一个词共现网络;对词共现网络进行聚类;

然后对于给定的学术领域S,一定位于一个聚类的子类中,子类中包含的所有词和词组便是S的相关领域的候选集合;

最后在聚类的基础上,计算聚类结果中各候选领域与输入领域的向量余弦,便得到对应的相似度,根据相似度取排在前top-k的结果作为相关领域并输出;

所述聚类算法包含两个阶段:(1)第一个阶段遍历每个顶点,并将该顶点临时修改为邻接顶点的社编号,计算模块化度增量,使用非负增量的修改作为最终修改,不断执行上述步骤直至模块化度收敛;第一阶段结束后,将社编号相同的顶点合并为同一顶点,新顶点组成的网络中,边的权重由社间的边权重之和计算而得;(2)每次迭代需要遍历网络中的各顶点及其邻接点,计算模块化度的时间复杂度和边数相关;初始顶点数位N,边数为E的网络第一次迭代的时间复杂度为O(NEP),其中P为各顶点的邻接点平均数;每次迭代之后图的顶点数和边数都小于等于上一次迭代,故算法的时间复杂度上限为O(NEP)。

8.一种应用权利要求1所述基于深度学习的学术领域数据相关性预测方法的基于深度学习的学术领域数据相关性预测系统,其特征在于,所述基于深度学习的学术领域数据相关性预测系统包括:

数据收集模块,用于收集公开的通用数据、学术领域的论文和专利数据;

词向量训练模块,用于利用深度学习的词向量技术在学术语料上训练学术领域词向量;

学术领域预测模块,用于对于给定的领域可根据词向量预测语义相关的其它领域,实现相关学术领域的预测。

9.一种实现权利要求1~7任意一项所述基于深度学习的学术领域数据相关性预测方法的计算机程序。

10.一种实现权利要求1~7任意一项所述基于深度学习的学术领域数据相关性预测方法的信息数据处理终端。

说明书
技术领域

本发明属于计算机网络数据预测技术领域,尤其涉及一种基于深度学习的学术领域数据相关性预测方法、计算机。

目前,最接近的现有技术:

随着科学研究在学术界和工业界广泛进行,学者们创造出源源不断的大量科研成果,于是学术大数据应运而生。学术大数据中存在不同的学术主体以及它们之间形成的各种各样的学术关系,其中学者之间的合作关系最为普遍和重要,尤其在交叉学科问题的研究中,来自不同领域的学者之间的合作日益增多,这使得对于合作关系预测的研究变得越来越重要。

但在现有的技术中,大多数解决方法都是基于同构信息网络的,而且预测方法都是基于节点、拓扑和网络内容信息相似性等,而这些并不能很好的体现出学者之间的相互联系,没有考虑学术领域词向量等对预测结果的影响。现有的科技情报挖掘和分析中的领域相关性预测问题,主要包括:(1)学术数据语料的收集;(2)基于深度学习的学术领域词向量模型训练;(3)相关领域的预测方法。现有的学术领域相关性预测方法存在实现领域相关的预测周期长、准确率低的问题。

综上所述,现有技术存在的问题是:现有的学术领域相关性预测方法存在实现领域相关的预测周期长、准确率低。

解决上述技术问题的难度:现有的预测方法都是基于节点、拓扑和网络内容信息相似性等,而这些并不能很好的体现出学者之间的相互联系,没有考虑学术领域词向量等对预测结果的影响。

解决上述技术问题的意义:本发明通过构造基于深度学习的学术领域词向量,借助词向量实现领域相关的快速和准确预测。

针对现有技术存在的问题,本发明提供了一种基于深度学习的学术领域数据相关性预测方法、计算机。

本发明是这样实现的,一种基于深度学习的学术领域数据相关性预测方法,所述基于深度学习的学术领域数据相关性预测方法包括以下步骤:

第一步,收集公开的通用数据、学术领域的论文和专利数据。

第二步,利用深度学习的词向量技术在学术语料上训练学术领域词向量。

第三步,对于给定的领域可根据词向量预测语义相关的其它领域,实现相关学术领域的预测。

进一步,所述第一步的收集公开的通用数据、学术领域的论文和专利数据的方法根据数据源开发相应的爬虫程序,自动获取大量的数据。在数据爬取过程中,对于数据的更新和动态变化,采用定期爬取的策略。对大规模持续爬取中的反爬策略采取购买匿名代理池的方式。

公开的通用数据收集,爬取了基于英文的数据。经过解析获取其中的数据内容,并去除无用的链接、多媒体、词条类别。

在学术数据集上,从多个论文数据库和专利数据库中爬取降低收集的数据中的噪音。

进一步,所述第二步的基于深度学习的学术领域词向量训练包括:在语言模型预训练的阶段,采用BERT模型。模型中,每一个Trm是一个Transformer模型。通过遮挡语言模型Masked LM和预测下一个句子两种方式进行模型训练。Masked LM是在输入的词序列中,随机选15%的词准备[MASK],然后在15%的词中,有80%的词被打上[MASK]标签,有10%的词被随机替换成任意词汇,10%的词不做任何处理。

在模型训练中提供一个词表,该词表的构造过程为:在语料中出现频次越高的词在词表中对应的位置越靠前,该词表的每一行存储一个原子词汇。原子词汇表示一个英文单词可以被切分的最小单元。将句子里面的词进行切分,然后在词表中到该词对应的ID。BERT模型的一条训练语料由两个句子组成,句子之间通过“[SEP]”分隔符进行分割,句子开头用“[CLS]”符号表示,结尾用“[SEP]”符号表示。

进一步,在训练初始模型采用的句子长度为128,两个句子对应拼接后对应的长度为256。对于每次输入的句子长度不足128时,进行补0处理。当单个句子长度大于128时,将句子截成128的长度或者直接忽略该句子。在数据预处理阶段,将词表转换成字典的形式,字典的键为原子词汇,值为对应的行号加2,加2的原因是有[PAD]和[UNK]两个词汇,对应的值分别为0和1。[PAD]是表示句子长度小于128时进行的补0操作。[UNK]表示的是未登录词汇,即词表里面没有但在语料里面出现的词汇。

构建的字典将预处理后句子中的词转成对应的ID,并为每个词随机初始化一个维度大小为768的向量,该向量称为T标识嵌入。训练模型的输入是标识嵌入、分段嵌入和位置嵌入各个维度累加求和。

进一步,所述Transformer编码是由12层Transformer组成。

Transformer编码器内部是由多重注意力机制层和前馈层组成。层与层之间使用残差网络连接,并对每层的输出使用层正则化表示。多重注意力机制层是使用多头的自注意力机制为每个词计算注意力权重,对应的公式如下:

MultiHead(Q,K,V)=Concat(head1,...,headh)Wo。

Where headi=Attention(QWiQ,KWiK,VWiV)。

其中Q,K,V的值是由Token Embedding、Segment Embedding和PositionEmbedding两者的值拼接。

将输入的句子经过Transformer编码层后,每个词的向量表示都蕴含上下文语义信息。然后将词向量分别输入到遮挡语言模型任务和预测下一句子语言模型任务中。分别计算两个任务的损失并求和,通过反向更新模型的参数来不断优化模型。模型经过上万次的迭代后,训练出新的语言模型。

进一步,所述第三步构造给定领域的词向量通过特征提取的方式获得句子和单词的向量表示。当参数确定后,给BERT模型输入一个句子,输出该句子中每个词的向量表示,向量的维度与训练模型时确定的维度一致。通过对该句子中所有的词的向量进行平均池化操作,以获得句子的向量表示。

进一步,所述基于深度学习的学术领域数据相关性预测方法将学术领域的相关性预测转变为向量相似度计算问题,通过求解向量空间夹角余弦,预测相关领域。具体分为。

首先,对于搜集的语料库,利用主题模型获得长文本对应的主题词,与学术论文和专利中的关键词进行合并,得到学术领域的主题词库。根据主题词库的标题、摘要和关键词中的共现,构造一个词共现网络。对词共现网络进行聚类。

然后对于给定的学术领域S,一定位于一个聚类的子类中,子类中包含的所有词和词组便是S的相关领域的候选集合。

最后在聚类的基础上,计算聚类结果中各候选领域与输入领域的向量余弦,便得到对应的相似度,根据相似度取排在前top-k的结果作为相关领域并输出。

所述聚类算法包含两个阶段:(1)第一个阶段遍历每个顶点,并将该顶点临时修改为邻接顶点的社编号,计算模块化度增量,使用非负增量的修改作为最终修改,不断执行上述步骤直至模块化度收敛。第一阶段结束后,将社编号相同的顶点合并为同一顶点,新顶点组成的网络中,边的权重由社间的边权重之和计算而得。(2)每次迭代需要遍历网络中的各顶点及其邻接点,计算模块化度的时间复杂度和边数相关。初始顶点数位N,边数为E的网络第一次迭代的时间复杂度为O(NEP),其中P为各顶点的邻接点平均数。每次迭代之后图的顶点数和边数都小于等于上一次迭代,故算法的时间复杂度上限为O(NEP)。

本发明的另一目的在于提供一种应用所述基于深度学习的学术领域数据相关性预测方法的基于深度学习的学术领域数据相关性预测系统,所述基于深度学习的学术领域数据相关性预测系统包括:

数据收集模块,用于收集公开的通用数据、学术领域的论文和专利数据。

词向量训练模块,用于利用深度学习的词向量技术在学术语料上训练学术领域词向量。

学术领域预测模块,用于对于给定的领域可根据词向量预测语义相关的其它领域,实现相关学术领域的预测。

本发明的另一目的在于提供一种实现所述基于深度学习的学术领域数据相关性预测方法的计算机程序。

本发明的另一目的在于提供一种实现所述基于深度学习的学术领域数据相关性预测方法的信息数据处理终端。

综上所述,本发明的优点及积极效果为:本发明提出一种新型的学术领域相关性预测方法,通过构造基于深度学习的学术领域词向量,借助词向量实现领域相关的快速和准确预测。

图1是本发明实施例提供的基于深度学习的学术领域数据相关性预测方法流程图。

图2是本发明实施例提供的基于深度学习的学术领域数据相关性预测系统结构示意图;

图中:1、数据收集模块;2、词向量训练模块;3、学术领域预测模块。

图3是本发明实施例提供的词向量模型训练过程示意图。

图4是本发明实施例提供的训练模型中的Transformer结构示意图。

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明可用于解决科技情报挖掘和分析中相关领域学者、论文、专利的自动推荐等应用;首先,收集学术领域论文和专利等数据;然后,利用深度学习的词向量技术在学术语料上训练学术领域词向量;最后,对于给定的领域可根据词向量预测语义相关的其它领域,实现相关学术领域的预测。

下面结合附图对本发明的技术方案作详细的描述。

如图1所示,本发明实施例提供的基于深度学习的学术领域数据相关性预测方法包括以下步骤:

S101:收集公开的通用数据、学术领域的论文和专利数据。

S102:利用深度学习的词向量技术在学术语料上训练学术领域词向量。

S103:对于给定的领域可根据词向量预测语义相关的其它领域,实现相关学术领域的预测。

如图2所示,本发明实施例提供的基于深度学习的学术领域数据相关性预测系统包括:

数据收集模块1,用于收集公开的通用数据、学术领域的论文和专利数据。

词向量训练模块2,用于利用深度学习的词向量技术在学术语料上训练学术领域词向量。

学术领域预测模块3,用于对于给定的领域可根据词向量预测语义相关的其它领域,实现相关学术领域的预测。

下面结合附图对本发明的技术方案作进一步的描述。

本发明实施例提供的基于深度学习的学术领域数据相关性预测方法主要包括4个步骤:(1)学术领域的大规模数据收集和整理。(2)基于深度学习的学术领域词向量训练。(3)构造给定领域的词向量。(4)预测相关学术领域。具体的技术方案和过程描述如下。

1.学术领域的大规模数据收集和整理

本发明收集和整理的数据包括两类:(1)公开的通用数据。(2)学术领域的论文和专利数据。数据收集的方法是根据数据源开发相应的爬虫程序,自动获取大量的数据。在数据爬取过程中,对于数据的更新和动态变化,采用定期爬取的策略。对大规模持续爬取中的反爬策略采取购买匿名代理池的方式进行解决。

在公开的通用数据收集上,爬取了基于英文(25亿词汇)的数据。数据是半结构化的数据,经过解析获取其中的数据内容,并去除对本发明无用的链接、多媒体、词条类别等。英文在本发明中用于提供通用的语料。

在学术数据集上,从多个论文数据库和专利数据库中爬取了1亿个学者的基本信息、2亿篇论文的基本信息、8000万个专利的全文信息。对这些学术数据的主要处理是解决其中的作者名消歧,以降低收集的数据中的噪音。

本发明中的上述数据收集和处理方法适用于多种语言的数据源,并不局限于英文语料数据。

2.基于深度学习的学术领域词向量训练

本发明引入了最先进的BERT预训练技术来完成词向量的训练,训练过程基于上一阶段收集的大量语料。训练BERT模型使用的语料不需要做额外的标记工作。训练语料包括已收集的大量的英文百科词条描述文本和论文数据,其中不仅包含了常识知识,还包含论文的标题、摘要和关键词等与学术领域密切相关的文本。在语料库构建中,需要对重复的文档进行去重,并将训练语料划分为多份,每份训练语料包含1000份文档,文档与文档之间通过空行分割,以满足大规模的并行训练需要。

词向量的训练过程如图3所示。在语言模型预训练的阶段,采用BERT模型。模型中,每一个Trm是一个Transformer模型。通过遮挡语言模型(Masked LM)和预测下一个句子两种方式进行模型训练。Masked LM是在输入的词序列中,随机选15%的词准备[MASK],然后在这15%的词中,有80%的词被打上[MASK]标签,有10%的词被随机替换成任意词汇,10%的词不做任何处理。模型的任务是正确预测带有[MASK]标签的词。相比于传统的语言模型,Masked LM可以从任何方向去预测这些带有[MASK]标签的词。除此之外,传统语言模型并没有考虑句子间的关系,为了让模型能够学习到句子间的关系,BERT模型在语言模型预训练阶段加入了预测下一个句子这样的目标任务,其实质上就是一个二分类的任务,有50%的概率输入一个句子和下一个句子的拼接,标签属于正例。另外50%的概率输入一个句子和非下一个随机句子的拼接,标签为负例。最后整个预训练的目标函数是对这个任务取和求最大似然。

本发明在模型训练中提供一个词表。该词表的构造过程为:在语料中出现频次越高的词在词表中对应的位置越靠前,该词表的每一行存储一个原子词汇。原子词汇表示一个英文单词可以被切分的最小单元。例如,“johanson”可以切分为“johan”和“son”两个词,那么词表里面就会存储“johan”和“

本文发布于:2024-09-23 16:15:43,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/70617.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议