基于Transformer深度强化学习的知识图谱多跳推理方法与流程

基于transformer深度强化学习的知识图谱多跳推理方法
技术领域
1.本发明属于知识图谱多跳推理技术领域，具体涉及一种基于transformer深度强化学习的知识图谱多跳推理方法。

背景技术：

2.知识图谱以结构化的形式描述客观世界中概念、实体及其之间的关系，提供一种更好地组织、管理和理解互联网海量信息的能力。稀疏的知识密度限制了知识图谱功能的发挥，多跳推理作为知识补全的一种重要手段，接受实体和关系查询条件，计算起始实体满足关系映射的目标实体，在原本不相关的多个实体间构建合适的关系。由此连接的稠密关系才能提供更加丰富的知识信息，提高知识图谱下游任务模型的泛化能力。
3.多步推理是一个序列决策问题，因此可以用强化学习来学习这个过程基于策略的强化学习的智能体通过知识图谱环境之间的交互来学习推理路径。deeppath是首先提出的基于强化学习的多步推理模型但是其只能在给定两个实体的情况下去推测中间的关系链minerva改进了这一点，并将lstm引入至策略函数中，用于编码序列历史信息m－walk引入了蒙特卡罗树搜索到强化学习模型的搜索推理路径中，有效降低了路径稀疏问题，同时其历史信息由rnn来编码multi－hop指出强化学习过程的奖赏函数需要人为定义为了解决这个问题，该方法提出了一个可学习的奖赏函数，从而可以自适应地调节路径的探索，同时其还在策略选择时采用了类似dropout的技术。
4.为了解决知识图谱多跳推理中的冲突消解困难，泛化能力差，结果解释性不强，可信度低等问题，知识图谱多跳推理可以被建模为有限视界的确定部分可观测马尔可夫决策过程，求解近似最优策略时，时序差分类算法在自举值函数时，值函数的一点小误差可能被不断放大，容易出现高估问题；基于bellman最优方程的更新方式传播得比较慢，在稀疏奖励场景中效果不好。

技术实现要素：

5.针对现有技术中的上述不足，本发明提供的一种基于transformer深度强化学习的知识图谱多跳推理方法解决了现有知识图谱多跳推理方法存在泛化能力差、不可解释和难以应用于大规模知识图谱的问题。
6.为了达到上述发明目的，本发明采用的技术方案为：一种基于transformer深度强化学习的知识图谱多跳推理方法，包括以下步骤：
7.s1、接入大量rdf三元组，通过关系补全，创建关系完备的知识图谱，降低知识图谱节点与边的稀疏分布，提高用于推理的知识图谱的知识密度；
8.s2、分别对知识图谱的拓扑结构和三元组语义做表征学习，并以线性组合的方式综合拓扑结构和三元组语义的表征张量，将知识图谱的表征层映射到统一的知识空间；
9.s3、使用基于transformer解码层堆叠的gpt-2模型为知识图谱的推理层建模，利用前序时间步的历史轨迹h
t
＝(t0,t1,
…
,t
t
)，利用集束搜索，自回归地生成收益最大的下
一时间步动作a
t+1
。
10.进一步地：所述步骤s1中创建关系完备的知识图谱的具体步骤为：
11.s11、对于现有知识图谱，将rdf三元组接入janusgraph图数据库，方便后续图谱关系补全、查询及读取操作；
12.其中，现有知识图谱建模为φ＝(e,γ,λ)，表示知识图谱中所有实体的集合，是知识图谱中所有关系的集合，是所有事实三元组的集合，在事实三元组(ε
μ
,γ,εv)∈λ中，ε
μ
是事实三元组的头实体，εv是事实三元组的尾实体，γ是事实三元组从头实体ε
μ
映射到尾实体εv的关系；
13.s12、在知识图谱现有关系的基础上，主动补全平等互关系中缺失的关系，以及有利于完善计算路径的镜像逆关系，如(ε
μ
,γ,εv)∈λ的镜像逆关系三元组为(ε
μ
,γ-1
,εv)∈λ，γ-1
为γ的镜像逆关系；
14.s13、为每一个顶点增加实体自回环关系，为每一个顶点的实体增加一个与自身的环路关系，即(ε
μ
,γ
μμ
,ε
μ
)∈λ，有利于增加推理智能体的搜索空间，扩展推理智能体的搜索路径，帮助推理智能体的探索能力；γ
μμ
为知识图谱节点μ的自回环关系；
15.s14、将新增关系回写到janusgraph图数据库，得到关系完备的知识图谱。
16.进一步地：所述步骤s2中表征层的映射具体步骤为：
17.s21、将图谱层生成的完备图网络剥离出不包含文字内容的纯拓扑结构和只包含文字内容的语义三元组，一次性导入全部的拓扑结构图网络和语义三元组；
18.s22、将图网络的拓扑结构送入图卷积网络gcn训练，学习图网络节点εi的拓扑表征和边γj的拓扑表征
19.s23、将图网络的事实三元组送入conve网络训练，学习图网络节点εi的语义表征和边γj的语义表征
20.s24、将拓扑表征张量和语义表征张量线性连接，得到节点εi的知识表征和边γj的知识表征
21.进一步地：所述步骤s3中推理层建模的具体步骤为：
22.s31、建模基于知识图谱的多跳推理强化学习环境，包括状态、动作、及时收益、后续累积收益和轨迹；
23.s32、使用gpt做序列建模训练，选择收益最大化的轨迹；
24.s33、基于集束搜索对轨迹中的隐藏动作进行搜索，构成完整的动作序列；
25.s34、回溯动作序列的轨迹生成可解释推理路径，呈现支撑结论的解释项。
26.进一步地：所述步骤s31中的状态其中ε
t
为时刻t所处的实体节点，ε
μσ
和γ
σ
为时刻t＝0时所处的起始实体节点和关系边，ε
νσ
为最终答案节点，s为状态空间，初始状态s0＝(ε
μσ
,ε
μσ
,γ
σ
,ε
νσ
)，终止状态s
t
＝(ε
νσ
,ε
μσ
,γ
σ
,ε
νσ
)；
27.所述动作a
t
定义为：
28.其中γ
t
为时刻t所处的关系边，ε为知识图谱节点；
29.所述及时收益r
t
即为r(s
t
)，定义为：
30.r(s
t
)＝ι(ε
t
＝ε
νσ
)-ι(ε
t
≠ε
νσ
)
31.上式中，ι(
·
)为二元收益函数；
32.所述后续累积收益g
t
定义为：
[0033][0034]
上式中，t为智能体推理结束时间步，k为智能体推理开始时间步，α为及时收益的惩罚系数；
[0035]
将轨迹定义为：
[0036][0037]
上式中，τ为轨迹。
[0038]
进一步地：所述步骤s32中序列建模训练为：
[0039]
训练时使用真实轨迹，直接并行输入轨迹字段，经过自回归模型和集束搜索输出所有的预测节点，每个节点是一个多维向量，经过softmax归一化处理得到概率分布，再计算与之对应的真实标签的交叉熵，得到对数似然；
[0040]
最大化对数似然的目标l(τ)是：
[0041][0042]
对于状态的条件概率p
θ
(s
t
|s
＜t
,τ
＜t
)，含义为在给定当前时刻t之前的状态和当前时刻之前的轨迹τ条件下，发生当前状态s
t
的概率，logp
θ
(s
t
|s
＜t
,τ
＜t
)为状态的对数条件概率；对于动作的条件概率p
θ
(a
t
|a
＜t
,s
t
,τ
＜t
)，含义为在给定当前时刻t的状态，在该状态下时刻t之前采取的动作及当前时刻之前的轨迹τ条件下，发生当前状态a
t
的概率，logp
θ
(a
t
|a
＜t
,s
t
,τ
＜t
)为动作的对数条件概率；对于累积回报的条件概率p
θ
(g
t
|a
t
,s
t
,τ
＜t
)，含义为在给定当前时刻t的状态，在该状态下时刻t之前采取的动作及当前时刻之前的轨迹τ条件下，发生累积回报g
t
的概率，logp
θ
(g
t
|a
t
,s
t
,τ
＜t
)为累计回报的对数条件概率；对于及时收益的条件概率p
θ
(r
t
|a
t
,s
t
,τ
＜t
)，含义为在给定当前时刻t的状态，在该状态下采取的动作及当前时刻之前的轨迹τ条件下，发生及时收益r
t
的概率，logp
θ
(r
t
|a
t
,s
t
,τ
＜t
)为收益的对数条件概率，θ为轨解空间参数，p
θ
(s
t
|si,τ
＜t
)为状态的条件概率，p
θ
(a
t
|aj,s
t
,τ
＜t
)为及时动作的条件概率，p
θ
(g
t
|ak,s
t
,τ
＜t
)为累计回报条件概率，p
θ
(r
t
|a
t
,s
t
,τ
＜t
)为及时收益的条件概率；
[0043]
使用对数概率对所有中间过程(s
t
,a
t
,r
t
,g
t
)进行重要度采样，重要度采样比计算方法定义：给定起始状态s
t
和时间步t后的所有可能动作集合a
t:t-1
，后续的状态-动作交替轨迹a
t
,s
t+1
,a
t+1
,...,s
t
在策略π下发生的概率是：
[0044][0045]
其中，p是状态转移概率函数，ak为推理体在时间步t时采取的动作，sk为知识图谱在时间步t时的状态，目标策略π和行动策略b轨迹下的重要度采样比ρ被定义为：
[0046][0047]
上式中，ρ
t:t-1
为智能体在时间步t到t-1时间段内的重要度采样比。
[0048]
进一步地：所述步骤s33具体为：在时间步t中，选择条件概率和最大的前两个动作和集束搜索算法让这两个动作分别作为下一时间步的动作输入，假定分支在下一时间步的条件概率趋于无穷小，只考虑作为下一时间步动作输入的情况，到最终时间步t时，集束搜索只会选取使得条件概率最大的动作，最终构成完整的动作序列
[0049]
进一步地：所述步骤s34具体为：集束搜索的搜索宽度b，在第一个时间步中，选取当前条件概率最大的b个候选项输出序列的第一个词，之后的每个时间步中，基于上个时间步的输出序列，挑选出所有组合中条件概率最大的b个候选项，作为该时间步的候选输出序列，始终保持b个候选，最后从b个候选中挑出最优的，集束搜索的过程可描述为：
[0050][0051]
上式中，α是可调节的参数，b
α
用以惩罚超长序列，y
t
是时间步t时的候选项，yb是时间步b时的候选项，d为序列结束符。
[0052]
本发明的有益效果为：本发明提出tdrl-mhr(transformer based deep reinforcement learning for multi-hop reasoning)算法，是一种基于transformer深度强化学习，将知识图谱多跳推理任务转化为条件序列生成任务的框架，transformer编码器将知识图谱映射到高维知识空间，据此建模的状态、动作和收益，被送入transformer解码器gpt(general presentation transformer)自回归向后预测下一步候选动作，使用集束搜索选取期望回报条件概率最大的动作。该算法规避了传统强化学习中利用人工经验分配信度，设计行为策略约束等不可控的缺陷。经实验表明，transformer建模方法可以模拟广泛的行为分布，提升多跳推理在不同量级知识图谱上的泛化和迁移能力。
附图说明
[0053]
图1是本发明基于transformer深度强化学习的知识图谱多跳推理处理流程图；
[0054]
图2是图1的架构原理框图；
[0055]
图3是本发明完备图谱构建模块的流程图；
[0056]
图4是本发明完备图谱拓扑语义综合表征模块的流程图；
[0057]
图5是本发明基于轨迹序列多跳推理模块的流程图。
具体实施方式
[0058]
下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。
[0059]
如图1所示，一种基于transformer深度强化学习的知识图谱多跳推理方法，包括以下步骤：
[0060]
s1、接入大量rdf三元组，通过关系补全，创建关系完备的知识图谱，降低知识图谱节点与边的稀疏分布，提高用于推理的知识图谱的知识密度；
[0061]
s2、分别对知识图谱的拓扑结构和三元组语义做表征学习，并以线性组合的方式综合拓扑结构和三元组语义的表征张量，将知识图谱的表征层映射到统一的知识空间；
[0062]
s3、使用基于transformer解码层堆叠的gpt-2模型为知识图谱的推理层建模，利用前序时间步的历史轨迹h
t
＝(t0,t1,...,t
t
)，利用集束搜索，自回归地生成收益最大的下一时间步动作a
t+1
。
[0063]
图2是本发明多跳推理的架构原理框图。以大量三元组和待查询问题为输入，以问题解答和推理路径为输出，本发明采用层次化结构，分为图谱层、表征层和推理层。图谱层将大量rdf三元组转化为标准化的图网络，将其作为后续表征推理的操作对象；表征层通过拓扑语义综合网络将图谱层映射到知识空间；推理层首先按照标准的强化学习定义，结合知识图谱特点，生成知识空间中各个强化学习要素组件建模，将知识空间环境转换为强化学习环境，以强化学习维度下的知识空间状态、推理智能体在知识图谱上的搜索动作、基于收益塑造技术对推理智能体行为的奖励和后续累积收益等强化学习要素组件为输入，送入gpt-2网络架构，计算得出概率路径，综合考虑计算性能和路径探索覆盖率，使用集束搜索推导出推理智能体概率最大的运动路径，直至耗尽规定范围内的跳数，通过反向回溯每一跳的路径组合成完整的全流程推理路径。
[0064]
图3是本发明图谱层的补全构建过程。知识图谱建模为φ＝(e,γ,λ)，表示知识图谱中所有实体的集合，是知识图谱中所有关系的集合，是所有事实三元组的集合，在事实三元组(ε
μ
,γ,εv)∈λ中，ε
μ
是事实三元组的头实体，εv是事实三元组的尾实体，γ是事实三元组从头实体ε
μ
映射到尾实体εv的关系。(s11)三元组的内容、质量及其存储方式不在本发明考虑范围之内，本发明为了获得更好的数据acid操作性能，本发明首先将假设已经存在的大量rdf三元组导入janusgraph图数据库，方便后续图谱关系补全、查询及读取操作；(s12)本发明在现有关系的基础上，主动补全平等互关系
中缺失的关系，以及逻辑上并非自洽，但是有利于完善计算路径的镜像逆关系，比如(ε
μ
,γ,εv)∈λ的镜像逆关系三元组为(ε
μ
,γ-1
,εv)∈λ；(s13)本发明为每一个顶点添加自回环关系，为每一个顶点的实体增加一个与自身的环路关系，即(ε
μ
,γ
μμ
,ε
μ
)∈λ，该操作有利于增加推理智能体的搜索空间，扩展推理智能体的搜索路径，帮助推理智能体的探索能力；(s14)将新增关系回写到janusgraph图数据库，使用graphexp可视化工具，既能方便使用者查看图谱整体内容与结构细节，又能在推理结束后查看完整推理路径。
[0065]
图4是本发明表征层的学习映射过程。(s21)本发明将图谱层生成的完备图网络剥离出不包含文字内容的纯拓扑结构和只包含文字内容的语义三元组，一次性导入全部的拓扑结构图网络和语义三元组；(s22)将图网络的拓扑结构送入图卷积网络gcn训练，学习图网络节点εi的拓扑表征和边γj的拓扑表征(s23)将图网络的事实三元组送入conve网络训练，学习图网络节点εi的语义表征和边γj的语义表征(s24)将拓扑表征张量和语义表征张量线性连接，得到节点εi的知识表征和边γj的知识表征
[0066]
图5是本发明推理层的建模推理过程。推理智能体是学习及实施决策的主体，知识图谱是推理智能体活动的环境。推理智能体根据知识图谱环境的状态和收益，决定下一时刻跳转的行为路径，并向推理智能体呈现出新的知识图谱子图状态。知识图谱环境产生的累计收益，就是推理智能体在不断地路径选择探索中需要最大化的目标。(s31)建模基于知识图谱的多跳推理强化学习环境，包括状态、动作、及时收益、后续累积收益和轨迹。
[0067]
1)状态
[0068]
状态空间s包含所有知识图谱节点信息的有效地组合，推理智能体的状态不仅包含时刻t所处的实体节点ε
t
，还包括时刻t＝0时所处的起始实体节点ε
μσ
和关系边γ
σ
，以及最终答案节点ε
νσ
。因此可以定义时间步t时的状态：
[0069][0070]
初始状态s0＝(ε
μσ
,ε
μσ
,γ
σ
,ε
νσ
)，终止状态s
t
＝(ε
νσ
,ε
μσ
,γ
σ
,ε
νσ
)。状态更新函数是解决部门可观测性问题的核心部分，在看到状态之前，不能采取任何动作或者做出任何预测。
[0071]
2)动作
[0072]
动作空间a是推理智能体处于状态时，其所处知识图谱环境有效边信息的组合。在状态s
t
下动作a
t
被定义为：
[0073][0074]
即在时刻t选择的下一步实体节点不在遍历过的历史节点列表中。推理智能体从查询条件σ的起始节点ε
μσ
开始，通过策略网络预测最有可能的路径，不断探索直至达到目标答案实体节点ε
νσ
。
[0075]
3)及时收益
[0076]
在传统的知识图谱强化学习路径推理中，一般采用二元收益函数：
[0077]
r(s
t
)＝ι(ε
t
＝ε
νσ
)
[0078]
即只有在当前实体节点是答案节点的时候才会获取的收益+1，否则其他时间步获得的收益都是0。推理智能体在不断地执行策略和策略评估后，只能得到很少的反馈，即便基于序列生成的强化学习行动策略，收益信号能够长期传播而衰减很小，但是收益信号的延迟和稀疏依然会导致强化学习收敛放缓，甚至不收敛，而无法学习到有效的推理策略。通过将“收益最大”思路转换为“损失最少”思路，及时收益函数可以被设定为：
[0079]
r(s
t
)＝ι(ε
t
＝ε
νσ
)-ι(ε
t
≠ε
νσ
)
[0080]
4)后续累积收益
[0081]
为了使transformer能够学习到有意义的模式，并且应该能够在测试时有条件地生成动作。建立奖励模型非常重要，tdrl-mhr希望推理智能体能够根据未来期望的回报而不是过去的收益生成行动，即最大化推理智能体接收到的标量信号(收益)累积和的概率期望值。推理智能体尝试选择动作，使得它在未来受到的经过折扣系数加权后的收益总和是最大化的。其中后续累积期望回报被定义为：
[0082][0083]
5)轨迹
[0084]
本发明所示算法的核心是将轨迹数据作为结构化序列送入transformer建模，对状态和动作联合建模产生分配行动的倾向。轨迹τ由状态、动作、收益和后续累积回报组成：
[0085][0086]
受益于大规模无监督学习结果的可伸缩性，轨迹张量中可以容纳足够多的元素。
[0087]
(s32)tdrl-mhr使用gpt做序列建模训练
[0088]
gpt中的注意力是具备因果关联的，即当前字段只会与它之前的字段做注意力计算。训练时使用真实轨迹，可以直接并行输入轨迹字段，经过自回归模型和集束搜索输出所有的预测节点，每个节点是一个多维向量，经过softmax归一化处理得到概率分布，再计算与之对应的真实标签的交叉熵，得到对数似然。θ为轨解空间参数，模型训练中最大化对数似然的目标是：
[0089][0090]
目标函数是预测的状态、动作、收益和回报的对数似然。对于状态的条件概率p
θ
(s
t
|s
＜t
,τ
＜t
)，含义为在给定当前时刻t之前的状态和当前时刻之前的轨迹τ条件下，发生当前状态s
t
的概率，log p
θ
(s
t
|s
＜t
,τ
＜t
)为状态的对数条件概率；对于动作的条件概率p
θ
(a
t
|a
＜t
,s
t
,τ
＜t
)，含义为在给定当前时刻t的状态，在该状态下时刻t之前采取的动作及当前时刻之前的轨迹τ条件下，发生当前状态a
t
的概率，logp
θ
(a
t
|a
＜t
,s
t
,τ
＜t
)为动作的对数条件概率；对于累积回报的条件概率p
θ
(g
t
|a
t
,s
t
,τ
＜t
)，含义为在给定当前时刻t的状态，在该状态下时刻t之前采取的动作及当前时刻之前的轨迹τ条件下，发生累积回报g
t
的概率，log p
θ
(g
t
|at
,s
t
,τ
＜t
)为累计回报的对数条件概率；对于及时收益的条件概率p
θ
(r
t
|a
t
,s
t
,τ
＜t
)，含义为在给定当前时刻t的状态，在该状态下采取的动作及当前时刻之前的轨迹τ条件下，发生及时收益r
t
的概率，log p
θ
(r
t
|a
t
,s
t
,τ
＜t
)为收益的对数条件概率。
[0091]
tdrl-mhr使用大量随机成分的蒙特卡洛方法产生训练值估计，这样做是因为蒙特卡洛算法在与真实的环境交互中采样得到状态、动作、收益序列时，不需要关于环境动态变化规律的先验知识，也不需要动态规划那样生成所有可能转移的概率分布，更不需要用后继状态的估计更新当前的估计，即它不需要自举。tdrl-mhr算法通过轨迹自回归网络和集束搜索策略实现收益最大化。相较于传统的蒙特卡洛算法通过平均样本的回报解决强化学习问题，蒙特卡洛值估计会导致样本复杂度降低，推理轨迹收敛到次优行为，通过使用预测的收益信号代替字段预测的对数概率，规避了这个难题；相较于贪婪搜索，集束搜索方法优化了数据分布下序列的概率，但是在计算收益最大化时，依然会存在短视行为的风险，为了解决这个问题，tdrl-mhr算法在会在每一次训练轨迹更新中添加后续累积回报g
t
，并提高惩罚项系数。
[0092]
所有的学习控制方法都面临一个困境：它们希望学到的动作可以使随后的智能体行为是最优的，但是为了搜索所有的动作，它们需要采取非最优的行动。妥协方法就是并不学习最优目标策略的动作值，而是学习一个接近最优而且仍能进行试探的行动策略动作值。使用蒙特卡洛值估计而不依赖于bellman最优解的更新，学习行动策略的值函数要比学习目标策略的值函数简单。
[0093]
tdrl-mhr使用对数概率对所有中间过程(s
t
,a
t
,r
t
,g
t
)进行重要度采样，重要度采样是一种在给定来自其他分布样本条件下，估计某种分布期望值的通用方法。重要度采样比计算方法定义：给定起始状态s
t
和时间步t后的所有可能动作集合a
t:t-1
，后续的状态-动作交替轨迹a
t
,s
t+1
,a
t+1
,...,s
t
在策略π下发生的概率是
[0094][0095]
其中p是状态转移概率函数。目标策略π和行动策略b轨迹下的重要度采样比ρ被定义为：
[0096][0097]
重要度采样比只与两个策略的样本序列数据相关，而与马尔可夫决策过程的动态特性，即状态转移概率无关。
[0098]
tdrl-mhr采用序列建模的方法，可以将其描述为一种基于模型的规划算法：对候选动作序列进行采样，使用预测模型评估其效果，并选择收益最大化的轨迹。通过将动作、状态、收益和回报联合建模并使用相同的过程对它们进行采样，可以防止模型被查询到分布外的动作。将动作序列视为不依赖于状态的无约束优化变量，这种方法更容易充分利用模型，因为学习模型下的最大回报问题与为分类器寻对抗性示例的问题非常相似。
[0099]
(s33)对于生成任务，在每一个时间步，模型给出的都是基于历史生成结果的条件
概率。为了生成完整的句子，需要解码融合模型多个时间步的输出，而且使得最终得到的序列的每一步条件概率连乘结果最大。通过每一个时间步都取出一个条件概率最大的输出，再将从开始到当前步的结果作为输入以获得下一个时间步的输出，直到模型给出生成结束的标志。尽管这样做能够将指数级别的求解空间压缩到线性长度，但是却丢弃了绝大多数的可能解，这种关注当下的策略无法保证最终得到的序列概率是最优的。集束搜索模块在每一个时间步，保留特定数量分数最高的输出，以时间换性能的方式获得近似最优解。
[0100]
为方便叙述，假定集束搜索的搜索宽度是2，在时间步t中，选择条件概率和最大的前两个动作和集束搜索算法会让这两个动作分别作为下一时间步的动作输入。假定分支在下一时间步的条件概率趋于无穷小，同时为方便作图，只考虑作为下一时间步动作输入的情况，其他时间步的情况亦如此。到最终时间步t时，集束搜索只会选取使得条件概率最大的动作，最终构成完整的动作序列
[0101]
(s34)回溯行为轨迹生成可解释推理路径
[0102]
tdrl-mhr算法建立状态、动作、收益和累计回报等四者之间的关系。tdrl-mhr算法通过收益约束隐式地拟合一个q函数，比较形象的描述是在一个三维坐标系中，x轴、y轴和z轴分别是状态、动作和收益，通过已有的数据不断拟合q函数，在推理的时候，输入目标收益和当前状态，tdrl-mhr算法可以在这个函数上到最可能的行为，学到的q函数具备一定的泛化能力和探索能力。
[0103]
gpt的因果关联注意力掩码，确保预测只依赖于序列中前面的标记。落实到知识图谱多跳推理场景，意味着不允许未来的选择影响过去的决策。可以直接将其作为一种通过调节期望的最终状态来达到目标的方法。在一个最终的目标状态上调整序列，保持下对角线的注意力遮蔽不变，而不需要修改标准的注意力实现。transformer会根据事件持续更新奖励概率，形成了raposo等人讨论的状态奖励关联，并实现了准确的价值预测。
[0104]
使用集束搜索从每一时间步的候选轨迹中选择较优的动作，推理完成后就形成了一个完整的动作序列。集束搜索的搜索宽度b，在第一个时间步中，选取当前条件概率最大的b个候选项输出序列的第一个词。之后的每个时间步中，基于上个时间步的输出序列，挑选出所有组合中条件概率最大的b个候选项，作为该时间步的候选输出序列，始终保持b个候选，最后从b个候选中挑出最优的。集束搜索的过程可以用下面的公式描述：
[0105][0106]
其中，α是可调节的参数，b
α
用以惩罚超长序列，y
t
是时间步t时的候选项，d为序列结束符，使用对数的原因是可以将乘法转化为加法。

技术特征：

1.一种基于transformer深度强化学习的知识图谱多跳推理方法，其特征在于，包括以下步骤：s1、接入大量rdf三元组，通过关系补全，创建关系完备的知识图谱；s2、分别对知识图谱的拓扑结构和三元组语义做表征学习，并以线性组合的方式综合拓扑结构和三元组语义的表征张量，将知识图谱的表征层映射到统一的知识空间；s3、使用基于transformer解码层堆叠的gpt-2模型为知识图谱的推理层建模，利用集束搜索，自回归地生成收益最大的下一时间步动作a
t+1
，t为时间步计数。2.根据权利要求1所述的基于transformer深度强化学习的知识图谱多跳推理方法，其特征在于，所述步骤s1中创建关系完备的知识图谱的具体步骤为：s11、对于现有知识图谱，将rdf三元组接入janusgraph图数据库，方便后续图谱关系补全、查询及读取操作；其中，现有知识图谱建模为φ＝(e,γ,λ)，表示知识图谱中所有实体的集合，是知识图谱中所有关系的集合，是所有事实三元组的集合，在事实三元组(ε
μ
,γ,ε
v
)∈λ中，ε
μ
是事实三元组的头实体，ε
v
是事实三元组的尾实体，γ是事实三元组从头实体ε
μ
映射到尾实体ε
v
的关系；s12、在知识图谱现有关系的基础上，主动补全平等互关系中缺失的关系，以及有利于完善计算路径的镜像逆关系，如(ε
μ
,γ,ε
v
)∈λ的镜像逆关系三元组为(ε
μ
,γ-1
,ε
v
)∈λ，γ-1
为γ的镜像逆关系；s13、为每一个顶点增加实体自回环关系，为每一个顶点的实体增加一个与自身的环路关系，即(ε
μ
,γ
μμ
,ε
μ
)∈λ，有利于增加推理智能体的搜索空间，扩展推理智能体的搜索路径，帮助推理智能体的探索能力；γ
μμ
为知识图谱节点μ的自回环关系；s14、将新增关系回写到janusgraph图数据库，得到关系完备的知识图谱。3.根据权利要求2所述的基于transformer深度强化学习的知识图谱多跳推理方法，其特征在于，所述步骤s2中表征层的映射具体步骤为：s21、将图谱层生成的完备图网络剥离出不包含文字内容的纯拓扑结构和只包含文字内容的语义三元组，一次性导入全部的拓扑结构图网络和语义三元组；s22、将图网络的拓扑结构送入图卷积网络gcn训练，学习图网络节点ε
i
的拓扑表征和边γ
j
的拓扑表征s23、将图网络的事实三元组送入conve网络训练，学习图网络节点ε
i
的语义表征和边γ
j
的语义表征s24、将拓扑表征张量和语义表征张量线性连接，得到节点ε
i
的知识表征和边γ
j
的知识表征4.根据权利要求3所述的基于transformer深度强化学习的知识图谱多跳推理方法，其特征在于，所述步骤s3中推理层建模的具体步骤为：s31、建模基于知识图谱的多跳推理强化学习环境，包括状态、动作、及时收益、后续累积收益和轨迹；
s32、使用gpt做序列建模训练，选择收益最大化的轨迹；s33、基于集束搜索对轨迹中的隐藏动作进行搜索，构成完整的动作序列；s34、回溯动作序列的轨迹生成可解释推理路径，呈现支撑结论的解释项。5.根据权利要求4所述的基于transformer深度强化学习的知识图谱多跳推理方法，其特征在于，所述步骤s31中的状态其中ε
t
为时刻t所处的实体节点，ε
μσ
和γ
σ
为时刻t＝0时所处的起始实体节点和关系边，ε
νσ
为最终答案节点，s为状态空间，初始状态s0＝(ε
μσ
,ε
μσ
,γ
σ
,ε
νσ
)，终止状态s
t
＝(ε
νσ
,ε
μσ
,γ
σ
,ε
νσ
)；所述动作a
t
定义为：a
t
＝{(ε
t
,γ
t
,ε)∈λ|s
t
＝(ε
t
,ε
μσ
,γ
σ
,ε
νσ
)，其中γ
t
为时刻t所处的关系边，ε为知识图谱节点；所述及时收益r
t
即为r(s
t
)，定义为：r(s
t
)＝ι(ε
t
＝ε
νσ
)-ι(ε
t
≠ε
νσ
)上式中，ι(
·
)为二元收益函数；所述后续累积收益g
t
定义为：上式中，t为智能体推理结束时间步，k为智能体推理开始时间步，α为及时收益的惩罚系数；将轨迹定义为：上式中，τ为轨迹。6.根据权利要求5所述的基于transformer深度强化学习的知识图谱多跳推理方法，其特征在于，所述步骤s32中序列建模训练为：训练时使用真实轨迹，直接并行输入轨迹字段，经过自回归模型和集束搜索输出所有的预测节点，每个节点是一个多维向量，经过softmax归一化处理得到概率分布，再计算与之对应的真实标签的交叉熵，得到对数似然；最大化对数似然的目标l(τ)是：对于状态的条件概率p
θ
(s
t
|s
＜t
,τ
＜t
)，含义为在给定当前时刻t之前的状态和当前时刻之前的轨迹τ条件下，发生当前状态s
t
的概率，logp
θ
(s
t
|s
＜t
,τ
＜t
)为状态的对数条件概率；对于动作的条件概率p
θ
(a
t
|a
＜t
,s
t
,τ
＜t
)，含义为在给定当前时刻t的状态，在该状态下时刻t之
前采取的动作及当前时刻之前的轨迹τ条件下，采取当前动作a
t
的概率，logp
θ
(a
t
|a
＜t
,s
t
,τ
＜t
)为动作的对数条件概率；对于累积回报的条件概率p
θ
(g
t
|a
t
,s
t
,τ
＜t
)，含义为在给定当前时刻t的状态，在该状态下时刻t之前采取的动作及当前时刻之前的轨迹τ条件下，发生累积回报g
t
的概率，logp
θ
(g
t
|a
t
,s
t
,τ
＜t
)为累计回报的对数条件概率；对于及时收益的条件概率p
θ
(r
t
|a
t
,s
t
,τ
＜t
)，含义为在给定当前时刻t的状态，在该状态下采取的动作及当前时刻之前的轨迹τ条件下，发生及时收益r
t
的概率，logp
θ
(r
t
|a
t
,s
t
,τ
＜t
)为收益的对数条件概率，θ为轨解空间参数，p
θ
(s
t
|s
i
,τ
＜t
)为状态的条件概率，p
θ
(a
t
|a
j
,s
t
,τ
＜t
)为及时动作的条件概率，p
θ
(g
t
|a
k
,s
t
,τ
＜t
)为累计回报条件概率；使用对数概率对所有中间过程(s
t
,a
t
,r
t
,g
t
)进行重要度采样，重要度采样比计算方法定义：给定起始状态s
t
和时间步t后的所有可能动作集合a
t:t-1
，后续的状态-动作交替轨迹a
t
,s
t+1
,a
t+1
,...,s
t
在策略π下发生的概率是：其中，p是状态转移概率函数，a
k
为推理体在时间步t时采取的动作，s
k
为知识图谱在时间步t时的状态。目标策略π和行动策略b轨迹下的重要度采样比ρ被定义为：上式中，ρ
t:t-1
为智能体在时间步t到t-1时间段内的重要度采样比。7.根据权利要求6所述的基于transformer深度强化学习的知识图谱多跳推理方法，其特征在于，所述步骤s33具体为：在时间步t中，选择条件概率和最大的前两个动作和集束搜索算法让这两个动作分别作为下一时间步的动作输入，假定分支在下一时间步的条件概率趋于无穷小，只考虑作为下一时间步动作输入的情况，到最终时间步t时，集束搜索只会选取使得条件概率最大的动作，最终构成完整的动作序列8.根据权利要求7所述的基于transformer深度强化学习的知识图谱多跳推理方法，其特征在于，所述步骤s34具体为：集束搜索的搜索宽度b，在第一个时间步中，选取当前条件概率最大的b个候选项输出序列的第一个词，之后的每个时间步中，基于上个时间步的输出序列，挑选出所有组合中条件概率最大的b个候选项，作为该时间步的候选输出序列，始终保持b个候选，最后从b个候选中挑出最优的，集束搜索的过程可描述为：
上式中，α是可调节的参数，b
α
用以惩罚超长序列，y
t
是时间步t时的候选项，y
b
是时间步b时的候选项，d为序列结束符。

技术总结

本发明公开了一种基于Transformer深度强化学习的知识图谱多跳推理方法，包括以下步骤：S1、接入大量RDF三元组，通过关系补全，创建关系完备的知识图谱；S2、分别对知识图谱的拓扑结构和三元组语义做表征学习，并以线性组合的方式综合拓扑结构和三元组语义的表征张量，将知识图谱的表征层映射到统一的知识空间；S3、使用基于Transformer解码层堆叠的GPT-2模型为知识图谱的推理层建模，利用集束搜索，自回归地生成收益最大的下一时间步动作A