用于多目标决策的分层强化学习框架训练方法

1.本发明涉及复杂问题的决策技术领域，尤其涉及一种用于多目标决策的分层强化学习框架训练方法。

背景技术：

2.现实的决策问题多属于多目标优化的复杂决策问题，不仅仅要考虑到当前状态下的最优策略，而且要考虑在不同状态下所追求目标之间的动态权重分配问题。传统的方法虽然能解决一般的决策问题，但其优化目标通常只考虑一种要素或多目标要素之间采用固定权重，导致由于奖励函数的限制在决策过程中不能以最快的速度接近目标。
3.以无人机对战为例，对战的目的是从目标飞机的后方接近目标飞机，即在决策的过程中要综合考虑角度和距离等因素。现有算法在设计奖励函数模型时对各因素考虑采用固定权重，没有考虑在不同态势下基于短期目的的不同，应该对奖励函数模型的各因素权重进行调整。另外，本技术的方法还可应用于路径规划、游戏等领域。
4.因此，有必要开发一种用于多目标决策的分层强化学习框架训练方法，利用不同的目标之间动态权重分配设计不同的奖励函数模型并训练不同的决策模型，通过自主的进行决策模型切换，实现不同决策模型之间协同决策，最终获取最优的连续策略。

技术实现要素：

5.本发明旨在解决现有技术或相关技术中存在的技术问题之一。
6.有鉴于此，本发明提出了一种用于多目标决策的分层强化学习框架训练方法，所述分层强化学习框架训练方法包括如下步骤：
7.基于所研究的实际问题，建立智能体与环境交互的仿真环境模型，使所述智能体生成策略后能够将动作在所述仿真环境模型中执行；
8.将所述实际问题划分为多个子目标，针对多个所述子目标，通过分配不同的目标权重建立多个奖励函数模型；
9.基于多个所述奖励函数模型，建立对应的多个ddpg模型；
10.将多个所述ddpg模型的对应策略视为离散动作，建立对应的ddqn模型；
11.将所述ddpg模型作为底层决策模型，所述ddqn模型作为选择所述底层决策模型的顶层决策模型，构建基于两层决策过程的分层强化学习框架；
12.基于所述分层强化学习框架和所述仿真环境模型进行交互并存储经验；
13.存储所述经验后，依照设定的模型训练频率训练所述ddpg模型和所述ddqn模型，判断训练后的所述ddpg模型和所述ddqn模型是否满足应用需求，若满足需求则退出训练过程，否则重新存储经验和重新训练所述ddpg模型和所述ddqn模型；
14.在应用阶段，将所述智能体所处状态输入训练好的所述ddpg模型和所述ddqn模型，由所述顶层决策模型输出各底层决策模型被选择后所获得的奖励，激活最大奖励对应的所述底层决策模型，生成连续激动动作序列。
15.进一步地，所述奖励函数模型作为所述智能体在所述仿真环境模型中执行所述动作a
t
后，所述仿真环境模型对所述智能体的反馈r
t
；
16.所述ddpg模型的输入为所述智能体当前所处的状态s
t
，输出为在当前状态下所产生的动作a
t
；
17.所述ddqn模型的输入为所述智能体当前所处的状态s
t
，输出为各所述ddpg模型被选择的所获得的奖励p
t
。
18.进一步地，通过分配不同的目标权重建立多个所述奖励函数模型：
[0019][0020]
其中，不同的所述权重wi满足其中，n为奖励函数模型影响因素的个数；ri为第i个奖励函数模型对应的奖励。
[0021]
进一步地，所述ddpg模型包括actor网络θ、actor目标网络θ'、critic网络ω和critic目标网络ω'，所述actor网络用于生成策略，所述actor目标网络用于指导所述critic网络的更新，所述critic网络用于评价所述策略，所述critic目标网络用于计算q值，其中，q值为动作价值函数，即在当前状态下执行该动作对应的奖励值。
[0022]
进一步地，所述actor网络θ的目标是输出最优策略使所述critic网络ω的输出最大，因此所述actor网络θ的目标输出为：
[0023][0024]
其中，δa为动作a的增量，q(s
t
,ω)为当前状态下critic网络的评价；表示critic网络对a的偏导，ra为actor网络的学习率；a为当前状态下所产生的策略。
[0025]
所述critic网络ω的目标是拟合当前状态下执行该策略所带来的累计奖励，即动作价值函数，所述critic网络ω的目标输出为：
[0026]
q(s
t
,a
t
)＝r
t
+γr
t+1
+γ2r
t+2
+
…
＝r
t
+γ(r
t+1
+γr
t+2
+
…
)＝r
t
+γq(s
t+1
,a
t+1
)
……
(3)
[0027]
其中，r
t
为当前状态s
t
执行动作a
t
所获得的奖励；γ表示奖励的衰减因子；q(s
t+1
,a
t+1
)表示下一状态获得的奖励；
[0028]
计算所述actor网络θ的目标输出和所述critic网络ω的目标输后，使用mse作为损失函数分别训练所述actor网络和所述critic网络。
[0029]
进一步地，所述actor目标网络θ'由所述actor网络θ软更新得到：
[0030]
θ'＝θ'τ+θ(1-τ)
……
(4)
[0031]
所述critic目标网络ω'由所述critic网络ω软更新得到：
[0032]
ω'＝ω'τ+ω(1-τ)
……
(5)
[0033]
其中，τ为软更新率。
[0034]
进一步地，所述ddqn模型包括q网络η和目标q网络η'，所述q网络η拟合选择所述ddpg模型获得的累计奖励目标，所述q网络η计算下一时刻的q值，所述q网络η的目标输出
为：
[0035][0036]
其中，j＝1
…
m,m为ddpg模型个数；(s
t+1
)j为选择第j个ddpg模型对应的下一状态；rj为选择第j个ddpg模型所得到的奖励，maxq((s
t+1
)j,η')为目标q网络η'对状态(s
t+1
)j所对应q值中的最大值；
[0037]
计算出所述q网络η的目标输出后，使用mse作为损失函数训练q网络模型。
[0038]
进一步地，所述目标q网络η'由所述q网络η软更新得到：
[0039]
η'＝η'τ+η(1-τ)
……
(7)
[0040]
其中，τ为软更新率。
[0041]
进一步地，所述软更新频率低于对应的所述ddpg模型和所述ddqn模型的训练频率，所述分层强化学习框架的训练过程中，所述顶层决策模型的训练频率低于所述底层决策模型的训练频率。
[0042]
本发明提供的技术方案可以包括以下有益效果：
[0043]
通过设置奖励函数模型中不同目标之间的权重，基于强化学习机制，训练多个基于ddpg模型的底层决策模型，旨在训练出能够更快接近最终目标的分布式决策模型；再利用ddqn模型自主的进行模型选择，构建在当前态势下最有利于全局的顶层决策模型，从而通过各分层强化学习框架之间的协作，生成最优连续策略组合。
[0044]
应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。
附图说明
[0045]
此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。
[0046]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0047]
图1示出了根据本发明的用于多目标决策的分层强化学习框架训练方法的步骤流程图；
[0048]
图2示出了根据本发明实施例的无人机在空间中的状态信息；
[0049]
图3示出了根据本发明实施例的仿真环境中无人机和目标飞机在xoy平面的初始态势关系俯视图；
[0050]
图4示出了根据本发明实施例的环境中无人机和目标飞机的相对位置关系；
[0051]
图5示出了根据本发明实施例的无人机和目标飞机的角度与距离关系的俯视图；
[0052]
图6示出了根据本发明实施例的ddpg模型结构和训练过程；
[0053]
图7示出了根据本发明实施例的ddqn模型结构和训练过程；
[0054]
图8示出了根据本发明实施例的分层强化学习框架和ddpg模型和ddqn模型训练过程；
[0055]
图9示出了根据本发明实施例的分层强化学习框架的决策过程；
[0056]
图10示出了根据本发明实施例的分层强化学习框架训练过程中的胜率变化曲线；
[0057]
图11示出了根据本发明实施例的分层强化学习框架训练过程中的平均奖励值的变化曲线；
[0058]
图12a示出了根据本发明实施例的优势态势下的无人机追击目标飞机的轨迹；
[0059]
图12b示出了根据本发明实施例的优势态势下无人机追击目标飞机过程中底层模型切换的过程；
[0060]
图12c示出了根据本发明实施例的优势态势下无人机追击目标飞机过程中奖励值的变化过程；
[0061]
图13a示出了根据本发明实施例的均势态势下的无人机追击目标飞机的轨迹；
[0062]
图13b示出了根据本发明实施例的均势态势下无人机追击目标飞机过程中底层模型切换的过程；
[0063]
图13c示出了根据本发明实施例的均势态势下无人机追击目标飞机过程中奖励值的变化过程；
[0064]
图14a示出了根据本发明实施例的劣势态势下的无人机追击目标飞机的轨迹；
[0065]
图14b示出了根据本发明实施例的劣势态势下无人机追击目标飞机过程中底层模型切换的过程；
[0066]
图14c示出了根据本发明实施例的劣势态势下无人机追击目标飞机过程中奖励值的变化过程。
具体实施方式
[0067]
这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
[0068]
图1示出了根据本发明的用于多目标决策的分层强化学习框架训练方法的步骤流程图。
[0069]
如图1所示，本技术提供了一种用于多目标决策的分层强化学习框架训练方法，该分层强化学习框架训练方法包括如下步骤：
[0070]
步骤1，基于所研究的实际问题，建立智能体与环境交互的仿真环境模型，使智能体生成策略后能够将动作在仿真环境模型中执行；
[0071]
步骤2，将实际问题划分为多个子目标，针对多个子目标，通过分配不同的目标权重建立多个奖励函数模型；
[0072]
步骤3，基于多个奖励函数模型，建立对应的多个ddpg模型；
[0073]
步骤4，将多个ddpg模型的对应策略视为离散动作，建立对应的ddqn模型；
[0074]
步骤5，将ddpg模型作为底层决策模型，ddqn模型作为选择底层决策模型的顶层决策模型，构建基于两层决策过程的分层强化学习框架；
[0075]
步骤6，基于分层强化学习框架和仿真环境模型进行交互并存储经验；
[0076]
步骤7，存储经验后，依照设定的模型训练频率训练ddpg模型和ddqn模型，判断训练后的ddpg模型和ddqn模型是否满足应用需求，若满足需求则退出训练过程，否则重新存
储经验和重新训练ddpg模型和ddqn模型；
[0077]
步骤8，在应用阶段，将智能体所处状态输入训练好的ddpg模型和ddqn模型，由顶层决策模型输出各底层决策模型被选择后所获得的奖励，激活最大奖励对应的底层决策模型，生成连续机动动作序列。
[0078]
通过设置奖励函数模型中不同目标之间的权重，基于强化学习机制，训练多个基于ddpg模型的底层决策模型，旨在训练出能够更快接近最终目标的分布式决策模型；再利用ddqn模型自主的进行模型选择，构建在当前态势下最有利于全局的顶层决策模型，从而通过各分层强化学习框架之间的协作，生成最优连续策略组合。
[0079]
其中，ddpg为deep deterministic policy gradient的缩写，ddqn为double deep q-network的缩写，
[0080]
进一步地，奖励函数模型作为智能体在仿真环境模型中执行动作a
t
后，仿真环境模型对智能体的反馈r
t
；
[0081]
ddpg模型的输入为智能体当前所处的状态s
t
，输出为在当前状态下所产生的动作a
t
；
[0082]
ddqn模型的输入为智能体当前所处的状态s
t
，输出为各ddpg模型被选择所获得的奖励p
t
。
[0083]
需要说明的是，动作分为离散动作和连续动作，ddqn模型相比于ddpg模型拥有更强的决策能力，然而ddqn模型只能针对离散动作进行决策，所述分层强化学习框架将ddqn模型的决策能力和ddpg模型处理连续动作的能力结合起来，从而通过各分层强化学习框架之间的协作，生成最优连续策略组合。
[0084]
进一步地，通过分配不同的目标权重建立多个奖励函数模型：
[0085][0086]
其中，不同的权重wi满足：其中，n为奖励函数模型影响因素的个数；ri为第i个奖励函数模型对应的奖励。
[0087]
通过不同的权重分配可以设计不同的奖励函数，不同奖励函数对不同的影响因素的重视程度不同。
[0088]
进一步地，ddpg模型包括actor网络θ、actor目标网络θ'、critic网络ω和critic目标网络ω'，actor网络用于生成策略，actor目标网络用于指导critic网络的更新，critic网络用于评价策略，critic目标网络用于计算q值，其中，q值为动作价值函数，即在当前状态下执行该动作对应的奖励值。
[0089]
进一步地，actor网络θ的目标是输出最优策略使critic网络ω的输出最大，因此actor网络θ的目标输出为：
[0090][0091]
其中，δa为动作a的增量，q(s
t
,a,ω)为当前状态下critic网络的评价；表示critic网络对a的偏导，ra为actor网络的学习率；a为当前状态下所产生的
策略；
[0092]
critic网络ω的目标是拟合当前状态下执行该策略所带来的累计奖励，即动作价值函数，critic网络ω的目标输出为：
[0093]
q(s
t
,a
t
)＝r
t
+γr
t+1
+γ2r
t+2
+
…
＝r
t
+γ(r
t+1
+γr
t+2
+
…
)＝r
t
+γq(s
t+1
,a
t+1
)
……
(3)
[0094]
其中，r
t
为当前状态s
t
执行动作a
t
所获得的奖励；γ表示奖励的衰减因子；q(s
t+1
,a
t+1
)表示下一状态获得的奖励；
[0095]
计算actor网络θ的目标输出和critic网络ω的目标输后，使用mse(mean square error)作为损失函数分别训练actor网络和critic网络。
[0096]
ddpg模型包含aator网络和critic网络，在描述ddpg部分就可以说训练actor网络和critic网络，ddqn模型包含q网络，在描述ddqn模型部分时训练q网络。
[0097]
通过将actor网络的训练过程分解为两步(计算目标值和训练模型)，降低网络训练难度，简化编程复杂度。
[0098]
进一步地，actor目标网络θ'由actor网络θ软更新得到：
[0099]
θ'＝θ'τ+θ(1-τ)
……
(4)
[0100]
critic目标网络ω'由critic网络ω软更新得到：
[0101]
ω'＝ω'τ+ω(1-τ)
……
(5)
[0102]
其中，τ为软更新率。
[0103]
进一步地，ddqn模型包括q网络η和目标q网络η'，q网络η拟合选择ddpg模型获得的累计奖励目标，q网络η计算下一时刻的q值，q网络η的目标输出为：
[0104][0105]
其中，j＝1
…
m,m为ddpg模型个数；(s
t+1
)j为选择第j个ddpg模型对应的下一状态；rj为选择第j个ddpg模型所得到的奖励，maxq((s
t+1
)j,η')表示目标q网络η'对状态(s
t+1
)j所对应q值中的最大值。
[0106]
计算出所述q网络η的目标输出后，使用mse作为损失函数训练q网络模型。
[0107]
相比于传统ddqn模型中计算q值时只更新被选择的动作对应的q值，即j等于被选择的动作，所述ddqn算法计算q值中j＝1
…
m加快了ddqn模型收敛速度。
[0108]
进一步地，计算q网络的目标输出后，使用mse作为损失函数训练ddqn模型；
[0109]
目标q网络η'由q网络η软更新得到：
[0110]
η'＝η'τ+η(1-τ)
……
(7)
[0111]
其中，τ为软更新率。
[0112]
需要说明的是，软更新能够使目标网络的更新更加平稳，提高分层强化学习框架的稳定性。
[0113]
进一步地，软更新频率低于对应的ddpg模型和ddqn模型的训练频率，分层强化学习框架的训练过程中，顶层决策模型的训练频率低于底层决策模型的训练频率。
[0114]
相比于一般算法先将底层模型训练出来再训练顶层模型，该训练过程同时训练顶层模型和底层模型，能更合理使两层决策模型结合起来。
[0115]
本技术的方法能够应用于无人机对战、路径规划和游戏等领域。
[0116]
实施例
[0117]
本实施例以无人机追击直线飞行的目标为例，对用于多目标决策的分层强化学习框架及训练过程方法进行说明。
[0118]
图2示出了根据本发明实施例的无人机在空间中的状态信息。
[0119]
步骤1’，无人机对战的仿真环境模型主要由无人机运动轨迹生成，针对无人机运动轨迹特征，建立无人机的运动轨迹方程：
[0120][0121]
其中，(x,y,z)为无人机的空间位置坐标；v表示速度；ψ∈[-π,π]表示偏航角；θ∈[-π,π]表示俯仰角；η
x
表示无人机速度方向过载；ηz表示无人机法向过载，φ∈[-π,π]表示滚转角；δt为时间间隔；g为重力加速度。
[0122]
需要说明的是，这里的无人机运动方程只是为了模拟无人机飞行而构建的方程，实际的无人机飞行需要考虑的因素更多。
[0123]
图3示出了根据本发明实施例的仿真环境中无人机和目标飞机在xoy平面的初始态势关系俯视图。
[0124]
为了体现空战战场的复杂性，同时避免对抗在战斗的初始阶段就结束，将无人机(我机)初始空间位置及态势信息固定，将目标飞机(敌机)初始空间位置及态势信息在一定范围内随机化生成。其中，我机的初始坐标为[0,0,8000]；敌机的初始坐标与我机的横纵坐标距离d
x
∈[6000，7000]，dy∈[6000,7000]，高度h∈[6000,10000]，敌机的偏航角设置为如图3所示，图3中vr表示我方飞机的速度，vb表示敌机的速度，偏航角为速度方向与x轴的夹角。
[0125]
图4示出了根据本发明实施例的环境中无人机和目标飞机的相对位置关系。
[0126]
其中，空心表示无人机，实心表示目标飞机。
[0127]
如图4所示，ata表示无人机的轴线与雷达准线的角度差，taa表示目标飞机速度矢量(航迹)与目标和攻击机之间瞄准线的夹角。
[0128]
无人机追击目标飞机的目的是飞至目标飞机后方并且可以形成有利态势，击毁目标飞机，因此，定义无人机成功的条件是ata小于π/6且双方距离小于5000米；反之，若taa小于π/6且双方距离小于5000米认为目标飞机可以击毁无人机，视为失败；若双方同时达到上述条件，比较ata和taa的大小，若ata＞taa视为无人机成功，反之无人机失败；若双方距离大于15000米，认为超出模型的输入范围，视为目标飞机逃逸。
[0129]
步骤2’，根据无人机和目标飞机的相对位置关系以及不同的目标创建多个奖励函
数模型。
[0130]
步骤201，角度奖励函数模型。
[0131]
由几何关系可推得ata和taa的计算公式分别为：
[0132][0133][0134]
其中，vr表示无人机的速度；vb表示目标飞机的速度；r表示无人机与目标飞机的距离。
[0135]
如图4所示，ata与角度优势成正比，taa与角度优势成反比，利用上述关系构造角度奖励函数模型ra为：
[0136][0137][0138][0139]
步骤202，距离奖励函数模型。
[0140]
图5示出了根据本发明实施例的无人机和目标飞机的角度与距离关系的俯视图。
[0141]
如图5所示，d表示无人机和目标飞机之间的距离，dr表示无人机与目标飞机速度垂面的距离；db表示目标飞机与无人机速度垂面的距离，计算公式如下：
[0142][0143][0144]
利用上述两个距离关系构造距离奖励函数模型rd如下：
[0145]
[0146][0147][0148]
步骤203，高度奖励函数模型。
[0149]
构建高度奖励模型rh如下：
[0150][0151]
其中，h＝z
r-zb，zr为无人机的高度；zb为目标飞机的高度。
[0152]
步骤204，速度奖励函数模型。
[0153]
构建速度奖励模型rv如下：
[0154][0155]
其中，v＝v
r-vb，vr表示无人机的速度；vb表示目标飞机的速度。
[0156]
以上奖励函数可以分为两类：角度奖励函数模型和距离奖励函数模型属于对目标飞机的追击，速度奖励函数模型和高度奖励函数模型是为了保证无人机的正常飞行。
[0157]
若没有达到结束条件，综合考虑以上因素，总奖励函数模型设置为：
[0158]
r＝ω1ra+ω2rd+min(rv,rh)
……
(14’)
[0159]
为了应对不同的状态，对以上权值(ω1、ω2)进行如下分配，构建5组奖励函数模型，如表1所示。
[0160]
表1各奖励函数模型的权重分配
[0161]
ω101.510.52ω220.511.50
[0162]
若达到结束条件，如果无人机胜利，则r＝5，反之，如果目标飞机胜利，则r＝-5。
[0163]
图6示出了根据本发明实施例的ddpg模型结构和训练过程。
[0164]
步骤3’，由于有5组权值分配策略，因此需要建立5个ddpg模型。
[0165]
其中，ddpg模型包括actor网络θ、actor目标网络θ'、critic网络ω和critic目标
网络ω'。
[0166]
ddpg模型的训练过程为：actor网络输入当前无人机所处状态，输出动作控制量。actor网络包括2层网络结构，隐含层的结点个数为32，激活函数为tanh；输出层结点个数为3，激活函数为linear。actor网络的目标是输出最优策略使critic网络的输出最大，因此actor网络的目标输出为：
[0167][0168]
其中，q(s
t
,a,ω)表示当前状态下critic网络的评价，ra表示actor网络的学习率，a表示当前状态下所产生的策略。
[0169]
critic网络输入当前无人机所处状态和动作控制量，输出动作价值。critic网络包括3层网络结构，第一层隐含层的结点个数为256，激活函数为tanh；第二层隐含层的结点个数为512，激活函数为tanh；输出层结点个数为1，激活函数为linear。利用critic目标网络计算critic网络的目标输出为：
[0170][0171]
其中，r
t
表示当前状态s
t
执行动作a
t
所获得的奖励，γ表示奖励的衰减因子，q(s
t+1
,a
t+1
,ω')表示critic目标网络对下一状态的评估。
[0172]
需要说明的是，公式16’是公式3的实际应用。
[0173]
计算出actor网络的目标输出和critic网络的目标输出后使用mse作为损失函数训练actor网络模型和critic网络模型。
[0174]
actor目标网络θ'由actor网络θ软更新得到：
[0175]
θ'＝θ'τ+θ(1-τ)
……
(17’)
[0176]
critic目标网络ω'由critic网络ω软更新得到：
[0177]
ω'＝ω'τ+ω(1-τ)
……
(18’)
[0178]
其中，τ为软更新率。
[0179]
图7示出了根据本发明实施例的ddqn模型结构和训练过程。
[0180]
步骤4’，将多个ddpg模型的对应策略视为离散动作，建立对应的ddqn模型。
[0181]
其中，ddqn模型包括q网络η和目标q网络η'。q网络输入当前无人机所处状态，输出选择各ddpg模型所带来的奖励。q网络包括2层网络结构，隐含层的结点个数为128，激活函数为tanh；输出层结点个数为5，激活函数为linear，q网络的目标输出为：
[0182][0183]
其中，j＝1,
…
,5；(s
t+1
)j为选择第j个ddpg模型对应的下一状态；rj为选择第j个ddpg模型所得到的奖励，maxq((s
t+1
)j,η')表示目标q网络对状态(s
t+1
)j所对应q值中的最大值。
[0184]
需要说明的是，公式19’和公式16’均是对公式3的实际应用，公式16’是训练ddpg模型中的critic网络，公式19’是训练ddqn模型中的q网络。
[0185]
计算q网络的目标输出后，使用mse作为损失函数训练q网络模型。
[0186]
目标q网络η'由q网络η软更新得到：
[0187]
η'＝η'τ+η(1-τ)
……
(20’)
[0188]
其中，τ为软更新率。
[0189]
步骤5’，ddqn模型与5个ddpg模型组合构成分层强化学习框架。
[0190]
步骤6’，该分层强化学习模型与仿真环境模型交互并记录相关数据用于训练分层强化学习框架。
[0191]
为了训练ddpg模型，ddpg模型的经验池需要保存当前状态(s
t
)，动作(a
t
)，奖励(r
t
)，下一状态(s
t+1
)以及是否结束(is_done)。
[0192]
为了训练ddqn模型，ddqn模型的经验池只需要保存当前状态(s
t
)。
[0193]
图8示出了根据本发明实施例的分层强化学习框架和ddpg模型和ddqn模型训练过程。
[0194]
步骤7’，分层强化学习框架训练100周期后或满足需求后跳出循环。
[0195]
图9示出了根据本发明实施例的分层强化学习框架的决策过程。
[0196]
步骤8’，观察分层强化学习框架的训练效果，若满足应用需求就可以部署于实际的决策问题，如图9示出了最终模型的决策过程，将状态s输入ddqn模型中的q网络，q网络输出选择各ddpg模型对应的奖励，将状态s输入最大奖励的ddpg模型中的actor网络，输出最优的动作。
[0197]
需要说明的是，步骤8’中为分层强化学习框架的应用阶段，此时状态用s表示而非s
t
。
[0198]
图10示出了根据本发明实施例的分层强化学习框架训练过程中的胜率变化曲线；图11示出了根据本发明实施例的分层强化学习框架训练过程中的平均奖励值的变化曲线。
[0199]
本实施例中，依据以上方法进行模型训练，如图10所示，最终本实施例模型的无人机追击目标飞机的成功率稳定在0.8以上，并且在训练过程中的成功率最高可达0.94。
[0200]
图12a示出了根据本发明实施例的优势态势下的无人机追击目标飞机的轨迹；图12b示出了根据本发明实施例的优势态势下无人机追击目标飞机过程中底层模型切换的过程；图12c示出了根据本发明实施例的优势态势下无人机追击目标飞机过程中奖励值的变化过程；图13a示出了根据本发明实施例的均势态势下的无人机追击目标飞机的轨迹；图13b示出了根据本发明实施例的均势态势下无人机追击目标飞机过程中底层模型切换的过程；图13c示出了根据本发明实施例的均势态势下无人机追击目标飞机过程中奖励值的变化过程；图14a示出了根据本发明实施例的劣势态势下的无人机追击目标飞机的轨迹；图14b示出了根据本发明实施例的劣势态势下无人机追击目标飞机过程中底层模型切换的过程；图14c示出了根据本发明实施例的劣势态势下无人机追击目标飞机过程中奖励值的变化过程。
[0201]
如图12a、13a、14a所示，无人机可以在优势态势、均势态势和劣势态势下均可实现对目标飞机的追击，并且图12b、图13b、图14b显示出在追击过程中进行的5个底层决策模型之间进行切换，如图12c、图13c、图14c所示，无人机在追击目标飞机的过程中整体优势呈现增加趋势。
[0202]
本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本技术旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或
者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。
[0203]
应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

技术特征：

1.一种用于多目标决策的分层强化学习框架训练方法，其特征在于，所述分层强化学习框架训练方法包括如下步骤：基于所研究的实际问题，建立智能体与环境交互的仿真环境模型，使所述智能体生成策略后能够将动作在所述仿真环境模型中执行；将所述实际问题划分为多个子目标，针对多个所述子目标，通过分配不同的目标权重建立多个奖励函数模型；基于多个所述奖励函数模型，建立对应的多个ddpg模型；将多个所述ddpg模型的对应策略视为离散动作，建立对应的ddqn模型；将所述ddpg模型作为底层决策模型，所述ddqn模型作为选择所述底层决策模型的顶层决策模型，构建基于两层决策过程的分层强化学习框架；基于所述分层强化学习框架和所述仿真环境模型进行交互并存储经验；存储所述经验后，依照设定的模型训练频率训练所述ddpg模型和所述ddqn模型，判断训练后的所述ddpg模型和所述ddqn模型是否满足应用需求，若满足需求则退出训练过程，否则重新存储经验和重新训练所述ddpg模型和所述ddqn模型；在应用阶段，将所述智能体所处状态输入训练好的所述ddpg模型和所述ddqn模型，由所述顶层决策模型输出各底层决策模型被选择后所获得的奖励，激活最大奖励对应的所述底层决策模型，生成连续机动动作序列。2.根据权利要求1所述的用于多目标决策的分层强化学习框架训练方法，其特征在于，所述奖励函数模型作为所述智能体在所述仿真环境模型中执行所述动作a
t
后，所述仿真环境模型对所述智能体的反馈r
t
；所述ddpg模型的输入为所述智能体当前所处的状态s
t
，输出为在当前状态下所产生的动作a
t
；所述ddqn模型的输入为所述智能体当前所处的状态s
t
，输出为各所述ddpg模型被选择的所获得的奖励p
t
。3.根据权利要求2所述的用于多目标决策的分层强化学习框架训练方法，其特征在于，通过分配不同的目标权重建立多个所述奖励函数模型：其中，不同的权重w
i
满足：其中，n为奖励函数模型影响因素的个数；r
i
为第i个奖励函数模型对应的奖励。4.根据权利要求2所述的用于多目标决策的分层强化学习框架训练方法，其特征在于，所述ddpg模型包括actor网络θ、actor目标网络θ'、critic网络ω和critic目标网络ω'，所述actor网络用于生成策略，所述actor目标网络用于指导所述critic网络的更新，所述critic网络用于评价所述策略，所述critic目标网络用于计算q值，其中，q值为动作价值函数，即在当前状态下执行该动作对应的奖励值。5.根据权利要求4所述的用于多目标决策的分层强化学习框架训练方法，其特征在于，所述actor网络θ的目标是输出最优策略使所述critic网络ω的输出最大，因此所述actor网络θ的目标输出为：
其中，δa为动作a的增量，q(s
t
,a,ω)为当前状态下critic网络的评价；为critic网络对a的偏导，r
a
为actor网络的学习率；a为当前状态下所产生的策略；所述critic网络ω的目标是拟合当前状态下执行该策略所带来的累计奖励，即动作价值函数，所述critic网络ω的目标输出为：q(s
t
,a
t
)＝r
t
+γr
t+1
+γ2r
t+2
+
…
＝r
t
+γ(r
t+1
+γr
t+2
+
…
)＝r
t
+γq(s
t+1
,a
t+1
)
……
(3)其中，r
t
为当前状态s
t
执行动作a
t
所获得的奖励；γ表示奖励的衰减因子；q(s
t+1
,a
t+1
)表示下一状态获得的奖励；计算所述actor网络θ的目标输出和所述critic网络ω的目标输后，使用mse作为损失函数分别训练所述actor网络和所述critic网络。6.根据权利要求5所述的用于多目标决策的分层强化学习框架训练方法，其特征在于，所述actor目标网络θ'由所述actor网络θ软更新得到：θ'＝θ'τ+θ(1-τ)
……
(4)所述critic目标网络ω'由所述critic网络ω软更新得到：ω'＝ω'τ+ω(1-τ)
……
(5)其中，τ为软更新率。7.根据权利要求5所述的用于多目标决策的分层强化学习框架训练方法，其特征在于，所述ddqn模型包括q网络η和目标q网络η'，所述q网络η拟合选择该所述ddpg模型获得的累计奖励目标，所述q网络η计算下一时刻的q值，所述q网络η的目标输出为：其中，j＝1
…
m，m为ddpg模型个数；(s
t+1
)
j
为选择第j个ddpg模型对应的下一状态；r
j
为选择第j个ddpg模型所得到的奖励，maxq((s
t+1
)
j
,η')为目标q网络η'对状态(s
t+1
)
j
所对应q值中的最大值；计算出所述q网络η的目标输出后，使用mse作为损失函数训练q网络模型。8.根据权利要求7所述的用于多目标决策的分层强化学习框架训练方法，其特征在于，所述目标q网络η'由所述q网络η软更新得到：η'＝η'τ+η(1-τ)
……
(7)其中，τ为软更新率。9.根据权利要求8所述的用于多目标决策的分层强化学习框架训练方法，其特征在于，所述软更新频率低于对应的所述ddpg模型和所述ddqn模型的训练频率，所述分层强化学习框架的训练过程中，所述顶层决策模型的训练频率低于所述底层决策模型的训练频率。

技术总结

本发明提供了一种多目标决策的分层强化学习框架训练方法，包括基于所研究的实际问题，建立智能体与环境交互的仿真环境模型；将实际问题划分为多个子目标，通过分配不同的目标权重建立多个奖励函数模型；基于奖励函数模型建立对应的多个DDPG模型；将各DDPG模型的对应策略视为离散动作建立对应的DDQN模型；将DDPG模型作为底层决策模型，DDQN模型作为选择底层决策模型的顶层决策模型，构建分层强化学习框架；基于分层强化学习框架和仿真环境模型进行交互并存储经验；依照设定的模型训练频率训练DDPG模型和DDQN模型，判断模型是否满足需求，若满足需求则退出训练过程，否则重新存储经验、训练模型。构建能更快接近最终目标的分布式决策模型，生成最优连续策略组合。生成最优连续策略组合。生成最优连续策略组合。