基于QMIX的航空兵多编队协同自主行为决策建模方法


trainingwith decentralized execution,ctde)方式,以集中的端到端方式训练分散的多智能体博弈策略,如:vdn(value decomposition networks),qmix;在训练过程中使用全局信息帮助智能体学习,不需要复杂的通信建模过程,兼具易实现性和高效性,具有较好的可复现性,具有解决协同问题以及动作空间指数增长问题的前景。
6.此外,奖赏函数设计困难的问题是目前制约强化学习性能进一步提高的关键因素。知识是人类认识世界的成果与总结,在marl中引入知识,不仅可以提高深度强化学习的收敛速度以及航空兵cgf的探索能力,还能解决奖赏设计困难的问题。将知识引入强化学习的方法包括:专家在线指导、模仿学习、逆向强化学习等,在特定场景下均取得较好的试验效果。因此,基于ctde多智能体强化学习算法并引入先验知识突破航空兵多编队协同对抗自主决策行为建模技术,对解决高动态、不确定性及多编队对抗环境下的自主对抗仿真问题,形成有效的航空兵多编队决策行为建模方法具有重要的理论意义和军事应用价值。


技术实现要素:



7.在航空兵仿真规模扩大以及航空兵编队协作行为备受关注的背景下,如何对航空兵多编队协同自主行为进行仿真建模,已成为一个急需解决的关键技术问题。传统基于规则等行为建模方式存在领域知识获取困难,建模工作量大、效率低的缺点,且生成的行为固定、缺乏适应性等缺点。本发明以航空兵多编队协同对抗为背景,旨在将marl算法引入航空兵多编队协同自主行为决策建模,重点解决以下两方面的技术问题:(1)将多智能体强化学习算法融入多编队协同行为决策建模中来,形成基于多智能体的协同自主行为决策建模的完整流程。(2)解决强化学习网络中奖励函数的设计优化问题,提升智能体的训练效果,加速训练过程,同时使得策略学习的过程更加稳定。在此基础上,将多智能体强化学习算法融入航空兵多编队协同对抗仿真系统中,通过迭代训练形成有效的、高回报的空中兵力作战行为序列空间,为构建基于多智能体强化学习的智能航空兵多编队指挥决策模型提供支撑,进一步为研究在新场景下作战指挥策略的优化,以及为提升航空兵多编队协同作战水平提供有效的理论基础和技术辅助。
8.针对航空兵多编队协同空战任务,本发明中采用的算法解决思路是集中训练分散执行的方式,在这类算法中,有基于actor-critic框架的算法 (如maddpg、coma等)和基于值分解的算法(如vdn、qmix等)。其中,值分解方法更适用于离散动作空间,具有较好的可复现性。qmix是一种可以有效解决完全合作型多智能体决策问题的值分解算法。鉴于本发明中智能体动作空间为离散型,因此采用qmix算法实现航空兵多编队自主空战机动决策。针对奖励函数设计困难的问题,本发明采用最大熵逆向强化学习(maximum entropy inverse reinforcement learning,maxent irl)算法将知识引入,达到奖励函数优化的目的,并提升marl算法的训练效果和收敛速度。
9.本发明建立了一个基于qmix算法的航空兵多编队智能协同自主对抗决策模型。现代航空兵空战对抗场景中,往往涉及不同航空兵编队的协同配合,参战航空兵力多达几十架次。为了避免状态空间以及输出动作空间的维数爆炸问题,提高基于多智能体强化学习算法行为决策模型的训练效果,首先对航空兵多编队的任务进行层次划分,如图1所示。
10.其中,调度层决策面向多个编队的任务调度,包括任务执行主体编队、作战任务选择、任务执行目标区域、打击目标选择。编队层决策编队内的装备平台任务分配,包括单平
台任务状态分析、单平台任务分配和单平台目标选择。单机层决策面向单机装备平台的基本可执行任务,比如歼击机的空中拦截、轰炸机的目标突击以及预警机的情报探测等。
11.采用基于多智能体强化学习的调度行为建模、基于规则集、有限状态机的行为建模等方法,融合多种决策方法的优点,提升学习效率,形成传统方法+深度强化学习方法的通用兵力行为决策建模算法库,为多平台对抗任务行为决策提供方法支撑。
12.在构建基于qmix算法的调度层行为决策模型时,针对强化学习算法中奖励函数直接设计困难的问题,本发明采用maxent irl算法,通过引入专家决策采样器,实现在离散决策任务中奖励函数的优化。最后再将奖励函数代入到强化学习的qmix算法中,形成构建航空兵多编队自主决策智能行为模型的完整技术链条。调度层自主行为决策建模的整体流程如图2所示。
13.本发明提供一种基于qmix算法的航空兵多编队协同自主决策行为建模方法,包括以下步骤
14.第一步:将航空兵多编队协同作战体系的行为决策进行层次划分,自上而下依次为调度层-编队层-单机层;其中,调度层对不同航空兵编队的巡逻区域进行决策;编队层基于规则集对编队内的单机进行任务分配,包括单平台任务状态分析、任务分配和平台目标选择;单机层基于有限状态机对单机的可执行任务进行决策,包含执行对敌任务、前往指定区域巡逻和返航三个状态;
15.第二步:在调度层基于qmix算法,根据航空兵多编队协同作战的特点,提取表示多编队航空兵协同作战态势的特征向量,构建调度层qmix算法的输入状态空间;
16.第三步:在调度层基于qmix算法,根据不同航空兵编队的作战特点和可执行任务,设计不同航空兵编队的行为决策空间;
17.第四步:设计qmix算法中奖励函数的元素组成,并初始化组成元素权重,形成初始奖励函数;
18.第五步:基于qmix算法,融合所述输入状态空间、所述行为决策空间以及所述初始奖励函数,形成航空兵多编队协同自主行为决策模型;
19.第六步:采用maxent irl算法,引入专家策略采样器,对所述航空兵多编队协同自主行为决策模型进行迭代优化训练,得到优化后的奖励函数和决策策略。
20.进一步,所述第二步包括以下子步骤:
21.步骤201:航空兵协同作战体系中包含但不限于歼击机编队、轰炸机编队和预警机,根据对空战态势的影响,选取所有飞机的三维坐标位置 (xr,yr,zr)、兵力类型lxr、航向hr、速度v、携弹量d_numr以及我方探测信息域覆盖比ir,共同构成基于qmix网络的调度层指挥决策模型的状态输入空间s=《xr,yr,zr,lxr,hr,d_numr,v,ir》;
22.步骤202:对于战场态势信息的计算,首先,从每帧返回的态势信息中筛选出所有存活飞机的当前位置,根据不同飞机类型的属性得到不同类型飞机的信息探测范围;其次,将所有存活飞机位置和信息域探测范围进行融合处理,得到航空兵多编队的整体信息域态势图;最后,根据信息域探测范围与整体战场范围的比值,可得到信息域相对态势的量化表示ir,即探测信息域覆盖范围;
23.步骤203:针对qmix网络中不同的智能体,选取其视距内的飞机状态信息,构成该智能体的观测量o。
24.进一步,所述第三步包括以下子步骤:
25.步骤301:首先将作战区域划分为pn个不同的巡逻区域;
26.步骤302:每帧仿真运行时,假设基于qmix网络的作战指挥决策模型输出三个区域巡逻位置posr=《pj,ph,py》,其中pj∈{p1,p2,...,p
jn
}(jn≤ pn)、ph∈{p1,p2,...,p
hn
}(hn≤pn)、py∈{p
45
,p2,...,p
yn
}(yn≤pn),pj 表示歼击机编队的区域巡逻位置,ph表示轰炸机编队的区域巡逻位置,py 表示预警机编队的区域巡逻位置。
27.进一步,所述第四步,所述奖励函数为:
28.r
θ
(si,ai)=(θ)
tf29.其中,r
θ
(si,ai)为奖励函数;si为第i帧的状态;ai为第i帧的动作;θ表示奖励函数权重向量,每个元素初始化为1;f为奖励函数特征向量。
30.进一步,所述第五步包括以下子步骤:
31.步骤501:初始化战场态势和qmix网络参数;
32.步骤502:对学习率lr、经验回放池容量memory_length、探索程度ε、目标网络参数更新频率replace_target_iter、单次训练样本量 batch_size进行初始化设置;
33.步骤503:依据所述输入状态空间,提取qmix网络的当前状态空间信息s:
34.s=《xr,yr,zr,lxr,hr,d_numr,ir,xb,yb,zb,lxb,hb,ib》
35.其中,(x,y,z)为三维坐标位置;lx为兵力类型;h为航向;d_num为携弹量;i为探测信息域覆盖比;下标r表示我方,下标b表示敌方;
36.步骤504:将获取到的当前状态空间信息s输入qmix网络的预测网络,得到在当前态势下执行不同动作的预测价值,根据ε-greedy策略选取不同航空兵编队的动作ai;
37.步骤505:不同航空兵编队执行完相应动作ai后,得到新的战场态势,重复步骤503~504,得到下一帧的状态空间信息s

,并根据奖励函数计算上一帧动作执行后取得的奖励回报r,将{s,a,s

,r}作为一个样本存入样本池中,其中a={a1,
…an
},n是环境中智能体的数量,ai表示智能体i的动作, i∈{1,

n};
38.步骤506:如果样本池中数据量小于batch_size,其中batch_size为训练批次大小,返回步骤503,否则执行步骤507;
39.步骤507:在样本池中随机抽取batch_size大小的样本,用于网络训练;首先将航空兵各编队观测输入到其动作价值函数网络中,得到样本中动作对应的状态动作值qi(oi,ai);将当前状态空间信息s输入到超参数网络中,输出全局动作价值函数网络的权值和偏重;将状态动作值qi(oi,ai)输入到全局动作价值函数网络中,输出全局动作价值q
total
(s,a);其次将下一帧的状态空间信息s

中的观测输入到目标动作价值函数网络中,得到最大的状态动作值将下一帧的状态空间信息s

输入到目标超参数网络中,输出目标全局动作价值函数网络的权值和偏重;将输入到目标全局动作价值函数网络中,输出全局动作价值根据下式计算损失函数,再计算梯度进行反向传播并更新当前网络的参数;
40.41.其中,l(θ)为损失函数;rj为第j帧的奖励值;γ为奖励折扣因素;m表示用于训练的样本数量;
42.步骤508:判断目标网络是否应该更新,如是则复制当前网络的参数,否则执行步骤509;
43.步骤509:判断空战是否结束,若是执行步骤510,否则返回步骤503;
44.步骤510:判断是否满足停止训练的条件,若是则终止当前流程,否则返回步骤503。
45.进一步,所述第六步包括以下子步骤:
46.步骤601:通过引入人在回路仿真过程,由作战指挥员完成调度层作战任务的行为决策,并记录专家决策演示数据;其中,专家决策演示数据包括:智能体状态特征值和动作特征值;专家决策演示集合专家决策演示集合收敛阈值∈和最大回合数max_eisodes;
47.步骤602:设置初始化奖励函数权重向量θ,初始化qmix网络参数θq;以初始化的奖励函数作为初始策略优化目标,采用第五步的航空兵多编队协同自主行为决策模型进行策略优化,获得初始策略π0;
48.步骤603:当回合数小于max_eisodes时,其中max_eisodes为最大回合数,执行步骤604-607;
49.步骤604:收集策略π
t-1
下的采样决策数据根据当前策略下的采样决策数据dsamp,估计maxent irl算法中的分配函数z(θ),如下所示:
[0050][0051]
其中,d
samp
表示m局对抗当前策略下的采样决策数据;m表示用于训练的样本数量;ξj为第j个状态动作的序列;r
θ
(ξj)为特征函数线性组合拟合的状态动作序列的回报值;π(ξj)为产生状态动作序列ξj的概率;为在策略π下采样的m条状态动作序列;
[0052]
步骤605:为了减小奖励函数的拟合方差,采用批处理的方式,随机从待处理的决策数据中抽取定量的状态动作对,优化问题描述为:
[0053][0054]
优化目标表示为:
[0055][0056]
式中,θ
*
为最优奖励网络权重系数,j(θ)为损失函数,d
demo
表示n局对抗专家演示决策数据,r
θ
(si,ai)表示在状态动作对(si,ai)下的奖励函数, r
θ
(sj,aj)表示在状态动作对(sj,aj)下的奖励函数,π(aj|sj)表示当前状态sj动作aj出现的概率;令损失函数j(θ)对奖励函数的权重θ求导,如下:
[0057]
[0058]
通过随机梯度下降法最小化负对数似然损失函数j(θ),优化奖励函数参数θ;
[0059]
步骤606:将优化后的奖励函数r
θ
(si,ai)作为优化目标,采用第五步的航空兵多编队协同自主行为决策模型进行策略优化,更新qmix值函数网络参数θq;
[0060]
步骤607:当奖励函数的更新幅度小于给定阈值时,结束策略优化,同时输出优化后的奖励函数参数r
*
和优化后的qmix网络参数θq,否则,继续执行步骤604-606。
[0061]
本发明与现有技术相比所具有的有益效果:
[0062]
1、将qmix多智能体强化学习算法引入航空兵多编队自主行为决策建模中来,支持多个智能体的协同决策行为,可以实现指挥策略的自学习、自演化,能够在没有经验累积的全新作战场景下探索、优化作战指挥策略。
[0063]
2、行为决策模型在训练过程中使用全局信息辅助智能体学习,相比独立学习方式如iql,能够有效表示智能体间的协同行为,且避免网络训练不收敛的问题;采用集中训练分散执行的方式,相比完全集中训练的方式如 dqn,避免了随着智能体数量增多联合动作空间呈指数级增长的问题。
[0064]
3、针对奖励函数直接设计困难的问题。采用maxent irl算法,引入专家决策过程采样器,实现在离散决策中奖励函数的学习优化。有助于提升智能体的训练效果,加速训练过程,同时使得策略学习的过程更加稳定。
附图说明
[0065]
图1为航空兵多编队协同自主行为决策分层框架;
[0066]
图2为航空兵多编队调度层自主决策行为模型运行整体流程;
[0067]
图3为飞机编队内单机平台的作战规则;
[0068]
图4为信息域覆盖范围比值计算流程;
[0069]
图5为调度层基于qmix网络自主决策行为模型训练流程;
[0070]
图6为运行模式下基于qmix的多编队空战调度层决策算法结构。
具体实施方式
[0071]
下面结合附图和实施例对本发明进行进一步的详细介绍。
[0072]
一种基于qmix算法的航空兵多编队协同自主行为决策建模方法,包括以下步骤:
[0073]
第一步:在典型航空兵多编队协同对抗场景仿真下,由于航空兵多编队协同作战体系中包含的兵力实体数量多,自主行为决策因素繁多,为了使行为决策模型逻辑清晰、层次分明,首先将多编队航空兵体系的行为决策进行层次划分,自上而下依次分为:调度层-编队层-单机层。使用强化学习结合规则集和有限状态机的行为决策建模方式,避免基于强化学习算法进行行为决策建模时出现维数爆炸和不收敛问题。在调度层基于qmix强化学习算法进行行为决策建模,编队层和单机层分别基于规则集和有限状态机进行行为决策建模,形成融合多智能体强化学习算法和传统规则集的分层自主行为决策框架。
[0074]
具体步骤:
[0075]
步骤101:根据可执行任务对航空兵多编队协同作战体系进行层次划分,依次可分为:调度层-编队层-单机层,形成如图1所示的分层自主行为决策框架。其中在调度层采用qmix强化学习算法对不同飞机编队的巡逻位置进行决策。
[0076]
步骤102:编队层采用规则集的方式对编队内的单机进行任务分配,包括:单机任务状态分析、任务分配和目标选择,以歼击机编队为例,其目标分配规则集设计如下表1所示。
[0077]
表1歼击机编队目标分配规则集
[0078][0079]
步骤103:单机层基于有限状态机建立的作战飞机自主行为决策模型,如图3所示。共包含执行对敌任务、前往指定区域巡逻和返航三个状态。当巡逻作战飞机接收到红方指挥中心的作战指令时,从区域巡逻状态转入作战任务执行状态。当指定的作战任务达成后,作战飞机会返回指定区域进行区域巡逻。当作战飞机在执行空战任务或前往指定区域巡逻任务时油料不足,则作战飞机会返回机场补充油料。
[0080]
第二步:在调度层基于qmix强化学习算法,根据航空兵多编队协同空战的特点,提取能够表示作战对抗态势的特征向量构建强化学习框架的输入状态空间,对多编队航空兵协同作战态势进行有效表示。
[0081]
具体步骤:
[0082]
步骤201:以航空兵协同作战体系中包含但不限于歼击机编队、轰炸机编队和预警机为例。根据对空战态势的影响,可选取所有航空飞机的三维坐标位置(xr,yr,zr)、兵力类型lxr、航向hr、速度v、携弹量d_numr以及我方探测信息域覆盖比ir等,共同构成基于qmix网络的调度层指挥决策模型的状态输入空间,例如:s=《xr,yr,zr,lxr,hr,d_numr,v,ir》。
[0083]
步骤202:对于战场态势信息的计算方法,以探测信息域覆盖范围ir为例,其计算流程如图4所示。首先,从每帧返回的态势信息中筛选出所有存活作战飞机的当前位置,根据不同飞机类型的属性得到不同类型飞机的信息探测范围。其次,将所有存活飞机位置和信息域探测范围进行融合处理,得到航空兵多编队的整体信息域态势图。最后,根据信息域探测范围与整体战场范围的比值,可得到信息域相对态势的量化表示ir。
[0084]
步骤203:针对qmix网络中不同的智能体,选取其视距内的飞机状态信息,构成该智能体的观测量o。
[0085]
第三步:在调度层基于qmix强化学习算法,根据不同航空兵编队的作战特点和可
执行任务,设计不同航空兵编队的行为决策空间。
[0086]
以区域巡逻作战任务为例,行为决策空间设计的具体步骤如下所示:
[0087]
步骤301:首先将作战区域划分为pn个不同的巡逻区域。
[0088]
步骤302:每帧仿真运行时,假设基于qmix网络的作战指挥决策模型输出三个区域巡逻位置posr=《pj,ph,py》,其中pj∈{p1,p2,...,p
jn
}(jn≤ pn)、ph∈{p1,p2,...,p
hn
}(hn≤pn)、py∈{p
45
,p2,...,p
yn
}(yn≤pn),pj 表示歼击机编队的区域巡逻位置,ph表示轰炸机编队的区域巡逻位置,py 表示预警机编队的区域巡逻位置。
[0089]
第四步:根据对作战目标的影响程度提取奖励函数的特征向量,初步设计qmix强化学习算法中奖励函数的元素组成,并初始化组成元素权重,形成初始奖励函数。
[0090]
具体步骤:
[0091]
步骤401:奖励函数特征向量的选择。奖励函数特征向量的选择至关重要,以航空兵多编队场景中包含歼击机、轰炸机和预警机为例,本发明中奖励函数的设计选取如下几个基础特征:我方轰炸机飞机数量b_nr、我方歼击机飞机数量f_nr、我方预警机数量a_nr、我方轰炸机剩余载弹量 b_ar、我方歼击机剩余载弹量f_ar、敌方轰炸机飞机数量b_nb、敌方歼击机飞机数量f_nb、敌方预警机数量a_nb。奖励函数特征向量f可表示为:
[0092]
f=《b_nr,f_nr,a_nr,b_ar,f_ar,b_nb,f_nb,a_nb》
[0093]
采用r
θ
(si,ai)表示奖励函数,由输入状态的特征向量线性拟合,具体形式为:
[0094]rθ
(si,ai)=(θ)
tf[0095]
式中,θ表示奖励函数权重向量,每个元素初始化为1;si为第i帧的状态; ai为第i帧的动作。
[0096]
第五步:基于qmix算法,融合上文设计的强化学习输入状态空间、行为决策空间以及奖励函数,形成航空兵多编队协同自主行为决策模型迭代优化训练的完整运行流程,如图5所示。
[0097]
步骤501:初始化战场态势和qmix神经网络参数。
[0098]
步骤502:对学习率lr、经验回放池容量memory_length、探索程度ε、目标网络参数更新频率replace_target_iter、单次训练样本量 batch_size等各类超参数进行初始化设置。
[0099]
步骤503:根据第一步的输入状态空间,从战场态势中提取qmix网络的当前状态空间信息s,其中
[0100]
s=《xr,yr,zr,lxr,hr,d_numr,ir,xb,yb,zb,lxb,hb,ib》
[0101]
其中,(x,y,z)为三维坐标位置;lx为兵力类型;h为航向;d_num为携弹量;i为探测信息域覆盖比;下标r表示我方,下标b表示敌方。
[0102]
步骤504:将获取到的当前状态空间信息s输入qmix网络的预测网络,得到在当前态势下执行不同动作的预测价值。根据ε-greedy策略选取不同航空兵编队的动作ai。
[0103]
步骤505:不同航空兵编队执行完相应动作ai后,得到新的战场态势,重复步骤503~504,得到下一帧的状态空间信息s

,并根据奖励函数计算上一帧动作执行后取得的奖励回报r。将{s,a,s

,r}作为一个样本存入样本池中,其中a={a1,
…an
},n是环境中智能体的数量,ai表示智能体i的动作, i∈{1,

n}。
[0104]
步骤506:如果样本池中数据量小于batch_size,其中batch_size为训练批次大
小,返回步骤503,否则执行步骤507;
[0105]
步骤507:在样本池中随机抽取batch_size大小的样本,用于网络训练。首先将航空兵各编队观测输入到其动作价值函数网络中,得到样本中动作对应的状态动作值qi(oi,ai);将当前状态空间信息s输入到超参数网络中,输出全局动作价值函数网络的权值和偏重;将状态动作值qi(oi,ai)输入到全局动作价值函数网络中,输出全局动作价值q
total
(s,a)。其次将下一帧的状态空间信息s

中的观测输入到目标动作价值函数网络中,得到最大的状态动作值将下一帧的状态空间信息s

输入到目标超参数网络中,输出目标全局动作价值函数网络的权值和偏重;将输入到目标全局动作价值函数网络中,输出全局动作价值根据下式计算损失函数,再计算梯度进行反向传播并更新当前网络的参数;
[0106][0107]
其中,l(θ)为损失函数,rj为第j个样本中的奖励回报值,γ为奖励回报折扣因子,s

表示继当前状态空间信息s之后的下一帧的状态空间信息,表示智能体i的目标动作价值函数网络,oi为智能体i的观测,o
′i表示智能体i 的观测后的下一观测;m表示用于训练的样本数量。
[0108]
步骤508:判断目标网络是否应该更新,如是则复制当前网络的参数,否则执行步骤509。
[0109]
步骤509:判断空战是否结束,若是执行步骤510,否则返回步骤503。
[0110]
步骤510:判断是否满足停止训练的条件,若是则终止当前流程,否则返回步骤503。
[0111]
步骤511:算法训练结束后,应用时仅需各航空兵编队的动作值函数网络指导编队进行自主决策,运行模式下的整体结构图如图6所示。
[0112]
第六步:采用基于采样的maxent irl算法,引入一个高效的专家策略采样器,实现在离散任务中奖励函数权重的优化学习。首先确定第四步构造的初始化奖励函数,然后根据逆向强化学习算法,通过随机梯度下降法对奖励函数的参数进行优化。最终,可以学习到奖励函数的全局最优解。根据优化后的参数θr,可以得出当前的奖励函数r
θ
(si,ai)。然后将求解到的奖励函数作为强化学习的优化目标,利用qmix算法进行策略优化,进一步更新当前策略π(aj|sj)。如此往复迭代,直至奖励函数更新的幅度小于给定阈值为止,学习出最优的奖励函数以及相应的最优策略。
[0113]
具体步骤:
[0114]
步骤601:专家决策演示数据采集。逆向强化学习要从专家决策演示数据中学习奖励函数,因此,专家决策演示数据的获取至关重要。本发明中,专家决策演示数据包括:智能体状态特征值和动作特征值两部分组成。可以通过引入人在回路仿真过程,由作战指挥员完成调度层作战任务的行为决策,并记录专家决策演示数据。专家决策演示集合并记录专家决策演示数据。专家决策演示集合收敛阈值∈和最大回合数max_eisodes。
[0115]
步骤602:初始化奖励函数权重θ,初始化qmix网络参数θq;以初始化的奖励函数作
为初始策略优化目标,采用第五步过程进行策略优化,获得初始策略π0。
[0116]
步骤603:当回合数小于max_eisodes时,其中max_eisodes为最大回合数,执行步骤604-607。
[0117]
步骤604:收集策略π
t-1
下的采样决策数据根据当前策略下的采样决策数据dsamp,借鉴采样的思想来估计传统maxent irl算法中的分配函数z(θ),如下所示:
[0118][0119]
其中,d
samp
表示m局对抗当前策略下的采样决策数据;m表示用于训练的样本数量;ξj为第j个状态动作的序列;r
θ
(ξj)为特征函数线性组合拟合的状态动作序列的回报值;π(ξj)为产生状态动作序列ξj的概率;为在策略π下采样的m条状态动作序列。
[0120]
步骤605:为了减小奖励函数的拟合方差,采用批处理的方式,随机从待处理的决策数据中抽取定量的状态动作对,优化问题可以描述为:
[0121][0122]
优化目标可表示为:
[0123][0124]
式中,θ
*
为最优奖励网络权重系数,j(θ)为损失函数,d
demo
表示n局对抗专家演示决策数据,r
θ
(si,ai)表示在当前状态动作对(si,ai)下的奖励函数, r
θ
(sj,aj)表示在状态动作对(sj,aj)下的奖励函数,π(aj|sj)表示当前状态si动作ai出现的概率。由于配分函数采用当前策略采样轨迹进行拟合,可以采用梯度法求解出奖励函数参数的最优解。令损失函数j(θ)对奖励函数的权重θ求导,如下:
[0125][0126]
其中,r
θ
(si,ai)由输入状态的特征向量线性拟合,具体设计参见第四步。
[0127]
最终,通过随机梯度下降法最小化负对数似然损失函数j(θ),优化奖励函数参数θ。
[0128]
步骤606:将优化后的奖励函数r
θ
(si,ai)作为优化目标,采用第五步过程进行策略优化,更新qmix值函数网络参数θq。
[0129]
步骤607:当奖励函数的更新幅度小于给定阈值时,结束策略优化,同时输出优化后的奖励函数参数r
*
和优化后的qmix网络参数θq,否则,继续执行步骤604-606。
[0130]
以上所述仅为本发明的具体实施方式,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:


1.一种基于qmix的航空兵多编队协同自主行为决策建模方法,其特征在于,包括以下步骤:第一步:将航空兵多编队协同作战体系的行为决策进行层次划分,自上而下依次为调度层-编队层-单机层;其中,调度层对不同航空兵编队的巡逻区域进行决策;编队层基于规则集对编队内的单机进行任务分配,包括单平台任务状态分析、任务分配和平台目标选择;单机层基于有限状态机对单机的可执行任务进行决策,包含执行对敌任务、前往指定区域巡逻和返航三个状态;第二步:在调度层基于qmix算法,根据航空兵多编队协同作战的特点,提取表示多编队航空兵协同作战态势的特征向量,构建调度层qmix算法的输入状态空间;第三步:在调度层基于qmix算法,根据不同航空兵编队的作战特点和可执行任务,设计不同航空兵编队的行为决策空间;第四步:设计qmix算法中奖励函数的元素组成,并初始化组成元素权重,形成初始奖励函数;第五步:基于qmix算法,融合所述输入状态空间、所述行为决策空间以及所述初始奖励函数,形成航空兵多编队协同自主行为决策模型;第六步:采用maxent irl算法,引入专家策略采样器,对所述航空兵多编队协同自主行为决策模型进行迭代优化训练,得到优化后的奖励函数和决策策略。2.根据权利要求1所述的方法,其特征在于,所述第二步包括以下子步骤:步骤201:航空兵协同作战体系中包含但不限于歼击机编队、轰炸机编队和预警机,根据对空战态势的影响,选取所有飞机的三维坐标位置(x
r
,y
r
,z
r
)、兵力类型lx
r
、航向h
r
、速度v、携弹量d_num
r
以及我方探测信息域覆盖比i
r
,共同构成基于qmix网络的调度层指挥决策模型的状态输入空间s=<x
r
,y
r
,z
r
,lx
r
,h
r
,d_num
r
,v,i
r
>;步骤202:对于战场态势信息的计算,首先,从每帧返回的态势信息中筛选出所有存活飞机的当前位置,根据不同飞机类型的属性得到不同类型飞机的信息探测范围;其次,将所有存活飞机位置和信息域探测范围进行融合处理,得到航空兵多编队的整体信息域态势图;最后,根据信息域探测范围与整体战场范围的比值,可得到信息域相对态势的量化表示i
r
,即探测信息域覆盖范围;步骤203:针对qmix网络中不同的智能体,选取其视距内的飞机状态信息,构成该智能体的观测量o。3.根据权利要求2所述的方法,其特征在于,所述第三步包括以下子步骤:步骤301:首先将作战区域划分为pn个不同的巡逻区域;步骤302:每帧仿真运行时,假设基于qmix网络的作战指挥决策模型输出三个区域巡逻位置pos
r
=<pj,ph,py>,其中pj∈{p1,p2,...,p
jn
}(jn≤pn)、ph∈{p1,p2,...,p
hn
}(hn≤pn)、py∈{p
45
,p2,...,p
yn
}(yn≤pn),pj表示歼击机编队的区域巡逻位置,ph表示轰炸机编队的区域巡逻位置,py表示预警机编队的区域巡逻位置。4.根据权利要求3所述的方法,其特征在于,所述第四步,所述奖励函数为:r
θ
(s
i
,a
i
)=(θ)
t
f其中,r
θ
(s
i
,a
i
)为奖励函数;s
i
为第i帧的状态;a
i
为第i帧的动作;θ表示奖励函数权重向量,每个元素初始化为1;f为奖励函数特征向量。
5.根据权利要求4所述的方法,其特征在于,所述第五步包括以下子步骤:步骤501:初始化战场态势和qmix网络参数;步骤502:对学习率lr、经验回放池容量memory_length、探索程度ε、目标网络参数更新频率replace_target_iter、单次训练样本量batch_size进行初始化设置;步骤503:依据所述输入状态空间,提取qmix网络的当前状态空间信息s:s=<x
r
,y
r
,z
r
,lx
r
,h
r
,d_num
r
,i
r
,x
b
,y
b
,z
b
,lx
b
,h
b
,i
b
>其中,(x,y,z)为三维坐标位置;lx为兵力类型;h为航向;d_num为携弹量;i为探测信息域覆盖比;下标r表示我方,下标b表示敌方;步骤504:将获取到的当前状态空间信息s输入qmix网络的预测网络,得到在当前态势下执行不同动作的预测价值,根据ε-greedy策略选取不同航空兵编队的动作a
i
;步骤505:不同航空兵编队执行完相应动作a
i
后,得到新的战场态势,重复步骤503~504,得到下一帧的状态空间信息s

,并根据奖励函数计算上一帧动作执行后取得的奖励回报r,将{s,a,s

,r}作为一个样本存入样本池中,其中a={a1,

a
n
},n是环境中智能体的数量,a
i
表示智能体i的动作,i∈{1,

n};步骤506:如果样本池中数据量小于batch_size,其中batch_size为训练批次大小,返回步骤503,否则执行步骤507;步骤507:在样本池中随机抽取batch_size大小的样本,用于网络训练;首先将航空兵各编队观测输入到其动作价值函数网络中,得到样本中动作对应的状态动作值q
i
(o
i
,a
i
);将当前状态空间信息s输入到超参数网络中,输出全局动作价值函数网络的权值和偏重;将状态动作值q
i
(o
i
,a
i
)输入到全局动作价值函数网络中,输出全局动作价值q
total
(s,a);其次将下一帧的状态空间信息s

中的观测输入到目标动作价值函数网络中,得到最大的状态动作值将下一帧的状态空间信息s

输入到目标超参数网络中,输出目标全局动作价值函数网络的权值和偏重;将输入到目标全局动作价值函数网络中,输出全局动作价值根据下式计算损失函数,再计算梯度进行反向传播并更新当前网络的参数;其中,l(θ)为损失函数;r
j
为第j帧的奖励值;γ为奖励折扣因素;m表示用于训练的样本数量;步骤508:判断目标网络是否应该更新,如是则复制当前网络的参数,否则执行步骤509;步骤509:判断空战是否结束,若是执行步骤510,否则返回步骤503;步骤510:判断是否满足停止训练的条件,若是则终止当前流程,否则返回步骤503。6.根据权利要求5所述的方法,其特征在于,所述第六步包括以下子步骤:步骤601:通过引入人在回路仿真过程,由作战指挥员完成调度层作战任务的行为决策,并记录专家决策演示数据;其中,专家决策演示数据包括:智能体状态特征值和动作特征值;专家决策演示集合专家决策演示集合收敛阈值∈和最大回合数max_eisodes;
步骤602:设置初始化奖励函数权重向量θ,初始化qmix网络参数θ
q
;以初始化的奖励函数作为初始策略优化目标,采用第五步的航空兵多编队协同自主行为决策模型进行策略优化,获得初始策略π0;步骤603:当回合数小于max_eisodes时,其中max_eisodes为最大回合数,执行步骤604-607;步骤604:收集策略π
t-1
下的采样决策数据根据当前策略下的采样决策数据d
samp
,估计maxent irl算法中的分配函数z(θ),如下所示:其中,d
samp
表示m局对抗当前策略下的采样决策数据;m表示用于训练的样本数量;ξ
j
为第j个状态动作的序列;r
θ

j
)为特征函数线性组合拟合的状态动作序列的回报值;π(ξ
j
)为产生状态动作序列ξ
j
的概率;为在策略π下采样的m条状态动作序列;步骤605:为了减小奖励函数的拟合方差,采用批处理的方式,随机从待处理的决策数据中抽取定量的状态动作对,优化问题描述为:优化目标表示为:式中,θ
*
为最优奖励网络权重系数,j(θ)为损失函数,d
demo
表示n局对抗专家演示决策数据,r
θ
(s
i
,a
i
)表示在状态动作对(s
i
,a
i
)下的奖励函数,r
θ
(s
j
,a
j
)表示在状态动作对(s
j
,a
j
)下的奖励函数,π(a
j
|s
j
)表示当前状态s
j
动作a
j
出现的概率;令损失函数j(θ)对奖励函数的权重θ求导,如下:通过随机梯度下降法最小化负对数似然损失函数j(θ),优化奖励函数参数θ;步骤606:将优化后的奖励函数r
θ
(s
i
,a
i
)作为优化目标,采用第五步的航空兵多编队协同自主行为决策模型进行策略优化,更新qmix值函数网络参数θ
q
;步骤607:当奖励函数的更新幅度小于给定阈值时,结束策略优化,同时输出优化后的奖励函数参数r
*
和优化后的qmix网络参数θ
q
,否则,继续执行步骤604-606。

技术总结


本发明公开了一种基于QMIX的航空兵多编队协同自主行为决策建模方法,包括步骤:将航空兵多编队协同作战体系的行为决策进行层次划分,自上而下依次为调度层-编队层-单机层;在调度层基于QMIX算法,构建调度层QMIX算法的输入状态空间,设计不同航空兵编队的行为决策空间;设计QMIX算法中奖励函数的元素组成,并初始化组成元素权重,形成初始奖励函数;融合输入状态空间、行为决策空间以及初始奖励函数,形成航空兵多编队协同自主行为决策模型;采用MaxEnt IRL算法,引入专家策略采样器,进行迭代优化训练,得到优化后的奖励函数和决策策略。该方法能够为新场景下作战指挥策略的优化,以及为提升航空兵多编队协同作战水平提供有效的理论基础和技术辅助。有效的理论基础和技术辅助。有效的理论基础和技术辅助。


技术研发人员:

李妮 王泽 龚光红 董力维

受保护的技术使用者:

北京航空航天大学

技术研发日:

2022.07.06

技术公布日:

2022/10/13

本文发布于:2024-09-20 12:11:51,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/10794.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:函数   航空兵   步骤   状态
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议