基于改进麻雀算法的非完备信息博弈策略研究

第40卷 第4期吉林大学学报(信息科学版)
Vol.40 No.4
2022年7月Journal of Jilin University (Information Science Edition)July 2022
文章编号:1671⁃5896(2022)04⁃0589⁃11
基于改进麻雀算法的非完备信息博弈策略研究
收稿日期:2022⁃01⁃14
基金项目:科技创新2030⁃ 新一代人工智能”重大基金资助项目(2018AAA0100805)
作者简介:王琳蒙(1996  ),女,浙江宁波人,南京航空航天大学硕士研究生,主要从事智能决策控制研究,(Tel)86⁃159****0275
(E⁃mail)wlm_nuaa@163;王玉惠(1980  ),女,内蒙古阿拉善盟人,南京航空航天大学教授,博士生导师,主要从事智能决策控制和飞行控制研究,(Tel)86⁃25⁃84892301⁃8023(E⁃mail)wangyh@nuaa.edu㊂
王琳蒙,王玉惠,陈 谋,刘昊天
(南京航空航天大学自动化学院,南京211106)
摘要:针对空战信息的非完备问题,基于改进麻雀算法进行无人机非完备信息攻防博弈策略研究㊂通过分析敌我双方空战信息,在确定敌我双方的空战态势优势函数㊁空战性能优势函数以及收益函数的情况下建立攻防博弈模型㊂结合博弈模型给出博弈支付函数并计算敌我双方的支付矩阵,提出基于反向学习的改进麻雀算法,求解出敌我双方攻防博弈的纳什均衡解㊂通过仿真验证了所提方案的可行性和所提算法的有效性,该方案能初步解决空战对抗过程中所遇到的信息非完备问题㊂
关键词:无人机;攻防博弈;非完备信息;改进麻雀算法;反向学习中图分类号:TP29
文献标识码:A
Strategy Research of Incomplete Information Based on
Improved Sparrow Algorithm
WANG Linmeng,WANG Yuhui,CHEN Mou,LIU Haotian
(College of Automation Engineering,Nanjing University of Aeronautics and Astronautics,Nanjing 211106,China)
Abstract :To solve the problem of incomplete information in air combat,research of offensive and defensive game strategy of UAV (Unmanned Aerial Vehicle)based on an improved sparrow algorithm is conducted.By analyzing the air combat information of the enemy and ourselves,the offensive and defensive game model is established in the case of determining the air combat situation advantage function,air combat performance advantage function and profit function of the enemy and ourselves.Then,combining the game payout function given by the game model and calculating the payout matrix of the enemy and ourselves,an improved sparrow algorithm based on reverse learning is proposed to solve the Nash equilibrium solution of the offense and defense game between the enemy and ourselves.Finally,the feasibility and the effectiveness of the proposed algorithm are verified through simulations.This scheme can preliminarily solve the problem of incomplete information encountered in the process of air combat confrontation.
Key words :unmanned aerial vehicle (UAV);attack and defense games;incomplete information;improved
sparrow algorithm;reverse learning
0 引 言
随着无人机技术以及人工智能技术的发展,无人机凭借其无人化㊁高机动性等优势,必将成为未来
空战的主要作战单元之一,而自主决策是实现无人机空战的关键技术,因此根据战场态势研究无人机自主制定攻防决策问题是军事无人机领域研究的重点㊂
常用的攻防决策方法有专家系统法[1]和矩阵对策法[2]等,但面对未来更为复杂的空战战场环境
存在着计算量较大,精度较低等问题㊂为此,近年来研究学者考虑以博弈论为基础的决策方法,以便充分考虑对抗双方之间的关系,并进一步提高算法的效率[3⁃5]㊂李迎春等[6]建立了无人机攻防博弈模型,并根据求得的纳什均衡得出最终的策略集合㊂在这些研究成果的基础上,研究人员发现由于空战环境的复杂性,获取的空战信息必然存在或多或少的非完备性,因此解决在非完备信息下无人机的攻防决策问题成为了新的热点㊂惠一楠等[7]建立了不完全信息下的动态博弈模型,并且利用免疫进化算法求得贝叶斯纳什均衡解,最终得到最优行动策略,但其研究主要应用于无人机和导弹阵地之间的攻防博弈,并未考虑无人机之间的对抗㊂陈侠等[8]考虑了多无人机对抗的情况,并且利用区间可能度公式以及粒子算法求解了纳什均衡值,但未考虑到空战态势对最终博弈决策的影响㊂李世豪等[9]提出了无人机空战机动直觉模糊博弈模型,但模糊数属性权重的确定依赖专家经验㊂虽然文献[6⁃9]研究成果都大大推动了无人机智能决策技术的进展,但仍存在空战环境考虑简单化和空战数据处理主观化等
亟待解决问题㊂
麻雀算法(Sparrow Algorithm)是通过模拟自然界中麻雀的觅食行为和反捕食行为抽象出的新算法㊂该算法通过种内职责分工的搜索模式,保证种能快速觅食的同时避免陷入局部最优的情况,具有求解精度高㊁稳定性好等特点㊂汤安迪等[10]利用混沌麻雀算法进行无人机航迹规划㊂然而,目前麻雀算法在求解博弈问题方面还未能取得较大进展㊂60后省委书记
基于以上分析,笔者提出基于改进麻雀算法,并进行了无人机非完备信息攻防博弈策略研究㊂首先给出空战信息的区间数表示,建立了非完备信息下的无人机攻防博弈模型,分析了非完备信息的区间可能度;然后提出基于反向学习的改进麻雀算法,并用于求解空战双方混合策略纳什均衡解;最后通过仿真验证了所提算法的有效性㊂
1 非完备信息下的攻防博弈问题
1.1 问题描述
将实际空战问题与博弈论思想结合,将敌我双方的无人机视为博弈过程中的两个局中人{A,B},其中A为我方,B为敌方㊂我方无人机采取的策略集合可表示为S A={s A1,s A2, ,s Ap, ,s Ak},敌方无人机采取的策略集合可表示为S B={s B1,s B2, ,s Bq, ,s Bl},其中k和l分别为我方和敌方的无人机所采取的策略总数㊂
根据双方无人机的数据,计算双方速度态势W v㊁高度态势W h㊁距离态势W r㊁角度态势W a㊁性能优势W c以及收益函数R w[11],最终加权求和得到双方最后的总体优势函数㊂根据总体优势函数以及策略集合得到双方支付矩阵,从而计算纳什均衡解,给出攻防决策㊂
1.2 优势函数的建立
假设我方无人机集合为A={1,2, ,i, ,m},敌方无人机集合为B={1,2, ,j, ,n}㊂针对我方无人机i和敌方无人机j之间的态势对比情况,考虑速度㊁高度㊁角度㊁距离和无人机性能,建立总体优势函数,其中速度W vij㊁高度W hij㊁角度W rij㊁距离W aij和无人机性能W cij的非完备信息均用区间数表示,并且区间数的左㊁右值已知㊂
1)我方总体空战态势优势函数
W sij=c1ij W vij+c2ij W hij+c3ij W rij+c4ij W aij(1)其中c1ij,c2ij,c3ij和c4ij分别为我方无人机i攻击敌方无人机j时速度优势㊁高度优势㊁距离优势以及角度优势的加权系数,且各系数之间满足关系:c1ij+c2ij+c3ij+c4ij=1㊂
2)空战性能优势函数
W cij=0,C Ai/C Bj<0.3
0.25,0.3≤C Ai/C Bj<1
0.5,C Ai/C Bj=1
0.75,1<C Ai/C Bj<1.5
1,C Ai/C Bj≥1.
ì
î
í
ï
ï
ï
中国医药工业杂志
ï
ï
ï5
(2)
095吉林大学学报(信息科学版)第40卷
其中W cij 为我方无人机i 对敌方无人机j 的空战性能优势函数;C Ai ,C Bj 分别为我方无人机i 和敌方无人机j 的空战能力指数㊂
根据文献[12],无人机的空战能力指数C 可通过
C =ln B +ln ∑A 1+()1+ln ∑A ()
[]2ε1ε2ε3ε4
(3)
计算得到,其中B 为机动性参数;A 1为火力参数;A 2为探测能力参数;ε1为操纵效能系数;ε2为生存力系数;ε3为航程系数;ε4为电子对抗能力系数㊂
3)收益函数R wij ㊂我方无人机不确定性区间价值集合为v w ={[v L w 1,v R w 1], ,[v L wi ,v R wi ], ,[v L
wm ,
v R wm ]}㊂同理敌方无人机确定性区间价值集合为v d ={[v L d 1,v R d 1], ,[v L dj ,v R dj ], ,[v L dn ,v R
dn ]}㊂假设我方第
i 架无人机对敌方第j 架无人机的命中概率为p wij ,敌方第j 架无人机对我方第i 架无人机的命中概率为p dji ,则我方第i 架无人机对敌方第j 架无人机的收益函数如下
R wij =
v dj
v d max p wij
(4)
其中v d max 为敌方无人机价值集合中右值的最大值㊂4)我方总体优势函数u 1ij ㊂根据我方的总体空
战态势优势函数W sij ㊁空战性能优势函数W cij 以及收益
函数R wij ,加权求和得到我方总体优势函数
u 1ij =k 1ij W sij +k 2ij W cij +k 3ij R wij
(5)
其中k 1ij ,k 2ij 和k 3ij 分别为我方无人机i 攻击敌方无人机j 时总体空战态势优势函数㊁空战性能优势函数和收益函数的加权系数,且各系数之间满足关系:k 1ij +k 2ij +k 3ij =1㊂同理可得,敌方总体空战态势优势函数W sji ㊁空战性能优势函数W cji ㊁收益函数R dji ㊁以及敌方总体优
势函数u 2ji ㊂
1.3 支付矩阵的建立
多无人机对抗的情况下,在每个阶段的任一策略集s Ap 都由我方的m 架无人机所采取的行动共同决
定的㊂因此任一策略集s Ap 可表现为以下形式:s Ap ={s Ap 1,s Ap 2, ,s Api , ,s Apm },其中s Api 为当前策略s Ap 中我方第i 架无人机所采取的行动㊂
最后一分钟教学设计在当前策略s Ap 中,我方第i 架无人机可采取行动攻击敌方任意一架无人机㊂因此,s Api 可进一步表示
为:s Api ={p i 1,p i 2, ,p ij , ,p in },其中p ij 为在当前策略s Ap 中我方第i 架无人机对敌方第j 架无人机所采取的行动㊂同理,敌方无人机策略集合可表示为以下形式:s Bq =s Bq 1,s Bq 2, ,s Bqj , ,s {}Bqn ,s Bqj ={q j 1,q j 2, ,q ji , ,q jm }㊂
当我方采取策略s Ap ,敌方采取策略s Bq 时,建立我方的收益支付函数
f apq =
∑m i =1∑n j =1p ij u 1ij -∑n j =1∑m
i =1
q ji u 2ji (6)
铝矿石
其中p ij =1为我方在策略s Ap 下,我方第i 架无人机攻击敌方第j 架无人机;p ij =0为我方在策略s Ap 下,我方第i 架无人机没有攻击敌方第j 架无人机㊂q ji =1表示敌方在策略s Bq 下,敌方第j 架无人机攻击我方第i 架无人机;q ji =0表示敌方在策略s Bq 下,敌方第j 架无人机没有攻击我方第i 架无人机㊂
根据上述空战支付函数的计算,我方空战支付矩阵为
f a =
1
q
l
1
︙p
︙k f a 11 f a 1q  f a 1l ︙ ︙
︙f ap 1 f apq  f apl ︙ ︙ ︙f
ak 1
f akq
f éëêêêêêêêù
û
úúúúúúúakl
(7)
其中f apq =[f L apq ,f R
开普敦大学apq ](p =1, ,k ;q =1, ,l )是一个区间数,表示非完备信息下我方采取策略s Ap ,敌方
采取策略s Bq 时我方的收益㊂
1
95第4期王琳蒙,等:基于改进麻雀算法的非完备信息博弈策略研究
2 非完备信息下的攻防博弈决策
根据空战模型中无人机的攻防博弈问题建立无人机攻防博弈模型,采用麻雀算法求解攻防博弈的纳
什均衡策略㊂
2.1 攻防博弈决策模型
根据参考文献[13],将单矩阵的博弈问题转化为常规的线性规划问题进行求解,我方无人机的纳什
均衡值通过v =max x ∈A
u 1(x )
s.t u 1(x )=min 1≤
q ≤l ∑k
p =1
f apq x p ∑k p =1
f apq x p >u 1(x ), q =1,2, ,l
x 1+x 2+ +x k =1x p ≥0, p =1,2, ,ìîíïïïï
ïïïï
k
(8)
进行求解㊂对单矩阵博弈问题的求解本质上就是对式(8)进行求解,所得最优解(x 1,x 2, ,x k )即为纳什均衡解㊂考虑到攻防博弈模型式(8)中存在区间数f apq ,无法直接进行求解,下面将考虑采用麻雀算法进
行求解㊂
2.2 攻防博弈决策求解
根据式(8)的攻防博弈模型,采用麻雀算法求解攻防博弈的纳什均衡解㊂
纳什均衡解的个数即为麻雀种中每只麻雀位置的维数,种最后得出的全局最优位置即为所求
的博弈纳什均衡解㊂假设麻雀种X 中麻雀的个数为N ,即X =(X 1, ,X g , ,X N )㊂根据纳什均衡解的个数,种中每个个体的位置都可表示为:X g =(X g ,1, ,X g ,p , ,X g ,k )㊂因此针对式(8)的求解可表示为
(x 1,x 2, ,x k )=max X g F fitness =
∑k
h =1
f apq X
g ,
h ,g =1,2, ,{}N s.t
X g ,1+X g ,2+ +X g ,h + +X g ,k =1
X
g ,h
≥{0
(9)
  针对式(9)得出适应度函数F fitness ,并根据算法原理进行求解,最后得出的全局最优位置即为所求的
博弈纳什均衡解(x 1,x 2, ,x k )㊂
2.2.1 基本麻雀算法求解
麻雀搜索算法通过模拟麻雀进食的过程获得优化解[14],种最后得出的全局最优位置即为所求的
博弈纳什均衡解㊂基本的求解步骤如下㊂
1)首先,麻雀种的初始化㊂确定麻雀的个数始终为N 个,麻雀个数不会随着迭代的进行而发生改
变㊂初始化时随机产生的N 个可行解的位置为
X start =(X 1start , ,X a start , ,X N
start ),X a start =(X a ,1start , ,X a ,h start , ,X a ,k
start ),X a ,h start =X a ,h start +rand(0,1)(X a ,h start -X a ,h start
ìîíïïï
ï)(10)
其中h ∈{1,2, ,k }为k 维解向量的第h 个分量;rand(0,1)为(0,1)之间的随机数;X a ,h
start 为可行解的边界下界;X a ,h start 为可行解的边界上界㊂考虑到式(8)纳什均衡解的取值范围为(0,1),边界上下界可设置为:X a ,h start =1,X a ,h start =0㊂
2)利用适应度函数计算N 个初始可行解的函数值并由大到小进行排序,将最大函数值f G 对应的位
295吉林大学学报(信息科学版)第40卷
置记为X g best ,最小函数值f W 对应的位置记为X g worst ㊂根据函数值的排序,初始种的位置从大到小可
表示为:X 0=(X 01, ,X 0a , ,X 0N )㊂
3)函数值排名前20%的解作为发现者(S ),其余80%作为跟随者(F )㊂因此发现者的总数为0.2N ㊂
确定种中的发现者以及跟随者后,首先开始发现者位置更新,其方式如下[15]
X
t +1
s ,h
=
X t s ,h exp -s α()
T ,
R 1<S T X t s ,h +Q L ,
R 1≥S {
T
X 0s ,h =(X 01, ,X 0s , ,X 0
0.2N ),  s =1,2, ,0.2N
(11)
其中X t +1s ,h ,X t
s ,h 为发现者第s 个可行解在第t +1,t 次迭代中第h 个分量;h ∈{1,2, ,k },t 为当前迭代次数,T 为最大迭代次数;X 0s ,h 为发现者的初始位置,由步骤2)中的X 0的前20%构成,且降序排列;α为
属于(0,1]之间的均匀随机数;R 1为预警值,取值范围为(0,1];S T 为预警阈值,取值范围为[0.5,1];Q 为服从标准正态分布的随机数;L 为1×d 矩阵,该矩阵中每个元素均为1;R 1<S T 表明此时周围并没有出现捕食者,R 1≥S T 表明此时周围开始出现捕食者㊂
4)当所有发现者进行位置更新后,利用适应度函数计算所有发现者的函数值并对函数值进行从大
到小排序,出其中位置最好的发现者,其方式如下
X
t +1
s max
=max X
t +1s ,h
∑k
h =1
f apq X t +1
s ,h ,s =1,2, ,0.2{}N
(12)
  5)随后进行跟随者的位置更新,其方式如下
X t +1f ,h
=Q exp X g worst -X t
f ,h f æèçöø÷2,f >0.5N X t +1s max +X t f ,h -X t +1s max
A +L ,f ≤0.5ìîíïïïïN
X 0f ,h =(X 00.2N +1, ,X 0f , ,X 0
N )(f =0.2N +1,0.2N +2, ,N )
(13)
其中X t +1f ,h ,X t
f ,h 为跟随者第f 个可行解在第t +1,t 次迭代中第h 个分量;Q 为服从标准正态分布的
随机数;X t +1s max 为目前第t +1代发现者所占据的最优位置;最小函数值f W 对应的位置为X g worst ;A 为
1×d 矩阵,其中每个元素随机赋值为1或-1,A +=A T (AA T )-1;f >0.5N 时表示第f 个跟随者的适应度值在种中处于较差的位置,f ≤0.5N 时表示第f 个跟随者的适应度值在种中处于较好的位置㊂
6)种中存在侦察预警机制,负责警戒的麻雀在整个麻雀种中随机产生㊂在1次迭代完成后,
麻雀种会随机选择种中10%~20%的个体成为种中的侦察者,即侦察者通过比较自身适应度值和当前的最优适应度值不断调整自己的位置,从而保证安全,其更新方式如下
3m公司X t +1
r ,h
=X g best +βX t r ,h -X g best ,f g ≠f G X t
r ,h +K X t r ,h -X g worst (f g -f W
)+æ
èç
öø÷
ε,f g =f ìîíïï
ïïG
(14)
其中X t +1r ,h ,X t
r ,h 为侦察者第r 个可行解在第t +1,t 次迭代中第h 个分量;最大函数值f G 对应的位置为
X g best ,最小函数值f W 对应的位置为X g worst ;β为步长控制参数,参数服从均值为0,方差为1的正态分布;K 为属于[-1,1]之间的一个随机数;f g 为当前个体的适应度值;ε为非零最小常数;f g ≠f G 表示此时麻雀容易受到捕食者的攻击,它将随机缩小其与最优位置之间的距离;f g =f G 表示此时麻雀处在种中间位置且意识到了危险,将靠近周围其他个体㊂
7)每次迭代结束后,利用适应度函数计算每个个体的函数值并由大到小进行排序,将最大函数值f G
对应的位置记为X g best ,最小函数值f W 对应的位置记为X g worst ㊂
8)重复步骤3)~7),直至达到最大迭代次数,根据
X t +1g ,h ={X t +1s ,h ,X t +1f ,h ,X t +1
r ,h }
3
95第4期王琳蒙,等:基于改进麻雀算法的非完备信息博弈策略研究

本文发布于:2024-09-21 18:59:15,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/550718.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:麻雀   空战   博弈   函数   算法
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议