一种静默协同下多航天器协同轨道博弈控制方法与流程



1.本发明涉及一种静默协同下多航天器协同轨道博弈控制方法,属于航天器轨道控制技术领域。


背景技术:



2.多航天器轨道博弈是未来太空博弈的主要方式,多颗航天器协同配合,对目标星进行卡位、驱离、逆光区成像等行为。然而,在多航天器博弈场景中联合动作通常产生全局奖励,缺乏单一航天器对整体任务完成贡献度的量化指标。另一方面,在多航天器博弈场景学习训练过程中,每一个航天器的策略均在变化,带来了学习训练效率低、博弈控制效果差的问题。
3.现有技术中,尚未发现多航天器协同轨道博弈控制的相关技术方案。


技术实现要素:



4.本发明要解决的技术问题是:克服现有技术的不足,解决了静默协同下多航天器协同轨道博弈控制问题。
5.本发明目的通过以下技术方案予以实现:
6.一种静默协同下多航天器协同轨道博弈控制方法,包括:
7.(1)选取被护卫航天器为参考点,建立cw轨道相对运动学模型及坐标系;
8.(2)初始化2q颗在轨博弈航天器的位置、速度,预设2q颗在轨博弈航天器的质量、体积、敏感器能力与机动能力,并预设2q颗在轨博弈航天器的观测量与控制量;所述2q颗在轨博弈航天器包括q颗红方航天器和q颗蓝方航天器;
9.(3)为红蓝双方航天器设置即时奖励函数,用于激励航天器之间的协同行为;
10.(4)为红蓝双方航天器设置策略网络及价值网络,用于生成航天器在轨博弈策略;
11.(5)设置多智能体强化学习算法的超参数,用于辅助学习训练算法的收敛;
12.(6)对红蓝双方策略网络及价值网络进行左右互搏学习训练,根据红蓝双方策略网络给出的速度增量分别对红蓝双方航天器进行轨道控制,完成左右互搏学习训练后获得自主变轨博弈策略;
13.(7)在静默状态下,多航天器利用自主变轨博弈策略对被护卫航天器进行护卫。
14.优选的,所述观测量包括航天器自身位置及速度、队友航天器的相对位置及相对速度、对手航天器的相对位置、速度关系,所述控制量为cw轨道相对运动学模型内xyz三轴的速度增量;
15.其中,cw轨道相对运动学模型坐标系中,原点为被护卫航天器,即cw轨道相对运动学模型的参考点,z轴垂直向下指向地心,y轴垂直于被护卫航天器的轨道平面,x轴根据右手直角坐标系定义。
16.优选的,蓝方航天器的即时奖励分为两部分,第一部分为q颗蓝方航天器与被护航天器的相对距离之和,第二部分为被红方航天器占据逆光区的蓝方航天器数量;
17.红方航天器的即时奖励分为三部分,第一部分为q颗红方航天器与其距离最近蓝方航天器的相对距离之和,第二部分为q颗蓝方航天器与其距离最近红方航天器的相对距离之和,第三部分为被红方航天器占据逆光区的蓝方航天器数量。
18.优选的,所述超参数包括累积奖励折扣率、学习率、批处理数据量。
19.优选的,所述左右互搏学习训练为:在多航天器轨道博弈场景中,通过红蓝双方智能体博弈的方式,实现红蓝双方智能的螺旋式提升。
20.优选的,所述对策略网络及价值网络进行学习训练包括:
21.(6-1)初始化被护卫航天器的轨道高度;
22.(6-2)初始化红蓝双方航天器的控制周期;
23.(6-3)初始化红蓝双方航天器在cw轨道相对运动学模型内的初始位置、速度;
24.(6-4)分别初始化红蓝双方航天器的策略网络和价值网络,设置多智能体强化学习算法的初始化超参数;
25.(6-5)初始化cw轨道相对运动学模型解算;
26.(6-6)读取t0时刻q颗蓝方航天器的初始位置及初始速度、q颗红方航天器的初始位置及初始速度;
27.(6-7)将2q颗航天器的位置速度信息输入红方航天器的策略网络,获取策略网络输出的q颗红方航天器的xyz三轴速度增量;
28.(6-8)将2q颗航天器的位置速度信息输入蓝方航天器的策略网络,获取策略网络输出的q颗蓝方航天器的xyz三轴速度增量;
29.(6-9)通过cw轨道相对运动学模型解算t0+t时刻q颗红方航天器以及q颗蓝方航天器的位置及速度;
30.(6-10)根据步骤(6-9)所得观测量数据进行归一化处理,并利用红蓝双方即时奖励函数分别计算红蓝双方即时奖励值;
31.(6-11)生成包括t0时刻q颗红方航天器与q颗蓝方航天器的位置及速度、t0时刻q颗红方航天器与q颗蓝方航天器的速度增量、t0+t时刻红蓝双方即时奖励值的训练样本,并保存至样本池中;
32.(6-12)重复步骤(6-5)至步骤(6-11),直至该局的仿真步长达到预先设定的阈值;
33.(6-13)分别对红蓝双方航天器的策略网络及价值网络进行学习训练;
34.(6-14)重复步骤(6-13)直至达到预先设定的训练次数阈值;
35.(6-15)返回步骤(6-1),加入初始位置、速度随机扰动,并继续红蓝双方航天器的策略网络及价值网络学习训练,直至红蓝双方的策略网络及价值网络参数稳定,每一局的累积回报值收敛。
36.优选的,所述对红蓝双方航天器的策略网络及价值网络进行学习训练包括:
37.(6-13-1)从样本池中随机抽取n个学习训练样本;
38.(6-13-2)根据随机抽取的学习训练样本中t0时刻观测量,作为价值网络输入,根据价值网络输出、该条样本的即时奖励值,计算该条样本的t0时刻观测量所对应的累积奖励值;
39.(6-13-3)以累积奖励值为期望输出,对红蓝双方航天器的价值网络进行学习训练;
40.(6-13-4)利用学习训练后的红蓝价值网络输出,进一步更新红蓝策略网络权值。
41.优选的,完成左右互搏学习训练后获得自主变轨博弈策略时,达到了纳什均衡。
42.优选的,策略网络的结构为3个隐层,第一层256个节点,第二、三层各128个节点。
43.优选的,价值网络的结构为3个隐层,第一层256个节点,第二、三层各128个节点。
44.本发明相比于现有技术具有如下有益效果:
45.(1)本发明首次提出多航天器静默协同方式下的轨道博弈自主机动控制方法。区别于依赖地面测控指令上传的传统航天控制技术,本控制方法基于从环境中获得的实时观测数据,无需通过星间通讯,在轨自主生成机动策略,便可成功地协同完成多航天器轨道博弈控制任务;
46.(2)本发明首次给出了不确定场景下多航天器博弈左右互搏学习训练的通用步骤,确立了多航天器轨道博弈智能生成范式,为后续其他场景下的博弈智能生成建立了框架;
47.(3)本发明采用数字环境进行学习训练,无需大规模的实际在轨数据。并且,本发明中航天器对环境的观测量在真实物理环境中均可通过测量手段获得,具有工程实用性;
48.(4)本发明在网络学习训练过程中,通过不断拉偏红蓝双方初始位置速度,变更红蓝双方机动能力,增强网络面对多类目标特性、多种初始情况的鲁棒性,进而扩展了网络模型的通用性;
49.(5)本发明通过知识引导的方式设计兼具个体收益和集体收益的混合奖励函数,有效激发了航天器之间的协同行为,在确保集体目标达成的同时,有效提升了学习训练的收敛速度;
50.(6)本发明采用分布式系统架构。相较于集中式系统架构中,单个智能体统一输出所有航天器动作量的模式。在分布式系统架构中,每个航天器配备一个智能体模型,该模型仅输出该航天器的动作量,极大减轻了中央处理器的运算量和星间通讯的压力。
附图说明
51.图1为发明提供的红方航天器学习收敛曲线;
52.图2为发明提供的蓝方航天器学习收敛曲线。
具体实施方式
53.为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施方式作进一步详细描述。
54.一种静默协同下多航天器协同轨道博弈控制方法,面向六颗航天器在轨博弈,其中3颗蓝方航天器通过智能算法进行轨道机动,对被护卫航天器实施逆光抵近侦察,另外3颗红方航天器为保护被护卫航天器,通过智能算法进行轨道机动,对3颗蓝方航天器进行卡位、驱离、威慑并适时抵近其逆光区进行反制取证。通过引入多智能体强化学习方法,在数字仿真环境下开展左右互搏学习训练,红蓝双方可根据对手、队友与自身的相对位置、速度关系,在轨自主地计算自身的xyz三轴速度增量,实现红蓝双方轨道博弈策略的在轨自主生成,具体方法如下:
55.(1)选取被护卫航天器为参考点,建立cw轨道相对运动学模型;
56.(2)初始化六颗在轨博弈航天器的位置、速度,预设六颗在轨博弈航天器的质量、体积、敏感器能力与机动能力,并预设六颗在轨博弈航天器的观测量与控制量;
57.所述六颗在轨博弈航天器包括三颗红方航天器、三颗蓝方航天器;
58.所述观测量包括航天器自身位置及速度、两颗队友航天器的相对位置及相对速度、三颗对手航天器的相对位置、速度关系,所述控制量为cw轨道相对运动学模型内xyz三轴的速度增量;
59.其中,cw轨道相对运动学模型坐标系中,原点为被护卫航天器,即cw轨道相对运动学模型的参考点,z轴垂直向下指向地心,y轴垂直于被护卫航天器的轨道平面,x轴根据右手直角坐标系定义。
60.(3)为红蓝双方共六颗航天器设置即时奖励函数;
61.蓝方航天器的即时奖励r
blue
分为两部分,第一部分r
b1
为三颗蓝方航天器与被护航天器的相对距离之和,第二部分r
b2
为被红方航天器占据逆光区的蓝方航天器数量,具体为:
62.r
b1
=-0.01
×
(x1+x2+x3)
63.r
b2
=-0.5i
64.r
blue
=r
b1
+r
b2
65.式中,xj代表蓝方航天器j与被护航天器的相对距离,i代表被占据逆光区的蓝方航天器数量。
66.红方航天器的即时奖励r
red
分为三部分,第一部分r
r1
为三颗红方航天器与其距离最近蓝方航天器的相对距离之和,第二部分r
r2
为三颗蓝方航天器与其距离最近红方航天器的相对距离之和,第三部分r
r3
为被红方航天器占据逆光区的蓝方航天器数量,具体为:
67.r
r1
=-0.01
×
(min{x
11
,x
12
,x
13
}+min{x
21
,x
22
,x
23
}+min{x
31
,x
32
,x
33
})
68.r
r2
=-0.01
×
(min{x
11
,x
21
,x
31
}+min{x
12
,x
22
,x
32
}+min{x
13
,x
23
,x
33
})
69.r
r3
=0.5i
70.r
red
=r
r1
+r
r2
+r
r3
71.式中,x
jk
代表红方航天器j与蓝方航天器k的相对距离,i代表被占据逆光区的蓝方航天器数量。
72.(4)为红蓝双方共六颗航天器设置策略网络及价值网络;
73.(5)设置多智能体强化学习算法的超参数;
74.所述超参数包括累积奖励折扣率、学习率、批处理数据量等。
75.(6)对红蓝双方策略网络及价值网络进行学习训练,具体步骤如下:
76.(6-1)初始化被护卫航天器的轨道高度;
77.(6-2)初始化红蓝双方共六颗航天器的控制周期;
78.(6-3)初始化红蓝双方共六颗航天器在cw轨道相对运动学模型内的初始位置、速度;
79.(6-4)分别初始化红蓝双方共六颗航天器的策略网络和价值网络,设置多智能体强化学习算法的初始化超参数;
80.(6-5)初始化cw轨道相对运动学模型解算;
81.(6-6)读取t0时刻三颗蓝方航天器的初始位置及初始速度、三颗红方航天器的初始位置及初始速度;
82.(6-7)将六颗航天器的位置速度信息输入红方航天器的策略网络,获取策略网络输出的三颗红方航天器的xyz三轴速度增量;
83.(6-8)将六颗航天器的位置速度信息输入蓝方航天器的策略网络,获取策略网络输出的三颗蓝方航天器的xyz三轴速度增量;
84.(6-9)通过cw轨道相对运动学模型解算t0+t时刻三颗红方航天器以及三颗蓝方航天器的位置及速度;
85.(6-10)根据步骤(6-9)所得观测量数据进行归一化处理,并利用红蓝双方即时奖励函数分别计算红蓝双方即时奖励值;
86.(6-11)生成包括t0时刻三颗红方航天器与三颗蓝方航天器的位置及速度、t0时刻三颗红方航天器与三颗蓝方航天器的速度增量、t0+t时刻红蓝双方即时奖励值的训练样本,并保存至样本池中;
87.(6-12)重复步骤(6-5)至步骤(6-11),直至该局的仿真步长达到预先设定的阈值;
88.(6-13)分别对红蓝双方航天器的策略网络及价值网络进行学习训练,具体步骤如下:
89.(6-13-1)从样本池中随机抽取n个学习训练样本;
90.(6-13-2)根据随机抽取的学习训练样本中t0时刻观测量,作为价值网络输入,根据价值网络输出、该条样本的即时奖励值,计算该条样本的t0时刻观测量所对应的累积奖励值;
91.(6-13-3)以累积奖励值为期望输出,对红蓝双方航天器的价值网络进行学习训练;
92.(6-13-4)利用学习训练后的红蓝价值网络输出,进一步更新红蓝策略网络权值。
93.(6-14)重复步骤(6-13)直至达到预先设定的训练次数阈值;
94.(6-15)返回步骤(6-1),加入初始位置、速度随机扰动,并继续红蓝双方航天器的策略网络及价值网络学习训练,直至红蓝双方的策略网络及价值网络参数稳定,每一局的累积回报值收敛。
95.根据红蓝双方策略网络给出的速度增量分别对红蓝双方六颗航天器进行轨道控制,当所有蓝方均被抵近至逆光区,则红方胜利,当任意蓝方抵近至被护卫航天器的逆光区,则蓝方胜利。
96.(7)完成左右互搏学习训练后获得自主变轨博弈策略;在静默状态下,多航天器利用自主变轨博弈策略对被护卫航天器进行护卫。
97.下面结合具体实施例进行进一步说明:
98.在本实施例中,以某被护卫航天器为参照点,建立cw轨道相对运动学模型;
99.初始化红蓝双方共六颗航天器的位置和速度,设置红蓝双方共六颗航天器的质量、体积、敏感器能力以及机动能力,并设计各自的观测量包括:航天器自身位置及速度、两颗队友航天器相对位置及相对速度、三颗对手航天器相对位置及相对速度,控制量为cw轨道相对运动学模型内xyz三轴的速度增量;
100.为蓝方航天器设计智能算法的即时奖励函数r
blue
,蓝方奖励函数分为两部分,第一部分r
b1
为三颗蓝方航天器与被护航天器的相对距离之和,第二部分r
b2
为被红方航天器占据逆光区的蓝方航天器数量,具体为:
101.r
b1
=-0.01
×
(x1+x2+x3)
102.r
b2
=-0.5i
103.r
blue
=r
b1
+r
b2
104.式中,xj代表蓝方航天器j与被护航天器的相对距离,i代表被占据逆光区的蓝方航天器数量;
105.为红方航天器设计智能算法的即时奖励函数r
red
,红方奖励函数分为三部分,第一部分r
r1
为三颗红方航天器与其距离最近蓝方航天器的相对距离之和,第二部分r
r2
为三颗蓝方航天器与其距离最近红方航天器的相对距离之和,第三部分r
r3
为被红方航天器占据逆光区的蓝方航天器数量,具体为:
106.r
r1
=-0.01
×
(min{x
11
,x
12
,x
13
}+min{x
21
,x
22
,x
23
}+min{x
31
,x
32
,x
33
})
107.r
r2
=-0.01
×
(min{x
11
,x
21
,x
31
}+min{x
12
,x
22
,x
32
}+min{x
13
,x
23
,x
33
})
108.r
r3
=0.5i
109.r
red
=r
r1
+r
r2
+r
r3
110.式中,x
jk
代表红方航天器j与蓝方航天器k的相对距离,i代表被占据逆光区的蓝方航天器数量。
111.为红蓝双方航天器设计策略网络和价值网络,包括网络结构、激活函数;
112.设计多智能体强化学习算法的超参数,包括累积回报折扣率、学习率、批学习的数据量等;
113.按照如下步骤开展学习训练:
114.(1)初始化被护卫航天器的轨道高度;
115.(2)初始化红蓝双方共六颗航天器在cw方程中的初始位置和速度,控制周期t;
116.(3)初始化红蓝双方航天器的策略网络和价值网络,设置多智能体强化学习方法的学习训练参数;
117.(4)初始化cw轨道相对运动学模型解算;
118.(5)读取t0时刻三颗蓝方航天器的位置及速度、三颗红方航天器的位置及速度;
119.(6)将六颗航天器的位置速度信息输入红方航天器策略网络,获取策略网络输出的三颗红方航天器的xyz三轴速度增量;
120.(7)将六颗航天器的位置速度信息输入蓝方航天器策略网络,获取策略网络输出的三颗蓝方航天器的xyz三轴速度增量;
121.(8)通过cw轨道相对运动学模型解算t0+t时刻三颗红方航天器、三颗蓝方航天器的位置及速度;
122.(9)对上述观测量数据进行归一化处理,根据t0+t时刻观测量,通过红蓝即时奖励函数分别计算红蓝即时奖励值;
123.(10)生成一条训练样本,该条训练样本包括以下变量:
124.sample红=[t0时刻红蓝双方共六颗航天器的位置和速度,t0时刻红方三颗航天器的xyz三轴速度增量,t0+t时刻的红方即时奖励];
[0125]
sample蓝=[t0时刻红蓝双方共六颗航天器的位置和速度,t0时刻蓝方三颗航天器的xyz三轴速度增量,t0+t时刻的蓝方即时奖励];
[0126]
(11)重复步骤(4)至步骤(10),直至该局的仿真步长达到预先设定的阈值;
[0127]
(12)开始对红蓝双方航天器的策略网络和价值网络进行训练,具体为:
[0128]
i.从样本池中随机选取n个学习训练样本;
[0129]
ii.将随机选取的学习训练样本中t0时刻观测量,作为价值网络输入,根据价值网络输出、该条样本的即时奖励值,计算该条样本的t0时刻观测量所对应的累积奖励值;
[0130]
iii.以累积奖励值为期望输出,对红蓝双方航天器的价值网络进行训练;
[0131]
iv.利用红蓝双方航天器的价值网络输出,更新红蓝双方航天器策略网络的权值;
[0132]
(13)不断重复步骤(4)到步骤(12),直至本局的学习训练次数完毕;
[0133]
(14)回到步骤(1),重新初始化被护卫航天器轨道高度、三颗红方航天器的初始位置速度、三颗蓝方航天器的初始位置速度,并加入一定的随机扰动,开始新一局的学习训练,直至红蓝双方策略网络及价值网络的权重稳定,红蓝双方累积回报值收敛;
[0134]
学习训练完成后,随机初始化一个新的多航天器博弈场景,为红蓝双方航天器加载已训练好的策略网络,进行多航天器在轨博弈,验证多航天器协同轨道博弈控制方法的训练效果。
[0135]
以某六颗航天器为例:
[0136]
红蓝双方共六颗航天器在cw轨道相对运动学模型下的初始位置速度:
[0137]
红方航天器1:位置[-50,-0.2,-10]km速度[6,0,-5]m/s
[0138]
红方航天器2:位置[-55,0.5,70]km速度[-3,0.05,8]m/s
[0139]
红方航天器3:位置[-42,-0.7,-50]km速度[-4,-0.06,-2]m/s
[0140]
蓝方航天器1:位置[153,0.8,65]km速度[-7,0.02,5]m/s
[0141]
蓝方航天器2:位置[146,-0.3,-42]km速度[8,-0.03,-4]m/s
[0142]
蓝方航天器3:位置[141,-0.02,50]km速度[-2,0.04,-3]m/s
[0143]
cw轨道相对运动学模型参数:控制周期10分钟地球同步轨道geo
[0144]
任务要求:当所有蓝方均被抵近至逆光区,则红方胜利;当任意蓝方抵近至被护卫航天器的逆光区,则蓝方胜利。
[0145]
红方最大速度增量:4.8m/s
[0146]
蓝方最大速度增量:4.8m/s
[0147]
红蓝双方策略网络和价值网络采用相同的网络结构。
[0148]
策略网络结构:3个隐层,第一层256个节点,第二、三层各128个节点
[0149]
价值网络结构:3个隐层,第一层256个节点,第二、三层各128个节点
[0150]
网络中间层激活函数:relu
[0151]
网络输出层激活函数:relu
[0152]
relu函数的表达式为:
[0153][0154]
式中,x为激活函数的输入,y为激活函数的输出。
[0155]
如图1所示,给出了红方航天器累积回报值的收敛曲线,如图2所示,给出了蓝方航天器累积回报值的收敛曲线。可以看出,红蓝双方在多航天器博弈场景下均习得了自主变轨博弈策略,达到了纳什均衡。通过打靶仿真可得,红方航天器成功完成护卫任务并反制取证的博弈成功率为80%。
[0156]
在静默状态下,多航天器利用自主变轨博弈策略对被护卫航天器进行护卫。
[0157]
本发明说明书中未作详细描述的内容属本领域技术人员的公知技术。
[0158]
本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。

技术特征:


1.一种静默协同下多航天器协同轨道博弈控制方法,其特征在于,包括:(1)选取被护卫航天器为参考点,建立cw轨道相对运动学模型及坐标系;(2)初始化2q颗在轨博弈航天器的位置、速度,预设2q颗在轨博弈航天器的质量、体积、敏感器能力与机动能力,并预设2q颗在轨博弈航天器的观测量与控制量;所述2q颗在轨博弈航天器包括q颗红方航天器和q颗蓝方航天器;(3)为红蓝双方航天器设置即时奖励函数,用于激励航天器之间的协同行为;(4)为红蓝双方航天器设置策略网络及价值网络;(5)设置多智能体强化学习算法的超参数,用于辅助学习训练算法的收敛;(6)对红蓝双方策略网络及价值网络进行左右互搏学习训练,根据红蓝双方策略网络给出的速度增量分别对红蓝双方航天器进行轨道控制,完成左右互搏学习训练后获得自主变轨博弈策略;(7)在静默状态下,多航天器利用自主变轨博弈策略对被护卫航天器进行护卫。2.根据权利要求1所述的轨道博弈控制方法,其特征在于,所述观测量包括航天器自身位置及速度、队友航天器的相对位置及相对速度、对手航天器的相对位置、速度关系,所述控制量为cw轨道相对运动学模型内xyz三轴的速度增量;其中,cw轨道相对运动学模型坐标系中,原点为被护卫航天器,即cw轨道相对运动学模型的参考点,z轴垂直向下指向地心,y轴垂直于被护卫航天器的轨道平面,x轴根据右手直角坐标系定义。3.根据权利要求1所述的轨道博弈控制方法,其特征在于,蓝方航天器的即时奖励分为两部分,第一部分为q颗蓝方航天器与被护航天器的相对距离之和,第二部分为被红方航天器占据逆光区的蓝方航天器数量;红方航天器的即时奖励分为三部分,第一部分为q颗红方航天器与其距离最近蓝方航天器的相对距离之和,第二部分为q颗蓝方航天器与其距离最近红方航天器的相对距离之和,第三部分为被红方航天器占据逆光区的蓝方航天器数量。4.根据权利要求1所述的轨道博弈控制方法,其特征在于,所述超参数包括累积奖励折扣率、学习率、批处理数据量。5.根据权利要求1所述的轨道博弈控制方法,其特征在于,所述左右互搏学习训练为:在多航天器轨道博弈场景中,通过红蓝双方智能体博弈的方式,实现红蓝双方智能的螺旋式提升。6.根据权利要求1所述的轨道博弈控制方法,其特征在于,所述对策略网络及价值网络进行学习训练包括:(6-1)初始化被护卫航天器的轨道高度;(6-2)初始化红蓝双方航天器的控制周期;(6-3)初始化红蓝双方航天器在cw轨道相对运动学模型内的初始位置、速度;(6-4)分别初始化红蓝双方航天器的策略网络和价值网络,设置多智能体强化学习算法的初始化超参数;(6-5)初始化cw轨道相对运动学模型解算;(6-6)读取t0时刻q颗蓝方航天器的初始位置及初始速度、q颗红方航天器的初始位置及初始速度;
(6-7)将2q颗航天器的位置速度信息输入红方航天器的策略网络,获取策略网络输出的q颗红方航天器的xyz三轴速度增量;(6-8)将2q颗航天器的位置速度信息输入蓝方航天器的策略网络,获取策略网络输出的q颗蓝方航天器的xyz三轴速度增量;(6-9)通过cw轨道相对运动学模型解算t0+t时刻q颗红方航天器以及q颗蓝方航天器的位置及速度;(6-10)根据步骤(6-9)所得观测量数据进行归一化处理,并利用红蓝双方即时奖励函数分别计算红蓝双方即时奖励值;(6-11)生成包括t0时刻q颗红方航天器与q颗蓝方航天器的位置及速度、t0时刻q颗红方航天器与q颗蓝方航天器的速度增量、t0+t时刻红蓝双方即时奖励值的训练样本,并保存至样本池中;(6-12)重复步骤(6-5)至步骤(6-11),直至该局的仿真步长达到预先设定的阈值;(6-13)分别对红蓝双方航天器的策略网络及价值网络进行学习训练;(6-14)重复步骤(6-13)直至达到预先设定的训练次数阈值;(6-15)返回步骤(6-1),加入初始位置、速度随机扰动,并继续红蓝双方航天器的策略网络及价值网络学习训练,直至红蓝双方的策略网络及价值网络参数稳定,每一局的累积回报值收敛。7.根据权利要求1所述的轨道博弈控制方法,其特征在于,所述对红蓝双方航天器的策略网络及价值网络进行学习训练包括:(6-13-1)从样本池中随机抽取n个学习训练样本;(6-13-2)根据随机抽取的学习训练样本中t0时刻观测量,作为价值网络输入,根据价值网络输出、该条样本的即时奖励值,计算该条样本的t0时刻观测量所对应的累积奖励值;(6-13-3)以累积奖励值为期望输出,对红蓝双方航天器的价值网络进行学习训练;(6-13-4)利用学习训练后的红蓝价值网络输出,进一步更新红蓝策略网络权值。8.根据权利要求1至7中任一项所述的轨道博弈控制方法,其特征在于,完成左右互搏学习训练后获得自主变轨博弈策略时,达到了纳什均衡。9.根据权利要求1至7中任一项所述的轨道博弈控制方法,其特征在于,策略网络的结构为3个隐层,第一层256个节点,第二、三层各128个节点。10.根据权利要求1至7中任一项所述的轨道博弈控制方法,其特征在于,价值网络的结构为3个隐层,第一层256个节点,第二、三层各128个节点。

技术总结


一种静默协同下多航天器协同轨道博弈控制方法,包括:(1)选取被护卫航天器为参考点,建立CW轨道相对运动学模型及坐标系;(2)初始化并预设2Q颗在轨博弈航天器的参数;红方航天器和蓝方航天器数量相等;(3)为红蓝双方航天器设置即时奖励函数;(4)为红蓝双方航天器设置策略网络及价值网络;(5)设置多智能体强化学习算法的超参数;(6)对红蓝双方策略网络及价值网络进行左右互搏学习训练,根据红蓝双方策略网络给出的速度增量分别对红蓝双方航天器进行轨道控制,完成左右互搏学习训练后获得自主变轨博弈策略;(7)在静默状态下,多航天器利用自主变轨博弈策略对被护卫航天器进行护卫。卫。卫。


技术研发人员:

袁利 王英杰 汤亮 刘磊 张聪 黄煌 马亮 耿远卓

受保护的技术使用者:

北京控制工程研究所

技术研发日:

2022.10.26

技术公布日:

2023/2/23

本文发布于:2024-09-22 21:18:10,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/60478.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:航天器   网络   速度   轨道
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议