一种飞机自动驾驶控制策略决策方法及其系统与流程



1.本技术属于非电变量的控制或调节技术领域,具体涉及一种飞机自动驾驶控制策略决策方法及其系统。


背景技术:



2.飞机自动驾驶需要准确的对飞机的控制策略进行决策,当前,多是基于行为克隆、学徒学习以及基于生成对抗网络的逆强化学习方法对飞机的控制策略进行决策,其中:
3.基于行为克隆的方法对飞机控制策略进行决策,简单、易行,但需要使用大量的样本进行模型训练,只有在样本覆盖所有情况时,才能够无限接近专家预测,在模型训练样本量不足时,会产生预测误差,且预测误差会随着过程进行累积,最终导致较大预测误差;
4.基于学徒学习的方法对飞机控制策略进行决策,是根据专家控制策略构造一个reward函数,使专家控制策略在该reward函数体系下是最优的,但实际该reward函数经常与真实的reward函数偏离较大,难以实现对飞机控制策略的准确决策;
5.基于生成对抗网络的方法对飞机控制策略进行决策,以生成器、判别器进行对抗训练,可对飞机控制策略进行较为准确的决策,但其解存在于鞍点上,决策的稳定性较差。
6.鉴于上述技术缺陷的存在提出本技术。
7.需注意的是,以上背景技术内容的公开仅用于辅助理解本发明的发明构思及技术方案,其并不必然属于本专利申请的现有技术,在没有明确的证据表明上述内容在本技术的申请日已经公开的情况下,上述背景技术不应当用于评价本技术的新颖性和创造性。


技术实现要素:



8.本技术的目的是提供一种飞机自动驾驶控制策略决策方法及其系统,以克服或减轻已知存在的至少一方面的技术缺陷。
9.本技术的技术方案是:
10.一方面提供一种飞机自动驾驶控制策略决策方法,包括:
11.构建判别器模型,该判别器模型的输入为飞机飞行状态、飞机控制策略分布,输出为飞机控制策略分布为专家预测的可信度;
12.构建生成器模型,该生成器模型的输入为飞机飞行状态,输出为飞机控制策略;
13.对判别器模型、判别器模型进行对抗训练,得到生成对抗网络模型;
14.基于生成对抗网络模型,以飞机飞行状态为输入,输出飞机控制策略。
15.根据本技术的至少一个实施例,上述的飞机自动驾驶控制策略决策方法中,所述对判别器模型、判别器模型进行对抗训练,具体为:
16.构建专家飞机控制策略决策模型,该专家飞机控制策略决策模型,基于专家飞机控制策略数据库,输入为飞机飞行状态,输出为飞机控制策略;
17.采用梯度下降更新判别器模型参数:
[0018]18.[0019]
其中:
[0020]
为判别器模型参数在第i轮的梯度下降;
[0021]
s为飞机飞行状态;
[0022]
π
θ
(s)为生成器模型输出的飞机控制策略分布;
[0023]
为生成器模型输出的飞机控制策略分布在第i轮为专家预测的可信度;
[0024]
为基于生成器模型,判别器模型参数在第i轮的梯度下降的平均值;
[0025]
πe(s)为专家飞机轨迹预测模型输出的飞机控制策略分布;
[0026]
为专家飞机轨迹预测模型输出的飞机控制策略分布在第i轮为专家预测的可信度;
[0027]
基于专家飞机控制策略决策模型,判别器模型参数在第i轮的梯度下降的平均值;
[0028]
在生成器模型输出的飞机控制策略分布、专家飞机控制策略决策模型输出的飞机控制策略分布间的差值大于设定阈值时,更新专家飞机控制策略数据库对应飞机飞行状态的控制策略分布,以及采用梯度下降更新生成器模型参数:
[0029][0030]
其中,
[0031]
为生成器模型参数在第i轮的梯度下降;
[0032]
a为生成器输出的飞机控制策略;
[0033]
π
θ
(a|s)为在飞机飞行状态s下,生成器输出的飞机控制策略分布;
[0034]
为专家飞机轨迹预测模型输出的飞机控制策略分布在第i+1轮为专家预测的可信度;
[0035]
λ为生成器模型的超参数;
[0036]
h(π
θ
)为生成器模型的正则项。
[0037]
根据本技术的至少一个实施例,上述的飞机自动驾驶控制策略决策方法中,所述采用梯度下降更新生成器模型参数,以trpo或者ppo算法进行。
[0038]
根据本技术的至少一个实施例,上述的飞机自动驾驶控制策略决策方法中,所述设定阈值为0.3。
[0039]
根据本技术的至少一个实施例,上述的飞机自动驾驶控制策略决策方法中,所述飞机飞行状态包括飞机六自由度姿态、飞机飞行环境状态。
[0040]
根据本技术的至少一个实施例,上述的飞机自动驾驶控制策略决策方法中,所述飞机控制策略包括对飞机驾驶杆的操纵策略、对飞机油门杆的操纵策略。
[0041]
另一方面提供一种飞机自动驾驶控制策略决策系统,包括:
[0042]
判别器构建模块,构建有判别器模型,该判别器模型的输入为飞机飞行状态、飞机控制策略分布,输出为飞机控制策略分布为专家预测的可信度;
[0043]
生成器构建模块,构建有生成器模型,该生成器模型的输入为飞机飞行状态,输出
为飞机控制策略;
[0044]
生成对抗网络模型生成模块,对判别器模型、判别器模型进行对抗训练,得到生成对抗网络模型;
[0045]
飞机控制策略输出模块,基于生成对抗网络模型,以飞机飞行状态为输入,输出飞机控制策略。
[0046]
根据本技术的至少一个实施例,上述的飞机自动驾驶控制策略决策系统中,所述生成对抗网络模型生成模块中,对判别器模型、判别器模型进行对抗训练,具体为:
[0047]
构建专家飞机控制策略决策模型,该专家飞机控制策略决策模型,基于专家飞机控制策略数据库,输入为飞机飞行状态,输出为飞机控制策略;
[0048]
采用梯度下降更新判别器模型参数:
[0049][0049][0050]
其中:
[0051]
为判别器模型参数在第i轮的梯度下降;
[0052]
s为飞机飞行状态;
[0053]
π
θ
(s)为生成器模型输出的飞机控制策略分布;
[0054]
为生成器模型输出的飞机控制策略分布在第i轮为专家预测的可信度;
[0055]
为基于生成器模型,判别器模型参数在第i轮的梯度下降的平均值;
[0056]
πe(s)为专家飞机轨迹预测模型输出的飞机控制策略分布;
[0057]
为专家飞机轨迹预测模型输出的飞机控制策略分布在第i轮为专家预测的可信度;
[0058]
基于专家飞机控制策略决策模型,判别器模型参数在第i轮的梯度下降的平均值;
[0059]
在生成器模型输出的飞机控制策略分布、专家飞机控制策略决策模型输出的飞机控制策略分布间的差值大于设定阈值时,更新专家飞机控制策略数据库对应飞机飞行状态的控制策略分布,以及采用梯度下降更新生成器模型参数:
[0060][0061]
其中,
[0062]
为生成器模型参数在第i轮的梯度下降;
[0063]
a为生成器输出的飞机控制策略;
[0064]
π
θ
(a|s)为在飞机飞行状态s下,生成器输出的飞机控制策略分布;
[0065]
为专家飞机轨迹预测模型输出的飞机控制策略分布在第i+1轮为专家预测的可信度;
[0066]
λ为生成器模型的超参数;
[0067]
h(π
θ
)为生成器模型的正则项。
[0068]
根据本技术的至少一个实施例,上述的飞机自动驾驶控制策略决策系统中,所述采用梯度下降更新生成器模型参数,以trpo或者ppo算法进行。
[0069]
根据本技术的至少一个实施例,上述的飞机自动驾驶控制策略决策系统中,所述设定阈值为0.3。
[0070]
根据本技术的至少一个实施例,上述的飞机自动驾驶控制策略决策系统中,所述飞机飞行状态包括飞机六自由度姿态、飞机飞行环境状态。
[0071]
根据本技术的至少一个实施例,上述的飞机自动驾驶控制策略决策系统中,所述飞机控制策略包括对飞机驾驶杆的操纵策略、对飞机油门杆的操纵策略。
[0072]
本技术至少存在以下有益技术效果:
[0073]
一方面提供一种飞机自动驾驶控制策略决策方法,其基于生成对抗网络模型输出飞机控制策略,其中,判别器模型的输入为飞机飞行状态、飞机控制策略分布,输出为飞机控制策略分布为专家预测的可信度,而非直接采用飞机飞行状态-控制策略作为输入、输出量,所能够涵盖的信息更全面,可以数量较少的样本得到稳定的准确控制策略决策结果。
[0074]
另一方面提供一种飞机自动驾驶控制策略决策系统,由于其与上述公开的飞机自动驾驶控制策略决策方法相对应,具体技术效果可参考上述飞机自动驾驶控制策略决策方法的技术效果,在此不再赘述。
附图说明
[0075]
图1是本技术实施例提供的飞机自动驾驶控制策略决策方法的示意图;
[0076]
图2是本技术实施例提供的飞机自动驾驶控制策略决策系统的示意图。
[0077]
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸,此外,附图仅用于示例性说明,不能理解为对本专利的限制。
具体实施方式
[0078]
为使本技术的技术方案及其优点更加清楚,下面将结合附图对本技术的技术方案作进一步清楚、完整的详细描述,可以理解的是,此处所描述的具体实施例仅是本技术的部分实施例,其仅用于解释本技术,而非对本技术的限定。需要说明的是,为了便于描述,附图中仅示出了与本技术相关的部分,其他相关部分可参考通常设计,在不冲突的情况下,本技术中的实施例及实施例中的技术特征可以相互组合以得到新的实施例。
[0079]
此外,除非另有定义,本技术描述中所使用的技术术语或者科学术语应当为本技术所属领域内一般技术人员所理解的通常含义。本技术描述中所使用的“上”、“下”、“左”、“右”、“中心”、“竖直”、“水平”、“内”、“外”等表示方位的词语仅用以表示相对的方向或者位置关系,而非暗示装置或元件必须具有特定的方位、以特定的方位构造和操作,当被描述对象的绝对位置发生改变后,其相对位置关系也可能发生相应的改变,因此不能理解为对本技术的限制。本技术描述中所使用的“第一”、“第二”、“第三”以及类似用语,仅用于描述目的,用以区分不同的组成部分,而不能够将其理解为指示或暗示相对重要性。本技术描述中所使用的“一个”、“一”或者“该”等类似词语,不应理解为对数量的绝对限制,而应理解为存在至少一个。本技术描述中所使用的“包括”或者“包含”等类似词语意指出现在该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者
物件。
[0080]
此外,还需要说明的是,除非另有明确的规定和限定,在本技术的描述中使用的“安装”、“相连”、“连接”等类似词语应做广义理解,例如,连接可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,领域内技术人员可根据具体情况理解其在本技术中的具体含义。
[0081]
下面结合附图1-图2对本技术做进一步详细说明。
[0082]
一方面提供一种飞机自动驾驶控制策略决策方法,包括:
[0083]
构建判别器模型,该判别器模型的输入为飞机飞行状态、飞机控制策略分布,输出为飞机控制策略分布为专家预测的可信度;
[0084]
构建生成器模型,该生成器模型的输入为飞机飞行状态,输出为飞机控制策略;
[0085]
对判别器模型、判别器模型进行对抗训练,得到生成对抗网络模型;
[0086]
基于生成对抗网络模型,以飞机飞行状态为输入,输出飞机控制策略。
[0087]
对于上述实施例公开的飞机自动驾驶控制策略决策方法,领域内技术人员可以理解的是,其基于生成对抗网络模型输出飞机控制策略,其中,判别器模型的输入为飞机飞行状态、飞机控制策略分布,输出为飞机控制策略分布为专家预测的可信度,而非直接采用飞机飞行状态-控制策略作为输入、输出量,所能够涵盖的信息更全面,可以数量较少的样本得到稳定的准确控制策略决策结果。
[0088]
在一些可选的实施例中,上述的飞机自动驾驶控制策略决策方法中,所述对判别器模型、判别器模型进行对抗训练,具体为:
[0089]
构建专家飞机控制策略决策模型,该专家飞机控制策略决策模型,基于专家飞机控制策略数据库,输入为飞机飞行状态,输出为飞机控制策略;
[0090]
采用梯度下降更新判别器模型参数:
[0091][0091][0092]
其中:
[0093]
为判别器模型参数在第i轮的梯度下降;
[0094]
s为飞机飞行状态;
[0095]
π
θ
(s)为生成器模型输出的飞机控制策略分布;
[0096]
为生成器模型输出的飞机控制策略分布在第i轮为专家预测的可信度;
[0097]
为基于生成器模型,判别器模型参数在第i轮的梯度下降的平均值;
[0098]
πe(s)为专家飞机轨迹预测模型输出的飞机控制策略分布;
[0099]
为专家飞机轨迹预测模型输出的飞机控制策略分布在第i轮为专家预测的可信度;
[0100]
基于专家飞机控制策略决策模型,判别器模型参数在第i轮的梯度下降的平均值;
[0101]
在生成器模型输出的飞机控制策略分布、专家飞机控制策略决策模型输出的飞机控制策略分布间的差值大于设定阈值时,更新专家飞机控制策略数据库对应飞机飞行状态的控制策略分布,以及采用梯度下降更新生成器模型参数:
[0102][0103]
其中,
[0104]
为生成器模型参数在第i轮的梯度下降;
[0105]
a为生成器输出的飞机控制策略;
[0106]
π
θ
(a|s)为在飞机飞行状态s下,生成器输出的飞机控制策略分布;
[0107]
为专家飞机轨迹预测模型输出的飞机控制策略分布在第i+1轮为专家预测的可信度;
[0108]
λ为生成器模型的超参数;
[0109]
h(π
θ
)为生成器模型的正则项。
[0110]
在判别器模型准确时,其输入来自生成器模型,其输出趋近于 0,其输入来自于专家飞机控制策略决策模型时,其输出趋近于1。
[0111]
对于上述实施例公开的飞机自动驾驶控制策略决策方法,领域内技术人员可以理解的是,其设计在对判别器模型、判别器模型进行对抗训练过程中,若在生成器模型输出的飞机控制策略分布、专家飞机控制策略决策模型输出的飞机控制策略分布间的差值大于设定阈值,即在生成器模型输出的飞机控制策略分布、专家飞机控制策略决策型输出的飞机控制策略分布间存在较大差异时,对专家飞机控制策略数据库对应飞机飞行状态的飞机控制策略分布进行更新,具体可以是通过问询人类专家,对专家飞机轨迹预测数据库对应飞机飞行状态的控制策略分布进行更新,以及采用梯度下降更新生成器模型参数,以此提高对样本的利用效率,提高算法的效率,保证对飞机控制策略决策的准确性。
[0112]
在一些可选的实施例中,上述的飞机自动驾驶控制策略决策方法中,所述采用梯度下降更新生成器模型参数,以trpo或者ppo算法进行。
[0113]
在一些可选的实施例中,上述的飞机自动驾驶控制策略决策方法中,所述设定阈值为0.3。
[0114]
在一些可选的实施例中,上述的飞机自动驾驶控制策略决策方法中,所述飞机飞行状态包括飞机六自由度姿态、飞机飞行环境状态。
[0115]
在一些可选的实施例中,上述的飞机自动驾驶控制策略决策方法中,所述飞机控制策略包括对飞机驾驶杆的操纵策略、对飞机油门杆的操纵策略。
[0116]
另一方面提供一种飞机自动驾驶控制策略决策系统,包括:
[0117]
判别器构建模块,构建有判别器模型,该判别器模型的输入为飞机飞行状态、飞机控制策略分布,输出为飞机控制策略分布为专家预测的可信度;
[0118]
生成器构建模块,构建有生成器模型,该生成器模型的输入为飞机飞行状态,输出为飞机控制策略;
[0119]
生成对抗网络模型生成模块,对判别器模型、判别器模型进行对抗训练,得到生成对抗网络模型;
[0120]
飞机控制策略输出模块,基于生成对抗网络模型,以飞机飞行状态为输入,输出飞
机控制策略。
[0121]
对于上述实施例公开的飞机自动驾驶控制策略决策系统,领域内技术人员可以理解的是,其可接入到飞机的飞控系统中,自飞机的飞控系统中获取飞机飞行状态,以及通过飞机的飞控系统,输出飞机控制策略,实现对飞机自动驾驶的控制。
[0122]
在一些可选的实施例中,上述的飞机自动驾驶控制策略决策系统中,所述生成对抗网络模型生成模块中,对判别器模型、判别器模型进行对抗训练,具体为:
[0123]
构建专家飞机控制策略决策模型,该专家飞机控制策略决策模型,基于专家飞机控制策略数据库,输入为飞机飞行状态,输出为飞机控制策略;
[0124]
采用梯度下降更新判别器模型参数:
[0125][0125][0126]
其中:
[0127]
为判别器模型参数在第i轮的梯度下降;
[0128]
s为飞机飞行状态;
[0129]
π
θ
(s)为生成器模型输出的飞机控制策略分布;
[0130]
为生成器模型输出的飞机控制策略分布在第i轮为专家预测的可信度;
[0131]
为基于生成器模型,判别器模型参数在第i轮的梯度下降的平均值;
[0132]
πe(s)为专家飞机轨迹预测模型输出的飞机控制策略分布;
[0133]
为专家飞机轨迹预测模型输出的飞机控制策略分布在第i轮为专家预测的可信度;
[0134]
基于专家飞机控制策略决策模型,判别器模型参数在第i轮的梯度下降的平均值;
[0135]
在生成器模型输出的飞机控制策略分布、专家飞机控制策略决策模型输出的飞机控制策略分布间的差值大于设定阈值时,更新专家飞机控制策略数据库对应飞机飞行状态的控制策略分布,以及采用梯度下降更新生成器模型参数:
[0136][0137]
其中,
[0138]
为生成器模型参数在第i轮的梯度下降;
[0139]
a为生成器输出的飞机控制策略;
[0140]
π
θ
(a|s)为在飞机飞行状态s下,生成器输出的飞机控制策略分布;
[0141]
为专家飞机轨迹预测模型输出的飞机控制策略分布在第i+1轮为专家预测的可信度;
[0142]
λ为生成器模型的超参数;
[0143]
h(π
θ
)为生成器模型的正则项。
[0144]
在一些可选的实施例中,上述的飞机自动驾驶控制策略决策系统中,所述采用梯
度下降更新生成器模型参数,以trpo或者ppo算法进行。
[0145]
在一些可选的实施例中,上述的飞机自动驾驶控制策略决策系统中,所述设定阈值为0.3。
[0146]
在一些可选的实施例中,上述的飞机自动驾驶控制策略决策系统中,所述飞机飞行状态包括飞机六自由度姿态、飞机飞行环境状态。
[0147]
在一些可选的实施例中,上述的飞机自动驾驶控制策略决策系统中,所述飞机控制策略包括对飞机驾驶杆的操纵策略、对飞机油门杆的操纵策略。
[0148]
对于上述实施例公开的飞机自动驾驶控制策略决策系统,由于其与上述实施例公开的飞机自动驾驶控制策略决策方法相对应,描述的较为简单,具体相关之处可参见飞机自动驾驶控制策略决策方法部分的相关说明,其技术效果也可参考飞机自动驾驶控制策略决策方法相关部分的技术效果,在此不再赘述。
[0149]
此外,领域内技术人员还应该能够意识到,本技术实施例所公开飞机自动驾驶控制策略决策系统的各个模块能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,本技术中对其按照功能进行了一般性地描述,这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件,领域内技术人员可以对每个特定的应用及其实际约束条件选择采用不同的方法来实现所描述的功能,但是该种实现不应认为超出本技术的范围。
[0150]
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
[0151]
至此,已经结合附图所示的优选实施方式描述了本技术的技术方案,领域内技术人员应该理解的是,本技术的保护范围显然不局限于这些具体实施方式,在不偏离本技术的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本技术的保护范围之内。

技术特征:


1.一种飞机自动驾驶控制策略决策方法,其特征在于,包括:构建判别器模型,该判别器模型的输入为飞机飞行状态、飞机控制策略分布,输出为飞机控制策略分布为专家预测的可信度;构建生成器模型,该生成器模型的输入为飞机飞行状态,输出为飞机控制策略;对判别器模型、判别器模型进行对抗训练,得到生成对抗网络模型;基于生成对抗网络模型,以飞机飞行状态为输入,输出飞机控制策略。2.根据权利要求1所述的飞机自动驾驶控制策略决策方法,其特征在于,所述对判别器模型、判别器模型进行对抗训练,具体为:构建专家飞机控制策略决策模型,该专家飞机控制策略决策模型,基于专家飞机控制策略数据库,输入为飞机飞行状态,输出为飞机控制策略;采用梯度下降更新判别器模型参数:其中:为判别器模型参数在第i轮的梯度下降;s为飞机飞行状态;π
θ
(s)为生成器模型输出的飞机控制策略分布;为生成器模型输出的飞机控制策略分布在第i轮为专家预测的可信度;为基于生成器模型,判别器模型参数在第i轮的梯度下降的平均值;π
e
(s)为专家飞机轨迹预测模型输出的飞机控制策略分布;为专家飞机轨迹预测模型输出的飞机控制策略分布在第i轮为专家预测的可信度;基于专家飞机控制策略决策模型,判别器模型参数在第i轮的梯度下降的平均值;在生成器模型输出的飞机控制策略分布、专家飞机控制策略决策模型输出的飞机控制策略分布间的差值大于设定阈值时,更新专家飞机控制策略数据库对应飞机飞行状态的控制策略分布,以及采用梯度下降更新生成器模型参数:其中,为生成器模型参数在第i轮的梯度下降;a为生成器输出的飞机控制策略;π
θ
(a|s)为在飞机飞行状态s下,生成器输出的飞机控制策略分布;为专家飞机轨迹预测模型输出的飞机控制策略分布在第i+1轮为专家预测的可信度;λ为生成器模型的超参数;h(π
θ
)为生成器模型的正则项。
3.根据权利要求2所述的飞机自动驾驶控制策略决策方法,其特征在于,所述采用梯度下降更新生成器模型参数,以trpo或者ppo算法进行。4.根据权利要求3所述的飞机自动驾驶控制策略决策方法,其特征在于,所述设定阈值为0.3。5.根据权利要求1所述的飞机自动驾驶控制策略决策方法,其特征在于,所述飞机飞行状态包括飞机六自由度姿态、飞机飞行环境状态。6.根据权利要求1所述的飞机自动驾驶控制策略决策方法,其特征在于,所述飞机控制策略包括对飞机驾驶杆的操纵策略、对飞机油门杆的操纵策略。7.一种飞机自动驾驶控制策略决策系统,其特征在于,包括:判别器构建模块,构建有判别器模型,该判别器模型的输入为飞机飞行状态、飞机控制策略分布,输出为飞机控制策略分布为专家预测的可信度;生成器构建模块,构建有生成器模型,该生成器模型的输入为飞机飞行状态,输出为飞机控制策略;生成对抗网络模型生成模块,对判别器模型、判别器模型进行对抗训练,得到生成对抗网络模型;飞机控制策略输出模块,基于生成对抗网络模型,以飞机飞行状态为输入,输出飞机控制策略。8.根据权利要求7所述的飞机自动驾驶控制策略决策系统,其特征在于,所述生成对抗网络模型生成模块中,对判别器模型、判别器模型进行对抗训练,具体为:构建专家飞机控制策略决策模型,该专家飞机控制策略决策模型,基于专家飞机控制策略数据库,输入为飞机飞行状态,输出为飞机控制策略;采用梯度下降更新判别器模型参数:其中:为判别器模型参数在第i轮的梯度下降;s为飞机飞行状态;π
θ
(s)为生成器模型输出的飞机控制策略分布;为生成器模型输出的飞机控制策略分布在第i轮为专家预测的可信度;为基于生成器模型,判别器模型参数在第i轮的梯度下降的平均值;π
e
(s)为专家飞机轨迹预测模型输出的飞机控制策略分布;为专家飞机轨迹预测模型输出的飞机控制策略分布在第i轮为专家预测的可信度;基于专家飞机控制策略决策模型,判别器模型参数在第i轮的梯度下降的平均值;在生成器模型输出的飞机控制策略分布、专家飞机控制策略决策模型输出的飞机控制
策略分布间的差值大于设定阈值时,更新专家飞机控制策略数据库对应飞机飞行状态的控制策略分布,以及采用梯度下降更新生成器模型参数:其中,为生成器模型参数在第i轮的梯度下降;a为生成器输出的飞机控制策略;π
θ
(a|s)为在飞机飞行状态s下,生成器输出的飞机控制策略分布;为专家飞机轨迹预测模型输出的飞机控制策略分布在第i+1轮为专家预测的可信度;λ为生成器模型的超参数;h(π
θ
)为生成器模型的正则项。9.根据权利要求8所述的飞机自动驾驶控制策略决策系统,其特征在于,所述采用梯度下降更新生成器模型参数,以trpo或者ppo算法进行。10.根据权利要求9所述的飞机自动驾驶控制策略决策系统,其特征在于,所述设定阈值为0.3。

技术总结


本申请属于非电变量的控制或调节技术领域,具体涉及一种飞机自动驾驶控制策略决策方法,包括:构建判别器模型,该判别器模型的输入为飞机飞行状态、飞机控制策略分布,输出为飞机控制策略分布为专家预测的可信度;构建生成器模型,该生成器模型的输入为飞机飞行状态,输出为飞机控制策略;对判别器模型、判别器模型进行对抗训练,得到生成对抗网络模型;基于生成对抗网络模型,以飞机飞行状态为输入,输出飞机控制策略。此外,涉及一种飞机自动驾驶控制策略决策系统,用以实现上述的飞机自动驾驶控制策略决策方法。驶控制策略决策方法。驶控制策略决策方法。


技术研发人员:

孙阳 朴海音 杨晟琦 彭宣淇 樊松原 韩玥 李俊男 于津 卢长谦

受保护的技术使用者:

中国航空工业集团公司沈阳飞机设计研究所

技术研发日:

2022.05.31

技术公布日:

2022/11/22

本文发布于:2024-09-20 14:57:32,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/1793.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:飞机   策略   模型   生成器
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议