一种混合策略驱动的无人机模型预测控制方法



1.本发明涉及人工智能技术领域,尤其涉及一种混合策略驱动的无人机模型预测控制方法。


背景技术:



2.无人机技术正处于高速发展阶段,不仅在学术研究领域有多项重大进展,越来越多的无人机也正在投入实际应用,例如军事侦察、定点打击、巡航检修、农药喷洒等。无人机运动控制作为无人机开展各项飞行任务的重要支撑技术,正在得到越来越多的重视。
3.然而,在无人机运动控制领域,有许多重大问题亟待解决。复杂动态环境中的复杂任务执行是无人机面临的一大难题,其一般要求无人机穿越包含移动障碍(例如行人、飞鸟、来往车辆)的动态环境,执行通常由多种简单飞行任务(例如穿越固定区域、跟踪特定目标等)组合而成的复杂任务。无人机的运动控制技术主要分为有模型控制方法与无模型控制方法。有模型控制方法借助被控对象的动力学模型,对被控对象的输出特性或未来动态进行预测与调适,实现难度较低,控制效果较为稳定。模型预测控制方法是一种较为常用的有模型控制方法,rawlings等人在文献(model predictive control:theory and design,2009)中清晰阐述了这一方法。该方法通过被控对象的动力学模型预测被控对象在一段固定的未来时间长度内的状态转移,以最小化预设的与被控对象的一系列未来状态相关的代价函数为手段,实时求解被控对象最优的控制输入,其具有求解灵活、泛用性强、计算速度快、资源消耗低的优势,在无人机运动控制领域得到广泛应用。foehn等人在文献(pampc:perception-aware model predictive control for quadrotors,2018ieee/rsj international conference on intelligent robots and systems)中提出了一种同时兼顾运动控制目标与视觉跟踪目标的模型预测控制器,该方法使无人机能在执行特定飞行任务的同时,调适自身姿态,使机载视觉传感器始终对准一组特定目标物。
4.然而,模型预测控制方法通过最小化预设的代价函数来求解无人机的控制输入,因此针对每个特定的任务,对应的代价函数都需要进行精心设计与调试,这使得模型预测控制方法在较复杂的任务中的应用受到极大的限制。此外,这一特点还使得采用模型预测控制方法的无人机难以应对环境中无法事先预知的动态变化,因为这些变化无法被预先在代价函数的设计中考虑到。强化学习算法具有较强的应对动态环境下复杂任务的能力。song等人在文献(policy search for model predictive control with application to agile drone flight,2018 ieee transactions on robotics)中提出了一种应用强化学习策略搜索算法为模型预测控制方法提供上层控制策略的方法,使无人机在已知动态环境中成功执行穿越摆动门的任务。然而,至今还没有一种方法能够将策略驱动的模型预测控制方法应用到动态未知环境下的任务执行中。


技术实现要素:



5.有鉴于此,本发明提供了一种混合策略驱动的无人机模型预测控制方法,成功应
对任务环境中未知的动态,实现无人机在未知动态环境中成功执行复杂任务,对无人机应对未知动态环境的进一步研究有着非常重要的意义。
6.一种混合策略驱动的无人机模型预测控制方法,包含以下步骤:
7.s1,预设一项超参数λ为混合比例系数,根据预设的混合比例系数λ将任务m分解为子任务m1和m2,并设计子任务m1对应的代价函数c1以及设计子任务m2对应的代价函数c2,并将代价函数c1,c2混合为函数c,以c为代价函数设计模型预测控制器,并根据设计的模型预测控制器生成无人机未来的飞行轨迹,再根据生成的飞行轨迹设计预设奖励函数a;
8.s2,对预设高斯策略g进行多次独立重复采样,得到多个高斯策略g的采样结果λ
1.,λ
2.,...λ
[i]
,...λ
[n]
,n为采样次数,i=1,2,...n,以步骤s1得到的预设奖励函数a计算预设奖励函数a对应的奖励值r(λ
[i]
),以r(λ
[i]
)为参数λ
[i]
对应的权重,通过蒙特卡洛期望最大化方法更新高斯策略g的均值μ与方差σ,使高斯策略g的采样结果λ对应的奖励r(λ
[i]
)期望值最大,将更新成功后的高斯策略g的均值μ
*
作为策略输出的混合比例系数λ
*

[0009]
s3,在无人机执行任务过程中的任意时刻,将该任意时刻无人机对环境的感知信息e、对自身的状态估计信息x与该任意时刻高斯策略g的输出λ
*
存入离线数据库b;
[0010]
s4,预设神经网络f,预设神经网络f根据无人机对环境的感知信息e与自身状态估计信息x提供对应的混合比例系数λ

,使用步骤s3中的离线数据库b中无人机的环境感知信息e与自身状态估计信息x为数据样本,对应的高斯策略g的输出λ
*
为标签,对预设神经网络f进行训练,使得混合比例系数λ

,趋近λ
*
,完成混合策略驱动的无人机模型预测控制;
[0011]
所述的步骤s1中,代价函数c为所述的模型预测控制器的求解优化问题的目标函数,所述模型预测控制器的求解目标为使所述代价函数c的值最小化;
[0012]
所述的将代价函数c1,c2混合为函数c的方法为:子任务m1代价函数c1的值乘以混合比例系数λ,加上子任务m2代价函数c2的值乘以(1-λ),其中0≤λ≤1;
[0013]
所述的步骤s2中,在无人机执行任务过程中的任意时刻t,都需要进行所述的通过蒙特卡洛期望最大化方法更新高斯策略g参数的过程,最终获得仅在该任意时刻t为局部最优的混合比例系数λ
*

[0014]
所述的步骤s3中,无人机对环境感知信息e与对自身的状态估计信息x的数据维度、类型相同;
[0015]
所述的步骤s4中,在对预设神经网络f进行训练时,将环境感知信息e减去自身状态估计信息x,将所得的差值d作为预设神经网络f的输入;
[0016]
预设神经网络f的输入维度与无人机环境感知信息e、无人机自身状态估计信息x相同,预设神经网络f的输出λ

维度为1;
[0017]
在对预设神经网络f进行训练过程中,将无人机在执行任务过程中某一时刻对环境的感知信息e、对自身的状态估计信息x与该时刻高斯策略g经过所述参数更新过程后的输出混合比例系数λ
*
相匹配配置,将混合比例系数λ
*
作为对应环境感知信息e、自身状态估计信息x的标签。
[0018]
有益效果
[0019]
(1)本发明通过强化学习算法与神经网络离线训练方法,首次提取高层策略对子任务目标进行自适应比例混合,设计了混合策略驱动的模型预测控制器,实现了无人机根据环境实时动态在子任务间平滑切换,对无人机应对未知动态环境的进一步研究有着非常
重要的意义。
[0020]
(2)本发明提出了一种混合策略驱动的无人机模型预测控制方法,首先,针对无人机执行复杂任务的未知动态环境特点将复杂任务m分解为两个目标较为简单的子任务m1与m2,并分别为子任务m1设计代价函数c1,为子任务m2设计代价函数c2来表达子任务目标,用于模型预测控制过程,使无人机能单独执行每一个子任务,并设计一种模型预测控制器,以子任务m1的代价函数c1与子任务m2的代价函数c2按设定比例λ的混合结果作为代价函数,使无人机的控制目标在子任务m1与m2间平滑切换;然后,设计一种形式为高斯分布的上层策略g,根据实时环境的感知信息e与对自身状态的估计信息x,给出两个子任务代价函数混合的比例系数λ
*
,使无人机能根据自身与环境的状态变化在子任务m1与m2间实时切换;接下来,设计一种基于期望回报最大化的迭代优化框架,通过迭代搜索方式对高斯策略g的参数进行更新,使高斯策略g给出的混合比例系数λ
*
在任务m要求下达到局部最优;最后,设计一种形式为神经网络f的策略,利用迭代优化过程收集包括高斯策略g输出λ
*
与状态感知e、估计信息x的数据,用以训练形式为神经网络f的策略,达到与迭代优化后的高斯策略g相似的工作效果,根据无人机对实时环境与自身状态的感知、估计,快速给出较优的子任务m1与m2的代价函数c1与c2的混合比例系数λ

,对无人机在未知环境下执行复杂任务的进一步研究有着重要意义。
附图说明
[0021]
图1是本发明的方法流程示意图;
[0022]
图2是本发明提供的混合策略驱动的无人机模型预测控制方法的一个实施例的运行效果图。
具体实施方式
[0023]
下面结合附图并举实施例,对本发明进行详细描述。以下实施例或附图用于说明本发明,但不用来限制本发明的范围。
[0024]
本发明提供了一种混合策略驱动的无人机模型预测控制方法,通过子任务代价函数c1与c2、混合比例系数λ、高斯策略g以及神经网络f实现了无人机未知动态环境中执行复杂任务。
[0025]
本发明中的混合策略驱动下的模型预测控制方法,通过对一个高斯分布形式的策略g进行采样得到所述的模型预测控制器中两个子任务代价函数c1,c2的混合比例系数λ
*
,寻高斯策略g的最佳均值μ与方差σ2的寻优函数如下:
[0026][0027]
其中,λ
[i]
指对所述的高斯策略进行多次重复采样得到的若干个不同的混合比例系数中的第i个混合比例系数,r(λ
[i]
)指所述的第i个混合比例系数y
[i]
对应的奖励值,p
μ,σ

[i]
)指在参数作用下,采样结果为λ
[i]
的概率,ζ为权重调适系数。寻优函数旨在寻能够使策略采样结果y获得的奖励值r(λ)期望最大的策略参数μ,σ。
[0028]
该寻优函数通过蒙特卡洛期望最大化算法寻最优策略参数。本发明中,策略参数μ,σ按如下方式更新,重复对高斯策略g进行n次独立重复采样,得到共n个混合比例系数
λ,并分别计算它们对应的奖励值r(λ
[i]
),然后对策略参数μ,σ进行如下更新步骤:
[0029][0030][0031]
如图1所示,本发明实施例提供了一种混合策略驱动的无人机模型预测控制方法,包括以下步骤:
[0032]
s1,所述模型预测控制器在工作中,求解如下的受约束的优化问题:
[0033][0034]
其中,为无人机动态模型,g(x,u)=0,h(x,u)≤0为无人机所受约束。c为总代价函数,p为控制目标状态,t
p
为无人机到达控制目标状态的期望时刻,λ为混合比例系数。将总任务分解为两个子任务,分别定义代价函数c1,c2,总代价函数是两个子任务的代价函数c1,c2按比例相加之和
[0035][0036]
其中为子任务1的目标状态与对应期望时刻,为子任务2的目标状态与对应期望时刻。
[0037]
s2,在无人机执行任务过程中的每一时刻,初始化高斯分布策略g为π(μ,σ),并进行n次采样,得到n个不同的混合比例系数[λ]=[λ
1.,λ
2.,...,λ
[n]
]。对每个混合比例系数λ,计算它对应的奖励值r,得到[r]=[r
1.,r
2.,...,r
[n]
]。
[0038]
s3,按公式(2)所述蒙特卡洛期望值最大化方法对策略参数μ,σ进行更新。并采取更新成功后的策略均值μ
*
作为策略输出的混合比例系数λ
*
。将当前时刻无人机对环境的感知信息e、无人机自身状态估计信息x与当前时刻策略输出λ
*
存入离线数据库b。
[0039]
s4,重复上述步骤s2至s3,在重复过程中,若无人机执行任务成功,则初始化下一个任务场景,直到离线数据库b存储空间占满。然后,初始化神经网络策略f为fw,其输入为e-x,输出为λ

。以离线数据库b中存储的e,x为数据样本,对应的λ
*
为标签对神经网络fw进行训练,使λ

趋向于λ
*
,得到能根据无人机实时感知e与估计信息x提供混合比例系数λ

的形式为神经网络f的策略。
[0040]
参见图2,图2为本发明提供的一种混合策略驱动的无人机模型预测控制方法在一个实例上运行的效果图。飞行任务为穿越一个横向摆动的门,并到达设定的中点,门的动态
方程未知,其未来的运动状态由一个神经网络进行预测。穿门任务被分解为两个子任务,其一为跟随门的运动状态进行飞行,其二为在神经网络预测的未来时刻对门进行穿越。设置跟随运动子任务的目标状态为门的实时运动状态,到达目标状态的期望时间为0.2秒,穿越运动的期望时间为使穿越时刻无人机与门中心点位置误差最小的未来时刻,目标状态为预测中门在穿越时刻的运动状态。无人机初始位置为[-5,0,1],单位为米,初始速度为0米每秒,门的悬挂位置为[2,0,3],单位为米,门中心点到悬挂点的距离为2米,门宽1米,高0.8米,围绕悬挂点作自由的单摆运动。仿真结果表明所发明一种混合策略驱动的无人机模型预测控制方法的有效性。
[0041]
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:


1.一种混合策略驱动的无人机模型预测控制方法,其特征在于包括以下步骤:s1,预设一项超参数λ为混合比例系数,根据预设的混合比例系数λ将任务m分解为子任务m1和m2,并设计子任务m1对应的代价函数c1以及设计子任务m2对应的代价函数c2,将代价函数c1,c2混合为函数c,以c为代价函数设计模型预测控制器,并根据设计的模型预测控制器生成无人机未来的飞行轨迹,再根据生成的飞行轨迹设计预设奖励函数a;s2,对预设高斯策略g进行多次独立重复采样,得到多个高斯策略g的采样结果λ
[1]
,λ
[2]


λ
[i]


λ
[n]
,n为采样次数,i=1,2,

n,以步骤s1得到的预设奖励函数a计算预设奖励函数a对应的奖励值r(λ
[i]
),以r(λ
[i]
)为参数λ
[i]
对应的权重,通过蒙特卡洛期望最大化方法更新高斯策略g的均值μ与方差σ,使高斯策略g的采样结果λ对应的奖励r(λ
[i]
)期望值最大,将更新成功后的高斯策略g的均值μ
*
作为策略输出的混合比例系数λ
*
;s3,在无人机执行任务过程中的任意时刻,将该任意时刻无人机对环境的感知信息e、对自身的状态估计信息x与该任意时刻高斯策略g的输出λ
*
存入离线数据库b;s4,首先预设神经网络f,然后预设神经网络f根据无人机对环境的感知信息e与自身状态估计信息x提供对应的混合比例系数λ

,使用步骤s3中的离线数据库b中无人机的环境感知信息e与自身状态估计信息x为数据样本,对应的高斯策略g的输出λ
*
为标签,对预设神经网络f进行训练,使得混合比例系数λ

趋近λ
*
,完成混合策略驱动的无人机模型预测控制。2.根据权利要求1所述的一种混合策略驱动的无人机模型预测控制方法,其特征在于:所述的步骤s1中,代价函数c为所述的模型预测控制器的求解优化问题的目标函数,所述模型预测控制器的求解目标为使所述代价函数c的值最小化。3.根据权利要求1或2所述的一种混合策略驱动的无人机模型预测控制方法,其特征在于:所述的将代价函数c1,c2混合为函数c的方法为:子任务m1代价函数c1的值乘以混合比例系数λ,加上子任务m2代价函数c2的值乘以(1-λ),其中0≦λ≦1。4.根据权利要求3所述的一种混合策略驱动的无人机模型预测控制方法,其特征在于:所述的步骤s2中,在无人机执行任务过程中的任意时刻t,都需要进行所述的通过蒙特卡洛期望最大化方法更新高斯策略g参数的过程,最终获得仅在该任意时刻t为局部最优的混合比例系数λ
*
。5.根据权利要求4所述的一种混合策略驱动的无人机模型预测控制方法,其特征在于:所述的步骤s3中,无人机对环境感知信息e与对自身的状态估计信息x的数据维度、类型相同。6.根据权利要求4或5所述的一种混合策略驱动的无人机模型预测控制方法,其特征在于:所述的步骤s4中,在对预设神经网络f进行训练时,将环境感知信息e减去自身状态估计信息x,将所得的差值d作为预设神经网络f的输入。7.根据权利要求6所述的一种混合策略驱动的无人机模型预测控制方法,其特征在于:预设神经网络f的输入维度与无人机环境感知信息e、无人机自身状态估计信息x相同,预设神经网络f的输出λ

维度为1。8.根据权利要求1所述的一种混合策略驱动的无人机模型预测控制方法,其特征在于:在对预设神经网络f进行训练过程中,将无人机在执行任务过程中某一时刻对环境的
感知信息e、对自身的状态估计信息x与该时刻高斯策略g经过所述参数更新过程后的输出混合比例系数λ
*
相匹配配置,将混合比例系数λ
*
作为对应环境感知信息e、自身状态估计信息x的标签。

技术总结


本发明提出了一种混合策略驱动的无人机模型预测控制方法,首先,针对无人机执行复杂任务的未知动态环境特点将复杂任务分解为两个目标较为简单的子任务,并设计一种模型预测控制器,根据实时环境的感知信息与对自身状态的估计信息,给出两个子任务代价函数混合的比例系数,使无人机能根据自身与环境的状态变化在子任务间实时切换;通过迭代搜索方式对策略参数进行更新,使策略给出的混合比例系数在任务要求下达到最优;根据无人机对实时环境与自身状态的感知、估计,快速给出较优的子任务代价函数混合比例系数,对无人机在未知环境下执行复杂任务的进一步研究有着重要意义。行复杂任务的进一步研究有着重要意义。行复杂任务的进一步研究有着重要意义。


技术研发人员:

王钢 冯肇晗 肖伟 周子煜 翁博熙 孙健 陈杰

受保护的技术使用者:

北京理工大学

技术研发日:

2022.10.21

技术公布日:

2022/12/16

本文发布于:2024-09-26 00:22:25,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/35527.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:无人机   策略   函数   模型
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议