离散非线性零和博弈的事件驱动最优控制方案

析出文献
离散非线性零和博弈的事件驱动最优控制方案
张欣;薄迎春;崔黎黎
假死【摘 要】In order to reduce the network communication and controller execution frequency while guarantee a desired control performance, an event-triggered optimal control scheme is proposed for solving the optimal control pair of discrete-time nonlinear zero-sum games in this paper. Firstly, an event-triggered condition with new event-triggered threshold is designed. The expression of the optimal control pair is obtained based on the Bellman optimality principle. Then, a single network value iteration algorithm is proposed to solve the optimal value function in this expression. A neural network is used to construct the critic network. Novel weight update rule of the critic network is derived. Through the iteration between the critic network, the control policy and the disturbance policy, the optimal value function and the optimal control pair can be solved. Further, the Lyapunov theory is used to prove the stability of the event-triggered closed-loop system. Finally, the event-triggered optimal control mechanism is applied to two examples to verify its effectiveness.%在求解离
散非线性零和博弈问题时,为了在有效降低网络通讯和控制器执行次数的同时保证良好的控制效果,本文提出了一种基于事件驱动机制的最优控制方案.首先,设计了一个采用新型事件驱动阈值的事件驱动条件,并根据贝尔曼最优性原理获得了最优控制对的表达式.为了求解该表达式中的最优值函数,提出了一种单网络值迭代算法.利用一个神经网络构建评价网.设计了新的评价网权值更新规则.通过在评价网、控制策略及扰动策略之间不断迭代,最终获得零和博弈问题的最优值函数和最优控制对.然后,利用Lyapunov稳定性理论证明了闭环系统的稳定性.最后,将该事件驱动最优控制方案应用到了两个仿真例子中,验证了所提方法的有效性.
【期刊名称】《控制理论与应用》
【年(卷),期】2018(035)005
【总页数】8页(P619-626)
【关键词】博弈论;事件驱动;自适应动态规划;最优控制
【作 者】张欣;薄迎春;崔黎黎
【作者单位】中国石油大学(华东)信息与控制工程学院,山东青岛266580;中国石油大学(华东)信息与控制工程学院,山东青岛266580;沈阳师范大学科信软件学院,辽宁沈阳110034
【正文语种】中 文
【中图分类】TP273
1 引言(Introduction)
近年来,零和博弈问题在博弈论领域和最优控制领域获得了广泛关注[1–3].这是由于零和博弈具有两个决策者,一方面要求控制输入使性能指标取极小,而在干扰影响较大时,又必须考虑干扰信号使性能指标取极大.这样的对抗性设计既能保证系统在取最优性的同时又具有较好的抗干扰能力.然而现有的求解零和博弈问题的方法大都采用时间驱动机制,即控制器是连续更新的,在每一个采样时刻系统状态与控制器之间都要进行数据通讯,控制输入都需要计算并执行.这就大大增加了通讯网络和执行器的负担.
与传统的采样方法不同,事件驱动机制采用一种非周期采样模式[4–7].文献[4]证明了这种非周期采样比周期采样在计算方面更加有利.事件驱动机制预先设定了一个事件驱动条件,只有
当该条件不被满足时,才对系统状态进行采样,更新系统的控制输入,在两次更新之间采用零阶保持器保证控制器的输出.因此,能够有效地降低网络通讯和控制器执行次数,同时还能保证系统具有良好的控制性能.文献[5]研究了线性系统的事件驱动控制.文献[6]设计了事件驱动光电跟踪系统.Shaoo等人在文献[7]中研究了连续非线性系统的事件驱动状态反馈控制方案.文献[8]将事件驱动控制带入到了最优控制领域.事件驱动控制在求解连续系统的零和博弈问题方面也有了相应的成果,文献[9]将H∞问题转化为零和博弈问题,然后基于事件驱动机制进行求解.据笔者所知,目前还没有文献利用事件驱动机制求解离散非线性系统的零和博弈问题.
离散非线性系统的零和博弈问题需要求解离散Hamilton-Jacobi-Isaacs(HJI)方程来获得Nash平衡点,即最优控制对.但是对于非线性系统来说,HJI方程的解析解很难获得.Werbos在文献[10]中提出了一种有效的求解最优控制问题的方法——自适应动态规划(adaptive dynamic programming,ADP)算法,并且得到了广泛应用[11–13].文献[11]利用ADP算法处理鲁棒近似最优跟踪问题.王鼎等人在文献[12]中综述了连续时间非线性系统的自适应评判鲁棒控制设计的最新研究成果.文献[13]研究了离散非线性系统的事件驱动控制问题.ADP算法自其诞生之日起产生了一系列的同义词,例如:自适应评价设计、启发式动态规划、近似动态
规划、神经元动态规划和增强学习等等.2006年在美国科学基金会组织的“2006 NSF Workshop and Outreach Tutorials on Approximate Dynamic Programming”研讨会上,建议将该方法统称为“adaptive/approximatedynamicprogramming(自适应/近似动态规划)”.ADP算法已经在一些文献中被用来处理零和博弈问题,并取得了一定的理论研究成果[14–17].然而这些研究都是基于时间驱动机制进行的.
本文将事件驱动机制、ADP算法和神经网络各自优势相结合,提出了一种求解离散非线性零和博弈问题的事件驱动单网络值迭代控制方案.首先设计了一个新型的事件驱动阈值.根据贝尔曼最优性原理获得了最优控制对表达式.然而,由于HJI固有的非线性其解析解难以获得,导致该最优控制对无法直接求解.因此,一种单网络值迭代算法被提出.只利用一个神经网络构建评价网,从而代替了典型ADP算法中的评价——控制双网结构,有效减少了神经网络的训练次数.然后,根据HJI方程和梯度下降法设计了评价网的权值更新规则.接着,利用Lyapunov稳定性理论证明了闭环系统的稳定性.最后,将事件驱动最优控制方案应用到了两个仿真例子中,验证了所提方案既能够有效地降低网络通讯和控制器执行次数,减少神经网络的训练次数,又能够保证具有良好的性能.
2 问题描述(Problem descriptions)
台湾公共电视
考虑如下离散非线性系统的零和博弈问题,其状态方程描述为
相应的性能指标函数为普通二次型形式
其中:xk∈Ω⊆Rn为状态向量;uk∈Rm1为控制输入,控制目标是使得性能指标函数最小,而扰动输入wk∈Rm2则希望使得性能指标函数最大;f(),g()和h()为光滑可微函数;x0为系统初始状态;是对应的效用函数,矩阵Q,R和S是具有适当维数的对称正定矩阵.
假设1 系统(1)是可控的,即存在连续控制策略能够渐近镇定系统(1),f(0)=0,xk=0是系统(1)唯一的平衡点[17].
假设2 f+gu+hw在紧集Ω⊆Rn上李普希兹连续[17].
定义1 容许控制是指控制输入uk在紧集Ω⊆Rm1上连续且u(0)=0,能够控制系统(1)稳定并且保证性能指标函数(2)有界,∀x0∈Ω[17].
由容许控制uk和扰动输入wk定义值函数顺磁性
求解由式(1)–(2)描述的离散非线性系统的零和博弈问题的最优控制对,要求最优值函数满足
根据Bellman最优性原理,最优值函数V∗(xk)满足离散HJI方程[16]
其中最优控制对应该满足
为汉密尔顿函数
其中协状态.因此,
3 事件驱动最优控制方案(Event-triggered optimal control mechanism)
3.1 事件驱动条件(Event-triggered condition)
在事件驱动机制中,定义是一个单调递增序列,ki代表第i个采样时刻,i=0,1,2,3,….这个采样系统的输出是由系统(1)在ki时刻的状态xki组成的序列.定义事件驱动误差为
事件驱动条件为
其中eT为事件驱动阈值.只有当∥ek∥>eT时,驱动条件不再满足,系统进行采样.事件驱动误差重置为零,eki=0.反馈控制输入u(xki)=µ(xki)更新,并且通过零阶保持器,该控制输入在k∈[ki,ki
+1)时间段内保持不变u(xk)=µ(xki),直到下一个采样时刻.需要注意的是,在本文中假设事件驱动只对控制器uk有影响,而对扰动输入wk没有影响.根据式(9),可得

本文发布于:2024-09-21 08:38:21,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/467758.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:控制   系统   最优控制   问题
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议