一种基于强化学习的动力传动系统模型参数辨识方法[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202110002104.6
(22)申请日 2021.01.04
(71)申请人 华中科技大学
地址 430074 湖北省武汉市洪山区珞喻路
1037号
(72)发明人 丁建完 陈立平 郭超 彭奇 
(74)专利代理机构 华中科技大学专利中心
42201
代理人 李智
(51)Int.Cl.
G06F  30/27(2020.01)
G06F  30/25(2020.01)
G06N  20/00(2019.01)
G06F  111/08(2020.01)
G06F  119/14(2020.01)
(54)发明名称
一种基于强化学习的动力传动系统模型
辨识方法
(57)摘要
本发明公开了一种基于强化学习的动力传
动系统模型参数辨识方法,属于系统建模仿真领
域。本发明针对动力传动系统模型参数敏感度不
一致,现有辨识算法收敛速度慢、搜索范围要求
较高的问题,构建用于动力传动系统模型参数辨
识的强化学习框架,具有防止局部最优、收敛速
度快、搜索范围大的优点;本发明采用分阶段的
辨识流程,粗调阶段利用强化学习收敛速度快、
搜索范围大的特点,快速到各参数的最优子区
间,微调阶段利用启发式算法精度高、全局搜索
能力强的特点,在最优子区间中确定最终辨识结
果,与只使用单个算法相比,分阶段的辨识效果
更好。权利要求书3页  说明书10页  附图2页CN 112632860 A 2021.04.09
C N  112632860
A
1.一种基于强化学习的动力传动系统模型参数辨识方法,其特征在于,包括:
S1.构建基于多领域统一建模语言Modelica的动力传动系统动力学模型;
S2.对模型待辨识参数进行灵敏度分析;
S3.基于强化学习算法对待辨识参数进行粗调:
构建用于Modelica动力传动系统模型参数辨识的强化学习框架;
利用强化学习框架进行迭代训练,得到每个待辨识参数的最优子区间;
S4.参数微调:
以实测数据与模型估计值的均方误差为目标函数,在待辨识模型参数所形成的解空间中迭代寻优,以得到目标函数值最小时对应的各参数值,作为最终的辨识结果。
2.根据权利要求1所述的一种基于强化学习的动力传动系统模型参数辨识方法,其特征在于,步骤S2具体为,使用sobol方法对参数待定的动力传动系统模型进行参数灵敏度分析,具体步骤如下:
01.在N个待辨识参数的可能取值区间范围内分别进行蒙特卡洛采样,生成初始样本矩
阵一A、初始样本矩阵二B以及交叉样本矩阵
其中i={1,2,…,N};02.将样本矩阵A、B、作为输入对动力传动系统模型进行仿真求解,分别得到初始样
本矩阵A、初始样本矩阵B以及交叉样本矩阵
的模型仿真结果向量f(A)、f(B)、03.基于仿真结果和以下公式求出每个参数的全局影响指数S Ti :
其中,Y表示f(A)、f(B)和构成的向量集合;Var(Y)表示动力传动系统模型输出的方差;
04.根据参数全局影响指数的大小对待辨识参数进行敏感度排序;影响因子越大表示越敏感;
05.将灵敏度低于设定阈值的待辨识参数进行组合。
3.根据权利要求1所述的一种基于强化学习的动力传动系统模型参数辨识方法,其特征在于,强化学习框架构建过程具体包括:
(1)将模型估计值Y est 与实测值Y mea 的均方误差作为强化学习目标函数F(X);
(2)构建单步奖赏:
r=min(1,max(0,(F(X mean )‑F(X best ))/(F(X mean )‑F(X cur ))))
其中,r表示单步奖赏值,F(X cur )表示当前参数下的目标函数值,F(X best )表示最优参数下的目标函数值,F(X mean )表示参数平均值下的目标函数值;
(3)根据参数最小变化量G i (i=1,2,...,N)及每个参数的范围设置动作:
将第i个参数的搜索范围拆分为
个子区间,选中一个子区间后,在该子区间随机获取一个值作为动作;其中,为第i个参数最大值,为第i个参数最小值;最小变化量G i 指第i个参数在辨识过程中每步增加或减少的变化量;(4)构建动作选择策略:
01.选择搜索路径:
确定下一轮选择的动作在当前动作的左边还是右边,选择指标为L p (i,j),计算公式为:
其中,k表示参数变换组合的数量;为第l个路径上与当前动作a i,j 相邻的k个动作中第n大的Q值,λ1为路径权重系数;
获取一个[0,1]之间的随机数ε1,使用如下公式确定搜索路径l:
rand(1,2)表示1‑2区间内的随机概率分布;
02.确定动作:
获取一个[0,1]之间的随机数ε2,使用如下公式确定动作a:
q(i,m)表示第i个待辨识参数的Q值,ε1和ε2都是用来保证强化学习探索性的随机数;
(5)构建Q值函数的更新策略:
第i个参数对应的Q值函数更新公式如下:
Q r+1(i,j)+=α(r+(1‑λ2)max(L p (i,j))+λ2min(L p (i,
j))‑Q r (i,j))式中α为控制学习速率的超参数,r为单步奖赏,λ2为控制更新幅度的超参数。
4.根据权利要求1所述的一种基于强化学习的动力传动系统模型参数辨识方法,其特征在于,参数粗调阶段,使用基于Q ‑Learning算法的强化学习框架,迭代训练的具体步骤如下:
(1)随机初始化所有待辨识参数,并代入动力传动系统模型中计算,与实测数据相比得到均方误差作为最优目标函数F(X)的初始值;
(2)多个智能体按照待辨识参数灵敏度从大到小执行串行学习;强化学习框架中根据Q 值表调整待辨识参数的环节称为智能体,每个待辨识参数都唯一对应一个智能体;智能体调整待辨识参数的过程称为智能体的学习行为;
学习过程包括:在当前智能体对应参数的可能取值区间范围内随机选取一个动作a rand (i),固定其它参数,将此参数应用到动力传动系统模型中,得到当前参数下的目标函数值F (X cur )以及单步奖赏值r,根据权利要求3所述Q值更新策略更新当前智能体的Q值表;若F (X cur )≤F(X best ),认为当前参数有搜索价值,转入步骤(3),否则重复上述学习过程;
(3)根据权利要求3所述动作选择策略选择一个动作a iter (i),固定其它参数,将此参数应用到FMU中,得到目标函数值F(X cur )以及奖惩值r,更新Q值表;(4)针对第i个参数迭代执行步骤(2)与(3)次,完成第i个参数的一次辨识,转入第i+1个参数的辨识;
(5)所有待辨识参数串行执行步骤(2)~(4)后完成一个训练周期,若当前完成周期数
小于给定训练次数转步骤(2)进入下一个训练周期,否则训练结束。
5.根据权利要求1所述的一种基于强化学习的动力传动系统模型参数辨识方法,其特征在于,步骤S4具体为,使用PSO优化算法对参数进行微调,得到最终的辨识结果。
6.根据权利要求1所述的一种基于强化学习的动力传动系统模型参数辨识方法,其特征在于,使用PSO优化算法对参数进行微调,具体步骤如下:
将微调范围设置为其中,μ值根据粒子算法的搜索
能力设置,为强化学习得到的最优子区间,是第i个参数经过强化学习辨识后的最优值;
初始化一个N维空间以及粒子,创建每个粒子的速度向量v
i 、位置向量x
i
、历史最优位
置向量p
i ,以及整个粒子的历史最优位置向量p
g
以模型预测值与实测值的均方误差建立适应度函数G(X),模型预测值由粒子的当前位
置代入FMU中仿真求解得到;整个粒子的搜索目标是使G(X)最小;
开始迭代搜索:在一轮迭代中,计算每个粒子的适应度值,更新单个粒子的p
i
值及种
的p
g
值,再根据下式更新每个粒子的速度和位置向量;
式中ω为惯性权重,c
1、c
2
为学习因子,r
1
、r
2
为[0,1]之间的随机数;
达到最大迭代次数后,粒子的历史最优位置向量p
g
即为参数辨识的最终结果。
7.一种基于强化学习的动力传动系统模型参数辨识系统,其特征在于,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行权利要求1至6任一项所述的基于强化学习的动力传动系统模型参数辨识方法。
一种基于强化学习的动力传动系统模型参数辨识方法
技术领域
[0001]本发明属于系统建模仿真领域,更具体地,涉及一种基于强化学习的动力传动系统模型参数辨识方法。
背景技术
[0002]随着多领域系统建模仿真技术的不断发展,Modelica语言逐渐成为了多领域多学科系统仿真领域发展的行业标准,其目标是定义一种通用的用于复杂系统建模的编程语言。Modelica模型即为使用Modelica语言编写的具有面向对象建模、多领域统一建模、非因果陈述式建模和连续离散混合建模能力的程序,可用于不同行业的工程师搭建自己的仿真模型系统,开展相应的动态仿真。对于Modelica模型而言,想要尽可能地与物理样机保持一致,关键的一点就在于模型参数的设置,搭建模型的过程只是确定了模型的基本形式,想要获得最优的仿真性能,必须设置精确的模型参数。
[0003]动力传动系统是在控制器控制下从功率源以速度/角速度、力/力矩形式获取能量并传递到系统下一个环节的装置,主要包括电动机、减速器等部件,动力传动过程中存在能量损失、速度改变等状态。
[0004]现有的模型参数辨识方法有多种,目前最常用的即为最小二乘法,该方法是建模软件中默认的参数优化方法。但是,最小二乘估计对数据的依赖性过高,辨识结果容易受噪声影响,且对参数的初始化范围要求比较苛刻。另外比较常用的辨识方法为进化算法,如粒子算法(Particle  Swarm  Optimization,PSO)、遗传算法(Genetic  Algorithm,GA)等,这类方法逼近全局最优的能力较强,但收敛速度较慢,精度也有待提高。因此,急需一种收敛速度快、对参数初始范围要求不高的辨识方法来对基于Modelica  的动力传动系统模型进行参数辨识。
发明内容
[0005]针对现有技术的以上缺陷或改进需求,本发明提供了一种基于强化学习的动力传动系统模型参数辨识方法,其目的在于提出一种收敛速度快、对参数初始范围要求不高的辨识方法来对基于Modelica的动力传动系统模型进行参数辨识。
[0006]为实现上述目的,本发明提供了一种基于强化学习的动力传动系统模型参数辨识方法,包括:
[0007]S1.构建基于多领域统一建模语言Modelica的动力传动系统动力学模型;
[0008]S2.对模型待辨识参数进行灵敏度分析;
[0009]S3.基于强化学习算法对待辨识参数进行粗调:
[0010]构建用于Modelica动力传动系统模型参数辨识的强化学习框架;
[0011]利用强化学习框架进行迭代训练,得到每个待辨识参数的最优子区间;
[0012]S4.参数微调:
[0013]以实测数据与模型估计值的均方误差为目标函数,在待辨识模型参数所形成的解
说 明 书1/10页CN 112632860 A

本文发布于:2024-09-22 20:16:39,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/425327.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:参数   辨识   模型   传动系统
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议