一种应用于大批量重复性加工的工业机器人学习方法[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201810921161.2
(22)申请日 2018.08.13
(71)申请人 哈尔滨工业大学(深圳)
地址 518000 广东省深圳市南山区桃源街
道深圳大学城哈尔滨工业大学校区
(72)发明人 李建刚 钟刚刚 吴雨璁 
(74)专利代理机构 深圳市添源知识产权代理事
务所(普通合伙) 44451
代理人 黎健任
(51)Int.Cl.
B25J  9/16(2006.01)
(54)发明名称
一种应用于大批量重复性加工的工业机器
学习方法
(57)摘要
本发明提供了一种应用于大批量重复性加
工的工业机器人学习方法,其特征在于:该学习
方法是基于学习模型进行学习,其包括如下步
骤:S001、传感器采集状态信息;S002、根据采集
的信息进行学习;S003、判断加工质量以及加工
周期是否达到要求,若达到要求则结束学习,否
则重新采集状态信息重新学习。本发明的方法根
据传感器数据去学习并改进控制策略,达到在高
速下的良好控制,能够简化机器人调试工作,并
可实现在大批量、规模化的重复性加工中应用,
并解决机器人在传统的学习方式中缺乏精确动
力学模型造成的高速工作下的震荡,提高工业机
器人的工作效率。权利要求书2页  说明书6页  附图2页CN 108927806 A 2018.12.04
C N  108927806
A
1.一种应用于大批量重复性加工的工业机器人学习方法,其特征在于:该学习方法是基于学习模型进行学习,其包括如下步骤:
S001、传感器采集状态信息;
S002、根据采集的信息进行学习;
S003、判断加工质量以及加工周期是否达到要求,若达到要求则结束学习,否则重新采集状态信息重新学习。
2.根据权利要求1所述的应用于大批量重复性加工的工业机器人学习方法,其特征在于:所述学习模型由环境单元、机器人学习单元和加工执行单元组成;其中,环境单元至少包括加工质量测量单元,机器人学习单元包括状态观测单元、数据处理单元及决策制定单元,加工执行单元至少包括机器人和定位器;
所述环境单元,由加工工件状态测量传感器和机器人状态末端测量观测器组成,所述加工工件状态测量传感器采集所加工工件的视觉信息,所述视觉信息至少包括工件的几何形状和表面光滑度信息;所述机器人状态末端测量观测器采集机器人的位置、速度、加速度以及关节扭矩的信息;
所述状态观测单元,所述状态观测单元通过通信线路获取所述环境单元采集的信息,并将获取的信息转化成数据格式;
所述数据处理单元,接收并处理所述状态观测单元转化成数据格式的信息;所述数据处理单元包括奖励计算单元和函数更新单元,其中,所述奖励计算单元通过奖励函数设置单元设置即时奖励r,所述奖励计算单元对所述状态观测单元的信息进行计算,计算完成后将结果参数输送至函数更新单元,函数更新单元采用神经网络训练的方式对获取到的参数进行更新,直到得到最终学习参数,将最终学习参数存储起来,通过神经网络做出行为决策,再进行强化学习到一个确定性策略以驱动机器人进行工作。
3.根据权利要求2所述的应用于大批量重复性加工的工业机器人学习方法,其特征在于:所述强化学习通过假设机器人由状态信息到行为定义为策略π,从时刻t开始获得的累积回报定义为:根据累积回报通过Qπ(s t,a t)=Eπ[R t|s t,a t]求取期望回报;其中,Qπ(s t,a t)表示依据策略π在状态s t下采取行为a t时的期望回报;结合累积回报和取期望回报的公式,得到期望回报的递归形式公式:
根据递归形式公式不断使用上次更新的策略进行决策。
4.根据权利要求2所述的应用于大批量重复性加工的工业机器人学习方法,其特征在于:所述强化学习采用确定性策略的强化学习方式,其具体过程包括如下步骤:S201,初始化行为网络μ(s|θμ),参数表示为θQ和评价网络Q(s,a|θQ),参数表示为θμ,并初始化目标网络Q′(s,a|θQ′)和μ′(s|θμ′),参数是θQ′←θQ,θμ′←θμ。
S202,初始化缓冲容器R;
S203,接受状态观测单元的状态信息s t;
S204,根据当前策略并施加一定的噪声来选择执行行为a t;
S205,观测得到的奖励r t,并观测下一状态信息s t+1;
S206,将四元组<s t,a t,r t,s t+1>存在缓冲容器中;
S207,从缓冲容器中随机选取一批四元组样本进行训练;
S208,更新评价网络参数;
S209,更新行为网络参数;
S210,判断学习次数是否超出预设值或加工质量是否足够好;
S211,将评价网络和行为网络的参数传输到主机存储,结束学习。
5.根据权利要求3所述的应用于大批量重复性加工的工业机器人学习方法,其特征在于:所述步骤S208中更新评价网络参数时,先将目标函数y t设置为:y t=r(s t,a t)+γQ(s t+1,μ(s t+1)|θQ),再通过公式minθL(θQ)=E[(Q(s t,a t|θQ)-y t)2]计算得到参数来更新评价网络,其中,a t表示t时刻的行为,Q表示期望累积奖励,θQ表示行为网络的参数,E表示多组数据实际奖励和目标之间的误差的平方和的期望值,L(θQ)表示在参数θQ下的误差,μ(s t+1)表示在状态s t+1下的确定性策略。
6.根据权利要求3所述的应用于大批量重复性加工的工业机器人学习方法,其特征在于:所述步骤S209中更新行为网络参数时,使用梯度法
来更新行为网络,而更新目标网络时采用如下公式组来更新;
θ′←τθ+(1-τ)θ′
θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
withτ<<0.05
表示对θμ求导,表示对α求导,表示以θμ为变量,求J的关于θμ的导数。
一种应用于大批量重复性加工的工业机器人学习方法
技术领域
[0001]本发明涉及工业机器人技术领域,尤其涉及一种应用于大批量重复性加工的工业机器人学习方法。
背景技术
[0002]工业机器人是一种具有高度非线性的系统,其动态特性的准确建模难以实现。以往的机器人通常只考虑运动学而不考虑动力学模型。在只使用动力学模型时,一方面通常将每个点最大的速度和加速度
设置得低于实际所能承受的速度和加速度,这是考虑到动态特性时不超出执行器的最大力矩,但这也导致了执行器的性能没有被充分利用。另一方面,未考虑动力学特性不仅影响了工业机器人的工作效率,在机器人高速运动过程以及重负载过程中,由于惯性力,离心力,摩擦力,重力,关节扭矩力的影响,往往会产生强烈的震动,这不仅影响了机器人的加工质量,也影响了机器人的寿命。此外,工业机器人动力学准确建模还存在对机器人参数难以辨识的问题,如果机器人的一致性不好,每个部件的摩擦力系数不一样,导致动力学参数出现错误,而不正确的动力学参数会导致机器人调试工作更加繁琐,也难以实现大批量、规模化的应用。
发明内容
[0003]针对现有技术中存在的缺陷或不足,本发明提供一种应用于大批量重复性加工的工业机器人学习方法,根据传感器数据去学习并改进控制策略,达到在高速下的良好控制,能够简化机器人调试工作,并可实现在大批量、规模化的重复性加工中应用,并解决机器人在传统的学习方式中缺乏精确动力学模型造成的高速工作下的震荡,提高工业机器人的工作效率。
[0004]为了实现上述目的,本发明采取的技术方案为提供一种应用于大批量重复性加工的工业机器人学习方法,该学习方法是基于学习模型进行学习,其包括如下步骤:[0005]S001、传感器采集状态信息;
[0006]S002、根据采集的信息进行学习;
[0007]S003、判断加工质量以及加工周期是否达到要求,若达到要求则结束学习,否则重新采集状态信息重新学习。
[0008]作为本发明的进一步改进,所述学习模型由环境单元、机器人学习单元和加工执行单元组成;
[0009]其中,所述环境单元,由加工工件状态测量传感器和机器人状态末端测量观测器组成,所述加工工件状态测量传感器采集所加工工件的视觉信息,所述视觉信息至少包括工件的几何形状和表面光滑度信息;所述机器人状态末端测量观测器采集机器人的位置、速度、加速度以及关节扭矩的信息;
[0010]所述状态观测单元,所述状态观测单元通过通信线路获取所述环境单元采集的信息,并将获取的信息转化成数据格式;
[0011]所述数据处理单元,接收并处理所述状态观测单元转化成数据格式的信息;所述数据处理单元包括奖励计算单元和函数更新单元,其中,所述奖励计算单元通过奖励函数设置单元设置即时奖励r,所述奖励计算单元对所述状态观测单元的信息进行计算,计算完成后将结果参数输送至函数更新单元,函数更新单元采用神经网络训练的方式对获取到的参数进行更新,直到得到最终学习参数,将最终学习参数存储起来,通过神经网络做出行为决策,再进行强化学习到一个确定性策略以驱动机器人进行工作。
[0012]作为本发明的进一步改进,所述强化学习通过假设机器人由状态信息到行为定义为策略π,从时刻t开始获得的累积回报定义为:根据累积回报通过
[0013]
[0014]求取期望回报;其中,Qπ(s t,a t)表示依据策略π在状态s t下采取行为a t时的期望回报;
[0015]结合累积回报和取期望回报的公式,得到期望回报的递归形式公式:
[0016]
[0017]根据递归形式公式不断使用上次更新的策略进行决策。
[0018]本发明中,采用强化学习的方式,强化学习的策略分为确定性策略和不确定策略,本发明中采用确定性策略的强化学习方式,即在某一状态下采用输出行为的方式,而不是输出概率的方式,则期望回报Q可通过公式(4)计算:
[0019]其中,μ代表的是确定的行为。
[0020]作为本发明的进一步改进,所述强化学习采用确定性策略的强化学习方式,其具体过程包括如下步骤:
[0021]S201,初始化行为网络μ(s|θμ),参数表示为θQ和评价网络Q(s,a|θQ),参数表示为θμ,并初始化目标网络Q′(s,a|θQ′)和μ′(s|θμ′),参数是θQ′←θQ,θμ′←θμ。
[0022]S202,初始化缓冲容器R;
[0023]S203,接受状态观测单元的状态信息s t;
[0024]S204,根据当前策略并施加一定的噪声来选择执行行为a t;
[0025]S205,观测得到的奖励r t,并观测下一状态信息s t+1;
[0026]S206,将四元组<s t,a t,rt,s t+1>存在缓冲容器R中;
[0027]S207,从缓冲容器中随机选取一批四元组样本进行训练;
[0028]S208,更新评价网络参数;
[0029]S209,更新行为网络参数;
[0030]S210,判断学习次数是否超出预设值或加工质量是否足够好;
[0031]S211,将评价网络和行为网络的参数传输到主机存储,结束学习。
[0032]作为本发明的进一步改进,所述步骤S208中更新评价网络参数时,先将目标函数y t设置为:y t=r(s t,a t)+γQ(s t+1,μ(s t+1)|θQ),再通过公式min a L(θQ)= E[(Qst,atθQ-yt) 2]计算得到参数来更新评价网络,其中,at表示t时刻的行为,Q表示累积奖励,θQ表示行为网络的参数,E表示多组数据实际奖励和目标之间的误差的平方和的期望值,L(θQ)表示在参数θQ下的误差,μ(s t+1)表示在状态s t+1下的确定性策略.

本文发布于:2024-09-24 04:17:38,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/428745.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:学习   机器人   单元   加工   状态   信息   参数
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议