一种基于强化学习的AGV智能调度系统及方法[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202010771362.6
(22)申请日 2020.08.04
(71)申请人 四叶草(苏州)智能科技有限公司
地址 215100 江苏省苏州市相城区阳澄湖
镇沈周村沈周路21号5幢2楼
(72)发明人 钟华刚 陈愉彬 
(74)专利代理机构 上海创开专利代理事务所
(普通合伙) 31374
代理人 吴海燕
(51)Int.Cl.
G06Q  10/06(2012.01)
G06N  3/04(2006.01)
G06N  3/08(2006.01)
(54)发明名称
一种基于强化学习的AGV智能调度系统及方
(57)摘要
本发明涉及的一种基于强化学习的AGV智能
调度系统,包括调度模块和深入强化学习模型,
其中所述深入强化学习模型包括评估网络、经验
回放池、目标网络和损失函数,其中,所述调度模
块的输入为AGV小车使用需求,输出连接所述评
估网络,评估网络输出Q估计值至所述经验回放
池;所述经验回放池输出Q估计值至所述目标网
络,所述目标网络输出Q目标值,Q目标值与Q估计
值均输入至所述损失函数,损失函数的输出再反
馈给评估网络。本发明的有益之处在于,过调度
模块对AGV小车的停放位置和停放数量进行优
化,使得在使用AGV小车时,能够不断的缩短AGV
小车的调整时间,提高对AGV小车的利用效率,减
少人员、
资源和时间的消耗。权利要求书2页  说明书4页  附图2页CN 112016811 A 2020.12.01
C N  112016811
A
1.一种基于强化学习的AGV智能调度系统,其特征在于,包括调度模块和深入强化学习模型,其中所述深入强化学习模型包括评估网络、经验回放池、目标网络和损失函数,其中,所述调度模块的输入为AGV小车使用需求,输出连接所述评估网络,评估网络输出Q估计值至所述经验回放池;所述经验回放池输出Q估计值至所述目标网络,所述目标网络输出Q目标值,Q目标值与Q估计值均输入至所述损失函数,损失函数的输出再反馈给评估网络。
2.根据权利要求1所述的基于强化学习的AGV智能调度系统,其特征在于,所述调度模块输出AGV小车的停放位置和AGV小车的数量,AGV小车的停放位置作为输入状态,AGV小车数量的调整作为输出动作
3.根据权利要求1所述的基于强化学习的AGV智能调度系统,其特征在于,所述评估网络向所述经验回放池输出的为AGV小车的停放位置、AGV小车数量的调整、预估奖励和下一状态AGV小车的停放位置。
4.根据权利要求1所述的基于强化学习的AGV智能调度系统,其特征在于,所述经验回放池向所述目标网络输出的为下一状态的AGV小车的停放位置。
5.根据权利要求1所述的基于强化学习的AGV智能调度系统,其特征在于,所述调度模块用于从数据库或传感器中获取AGV小车的停放位置和AGV小车的数量,并将AGV小车的停放位置和AGV小车的数量输入所述评估网络。
6.一种采用权利要求1-5任一项所述的基于强化学习的AGV智能调度系统的方法,其特征在于,包括以下步骤:
S1、以符合AGV小车的需求指令为目标,利用调度模块对停放在各个停放位置的AGV小车进行调度,所得结果为各个停放位置的AGV小车数量的调整动作;
S2、根据各个停放位置的AGV小车数量的调整来计算AGV的总体动作时间和平均动作时间,目标动作时间为平均动作时间至少再减少1秒;
S3、将目标动作时间作为输入状态,各个停放位置的AGV小车的调整为输入动作,输入到深度强化学习
模型中;
S4、以目标动作时间为目标,各个停放位置的AGV小车的调整动作,所得结果在目标动作时间的前提下,得到所有停放位置的AGV小车的最佳调整动作;
S5、根据目标动作时间和AGV小车的需求指令得到新的目标动作时间和AGV小车的停放位置;按照新的AGV小车的停放位置和目标动作时间重新利用调度模块所有停放位置的AGV 小车的调整动作,重复S1-S4,根据目标动作时间得到AGV小车的最佳调整动作,最后根据新的调度函数重新所有停放位置的AGV小车的调整动作。
7.根据权利要求6所述的方法,在特征在于:在所述步骤S4中,AGV小车的停放位置K和数量作为输入状态s,AGV小车位置和数量的调整作为输入动作a,输入到深度强化学习模型的评估网络中,评估网络自主学习得到达到下一状态的预估奖励,并将Q估计值输入损失函数,将输入状态s,输入动作a,预估奖励r和下一状态s’组合并存输入经验回放池中,以下一状态s’作为输入调度到目标网络中得到实际可得的奖励,即为Q目标值,将Q目标值和Q估计值的差作为深度强化学习模型的反馈再次输入评估网络,提升学习性能。
8.根据权利要求6所述的方法,在特征在于:在所述步骤s1中,所述各个停放位置的AGV 小车数量的调整动作的选择采用ε-greedy决策,采用经验回放的DQN算法实现策略评估,并通过神经网络近似求得值
函数。
9.根据权利要求7所述的方法,在特征在于:所述Q目标值根据任务完成的时间配合权重计算得到,任务完成时间越短奖励值越高,反之奖励值越低。
一种基于强化学习的AGV智能调度系统及方法
技术领域
[0001]本发明涉及了一种AGV小车调度技术领域,特别涉及一种基于强化学习的AGV智能调度系统及方法。
背景技术
[0002]在生产环境下,一般情况是根据“先到先服务”的原则处理任务,将先接收到的任务分发给AGV,然后再处理后接收到的任务;根据就近原则,将任务分配给距离任务点最近的AGV来执行。仓库中原材料的使用频率是不同的,即便按照就近原则分配任务,还是会造成一些时间开销,例如距离任务点最近的AGV实际距离也很长,在前往任务点的过程中,如果遇到正在执行任务的AGV,就会延长本次任务的完成时间,通过设置停放点位置和AGV数量的方法能够解决上述问题。但是每个公司的仓库都有属于自己的一种工作规律,并且随着需求的改变这种规律会发生变化,如果采用现有方式,需要阶段性地修改
停放点和AGV数量的设置,而且规律的发现、总结以及规则的设置都需要人员的参与、资源和时间的消耗;除此之外,这种调度算法并不适用于所有的公司、所有的应用场景,都需要手动进行调整。
发明内容
[0003]为了克服现有技术中的缺陷,本发明实施例提供了一种基于强化学习的AGV智能调度系统及方法,它能够在使用过程中不断优化AGV小车的停放位置和停放数量,提高AGV 小车的调度效率。
[0004]本申请实施例公开了:一种基于强化学习的AGV智能调度系统,包括调度模块和深入强化学习模型,其中所述深入强化学习模型包括评估网络、经验回放池、目标网络和损失函数,其中,
[0005]所述调度模块的输入为AGV小车使用需求,输出连接所述评估网络,评估网络输出Q估计值至所述经验回放池;所述经验回放池输出Q估计值至所述目标网络,所述目标网络输出Q目标值,Q目标值与Q估计值均输入至所述损失函数,损失函数的输出再反馈给评估网络。
[0006]进一步地,所述调度模块输出AGV小车的停放位置和AGV小车的数量,AGV小车的停放位置作为输入状态,AGV小车数量的调整作为输出动作。
[0007]进一步地,所述评估网络向所述经验回放池输出的为AGV小车的停放位置、AGV小车数量的调整、预估奖励和下一状态AGV小车的停放位置。
[0008]进一步地,所述经验回放池向所述目标网络输出的为下一状态的AGV小车的停放位置。
[0009]进一步地,所述调度模块用于从数据库或传感器中获取AGV小车的停放位置和AGV 小车的数量,并将AGV小车的停放位置和AGV小车的数量输入所述评估网络。
[0010]一种采用上述的基于强化学习的AGV智能调度系统的方法,包括以下步骤:[0011]S1、以符合AGV小车的需求指令为目标,利用调度模块对停放在各个停放位置的
AGV小车进行调度,所得结果为各个停放位置的AGV小车数量的调整动作;
[0012]S2、根据各个停放位置的AGV小车数量的调整来计算AGV的总体动作时间和平均动作时间,目标动作时间为平均动作时间至少再减少1秒;
[0013]S3、将目标动作时间作为输入状态,各个停放位置的AGV小车的调整为输入动作,输入到深度强化学习模型中;
[0014]S4、以目标动作时间为目标,各个停放位置的AGV小车的调整动作,所得结果在目标动作时间的前提下,得到所有停放位置的AGV小车的最佳调整动作;
[0015]S5、根据目标动作时间和AGV小车的需求指令得到新的目标动作时间和AGV小车的停放位置;按
照新的AGV小车的停放位置和目标动作时间重新利用调度模块所有停放位置的AGV小车的调整动作,重复S1-S4,根据目标动作时间得到AGV小车的最佳调整动作,最后根据新的调度函数重新所有停放位置的AGV小车的调整动作。
[0016]进一步地,在所述步骤S4中,AGV小车的停放位置K和数量作为输入状态s,AGV小车位置和数量的调整作为输入动作a,输入到深度强化学习模型的评估网络中,评估网络自主学习得到达到下一状态的预估奖励,并将Q估计值输入损失函数,将输入状态s,输入动作a,预估奖励r和下一状态s’组合并存输入经验回放池中,以下一状态s’作为输入调度到目标网络中得到实际可得的奖励,即为Q目标值,将Q目标值和Q估计值的差作为深度强化学习模型的反馈再次输入评估网络,提升学习性能。
[0017]进一步地,在所述步骤s1中,所述各个停放位置的AGV小车数量的调整动作的选择采用ε-greedy决策,采用经验回放的DQN算法实现策略评估,并通过神经网络近似求得值函数。
[0018]进一步地,所述Q目标值根据任务完成的时间配合权重计算得到,任务完成时间越短奖励值越高,反之奖励值越低。
[0019]本发明的有益之处在于:本发明涉及的基于强化学习的AGV智能调度系统及方法,通过调度模块对AGV小车的停放位置和停放数量进行优化,使得在使用AGV小车时,能够不断的缩短AGV小车的调整时间,提高对AGV小车的利用效率,减少人员、资源和时间的消耗;另外采用深度学习算法模型对调度
策略进行不断的调整,能够使其针对具体的环境进行快速调整,不断优化AGV小车的调度效率。
[0020]为让本发明的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。
附图说明
[0021]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0022]图1是本发明基于强化学习的AGV智能调度系统的整体结构示意图;
[0023]图2是深入强化学习模型的建立的步骤构示意图。
[0024]图3是利用深入强化学习模型对AGV小车进行调度的方法的步骤示意图。

本文发布于:2024-09-20 12:29:24,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/786738.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:小车   调度   时间   动作   网络   停放   学习   目标
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议