首页 > 学术百科

一种基于强化学习的AGV智能调度系统及方法[发明专利]

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 (43)申请公布日 (21)申请号 202010771362.6

(22)申请日 2020.08.04

(71)申请人四叶草（苏州）智能科技有限公司

地址 215100 江苏省苏州市相城区阳澄湖

镇沈周村沈周路21号5幢2楼

(72)发明人钟华刚　陈愉彬　

(74)专利代理机构上海创开专利代理事务所

(普通合伙) 31374

代理人吴海燕

(51)Int.Cl.

G06Q 10/06(2012.01)

G06N 3/04(2006.01)

G06N 3/08(2006.01)

(54)发明名称

一种基于强化学习的AGV智能调度系统及方

法

(57)摘要

本发明涉及的一种基于强化学习的AGV智能

调度系统，包括调度模块和深入强化学习模型，

其中所述深入强化学习模型包括评估网络、经验

回放池、目标网络和损失函数，其中，所述调度模

块的输入为AGV小车使用需求，输出连接所述评

估网络，评估网络输出Q估计值至所述经验回放

池；所述经验回放池输出Q估计值至所述目标网

络，所述目标网络输出Q目标值，Q目标值与Q估计

值均输入至所述损失函数，损失函数的输出再反

馈给评估网络。本发明的有益之处在于，过调度

模块对AGV小车的停放位置和停放数量进行优

化，使得在使用AGV小车时，能够不断的缩短AGV

小车的调整时间，提高对AGV小车的利用效率，减

少人员、

资源和时间的消耗。权利要求书2页说明书4页附图2页CN 112016811 A 2020.12.01

C N 112016811

1.一种基于强化学习的AGV智能调度系统，其特征在于，包括调度模块和深入强化学习模型，其中所述深入强化学习模型包括评估网络、经验回放池、目标网络和损失函数，其中，所述调度模块的输入为AGV小车使用需求，输出连接所述评估网络，评估网络输出Q估计值至所述经验回放池；所述经验回放池输出Q估计值至所述目标网络，所述目标网络输出Q目标值，Q目标值与Q估计值均输入至所述损失函数，损失函数的输出再反馈给评估网络。

2.根据权利要求1所述的基于强化学习的AGV智能调度系统，其特征在于，所述调度模块输出AGV小车的停放位置和AGV小车的数量，AGV小车的停放位置作为输入状态，AGV小车数量的调整作为输出动作。

3.根据权利要求1所述的基于强化学习的AGV智能调度系统，其特征在于，所述评估网络向所述经验回放池输出的为AGV小车的停放位置、AGV小车数量的调整、预估奖励和下一状态AGV小车的停放位置。

4.根据权利要求1所述的基于强化学习的AGV智能调度系统，其特征在于，所述经验回放池向所述目标网络输出的为下一状态的AGV小车的停放位置。

5.根据权利要求1所述的基于强化学习的AGV智能调度系统，其特征在于，所述调度模块用于从数据库或传感器中获取AGV小车的停放位置和AGV小车的数量，并将AGV小车的停放位置和AGV小车的数量输入所述评估网络。

6.一种采用权利要求1-5任一项所述的基于强化学习的AGV智能调度系统的方法，其特征在于，包括以下步骤：

S1、以符合AGV小车的需求指令为目标，利用调度模块对停放在各个停放位置的AGV小车进行调度，所得结果为各个停放位置的AGV小车数量的调整动作；

S2、根据各个停放位置的AGV小车数量的调整来计算AGV的总体动作时间和平均动作时间，目标动作时间为平均动作时间至少再减少1秒；

S3、将目标动作时间作为输入状态，各个停放位置的AGV小车的调整为输入动作，输入到深度强化学习

模型中；

S4、以目标动作时间为目标，各个停放位置的AGV小车的调整动作，所得结果在目标动作时间的前提下，得到所有停放位置的AGV小车的最佳调整动作；

S5、根据目标动作时间和AGV小车的需求指令得到新的目标动作时间和AGV小车的停放位置；按照新的AGV小车的停放位置和目标动作时间重新利用调度模块所有停放位置的AGV 小车的调整动作，重复S1-S4，根据目标动作时间得到AGV小车的最佳调整动作，最后根据新的调度函数重新所有停放位置的AGV小车的调整动作。

7.根据权利要求6所述的方法，在特征在于：在所述步骤S4中，AGV小车的停放位置K和数量作为输入状态s，AGV小车位置和数量的调整作为输入动作a，输入到深度强化学习模型的评估网络中，评估网络自主学习得到达到下一状态的预估奖励，并将Q估计值输入损失函数，将输入状态s，输入动作a，预估奖励r和下一状态s’组合并存输入经验回放池中，以下一状态s’作为输入调度到目标网络中得到实际可得的奖励，即为Q目标值，将Q目标值和Q估计值的差作为深度强化学习模型的反馈再次输入评估网络，提升学习性能。

8.根据权利要求6所述的方法，在特征在于：在所述步骤s1中，所述各个停放位置的AGV 小车数量的调整动作的选择采用ε-greedy决策，采用经验回放的DQN算法实现策略评估，并通过神经网络近似求得值

函数。

9.根据权利要求7所述的方法，在特征在于：所述Q目标值根据任务完成的时间配合权重计算得到，任务完成时间越短奖励值越高，反之奖励值越低。

一种基于强化学习的AGV智能调度系统及方法

技术领域

[0001]本发明涉及了一种AGV小车调度技术领域，特别涉及一种基于强化学习的AGV智能调度系统及方法。

背景技术

[0002]在生产环境下，一般情况是根据“先到先服务”的原则处理任务，将先接收到的任务分发给AGV，然后再处理后接收到的任务；根据就近原则，将任务分配给距离任务点最近的AGV来执行。仓库中原材料的使用频率是不同的，即便按照就近原则分配任务，还是会造成一些时间开销，例如距离任务点最近的AGV实际距离也很长，在前往任务点的过程中，如果遇到正在执行任务的AGV，就会延长本次任务的完成时间，通过设置停放点位置和AGV数量的方法能够解决上述问题。但是每个公司的仓库都有属于自己的一种工作规律，并且随着需求的改变这种规律会发生变化，如果采用现有方式，需要阶段性地修改

停放点和AGV数量的设置，而且规律的发现、总结以及规则的设置都需要人员的参与、资源和时间的消耗；除此之外，这种调度算法并不适用于所有的公司、所有的应用场景，都需要手动进行调整。

发明内容

[0003]为了克服现有技术中的缺陷，本发明实施例提供了一种基于强化学习的AGV智能调度系统及方法，它能够在使用过程中不断优化AGV小车的停放位置和停放数量，提高AGV 小车的调度效率。

[0004]本申请实施例公开了：一种基于强化学习的AGV智能调度系统，包括调度模块和深入强化学习模型，其中所述深入强化学习模型包括评估网络、经验回放池、目标网络和损失函数，其中，

[0005]所述调度模块的输入为AGV小车使用需求，输出连接所述评估网络，评估网络输出Q估计值至所述经验回放池；所述经验回放池输出Q估计值至所述目标网络，所述目标网络输出Q目标值，Q目标值与Q估计值均输入至所述损失函数，损失函数的输出再反馈给评估网络。

[0006]进一步地，所述调度模块输出AGV小车的停放位置和AGV小车的数量，AGV小车的停放位置作为输入状态，AGV小车数量的调整作为输出动作。

[0007]进一步地，所述评估网络向所述经验回放池输出的为AGV小车的停放位置、AGV小车数量的调整、预估奖励和下一状态AGV小车的停放位置。

[0008]进一步地，所述经验回放池向所述目标网络输出的为下一状态的AGV小车的停放位置。

[0009]进一步地，所述调度模块用于从数据库或传感器中获取AGV小车的停放位置和AGV 小车的数量，并将AGV小车的停放位置和AGV小车的数量输入所述评估网络。

[0010]一种采用上述的基于强化学习的AGV智能调度系统的方法，包括以下步骤：[0011]S1、以符合AGV小车的需求指令为目标，利用调度模块对停放在各个停放位置的

AGV小车进行调度，所得结果为各个停放位置的AGV小车数量的调整动作；

[0012]S2、根据各个停放位置的AGV小车数量的调整来计算AGV的总体动作时间和平均动作时间，目标动作时间为平均动作时间至少再减少1秒；

[0013]S3、将目标动作时间作为输入状态，各个停放位置的AGV小车的调整为输入动作，输入到深度强化学习模型中；

[0014]S4、以目标动作时间为目标，各个停放位置的AGV小车的调整动作，所得结果在目标动作时间的前提下，得到所有停放位置的AGV小车的最佳调整动作；

[0015]S5、根据目标动作时间和AGV小车的需求指令得到新的目标动作时间和AGV小车的停放位置；按

照新的AGV小车的停放位置和目标动作时间重新利用调度模块所有停放位置的AGV小车的调整动作，重复S1-S4，根据目标动作时间得到AGV小车的最佳调整动作，最后根据新的调度函数重新所有停放位置的AGV小车的调整动作。

[0016]进一步地，在所述步骤S4中，AGV小车的停放位置K和数量作为输入状态s，AGV小车位置和数量的调整作为输入动作a，输入到深度强化学习模型的评估网络中，评估网络自主学习得到达到下一状态的预估奖励，并将Q估计值输入损失函数，将输入状态s，输入动作a，预估奖励r和下一状态s’组合并存输入经验回放池中，以下一状态s’作为输入调度到目标网络中得到实际可得的奖励，即为Q目标值，将Q目标值和Q估计值的差作为深度强化学习模型的反馈再次输入评估网络，提升学习性能。

[0017]进一步地，在所述步骤s1中，所述各个停放位置的AGV小车数量的调整动作的选择采用ε-greedy决策，采用经验回放的DQN算法实现策略评估，并通过神经网络近似求得值函数。

[0018]进一步地，所述Q目标值根据任务完成的时间配合权重计算得到，任务完成时间越短奖励值越高，反之奖励值越低。

[0019]本发明的有益之处在于：本发明涉及的基于强化学习的AGV智能调度系统及方法，通过调度模块对AGV小车的停放位置和停放数量进行优化，使得在使用AGV小车时，能够不断的缩短AGV小车的调整时间，提高对AGV小车的利用效率，减少人员、资源和时间的消耗；另外采用深度学习算法模型对调度

策略进行不断的调整，能够使其针对具体的环境进行快速调整，不断优化AGV小车的调度效率。

[0020]为让本发明的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

[0021]为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0022]图1是本发明基于强化学习的AGV智能调度系统的整体结构示意图；

[0023]图2是深入强化学习模型的建立的步骤构示意图。

[0024]图3是利用深入强化学习模型对AGV小车进行调度的方法的步骤示意图。

本文发布于:2024-09-20 12:29:24，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/786738.html

上一篇：一种基于深度学习算法的小鼠运动状态分析方法[发明专利]

下一篇：...性运动功能辅助诊断臂环及其使用方法[发明专利]

标签：小车调度时间动作网络停放学习目标

留言与评论（共有 0 条评论）