基于深度强化学习的机器人无地图路径规划方法及系统

1.本公开属于机器人无地图路径规划技术领域，尤其涉及一种基于深度强化学习的机器人无地图路径规划方法及系统。

背景技术：

2.本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。
3.导航技术是移动机器人技术的研究的核心内容之一。导航问题要解决三个基本问题，第一需要确定移动机器人自身的位置和姿态；第二确定移动机器人所要执行的目标；第三移动机器人根据传感器感知环境信息和自身状态信息以及所执行的目标进行路径规划。路径规划即为移动机器人在所处环境下选择一条从起点到终点的无碰撞的最优或者次优路径。随着移动机器人作业环境越来越复杂，在某些场景下(如火灾救援场景、行星车)无法通过slam(simultaneous localization and mapping)实现在探索环境的同时获得环境地图。
4.路径规划分为环境信息已知的全局路径规划和环境信息部分已知的局部路径规划。基于地图的传统的导航算法如a*算法、dijkstra算法，往往是基于几何模型的全局路径规划，其在环境地图的基础上构建几何模型进而得到最优路径。随着移动机器人所处环境变得越来越复杂，传统路径规划算法过分依赖环境地图或者几何模型，在无地图的情况下导致移动机器人路径规划效率较低。
5.近年来，深度强化学习算法广泛应用于移动机器人路径规划和避障，有效解决了过分依赖环境地图的问题。但是，发明人发现，当前基于深度强化学习的移动机器人路径规划存在诸多挑战：首先是移动机器人在复杂场景下决策效果差且周围环境动态开放，其次是探索环境奖励函数稀疏、收敛速度慢，使得在没有全局信息指导下无法获取完整的动态特性导致移动机器人决策效果差的问题。例如：利用ddqn(double deep q-network)算法实现基于激光雷达的移动机器人无地图路径规划时，ddqn算法对非图像类数据处理能力比较差，卷积结构会逐渐提取深层特征，激光雷达受限于其传感器结构，其数据只滞留具有浅层特征，造成决策效果差。同时由于全局地图信息未知，移动机器人路径规划问题从马尔科夫决策过程变为了部分可观测马尔科夫决策过程，在部分可观测马尔科夫决策过程中移动机器人无法获取完整的动态特性，使得决策结果不稳定，即在路径规划过程中在碰到相同的障碍物时会产生错误的决策。

技术实现要素：

6.本公开为了解决上述问题，提供了一种基于深度强化学习的机器人无地图路径规划方法及系统，所述方案通过采用激光雷达信息作为神经网络输入，加入lstm网络进行环境特征融合，解决没有全局信息指导下无法获取完整的动态特性导致移动机器人决策效果差的问题；同时，利用启发性知识设计奖励函数减少移动机器人系统中的随机性，使得机器
人选择合适的动作，有效缓解了探索环境奖励函数稀疏和收敛速度慢的问题。
7.根据本公开实施例的第一个方面，提供了一种基于深度强化学习的机器人无地图路径规划方法，包括：
8.预先构建深度强化学习算法的状态空间和动作空间，并构建具有启发性知识的连续性奖励函数；
9.构建基于lstm网络及深度学习网络的估计值网络和目标网络的双网络架构，并以最大化奖励收益为目标，基于经验池内的状态数据样本进行所述估计值网络和目标网络的训练，其中，所述估计值网络的输入为机器人当前状态信息，所述目标网络的输入为机器人下一次状态信息；所述奖励收益的计算基于所述具有启发性知识的连续性奖励函数；
10.基于机器人当前状态信息，利用训练好的估计值网络获得下一步的最优移动动作，实现机器人的无地图路径规划。
11.进一步的，所述估计值网络和目标网络采用相同的网络结构，其中，估计值网络结构参数实时更新，经过预设间隔后将其参数赋值给目标值网络。
12.进一步的，所述估计值网络和目标网络均采用两层lstm网络，并经过四层全连接层输出结果。
13.进一步的，所述机器人状态信息包括激光雷达信息、机器人自身状态信息及目标点信息；所述经验池内的状态数据样本由机器人当前状态信息、动作、奖励以及机器人下一次状态信息组成。
14.进一步的，所述具有启发性知识的连续性奖励函数包括到达目标的奖励、碰撞奖励、移动机器人与目标点的距离奖励、方位奖励、步数惩罚奖励以及启发式知识奖励。
15.进一步的，所述动作空间的构建，具体为，在空间上将机器人的动作空间分为快速左转、左转、自行、右转及快速右转5个离散动作。
16.进一步的，所述深度强化学习算法中的动作选择策略采用ε-greedy策略，具体表示为：
[0017][0018]
其中，episode为强化学习回合数。
[0019]
根据本公开实施例的第二个方面，提供了一种基于深度强化学习的机器人无地图路径规划系统，包括：
[0020]
深度强化学习算法构建单元，其用于预先构建深度强化学习算法的状态空间和动作空间，并构建具有启发性知识的连续性奖励函数；
[0021]
值函数训练单元，其用于构建基于lstm网络及深度学习网络的估计值网络和目标网络的双网络架构，并以最大化奖励收益为目标，基于经验池内的状态数据样本进行所述估计值网络和目标网络的训练，其中，所述估计值网络的输入为机器人当前状态信息，所述目标网络的输入为机器人下一次状态信息；所述奖励收益的计算基于所述具有启发性知识的连续性奖励函数；
[0022]
路径规划单元，其用于基于机器人当前状态信息，利用训练好的估计值网络获得下一步的最优移动动作，实现机器人的无地图路径规划。
[0023]
根据本发明实施例的第三个方面，提供了一种电子设备，包括存储器、处理器及存
储在存储器上运行的计算机程序，所述处理器执行所述程序时实现所述的一种基于深度强化学习的机器人无地图路径规划方法。
[0024]
根据本发明实施例的第四个方面，提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的一种基于深度强化学习的机器人无地图路径规划方法。
[0025]
与现有技术相比，本公开的有益效果是：
[0026]
(1)本公开提供了一种基于深度强化学习的机器人无地图路径规划方法及系统，所述方案通过采用激光雷达信息作为神经网络输入，加入lstm网络进行环境特征融合，解决没有全局信息指导下无法获取完整的动态特性导致移动机器人决策效果差的问题；同时，利用启发性知识设计奖励函数减少移动机器人系统中的随机性，使得机器人选择合适的动作，有效缓解了探索环境奖励函数稀疏和收敛速度慢的问题；
[0027]
(2)本公开所述方案在ddqn算法的基础上加入长短时记忆网络(lstm)解决部分可观测马尔科夫过程的移动机器人路径规划问题；通过将提取的机器人状态信息，输入两层lstm网络，再经过四层全连接层输出，使得移动机器人具有记忆性，在碰到相同的障碍物时，决策稳定，增加了寻目标点和躲避静态和动态障碍物的能力，从而规划出更好的路径。
[0028]
(3)本公开所述方案通过设计具有启发性知识的连续奖励函数，有效解决了现有强化学习任务中奖励函数存在稀疏奖励，导致算法收敛缓慢的问题，同时，有效避免了移动机器人的盲目探索，提高了机器人的动作选择效率。
[0029]
本公开附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。
附图说明
[0030]
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。
[0031]
图1为本公开实施例中所述的lstm-ddqn模型框架示意图；
[0032]
图2为本公开实施例中所述的基于深度强化学习的机器人无地图路径规划方法流程图；
[0033]
图3为本公开实施例中所述的仿真环境示意图；
[0034]
图4(a)至图4(d)分别为本公开实施例中所述的机器人在静态环境中使用不同算法(ddqn、本公开所述方法、a*算法及蚁算法)得到的路径结果示意图；
[0035]
图5为本公开实施例中所述的静态环境下机器人奖励曲线；
[0036]
图6(a)和图6(b)为本公开实施例中所述的动态环境仿真示意图；
[0037]
图7(a)和图7(b)分别为本公开实施例中所述的机器人在动态环境下不同方法(ddqn和本公开所述方法)得到的路径；
[0038]
图8为本公开实施例中所述的动态环境下机器人奖励曲线。
具体实施方式
[0039]
下面结合附图与实施例对本公开做进一步说明。
[0040]
应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本实施例所述方案使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
[0041]
需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0042]
在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。
[0043]
实施例一：
[0044]
本实施例的目的是提供一种基于深度强化学习的机器人无地图路径规划方法。
[0045]
一种基于深度强化学习的机器人无地图路径规划方法，包括：
[0046]
预先构建深度强化学习算法的状态空间和动作空间，并构建具有启发性知识的连续性奖励函数；
[0047]
构建基于lstm网络及深度学习网络的估计值网络和目标网络的双网络架构，并以最大化奖励收益为目标，基于经验池内的状态数据样本进行所述估计值网络和目标网络的训练，其中，所述估计值网络的输入为机器人当前状态信息，所述目标网络的输入为机器人下一次状态信息；所述奖励收益的计算基于所述具有启发性知识的连续性奖励函数；
[0048]
基于机器人当前状态信息，利用训练好的估计值网络获得下一步的最优移动动作，实现机器人的无地图路径规划。
[0049]
进一步的，所述估计值网络和目标网络采用相同的网络结构，其中，估计值网络结构参数实时更新，经过预设间隔后将其参数赋值给目标值网络。
[0050]
进一步的，所述估计值网络和目标网络均采用两层lstm网络，并经过四层全连接层输出结果。
[0051]
进一步的，所述机器人状态信息包括激光雷达信息、机器人自身状态信息及目标点信息；所述经验池内的状态数据样本由机器人当前状态信息、动作、奖励以及机器人下一次状态信息组成。
[0052]
进一步的，所述具有启发性知识的连续性奖励函数包括到达目标的奖励、碰撞奖励、移动机器人与目标点的距离奖励、方位奖励、步数惩罚奖励以及启发式知识奖励。
[0053]
进一步的，所述动作空间的构建，具体为，在空间上将机器人的动作空间分为快速左转、左转、自行、右转及快速右转5个离散动作。
[0054]
进一步的，所述深度强化学习算法中的动作选择策略采用ε-greedy策略，具体表示为：
[0055][0056]
其中，episode为强化学习回合数。
[0057]
进一步的，为了便于理解，以下结合附图对本公开所述方案进行详细说明:
[0058]
基于现有技术中存在的问题，本实施例提供了一种基于深度强化学习的机器人无地图路径规划方法，所述方案的主要技术构思为：采用激光雷达信息作为神经网络输入，加入lstm网络进行环境特征融合，解决没有全局信息指导下无法获取完整的动态特性导致移
动机器人决策效果差的问题。利用启发性知识设计奖励函数减少移动机器人系统中的随机性，使得机器人选择合适的动作，有效缓解了探索环境奖励函数稀疏和收敛速度慢的问题。
[0059]
本实施例针对深度强化学习算法进行了改进，具体的，在利用ddqn(double deep q-network)算法实现基于激光雷达的移动机器人无地图路径规划时，ddqn算法对非图像类数据处理能力比较差，卷积结构会逐渐提取深层特征，激光雷达受限于其传感器结构，其数据只滞留具有浅层特征，造成决策效果差。同时由于全局地图信息未知，移动机器人路径规划问题从马尔科夫决策过程变为了部分可观测马尔科夫决策过程，在部分可观测马尔科夫决策过程中移动机器人无法获取完整的动态特性，使得决策结果不稳定，即在路径规划过程中在碰到相同的障碍物时会产生错误的决策。这是因为ddqn算法在训练时不能考虑动作前后的相关性，所以本实施例在ddqn决策模型的基础上加入长短时记忆网络(lstm)解决部分可观测马尔科夫过程的移动机器人路径规划问题，lstm-ddqn模型框架如图1所示。该模型框架包含估计值网络和目标网络的双网络框架，当前状态信息进入估计值网络，下一次状态信息进入目标网络。估计值网络和目标网络为相同的网络结构，估计值网络结构参数实时更新，经过一定的间隔将参数赋给目标值网络。从记忆单元模块提取状态信息，进入两层lstm网络，再经过四层全连接层输出，使得移动机器人具有记忆性，在碰到相同的障碍物时，决策稳定，增加了寻目标点和躲避静态和动态障碍物的能力，从而规划出更好的路径。
[0060]
进一步的，基于改进后的深度强化学习算法，本实施例基于机器人无地图路径规划问题，进行了状态空间、动作空间、启发性知识奖励函数及动作选择策略的设计，具体的：
[0061]
(一)状态空间设计
[0062]
移动机器人从起始点出发到达指定的目标点，在运动的过程中避免与障碍物碰撞从而完成路径规划任务。机器人接受的状态信息包括激光雷达信息、机器人自身状态信息和目标点信息。
[0063]
本实施例中采用rplidar a2激光雷达采集距离信息，s
scan
为ros仿真环境下发送的雷达信息，s
position
为移动机器人当前位置，s
goal
为移动机器人路径规划目标点位置，机器人的状态空间定义为：
[0064]sgoal
＝(s
scan
,s
position
,s
goal
)
ꢀꢀꢀꢀꢀꢀꢀ
(1)
[0065]
(二)动作空间设计
[0066]
动作空间是移动机器人在运动过程中所执行动作的取值范围，需要满足路径规划任务的可行性和机器人的机动性。ddqn算法适合离散的动作空间，既表示空间上的离散，也表示时间上的离散。虽然移动机器人的实际动作为连续动作，但是在强化学习中将连续的动作分解为离散的动作，算法更容易收敛。在空间上将移动机器人的动作空间分为快速左转、左转、自行、右转、快速右转5个离散动作，其角速度和线速度如表1所示。
[0067]
表1机器人离散动作空间值
[0068][0069]
(三)启发性知识奖励函数设计
[0070]
机器人在路径规划过程中根据当前的状态选择一个动作，环境对机器人选择的动作做出相应的响应，转移到新的状态，同时会产生一个奖励信号，这是在路径规划中想要最大化的目标。奖励信号是通过奖励函数提供的，奖励函数使得移动机器人最大化收益的同时实现路径规划的任务。在强化学习任务中奖励函数往往存在稀疏奖励的问题，导致算法收敛缓慢。同时为了避免移动机器人的盲目探索，提高机器人的动作选择效率，本实施例所述方案设计了具有启发性知识的连续性奖励函数。具有启发性知识的连续奖励函数包括到达目标的奖励、碰撞奖励、移动机器人与目标点的距离奖励、方位奖励、步数惩罚奖励、启发式知识奖励。
[0071]
为了避免盲目探索和提高机器人的动作选择效率，加强机器人预期行为，惩罚不合适的动作，我们使用带有启发性知识的奖励来修正上述连续性奖励函数。当移动机器人处于运动状态时，机器人距离最近障碍大于等于0.2m小于0.5m时称为不安全运动状态(u)。安全状态(s)为机器人距离最近障碍物大于0.5m，带有启发性的奖励函数如下式所示
[0072][0073]
其中，机器人处于不安全状态且远离目标点时给一个大的惩罚，机器人处于安全状态且远离目标点时给一个比较大的惩罚，机器人处于安全状态并且远离目标点时给一个小的惩罚。当移动机器人靠近目标点时则给予奖励，处于不安全状态给予小的奖励，处于安全状态则给予大的奖励。
[0074]
上述为启发性知识奖励，强化学习总奖励为
[0075][0076]
其中，r
goal
,r
collision
,rd,ra,r,rs分别为目标奖励，碰撞惩罚,距离奖励，方位奖励，启发性知识奖励，步数惩罚。a＝8,b＝5,c＝5,d＝10为各个部分奖励系数常数用来衡量该部分奖励的重要性。
[0077]
对于环境反馈的奖励，当移动机器人与环境进行交互，得到环境反馈的奖励，移动机器人会根据当前的回报选择动作。估计值网络计算当前状态对应的值函数q(s,a；θ)，其参数实时更新，经过一定的间隔将估计值网络的参数赋给目标值网络，得到q
′
(s
′
,a
′
；θ-)。
那么估计值网络和目标值网络就存在一个差异，引入损失函数来最小化此误差实现贝尔曼方程对q的估计与网络的估计差最小，即：
[0078][0079]
loss＝(y
j-q(sj,aj；θ))2[0080]
到达目标的奖励为移动机器人距离目标点小于0.2m的奖励，碰撞奖励为对障碍物膨胀处理后机器人处于碰到障碍物状态时的惩罚，如表2所示。
[0081]
进一步的，为了保障机器人的安全性要求，对障碍物进行膨胀处理，认为当移动机器人距离障碍物小于0.2m时，发生碰撞。根据移动机器人距离障碍物的远近将其分为运动状态d和碰到障碍物状态c
[0082][0083]
其中，db表示移动机器人距离最近障碍物的距离。
[0084]
当移动机器人处于运动状态(d)时，距离目标点越近，希望得到的奖励信号越大，移动机器人与目标点的距离奖励计算公式如下：
[0085][0086]
其中，d
current
为移动机器人当前位置与目标点的距离，d
initial
为起始点与目标点距离。
[0087]
当移动机器人处于运动状态时，移动机器人的朝向与目标点越一致，得到的奖励信号越大，移动机器人与目标点的方位奖励计算公式如下：
[0088]
ra＝r
a cosθ
ꢀꢀꢀꢀꢀꢀꢀ
(3)
[0089]
其中，θ∈[0,π)为当前时刻机器人的朝向与目标点的夹角，ra为方向奖励参数。
[0090]
为了能够规划出一条最优或者次优路径，需要给予机器人步数惩罚，使得移动机器人能够在比较少的步数内达到目标点同时最大化奖励收益，步数惩罚见表2。
[0091]
表2.奖励函数参数设置
[0092][0093]
(四)动作选择策略设计
[0094]
选择动作时采用ε-greedy策略，该策略平衡了强化学习探索与利用，如式(4)所示。
[0095][0096]
其中，episode为强化学习回合数。
[0097]
其中，ε的初始值为1。移动机器人在做决策时，有ε的概率采取一个随机动作，有1-ε的概率采取值函数最大的动作。这样的选择策略平衡了强化学习过程中探索与利用，随着回合数增加希望选择随机动作的概率变小指导某一个确定的阈值，所以该参数的初始值为概率1，随着回合数增加逐渐变小到0.05。获得ε的值后，按照ε的概率选择一个随机动作，1-ε的概率采取值函数最大的动作进行动作选择。
[0098]
综上所述，通过环境状态空间的感知，采用lstm-ddqn模型算法选择动作与环境交互，启发式奖励函数指导移动机器人路径规划任务获得最大收益。基于改进深度强化学习的移动机器人无地图路径规划设计框图如图2所示。
[0099]
在本实施例中使用具有记忆性的模型和启发性知识的奖励函数ddqn算法对移动机器人进行路径规划。通过lstm网络增加了寻目标点和躲避静态和动态障碍物的能力，从而到最优或者次优路径。lstm-ddqn算法在表3中被详细描述。
[0100]
表3改进ddqn算法伪代码
[0101]
[0102][0103]
进一步的，为了证明本实施例所述方案的有效性，以下进行了相应的仿真实验：
[0104]
(一)实验环境与参数设置
[0105]
为了验证本实施例所述方案所提算法的有效性，实验环境为robot operating system(ros),训练过程在gazebo搭建的仿真平台完成。移动机器人是带有激光雷达传感器的turtulbot3。实验环境如图3所示，正方形为移动机器人目标点，阴影区域为移动机器人激光雷达所能达到的区域，黑机器人为turtulbot3，边框表示墙壁并作为静态障碍物。
[0106]
移动机器人利用激光雷达获得的距离信息和目标点及位置信息作为网络的输入，在gazebo进行具有静态和动态障碍物的仿真，以机器人实际的动作作为输出实现由起始点到目标点的无地图路径规划。
[0107]
(二)实验结果分析
[0108]
为了评价所提出的算法的性能，本实施例所述方案把训练过程分成了三个阶段分别为前1000episodes、1001-2000episodes、2001-3000episodes，得到ddqn算法和有启发性知识的lstm-ddqn算法到达目标点的次数与这三个阶段episodes总数之比，如表4所示。ddqn算法和有启发性知识的lstm-ddqn算法到达目标点的次数在这个三个阶段是逐渐增加的，这说明基于深度强化学习的算法在有着随着训练到达目标点的能力。具有启发性知识的lstm-ddqn算法在相同的阶段到达目标点的次数总是大于ddqn算法，这说明启发性知识和记忆能够使得移动机器人减少碰撞次数从而规划出更优路径。
[0109]
表4训练过程到达率
[0110][0111]
为了验证本实施例所述方案所提算法的性能，本实施例所述方案在相同的实验环境下进行比较测试，在静态环境下采用ddqn、lstm-ddqn-hk(即本公开所述方案)、传统路径规划算法进行对比，传统路径规划算法选择a*算法和蚁算法。图4(a)至图4(d)显示了移动机器人在图3所示的环境下使用四种算法得到的路径。
[0112]
这四种方法都能够使移动机器人在不发生碰撞的情况下规划出一条从起始点到目标点的路径。有启发性知识lstm-ddqn算法得到的路径长度相较ddqn算法更短，这是由于移动机器人在记忆性的帮助下，在碰到障碍物时会做出正确的动作，使得决策结果更加稳定，规划出的路径更优。通过a*算法、蚁算法的对比可得启发性的知识往往使得机器人的弯曲轨迹变少，启发性知识使得改进后的算法规划的路径减少了无用距离，从而令从起始点到目标点的路径长度更短。移动机器人采用深度强化学习算法得到的平均路径长度(实验十次取平均值)如表5所示。以ddqn算法作为基准，lstm-ddqn-hk得到路径长度减少8.58％。实验结果表明,lstm-ddqn-hk算法在寻移动机器人最优路径方面是一种更为有效的方法。
[0113]
表5机器人在静态环境使用2种方法得到的路径长度
[0114][0115]
选择移动机器人在一个回合的总奖励作为评估指标，在ddqn和lstm-ddqn-hk算法下移动机器人的奖励曲线(每100幕进行滑动平均)如图5所示。连续性的奖励函数的设计有效缓解了强化学习奖励稀疏的问题，加入启发性知识使得模型奖励收敛值变大。这是由于在启发性知识的帮助下机器人更加远离障碍使得启发性知识奖励变大，在从起始点到目标点的过程中lstm-ddqn-hk算法得到的移动机器人步数小于ddqn算法得到步数，使得步数惩罚奖励变小。
[0116]
为了验证所提算法躲避动态障碍物的能力，本实施例所述方案在相同的动态实验环境下进行比较测试，动态环境为在原来环境的基础上有一个来回匀速移动的障碍物，如图6(a)至图6(b)所示。动态障碍物在y＝0.5处以0.5m/s的速度匀速移动。在动态环境下采用ddqn、lstm-ddqn-hk算法进行对比。图7(a)至图7(b)显示了移动机器人在图6(a)和图6(b)所示的环境下使用2种算法得到的路径。
[0117]
通过图7(a)至图7(b)可以看到，这2种方法都能够使得移动机器人在不发生碰撞的情况下规划出一条从起始点到目标点的路径。由于动态障碍物的存在，移动机器人为了
躲避障碍物规划路径发生了改变，这说明基于深度强化学习的算法可以有效的躲避动态障碍物。在动态环境下移动机器人的奖励曲线如图8所示。加入动态障碍物之后，奖励函数的收敛速度相比与静态环境下变慢了，总奖励值也有所下降。因为机器人为了躲避障碍物需要更多的步数才能到达目标点，同时转弯躲避障碍物的动作会使得方位奖励变小。另一方面，lstm-ddqn-hk算法得到奖励在收敛速度和奖励值上优于基准算法的奖励。
[0118]
移动机器人采用ddqn、lstm-ddqn-hk算法得到的路径长度(实验十次取平均值)如表6所示。以ddqn算法作为基准，lstm-ddqn-hk得到路径长度减少了6.98％，动态环境下的路径规划寻优能力低于静态环境，这是由于动态障碍物的存在使得lstm-ddqn-hk算法得到的路径为了保证安全距离发生了弯曲。另一方面由于启发性知识和记忆性的存在，lstm-ddqn-hk得到路径仍然优于ddqn算法得到的路径。
[0119]
表6机器人在动态环境使用2种方法得到的路径长度
[0120][0121]
本实施例所述方案通过将ddqn算法与lstm网络和启发性知识结合实现智能移动机器人的路径规划。在静态环境和动态环境下分别进行了实验验证，实验结果表明改进后的算法在记忆性和启发性知识的帮助下规划的路径长度更短，收敛奖励值更大，能够规划处一条由起始点到目标点的无碰无撞较优路径。
[0122]
实施例二：
[0123]
本实施例的目的是提供一种基于深度强化学习的机器人无地图路径规划系统。
[0124]
一种基于深度强化学习的机器人无地图路径规划系统，包括：
[0125]
深度强化学习算法构建单元，其用于预先构建深度强化学习算法的状态空间和动作空间，并构建具有启发性知识的连续性奖励函数；
[0126]
值函数训练单元，其用于构建基于lstm网络及深度学习网络的估计值网络和目标网络的双网络架构，并以最大化奖励收益为目标，基于经验池内的状态数据样本进行所述估计值网络和目标网络的训练，其中，所述估计值网络的输入为机器人当前状态信息，所述目标网络的输入为机器人下一次状态信息；所述奖励收益的计算基于所述具有启发性知识的连续性奖励函数；
[0127]
路径规划单元，其用于基于机器人当前状态信息，利用训练好的估计值网络获得下一步的最优移动动作，实现机器人的无地图路径规划。
[0128]
进一步的，本实施例所述系统与实施例一所述方法相对应，其技术细节在实施例一中进行了详细说明，故此处不再赘述。
[0129]
在更多实施例中，还提供：
[0130]
一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例一中所述的方法。为了简洁，在此不再赘述。
[0131]
应理解，本实施例中，处理器可以是中央处理单元cpu，处理器还可以是其他通用
处理器、数字信号处理器dsp、专用集成电路asic，现成可编程门阵列fpga或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0132]
存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。
[0133]
一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一中所述的方法。
[0134]
实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。
[0135]
本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。
[0136]
上述实施例提供的一种基于深度强化学习的机器人无地图路径规划方法及系统可以实现，具有广阔的应用前景。
[0137]
以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

技术特征：

1.一种基于深度强化学习的机器人无地图路径规划方法，其特征在于，包括：预先构建深度强化学习算法的状态空间和动作空间，并构建具有启发性知识的连续性奖励函数；构建基于lstm网络及深度学习网络的估计值网络和目标网络的双网络架构，并以最大化奖励收益为目标，基于经验池内的状态数据样本进行所述估计值网络和目标网络的训练，其中，所述估计值网络的输入为机器人当前状态信息，所述目标网络的输入为机器人下一次状态信息；所述奖励收益的计算基于所述具有启发性知识的连续性奖励函数；基于机器人当前状态信息，利用训练好的估计值网络获得下一步的最优移动动作，实现机器人的无地图路径规划。2.如权利要求1所述的一种基于深度强化学习的机器人无地图路径规划方法，其特征在于，所述估计值网络和目标网络采用相同的网络结构，其中，估计值网络结构参数实时更新，经过预设间隔后将其参数赋值给目标值网络。3.如权利要求1所述的一种基于深度强化学习的机器人无地图路径规划方法，其特征在于，所述估计值网络和目标网络均采用两层lstm网络，并经过四层全连接层输出结果。4.如权利要求1所述的一种基于深度强化学习的机器人无地图路径规划方法，其特征在于，所述机器人状态信息包括激光雷达信息、机器人自身状态信息及目标点信息；所述经验池内的状态数据样本由机器人当前状态信息、动作、奖励以及机器人下一次状态信息组成。5.如权利要求1所述的一种基于深度强化学习的机器人无地图路径规划方法，其特征在于，所述具有启发性知识的连续性奖励函数包括到达目标的奖励、碰撞奖励、移动机器人与目标点的距离奖励、方位奖励、步数惩罚奖励以及启发式知识奖励。6.如权利要求1所述的一种基于深度强化学习的机器人无地图路径规划方法，其特征在于，所述动作空间的构建，具体为，在空间上将机器人的动作空间分为快速左转、左转、自行、右转及快速右转5个离散动作。7.如权利要求1所述的一种基于深度强化学习的机器人无地图路径规划方法，其特征在于，所述深度强化学习算法中的动作选择策略采用ε-greedy策略，具体表示为：其中，episode为强化学习回合数。8.一种基于深度强化学习的机器人无地图路径规划系统，其特征在于，包括：深度强化学习算法构建单元，其用于预先构建深度强化学习算法的状态空间和动作空间，并构建具有启发性知识的连续性奖励函数；值函数训练单元，其用于构建基于lstm网络及深度学习网络的估计值网络和目标网络的双网络架构，并以最大化奖励收益为目标，基于经验池内的状态数据样本进行所述估计值网络和目标网络的训练，其中，所述估计值网络的输入为机器人当前状态信息，所述目标网络的输入为机器人下一次状态信息；所述奖励收益的计算基于所述具有启发性知识的连续性奖励函数；路径规划单元，其用于基于机器人当前状态信息，利用训练好的估计值网络获得下一
步的最优移动动作，实现机器人的无地图路径规划。9.一种电子设备，包括存储器、处理器及存储在存储器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的一种基于深度强化学习的机器人无地图路径规划方法。10.一种非暂态计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-7任一项所述的一种基于深度强化学习的机器人无地图路径规划方法。

技术总结

本公开提供了一种基于深度强化学习的机器人无地图路径规划方法及系统，其属于机器人无地图路径规划技术领域，包括：预先构建深度强化学习算法的状态空间和动作空间，并构建具有启发性知识的连续性奖励函数；构建基于LSTM网络及深度学习网络的估计值网络和目标网络的双网络架构，并以最大化奖励收益为目标，基于经验池内的状态数据样本进行所述估计值网络和目标网络的训练，其中，所述估计值网络的输入为机器人当前状态信息，所述目标网络的输入为机器人下一次状态信息；所述奖励收益的计算基于所述具有启发性知识的连续性奖励函数；基于机器人当前状态信息，利用训练好的估计值网络获得下一步的最优移动动作，实现机器人的无地图路径规划。无地图路径规划。无地图路径规划。