基于DDPG算法的路径规划研究

基于DDPG算法路径规划研究
张义,郭坤
机壳(青岛理工大学信息与控制工程学院,山东青岛266520)
摘要:路径规划是人工智能领域的一个经典问题,在国防军事、道路交通、机器人仿真等诸多领域有着广泛应用,然而现有的路径规划算法大多存在着环境单一、离散的动作空间、需要人工构筑模型的问题。强化学习是一种无须人工提供训练数据自行与环境交互的机器学习方法,深度强化学习的发展更使得其解决现实问题的能力得到进一步提升,本文将深度强化学习的DDPG(Deep Deterministic Policy Gradient)算法应用到路径规划领域,完成了连续空间、复杂环境的路径规划。
关键词:路径规划;深度强化学习;DDPG;ActorCritic;连续动作空间
中图分类号:TP301.6文献标识码:A
文章编号:1009-3044(2021)04-0193-02
高速车针
开放科学(资源服务)标识码(OSID):Research on Path Planning Based on DDPG Algorithm
悬臂支架
ZHANG Yi,GUO Kun (SchoolofInformationandControlEngineering,Qingdao University of Technology,Qingdao266520,China) Abstract:Path planning is a classic problem in the field of artificial intelligence,which has been widely used in national defense, military,road traffic,robot simulation and other fields.However,most of the existing path planning algorithms have he problems of single environment,discrete action space,and need to build artificial models.Reinforcement learning is a machine learning meth⁃od that interacts with the environment without providing training data manually,deep reinforcement learning more makes its ability to solve practical problems of the development of further ascension.In this paper,deep reinforcement learning algorithm DDPG (Deep Deterministic Policy Gradient)algorithm is applied in the field of path planning,which completes the task of path planning for continuous space,complex environment.
Key words:path planning;deep reinforcement learning;DDPG;Actor Critic;continuous action space
传统算法如迪杰斯特拉算法[1]、A*算法[2]、人工势场法[3]等。迪杰斯特拉算法是路径规划领域的经典算法,由迪杰斯特拉于1959年提出,迪杰斯特拉算法遍历环境中的诸节点,采用贪心策略,每次扩展一个节点,遍历结束可得起点到其余各点的最短路径。A*算法在迪杰斯特拉算法的基础上进行了改进,
在节点扩展时加入启发式规则,使得模型可以更快地收敛。虽然A*算法在诸多领域得到了诸多应用,但A*算法的应用场景局限在离散空间内。人工势场法则模拟物理学中的电力势场,在智能体与障碍之间设置斥力,智能体与目标之间设置引力,智能体沿着合力方向到达目标位置。势场法可以完成连续空间的路径规划,然而各种场景的施力大小配比只能人工协调,最优配置难以求得,这种问题在复杂环境中尤为严重。强化学习是一种自主与环境交互的机器学习方式,强化学习无须人工提供训练数据,通过不断与环境交互获得不同的回报来使模型收敛[4]。Mnih V在2013提出的DQN[5](DeepQNetwork)算法,为深度强化学习的发展奠定了基础,自此不断涌现出深度强化学习的诸多优秀算法。DDPG[6]算法结合了DQN、ActorCritic、Poli⁃cyGrient等策略,首先将深度强化学习引入到连续空间领域[7],本文采用DDPG算法实现连续复杂环境的路径规划。
1基于DDPG算法的路径规划原理
1.1DDPG算法
DDPG算法底层采用ActorCritic的结构,其结构图如图1所示。
图1DDPG结构图
收稿日期:2020-09-30
锅炉吹管基金项目:山东省自然科学基金资助项目(ZR2017BF043)
作者简介:张义(1995—),男,山东齐河人,硕士,主要研究方向为深度强化学习;郭坤(1995—),女,山东青岛人,硕士,主要研究方向为深度强化学习。
将模型整体分为Actor 和Critic 两部分,其中Actor 为动作生成模型,以当前环境信息作为输入,通过神经网络计算生成一个动作值。Critic 为评价模型,用以评价动作生成模型在当前环境下生成的动作,Critic 模型将输出一个评价值,用以协助Actor 模型的收敛。此外DDPG 也采用了PolicyGrident
的学习方式,不同于常见的概率梯度,DDPG 采用一种确定性的策略梯度,根据Actor 生成的动作值直接选择动作,而非采用softmax 的映射方式依概率选择动作。此外,DDPG 采用DQN 的结构理念,设计两个结构相同参数异步更新的模型,利用时分误差进
行模型更新[8]
。对于Policy 模型,采用式(1)所示的模型进行更
新。
本文为智能体配置扫描射线获取环境信息,分别扫描环境
中的墙体障碍、危险区域和安全出口,在本文中,前方设置5条射线,后方设置2条射线,总共组成21维的数据作为环境输入。1.2环境回报
为了验证本文算法处理复杂环境的能力,本文除了构建简单的常见障碍之外,模拟环境中有某种险情发生的场景,在环境中构建了危险区域。对于普通障碍,对智能体只起到障碍作用,而智能体接触危险区域将会死亡,回合结束,视为此次路径规划任务失败。
为了使模型尽量在更少的决策次数内到达目标位置,设置智能体每多决策一步,给予一定的惩罚回报,设置R step =-1对于普通的墙体障碍,对智能体只起到障碍作用,但是仍需防止智能体出现“撞墙”的行为,因此设置R wall
=-1对于危险区域,智能体应该避开,设置R dagenr =-50安全出口为智能体的最终目标,应该设置全局最优回报,本文结合经验与多次试验结论,设定R target =200
2实验
2.1环境搭建
本文采用Unity 3D 引擎进行环境,构建如图2所示的环境。
图2仿真环境图
利用Unity 3D 引擎搭建如图所示的环境,环境有20单位×10单位的矩形局域围成,其中灰白实体为墙体,红区域为危险区域,
右上角绿墙体部分为出口,图中的黄圆形实体为智能体。
2.2模型训练及结果分析
本文利用Python 下深度学习框架Pytorch 进行编程,运行环境为处理器Intel(R)Core 8750H
,显卡GTX1060。
模型在迭代
500000回合后稳定在收敛状态,此时智能体可以完成在环境中任意位置的路径规划。智能体路径规划效果图如图3所示。
图3路径规划效果图
训练过程损失值变化如图4所示。模型训练过程中的平均回合回报(/1000步)变化图如图5所示。
图4Actor 损失值变化
图5平均回合回报(/1000步)
由图4可以看出,DDPG 算法模型在训练过程中逐步趋于收敛,说明利用深度强化学习算法DDPG 进行路径规划具有可行性。结合图5也可以看出,模型逐步向着回合回报增加的方向收敛,这说明模型在逐步克服路径规划过程产生的方向震荡,最终平均回合回报趋于较高的平稳值,即代表所规划的路线平滑且路程尽可能短。综上所示,DDPG 算法可以很好地完成路径规划任务。
3结束语
本文将无须训练数据的强化学习算法应用在路径规划领域,实现了连续、复杂环境下的路径规划任务。在诸多深度强化学习算法中,本文使用了在连续空间具有良好表现的DDPG 算法来完成任务,实验结果证明,DDPG 算法应用在路径规划任务中的可行性与高效性。虽然本文取得了一定的成果,但是路径规划的维度是多方位的,动态环境下的路径规划将会是本文的一个拓展方向。(下转第200页)
235-256.
[9]Gelly S,Wang Y.Exploration exploitation in go:UCT for Mon⁃te-Carlo go[C]//NIPS:Neural Information Processing Systems Conference On-line trading of Exploration and Exploitation Workshop.2006.
[10]YimengZhuang.Improving Monte-Carlo tree search for dots-and-boxes with a novel board representation and artificial neu⁃ral networks[J].IEEE CIG,2015:314-321.
[11]KamstraL.The design of linear binary wavelet transforms and their application to binary image compression[C]//2003,3: 241-244.
[12]Coquelin,Pierre-Arnaud,and RmiMunos.Bandit algorithms
for treesearch[J].arXiv preprint cs/0703062(2007) [13]Chaslot G M J B,Winands M H M,Van Den H J,et al.Paral⁃lel Monte-Carlo tree search[J].Lecture Notes in Computer Sci⁃ence,2008,5131:60-71.
[14]徐心和,王骄.中国象棋计算机博弈关键技术分析[J].小型
微型计算机系统,2006,27(6):961-969.
[15]Wei XJ,Ye PX.Efficiency of orthogonal super greedy algo⁃rithm under the restricted isometry property[J].Journal of In⁃equalities and Applications,2019,2019:124.
[16]丁濛,张亦鹏,李淑琴.棋盘局面数据标定方法研究[J].计算
机应用研究,2020,37(2):470-472.
c型钢是怎么做成的【通联编辑:光文玲】
(上接第192页)
[2]才让加.藏语语料库加工方法研究[J].计算机工程与应用, 2011,47(6):138-139,146.
[3]才让加,吉太加.藏语语料库的词性分类方法研究[J].青海师
范大学学报(哲学社会科学版),2005,27(4):112-114. [4]孟祥和.藏文网站话题发现与跟踪技术研究[D].西北民族大
学,2013.
[5]袁斌.藏文微博情感分类研究与实现[D].西北民族大学, 2016.
[6]周登.基于N-Gram模型的藏文文本分类技术研究[D].西北
民族大学,2010.
[7]安见才让,拉毛措,孙琦龙.互联网藏文信息舆情分析系统设
计[J].微处理机,2017,38(2):56-58,63.[8]胥桂仙,向春丞,翁彧,等.基于栏目的藏文网页文本自动分类
方法[J].中文信息学报,2011,25(4):20-23.
[9]诺,贾宏云.基于Logistic回归模型的藏文文本分类研究与
实现[J].信息与电脑(理论版),2018(5):70-73. [10]贾宏云,诺,苏慧婧,等.基于SVM藏文文本分类的研究与
实现[J].电子技术与软件工程,2018(9):144-146. [11]贾宏云.基于AdaBoost模型的藏文文本分类研究与实现[D].
西藏大学,2019.
[12]王莉莉,杨鸿武,宋志蒙.基于多分类器的藏文文本分类方法[J].南京邮电大学学报(自然科学版),20
20,40(1):102-110.
[13]郑雅文.基于特征选择和支持向量机的乳腺癌诊断研究
[D].太原理工大学,2019.
【通联编辑:唐一东】
(上接第194页)
参考文献:
[1]Dijkstra E W.A note on two problems in connexion with graphs[J].Numerische mathematik,1959,1(1):269-271. [2]Hart P E,Nilsson N J,Raphael B.A formal basis for the heu⁃ristic determination of minimum cost paths[J].IEEE transac⁃tions on Systems Science and Cybernetics,1968,4(2): 100-107.
[3]Borenstein J,Koren Y.Real-time obstacle avoidance for fast mobile robots in cluttered environments[C].IEEE,1990: 572-577.
[4]Lei X,Zhang Z,Dong P.Dynamic path planning of unknown environment based on deep reinforcement learning[J].Journal
of Robotics,2018,2018
[5]Mnih V,Kavukcuoglu K,Silver D,et al.Playing atari with deep reinforcement learning[J].arXiv preprint arXiv: 1312.5602,2013,
[6]Lillicrap T P,Hunt J J,Pritzel A,et al.Continuous control with deep reinforcement learning[J].arXiv preprint arXiv: 1509.02971,2015,
[7]Bae H,Kim G,Kim J,et al.Multi-Robot Path Planning Meth⁃od Using Reinforcement Learning[J].Applied Sciences,2019, 9(15):3057.
免火再煮锅[8]Lv L,Zhang S,Ding D,et al.Path planning via an improved DQN-based learning policy[J].IEEE Access,2019,7:67319-67330.
【通联编辑:唐一东】

本文发布于:2024-09-23 14:36:19,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/310936.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:环境   规划   路径   算法   模型   学习   智能   强化
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议