基于LSTM-DQN的无人车避障方法


基于lstm-dqn的无人车避障方法
技术领域
1.本发明属于智能物流领域,具体为一种基于lstm-dqn的无人车避障方法。


背景技术:



2.随着社会信息化持续深入发展,工厂物流车间逐渐去人工化、机械化,车间内无人车搬运货物能够极大的提高劳动效率和降低成本。但随之而来的是,无人车在工作时往往会产生碰撞墙壁、无人车之间相互碰撞、无人车死机等等问题。上述问题通常是由于无人车所携带的探测传感器失灵或者外部环境识别与所持有的数据库不匹配所造成的,提高无人车避障能力、检测准确度并提供解决方案有助于提高车间工作效率、降低维护成本并增强用户信任度。
3.如何有效的提高车间无人车避障能力一直是软件工程师研究的重要领域。其中,无人车的避障通常由三阶段组成,检测运动障碍物、跟踪运动障碍物和避障动作。在检测运动障碍物方面,基于激光雷达的检测是技术研究人员研究的热点内容之一。主流方法包括地图差分法、实体类聚法和目标跟踪法。地图差分法根据不同障碍物在不同时刻的状态不同的特性来分析其的分布,从而得到运动信息。实体类聚法把传感雷达探测到的数据分类,然后对其进行状态描述和检测。目标跟踪法对障碍物轨迹进行跟踪从而获得障碍物运动信息。随着深度学习的发展,跟踪运动障碍物大多采用cnn神经网络来识别目标,然后使用基于马尔可夫决策过程(mdp)的mot算法求解目标动态位置。避障动作主要是路径规划,常用的方法包括势场法、模糊逻辑法、神经网络法、占据栅格法、空间搜索法和基于数据融合的直接规划法等。目前大多数的车间无人车避障都是基于某一特定传感器进行实时避障,没有利用无人车的学习能力以及传感器探测的上下文信息,效率较低,且避障能力存在一定缺陷。


技术实现要素:



4.为了解决现有技术中的上述技术缺陷,本发明提出了一种基于lstm-dqn的无人车避障方法。
5.实现本发明目的的技术方案为:一种基于lstm-dqn的无人车避障方法,具体步骤为:
6.通过无人车探测周围环境信息,并将环境信息输入到lstm-dqn模型中;
7.利用lstm-dqn模型中的长短期记忆网络对环境信息进行特征提取,并与数据库进行比对,确定障碍物的类型,完成对障碍物的预测;
8.将障碍物预测结果输入lstm-dqn模型训中训练好的dqn部分,给出最优避障动作,无人车执行当前最优避障策略。
9.优选地,所述lstm-dqn模型中的长短期记忆网络包括遗忘门、记忆门和输出门,利用lstm-dqn模型中的长短期记忆网络对环境信息进行特征提取的具体过程为:
10.将t时刻输入的环境信息x
t
与上一时刻长短期记忆网络的输出h
t-1
,整合为一个向
量[x
t
,h
t-1
],通过sigmoid激活函数将该向量压缩到(0,1)区间上得到遗忘因子f
t
,将长期记忆c
t-1
乘上遗忘因子f
t
,完成c
t-1
的遗忘过程;
[0011]
将记忆因子与当前时刻t的短期记忆相乘,与完成遗忘过程的c
t-1
相加得到新的长期记忆c
t

[0012]
通过一个sigmoid激活函数计算输出因子o
t
,对新的长期记忆c
t
使用tanh激活函数,将输出因子o
t
与使用tanh激活函数处理后的长期记忆相加得到结果输出h
t

[0013]
优选地,遗忘因子f
t
的计算公式为:
[0014]ft
=σ(wf·
[h
t-1
,x
t
]+bf)
[0015]
上式中,σ为sigmoid激活函数,wf为遗忘门的遗忘权重,bf为偏置项。
[0016]
优选地,记忆因子i
t
具体为:
[0017]it
=σ(wi·
[h
t-1
,x
t
]+bi)
[0018]
上式中,σ为sigmoid激活函数,wi为记忆门记忆权重,bi为记忆因子偏置项;
[0019]
新的短期记忆具体为:
[0020][0021]
上式中,tanh为激活函数,wc为记忆提取权重,bc为短期记忆偏置项;
[0022]
新的长期记忆c
t
具体为:
[0023][0024]
式中f
t
为遗忘因子,c
t-1
为t-1时刻的长期记忆,i
t
为记忆因子,为新的短期记忆。
[0025]
优选地,输出因子o
t
具体为:
[0026]ot
=σ(wo[h
t-1
,x
t
]+bo)
[0027]
式中,σ为sigmoid激活函数,wo为输出门的输出权重,bo为输出因子偏置项。
[0028]
优选地,dqn部分的训练过程为:
[0029]
1)随机选择一个无人车初始状态,即无人车位置(x0,y0),并基于无人车初始状态采用ε-greedy选择动作,即以ε的概率选择当前策略下的最优动作,以1-ε的概率选择随机动作;
[0030]
2),无人车在仿真环境中执行所述动作,获得人为设计的环境奖励值r并进入新的状态(x1,y1),将四元组(前一步无人车位置s、无人车执行的动作a、环境给予的奖励值r、无人车的新位置s')存入经验池;
[0031]
不断的让无人车与环境进行交互,将四元组存入经验池中;
[0032]
3)经验池存满之后,从经验池中随机采样,更新网络参数;
[0033]
4)重复步骤3),直到dqn部分收敛。
[0034]
本发明与现有技术相比,其显著优点为:
[0035]
(1)本发明能够利用lstm模型提前对周围环境进行特征提取,对障碍物进行预测,提前感知障碍。
[0036]
(2)本发明使用训练后的算法模型,使得无人车在固定的车间环境中,能够不使用摄像头拍照就可以完成车间任务,减少了资源的损耗。
[0037]
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分的从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明
书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
[0038]
图1是基于lstm-dqn的无人车避障方法的流程图。
[0039]
图2是lstm-dqn中lstm部分的网络结构。
具体实施方式
[0040]
如图1所示,一种基于lstm-dqn的无人车避障方法,具体步骤为:
[0041]
步骤1,通过无人车携带3机位摄像头探测周围环境信息,并将其输入到lstm-dqn模型中。
[0042]
步骤2,lstm-dqn模型首先使用长短期记忆网络对环境信息进行特征提取,所述长短期记忆网络包括三个调节门控,分别是遗忘门、记忆门和输出门,外部环境输入后,通过各个门的处理后,输出从外部环境提取的特征,并与数据库进行比对,确定障碍物的类型,从而完成无人车对障碍物的预测,网络结构如图2所示。图中的c
t-1
为t-1时刻保留的长期记忆,其作用为保留t-1的记忆信息;h
t-1
为t-1时刻的记忆输出;x
t
表示输入信息,即摄像头拍摄的周围环境信息;h
t
为当前时刻t的输出,即对障碍物的预测结果。
[0043]
1)遗忘门。首先将t时刻的输入x
t
和上一时刻的输出h
t-1
整合为一个向量[x
t
,h
t-1
],然后通过sigmoid激活函数将该向量压缩到(0,1)区间上得到遗忘因子f
t
。该遗忘因子用于控制长期记忆c
t-1
中某些记忆的遗忘,然后将c
t-1
乘上遗忘因子f
t
,完成c
t-1
的遗忘过程。遗忘因子f
t
计算公式如下:
[0044]ft
=σ(wf·
[h
t-1
,x
t
]+bf)
[0045]
2)记忆门。用于更新长期记忆c
t-1
。记忆门包含2个激活函数,sigmoid激活函数用于决定更新哪些值,tanh激活函数用于从[x
t
,h
t-1
]中生成新的短期记忆具体做法为先计算记忆因子i
t
,然后将记忆因子与当前时刻t的短期记忆相乘,再与完成遗忘过程的c
t-1
相加即可完成更新,得到新的长期记忆c
t
。i
t
、及c
t
的计算公式如下:
[0046]it
=σ(wi·
[h
t-1
,x
t
]+bi)
[0047][0048][0049]
式中,bi为记忆门偏置项,bc为记忆提取偏置项,wc为记忆提取权重,wi为记忆门记忆权重。
[0050]
3)输出门。用于输出当前时刻的环境特征即障碍预测。首先通过一个sigmoid激活函数计算输出因子o
t
用来确定长期记忆c
t
中哪些特征需要输出,然后对c
t
使用tanh激活函数处理,最后相加得到结果输出h
t
。其中输出因子o
t
、结果输出h
t
的计算公式如下:
[0051]ot
=σ(wo[h
t-1
,x
t
]+bo)
[0052]ht
=o
t
*tanh(c
t
)
[0053]
式中,σ为sigmoid激活函数,wo为输出门的输出权重,bo为偏置项。
[0054]
步骤3,将障碍预测结果输入lstm-dqn模型训练好的dqn部分,来执行当前最优避障策略。如预测5米以内出现墙壁,则dqn将会输出转向动作告知无人车目前进行转向是最
佳避障动作,无人车执行该动作进而完成障碍预测以及避障。dqn引入深度神经网络来模拟当前状态下无人车采取某动作的好坏,进而不断更新无人车避障策略π,模型收敛后则可获得最优避障策略。dqn通过仿真系统训练模型,其训练过程如下:
[0055]
1)首先随机选择一个无人车初始状态,如无人车中心位于(x0,y0),基于该状态选择动作,如以某速度匀速前行,该动作的选择采取ε-greedy方法,即以ε的概率选择当前策略下的最优动作,以1-ε的概率选择随机动作。
[0056]
2)动作选择结束后,无人车在仿真环境中执行该动作,然后获得人为设计的环境奖励值r并进入新的状态(x1,y1),将四元组(前一步无人车位置s、无人车执行的动作a、环境给予的奖励值r、无人车的新位置s')存入经验池。然后不断的让无人车与环境进行交互,将四元组存入经验池中。
[0057]
3)经验池存满之后,从经验池中随机采样,用于更新网络参数。
[0058]
4)重复步骤3),直到该网络收敛。
[0059]
将训练好的lstm-dqn模型装载到无人车上,无人车通过摄像头拍摄周围环境信息,然后输入lstm-dqn模型中,模型即可输出障碍预测信息并给出最优避障动作。
[0060]
实施例
[0061]
本实施例基于实测车间无人车实现。首先对携带摄像头无人车实物开发仿真系统训练lstm-dqn模型。然后将训练好的lstm-dqn模型载入无人车芯片中。将该模型训练指标与经典算法比较,结果表明了本方法具有更优的性能,其结果如下表所示:
[0062][0063][0064]
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
[0065]
应当理解,为了精简本发明并帮助本领域的技术人员理解本发明的各个方面,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时在单个实施例中进行描述,或者参照单个图进行描述。但是,不应将本发明解释成示例性实施例中包括的特征均为本专利权利要求的必要技术特征。
[0066]
应当理解,可以对本发明的一个实施例的设备中包括的模块、单元、组件等进行自适应性地改变以把它们设置在与该实施例不同的设备中。可以把实施例的设备包括的不同模块、单元或组件组合成一个模块、单元或组件,也可以把它们分成多个子模块、子单元或子组件。

技术特征:


1.一种基于lstm-dqn的无人车避障方法,其特征在于,具体步骤为:通过无人车探测周围环境信息,并将环境信息输入到lstm-dqn模型中;利用lstm-dqn模型中的长短期记忆网络对环境信息进行特征提取,并与数据库进行比对,确定障碍物的类型,完成对障碍物的预测;将障碍物预测结果输入lstm-dqn模型训中训练好的dqn部分,给出最优避障动作,无人车执行当前最优避障策略。2.根据权利要求1所述的基于lstm-dqn的无人车避障方法,其特征在于,所述lstm-dqn模型中的长短期记忆网络包括遗忘门、记忆门和输出门,利用lstm-dqn模型中的长短期记忆网络对环境信息进行特征提取的具体过程为:将t时刻输入的环境信息x
t
与上一时刻长短期记忆网络的输出h
t-1
,整合为一个向量[x
t
,h
t-1
],通过sigmoid激活函数将该向量压缩到(0,1)区间上得到遗忘因子f
t
,将长期记忆c
t-1
乘上遗忘因子f
t
,完成c
t-1
的遗忘过程;将记忆因子与当前时刻t的短期记忆相乘,与完成遗忘过程的c
t-1
相加得到新的长期记忆c
t
;通过一个sigmoid激活函数计算输出因子o
t
,对新的长期记忆c
t
使用tanh激活函数,将输出因子o
t
与使用tanh激活函数处理后的长期记忆相加得到结果输出h
t
。3.根据权利要求2所述的基于lstm-dqn的无人车避障方法,其特征在于,遗忘因子f
t
的计算公式为:f
t
=σ(w
f
·
[h
t-1
,x
t
]+b
f
)上式中,σ为sigmoid激活函数,w
f
为遗忘门的遗忘权重,b
f
为偏置项。4.根据权利要求2所述的基于lstm-dqn的无人车避障方法,其特征在于,记忆因子i
t
具体为:i
t
=σ(w
i
·
[h
t-1
,x
t
]+b
i
)上式中,σ为sigmoid激活函数,w
i
为记忆门记忆权重,b
i
为记忆因子偏置项;新的短期记忆具体为:上式中,tanh为激活函数,w
c
为记忆提取权重,b
c
为短期记忆偏置项;新的长期记忆c
t
具体为:式中f
t
为遗忘因子,c
t-1
为t-1时刻的长期记忆,i
t
为记忆因子,为新的短期记忆。5.根据权利要求2所述的基于lstm-dqn的无人车避障方法,其特征在于,输出因子o
t
具体为:o
t
=σ(w
o
[h
t-1
,x
t
]+b
o
)式中,σ为sigmoid激活函数,w
o
为输出门的输出权重,b
o
为输出因子偏置项。6.根据权利要求1所述的基于lstm-dqn的无人车避障方法,其特征在于,dqn部分的训练过程为:1)随机选择一个无人车初始状态,即无人车位置(x0,y0),并基于无人车初始状态采用
ε-greedy选择动作,即以ε的概率选择当前策略下的最优动作,以1-ε的概率选择随机动作;2),无人车在仿真环境中执行所述动作,获得人为设计的环境奖励值r并进入新的状态(x1,y1),将四元组(前一步无人车位置s、无人车执行的动作a、环境给予的奖励值r、无人车的新位置s')存入经验池;不断的让无人车与环境进行交互,将四元组存入经验池中;3)经验池存满之后,从经验池中随机采样,更新网络参数;4)重复步骤3),直到dqn部分收敛。

技术总结


本发明公开了一种基于LSTM-DQN的无人车避障方法,包括:通过无人车探测周围环境信息,并将环境信息输入到LSTM-DQN模型中;利用LSTM-DQN模型中的长短期记忆网络对环境信息进行特征提取,并与数据库进行比对,确定障碍物的类型,完成对障碍物的预测;将障碍物预测结果输入LSTM-DQN模型训中训练好的DQN部分,给出最优避障动作,无人车执行当前最优避障策略。本发明能够利用LSTM模型提前对周围环境进行特征提取,对障碍物进行预测,提前感知障碍。提前感知障碍。提前感知障碍。


技术研发人员:

王帅家 朱耀琴

受保护的技术使用者:

南京理工大学

技术研发日:

2022.12.01

技术公布日:

2023/3/28

本文发布于:2024-09-25 10:32:37,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/84590.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:记忆   因子   障碍物   模型
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议