一种基于深度学习的自动驾驶视野外车辆轨迹预测方法

著录项
  • CN202211219292.9
  • 20221008
  • CN115512323A
  • 20221223
  • 南开大学
  • 孙桂玲;杨益;郑博文;张彭晨
  • G06V20/56
  • G06V20/56 G06V10/52 G06V10/82 G06N3/04 G06N3/08 G06T7/246

  • 天津市南开区卫津路94号
  • 天津(12)
摘要
本发明属于图像处理技术领域,具体涉及一种基于深度学习的自动驾驶视野外车辆轨迹预测方法。本发明充分发掘自动驾驶轨迹预测任务中小特征目标的特点,提出了一种深度学习神经网络训练方法。该方法结合编解码器架构、扩张卷积网络和自注意力机制,将深度学习神经网络训练过程通过编码器、自注意力单元和解码器三个可学习的神经网络完成。本发明与传统方法相比,可更有效地捕捉可能突然冲入关键区域的视野外车辆,帮助无人驾驶车辆快速做出相应决策。实验结果表明,本发明提出的深度学习神经网络训练方法与现有方法相比,在提升对视野外危险车辆在不同阈值下的召回率、降低遗漏概率和误报率的同时,所需时间大大减少。
权利要求

1.一种应用于自动驾驶车联网环境中对视野外车辆的轨迹预测算法,包括编码器、自注意力单元和解码器三个预训练的神经网络。该方法特征如下:

(1)编码器由四个阶段的Transformer模块和空洞卷积网络组成,Transformer模块的连接方式是最有效的模块堆叠,生成Q、K、V三个矩阵,对Transformer中的多头注意力机制使用了线性空间压缩操作。

(2)由于UNet中采用的与VGG和初代VisionTransformer相同的直筒结构,各层特征数相同,直筒结构有无法捕捉不同分辨率目标的缺点,ViT中特征图的分辨率与图像切片尺寸相关,图像切片尺寸又与图形复杂度相关,多数下游任务所需的图像切片尺寸很大,这导致显存的开销难以调整,所以本发明采用多种分辨率相结合的特征金字塔机制,每层特征值分别为64、32、16、8。

(3)空洞卷积网络共6层,卷积核大小为3*3,每三层的卷积步长为(2,4,9),这是由于栅格效应的原因,Dilated-UNet方法中采用的(2,4,8)这类不互质的组合不可取,为保证空洞卷积网络覆盖足够大且完整的正方形感受野,本发明采用了双层锯齿波形状结构的扩张率组合。

(4)自注意力单元由两个CNN分支组成,输入的编码特征图送入两个分支后进行Softmax激活,每个CNN分支都由2个线性层和2个Dropout层组成,中间采用GELU函数作为激活函数,采取跳跃连接。这个模块是为了将空间信息编码到特征地图上,让网络提高对于视野外车辆的专注力。最终形成的输出图像具有不可见的几何和上下文信息以及原始特征,从而提高了目标任务的性能。

(5)解码器由3个反卷积层、3个激活函数层、3个正则化层、3个残差卷积模块和1个输出层构成,解码器的卷积核尺寸仍为3×3,步长为1。

(6)使用视野外车辆召回率作为模型捕捉视野外危险车辆能力的评判标准。这里的召回率是指当输出预测轨迹与地面实况的交并比大于某一阈值的比率,本发明选取不同的阈值对模型进行评估,适当的阈值的选择是必要的,阈值选择过小无法提升召回率,过大的阈值选择则有导致训练过拟合的风险。

说明书
技术领域

【技术领域】本发明公开了一种基于深度学习的自动驾驶视野外车辆轨迹预测方法,属于图像处理技术领域。

【背景技术】美国汽车工程师学会定义了自动驾驶的五个级别。较低的级别具有基本的驾驶员辅助功能,而较高的级别则适用于不需要任何人类交互的车辆。目前四级以上的无人驾驶尚无实际产品可以完全实现,机器学习和人工智能技术无疑是实现自动驾驶的核心技术。在现实驾驶场景中,由于障碍遮挡和传感器范围有限,驾驶视野内看不见的车辆非常常见。“视野外车辆”是指目前或历史上尚未进入但在短时间内将进入驾驶视野并影响规划决策的车辆。对视野外车辆的预测缺失会威胁规划决策的安全,导致交通事故。

卷积神经网络(Convolutional Neural Networks,CNN)在图像特征提取方面表现出强大的性能,被大规模应用在分类、分割等任务中。近年来,基于卷积神经网络的生成模型为低维目标检测与跟踪提供了新的思路。近年来基于CNN的U型连接架构U-Net在生物医学图像的分割和增强任务上应用广泛,UNet架构使用少量训练图片即可完成较为准确的分割任务。与CNN输出的图像类标签不同,UNet架构输出的是像素标签,但切割块数(patches)与所需最大池化层数(max-pooling)成正比使得定位准确性和获取上下文信息成为了“鱼和熊掌不可兼得”的关系,因为最大池化操作会导致目标像素点与相邻像素点之间的空间关系丢失,切割块数过小则会使得局部信息可见范围减小。

自动驾驶中视野外车辆探测任务是希望准确预判在短时间内可能突然出现在关键区域K内的驾驶视野之外的车辆,为简化问题,本发明将关键区域K框定为矩形:

K={(x,y)|w1≤x≤w2,l1≤y≤l2,x,y∈Z}

其中w1、w2、l1、l2是车辆参数,本发明中分别设置为-25、25、-15、35,本发明采用动态坐标系,始终以车辆本体的中心点为原点。本发明用t时刻像素占用图Gt表示当前时刻被占据的像素区域:

其中Pt是车辆本体占用的像素区域,At表示当前时刻不能驾驶的区域。整个驾驶区域地面实况的最早占用图的表示方法为:

其中t+Δt是t到t+T之间的时间步长,本发明的目标是到像素最早被占用的时间步,推导出一个比地面实况G(x,y)更早并且尽可能准确的预测P(x,y)。

由于实时路况的复杂性,传统算法的捕捉效果不尽如人意。近几年,许多结合深度神经网络的方法和应用被提出。其中关注度最高的是将生成模型结合随机抽样应用于多模态自动驾驶任务,但这些任务都很少考虑视野外车辆。

【发明内容】本发明为解决自动驾驶车联网环境中对视野外车辆的轨迹预测问题,提出一种结合了Transformer编码器、扩张卷积网络和自注意力单元的深度学习神经网络训练算法。

假设是输入的顶端视角栅格化实时路况信息雷达图像。本发明的目的是利用特征编码图生成预测轨迹图像y。特征金字塔具有在不同尺度下分辨率不同的特点,由于本发明输入的图片拍摄高度不同,所以所需提取的特征大小也不尽相同,所以本发明决定引入金字塔结构。

由于图像被处理过后输出尺度不同,本发明需要提取不同尺度的特征,包括车辆位置、运动轨迹、可驾驶区域等信息,编码器有四个阶段,这与CNN主干网络相同,本发明采取阶梯式特征采样,该手段节约了训练过程使用的显存。每个切片的尺寸为2×2×3,本发明用前一阶段输出特征图作为下一阶段的输入,步幅为2、4、8、16像素,这样就形成了本发明的特征金字塔,每一阶段生成的特征图大小为:

为了解决任务驱动的特征信息提取问题,结合Transformer和空洞卷积的优势,本发明提出图1所示的网络模型,视野外车辆轨迹预测问题的求解被分为三个部分:编码器、解码器和自注意力单元。

本发明中编码器被分为带金字塔的Transformer和空洞卷积网络两个部分,作用是最大限度提取上下文信息。Transformer模块共四个阶段,每个阶段由两个正则化层、一个多头注意力层、两个全连接层、一个激活函数层和一个Dropout层构成。采样器的输入为原始雷达图像输出为特征图,目的是充分提取驾驶环境内的背景信息。

与传统卷积算法不同,本发明使用混合空洞卷积,目的是进一步提取上下文信息,缩短算法运行时间、节约运算资源。空洞卷积模块由6个卷积层、6个正则化层和1个Dropout层构成。卷积层由单元数量为1024的全连接层构成,使用“Relu”激活函数。本发明采用锯齿波结构的扩张卷积步长组合(2,4,9,2,4,9),如Dilated-UNet中(2,4,8)这样不互质的组合会导致栅格效应,影响训练效果,故不可取。最终输出的是特征图Fm,维度为(h,w,n),其中n为通道数(一般为3)、h和w即图片的高度和宽度。空洞卷积算子*d可以表示为:

在加入扩张之后的卷积核的覆盖野长度为a=k+(k-1)(d-1),其中k是卷积核长度,本发明中为3,举例:扩张率为4时,覆盖野长度3+2×4=11。本发明采取混合空洞卷积来解决感受野的问题,混合空洞卷积是为了在一系列卷积操作之后,最终的感受野完全覆盖住一个正方形区域。每层使用任意扩张率,使用类似锯齿波形状的扩张率组合,可以在保持顶层感受野不变的同时在无需添加其他模块的情况下即可自然地与原始网络进行集成。训练中,为了对晚于地面实况G(x,y)的预测P(x,y)进行惩罚,定义决断速度的损失函数为:

其中Count函数代表条件为真值时计数加1。

模型由编码器、解码器和自注意力单元构成。编码器首先将输入投影并重塑为尺寸[256,4,4]的张量,然后通过解码器恢复为尺寸[128,128,3]的RGB图像。编码器中Transformer阶段数为4,空洞卷积网络的卷积核尺寸为3×3,步长为1,特征金字塔隐藏特征数量分别为64、32、16、8。解码器由3个反卷积层、3个激活函数层、3个正则化层、3个残差卷积模块和1个输出层构成,解码器的卷积核尺寸仍为3×3,步长为1。

为了避免所有车辆静止这种符合解决问题条件但完全不符合地面实际情况的解,定义挑战性损失函数:

L2=∑(x,y)∈KCount(P(x,y)=0)

本发明使用均方误差(MSE)评估模型的误差,这是由于本发明的输出占用图是图像级的,本发明定义了单个场景重构的损失函数LMSE,计算地面实况与预测值之间的L2范数。

同时,为了使模型更专注于对视野外车辆的预测,引进已知视野外车辆的像素占用图O(x,y)来定义车辆本体误驶入视野外车辆驾驶区域的损失函数:

自注意力单元是为了将空间信息编码到特征地图上,提高该网络对于视野外车辆的专注力。该模块由两个正则化层、两个Dropout层和一个激活层构成,本发明将其中用于激活的Relu函数变为GELU函数,给定特征图Fm,维度为(h,w,n),其中n为通道数(一般为3)、h和w即图片的高度和宽度。输入特征图Fm被馈送到两个CNN分支以分别生成值矩阵K和查询Q。然后本发明将生成的注意力放在在Fm上并使用跳跃连接生成最终输出F′m,输出为:

整个模型的损失函数为:

L=LMSE+δ1L1+L2+δ3L3

其中δ1、δ3是权重参数,本发明在实际训练时这两个参数都设置为1500。

【本发明的优点和积极效果】与现有技术相比,本发明具有如下优点和积极效果:

1.本发明以Dilated-UNet为基础提出一种应用于自动驾驶车联网环境中对视野外车辆轨迹的预测算法。从编码器选择、空洞卷积扩张率到金字塔梯度设置都是最适用于特定任务的,能够在提高视野外车辆捕捉能力的同时大大缩短训练时间;

2.本发明将训练过程分解为编码器、解码器和自注意力单元三个部分,其中除编码器外每一部分都由全连接网络或卷积神经网络组成,几个部分都是可以独立学习的。而选择Transformer加空洞卷积网络作为编码器的目的是增强对上下文背景信息的提取;

3.本发明将所提方法在大型开源自动驾驶数据集nuScenes上进行测试,对应的应用场景为自动驾驶任务中的路况预测。实验发现,所提算法能够在极低采样率下高效捕捉可能造成交通险情的视野外车辆。与现有方法相比,显著提高了对视野外车辆可能轨迹的预测准确率,同时大幅缩短了网络训练所需时间。

【附图说明】图1是本发明提出的一种应用于自动驾驶车联网环境中视野外车辆轨迹的预测算法训练模型结构图;

图2是本发明、Dilated-UNet模型和Trajectory++模型对视野外车辆的捕捉效果部分示意图;

【具体实施方式】为使本发明的实施方案与意义优势表述得更为清楚,下面结合后文附图及实施样例,对本发明进行更为详细的说明。

(1)Transformer编码器由四个阶段的带金字塔机制的Transformer模块构成。编码器的输入为原始图像输出为编码后的特征图本发明将图像打成2×2×3(RGB3通道)的小块使其适合Transformer进行处理,并在每一阶段都采用阶梯型特征金字塔进行下采样,所以经过每一层Transformer编码之后得到的特征图大小为:

(2)空洞卷积网络有6层,采用锯齿波结构的扩张卷积步长组合(2,4,9,2,4,9),空洞卷积算子*d可以表示为:

在加入扩张之后的卷积核的覆盖野长度为a=k+(k-1)(d-1),其中k是卷积核长度,本发明中为3,本发明采取混合空洞卷积来解决感受野的问题,混合空洞卷积是为了在一系列卷积操作之后,最终的感受野完全覆盖住一个正方形区域。Transformer模块、空洞卷积网络和特征金字塔网络合并为编码器,本发明使用金字塔机制的目的是提升训练速度和判断速度,故对晚于地面实况G(x,y)的预测P(x,y)进行惩罚,定义此损失函数为:

(3)模型由编码器和解码器构成。模型输入的是尺寸为128的图像。模型首先通过编码器将空间信息编码进输入图像并重塑为尺寸[256,4,4]的张量作为编码特征图,然后通过解码器恢复为尺寸[128,128,3]的RGB图像。解码器的卷积核尺寸仍为3×3,步长为1。同时为了避免所有车辆静止这一符合问题解但完全不符合路面实际问题的情况,还要定义一种保证模型无静止解的损失函数,该损失函数为:

L2=∑(x,y)∈KCount(P(x,y)=0)

(4)本发明使用均方误差(MSE)评估模型的误差,这是由于本发明的输出占用图是图像级的,本发明定义了单个场景重构的损失函数,计算预测值与地面实况之间的L2范数。同时,为了使模型更专注于对视野外车辆的预测,引进视野外车辆的最早占用图O(x,y)来定义车辆本体误驶入视野外车辆驾驶区域的损失函数:

(5)自注意力单元的目的是将空间信息编码到特征图上,让网络提高对于视野外车辆的专注力。本发明将其中用于激活的Relu函数变为GELU函数,给定特征地图Fm,维度为(h,w,n),其中n为通道数(一般为3)、h和w即图片的高度和宽度。输入特征图Fm被馈送到两个CNN分支以分别生成值矩阵K和查询Q后,将生成的注意力放在在Fm上并使用跳跃连接生成最终输出F′m,输出为:

整个模型的损失函数为:

L=LMSE+δ1L1+L2+δ3L3

其中δ1、δ3是权重参数,=在实际训练时这两个参数都设置为1500。

本发明的仿真实验硬件配置为:AMD EPYC 7551P,内存63G,8核;所用的显卡为NVIDIA Quadro RTX3090 GPU。

本发明的仿真实验软件配置为:Linux操作系统,仿真语言为Python,软件库为Pytorch1.11。

在仿真实验中,使用的数据集为nuScenes数据集。该数据集用装备了1个车顶旋转雷达、5个远程雷达传感器和6个相机的车辆在波士顿、新加坡等车辆密集的地方采集1000个场景的数据。每个场景的注释频率为2hz,长度为20秒,包含多达23个语义对象类,以及11个注释层的高清地图。本发明遵循nuScenes预测挑战的官方基准来分割数据集。训练集中有32,186个预测场景,验证集中有8,560个预测场景。其标注数量高出KITTI自动驾驶数据集7倍之多。

发明使用ADAM优化器训练压缩感知网络,学习率为0.0001。作为对比,另外几种模型同样选择ADAM作为优化器,学习率相同。

为保证判断速度,本发明定义延迟率标准(Delay Ratio,DR):

其中s代表当前场景,S是所有场景的集合,Count函数是指条件为真值时计数+1,Ks是K中含有视野外车辆的子集。另一个标准MSE为均方误差。

模型对视野外车辆捕捉能力的评价指标为召回率(Our-of-view automobilesRecall rate),计算方式为:

其中,

是S中含有视野外车辆元素的子集,α是选定的阈值,是运动预测的位置集合,是被视野外车辆占用的像素集,是上文中视野外车辆占用图集合的子集,IoU是预测的像素占用集合与实际占用集合的交并比。

表1各模型的缺失率和均方误差

模型 DR MSE Physical 6.53 26.70 PPP 6.74 13.20 Trajectory++ 19.87 15.96 Dilated-UNet 1.36 10.60 本发明 1.18 9.78

表2各模型的不同阈值下视野外车辆召回率

表1展示了不同模型捕捉视野外危险车辆的缺失率和均方误差。本发明采用的对比模型分别是nuScenes数据集自带的Physical判别模型、以智能体过往轨迹为输入来预测未来轨迹的图结构递归模型Trajectory++、融合激光雷达和地图特征预测的占用地图序列PPP以及最早提出对该问题进行解决的Dilated-UNet模型。从表1中数据可以看出,本发明的延迟率和均方误差均是最小,即误差率最低。

不同模型对视野外车辆的召回率总结为表2。交并比阈值被分别设置为0.3、0.5和0.7。可以看到,本发明对视野外车辆的捕捉效果远优于Dilated-UNet和Trajectory++。具体来讲,当阈值为0.3时,本发明的视野外车辆召回率达到74.56%,从输出效果上看已经非常接近路面实况,而Trajectory++的召回率仅为11.55%,Dilated-UNet为60.31%。阈值为0.5和0.7时,本发明比Dilated-UNet的召回率比起传统算法也提升了10%以上。从表2数据可以看出,本发明在提高捕捉视野外危险车辆效果的同时大大降低了训练用时,速度提升接近一倍。

图2展示了本发明、Dilated-UNet模型和Trajectory++模型对于输入图像的处理结果。深条纹代表视野外车辆的可能运动轨迹,颜越深代表其可能被占据的时间越早,也就是视野外车辆更有可能的运行轨迹,从图2中结果可知,本发明能够实现非常好的召回效果,预测的轨迹与地面实况较为吻合。

本文发布于:2024-09-25 04:37:19,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/73706.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议