基于深度强化学习的车道线检测和定位（Deepreinforcementlearningba。。。

之前读过这篇论⽂，导师说要复现，这⾥记录⼀下。废话不多说，再重读⼀下论⽂。

注：⾮⼀字⼀句翻译。个⼈理解，⼀定偏颇。

基于深度强化学习的车道检测和定位

摘要

基于深度学习的车道检测⽅法只检测带有粗略边框的车道线，⽽忽略了特定曲线车道的形状。针对上述问题，本⽂将深度强化学习引⼊粗车道检测模型中，以实现精确的车道检测和定位。该模型由**边界盒探测器（bounding box detector）和地标点定位器（landmark point localizer）**两个阶段组成。边界盒级卷积神经⽹络车道检测器以边界盒的形式输出车道的初始位置。然后，基于强化学习的深度Q-Learning定位器(Deep Q-Learning Localizer，DQLL)将车道作为⼀组地标进⾏精确定位，以更好地表征曲线车道。构造并发布了⼀个像素级车道检测数据集NWPU车道数据集。它包含了各种真实的交通场景和精确的车道线遮罩。该⽅法在发布数据集和存储数据集上都取得了较好的性能。

1 引⾔

避免事故发⽣和引导车辆沿着适当的车道⾏驶是辅助系统的两项基本任务，实现这两个⽬标的⼏个技术⼿段：车道检测，道路检测，前⽅车辆碰撞预警，交通标志检测，交通拥堵检测，道路标记检测。车道检测在上述任务和其他⾼级驾驶辅助⽬标中有着不可替代的作⽤，如可⾏驶区域检测和⾃动泊车。图1显⽰了表⽰车道的不同的⽅法，包括直线、边框、地标和像素掩码。

在深度卷积神经⽹络(Deep Convolutional Neural Networks, DCNN)⼴泛研究和应⽤之前，很多⼯作都是使⽤低级特征提取器来检测车道线，并使⽤多条直线来表⽰车道。直线在直线车道上很好，但在曲线车道上就不⾏了。为了解决曲线车道的表⽰问题，在车道检测中引⼊边界盒和像素级掩码。但是，边界盒的精度不够⾼，像素级掩模的预测需要复杂的计算。

为了解决上述问题，我们提出了⼀种基于深度强化学习的车道检测和定位⽹络。它由深度卷积巷边界盒检测器（deep convolutional lane bounding box detector）和深度q学习定位器（Deep Q-Learning localizer）组成。所提⽹络的结构⽰意图如图2所⽰。

它是⼀个两阶段的顺序处理架构。具体来说，第⼀阶段是⼀个改进的Faster R-CNN[27]，它以包围盒

的形式检测道。第⼆阶段为轻量化深度Q-learning地标定位器，由五层卷积层和三层全连接层组成。

在检测阶段得到边界盒后，初始地标沿边界盒对⾓线均匀分布。然后车道定位任务变成了⼀个点移动博弈游戏。车道定位器在游戏中扮演Agent的⾓⾊。agent需要做的是根据当前环境状态将地标向特定⽅向移动，当前环境状态包括当前点位置、动作历史向量和已编码的图像特征。最后，当agent决定不再移动路标点时，将所有路标点的位置输出为车道的位置。

为了验证所提⽅法的有效性，我们建⽴了⼀个名为NWPU Lanes dataset的像素级车道数据集，该数据集包含1964个交通场景图像，并带有标记良好的像素级车道遮罩。

contributions：

定义了⼀种新的车道检测和定位表⽰⽅法，达到了精度和计算量的平衡。

深度Q-Learning车道定位器(DQLL)将车路定位为⼀组地标，对曲线车道进⾏了较好的表征。

人类基因组dna提取构建⼀个像素级车道数据集NWPU车道数据集，其中包含精⼼标注的城市图像，有助于发展交通场景的理解。

2 相关⼯作

宛如英雄2.1 传统车道线检测⽅法

为车道线构造易于识别的特征，根据其相同的特征⼿⼯设计特征表⽰。常⽤的特征提取器如Hough变换[21]和Dark-Light-Dark (DLD)[22]在简单的条件下是有效的，但是在复杂的场景下性能会迅速下降。它们对噪⾳的敏感导致了这个问题。

逆透视映射(IPM)[28]将原始图像转换为鸟瞰图。然后使⽤上⾯的特性提取器在这个视图下⽣成特性。视图转换有助于减少冗余信息并增强⽬标表⽰。但在⾮常复杂的情况下，其效果明显下降。其根本原因是DLD、霍夫变换等低级提取器提取的特征不够强⼤。

2.2 基于深度学习的车道线检测

DCNN可以从输⼊图像中⽣成具有⾜够⾼⽔平语义信息的特征。此外，它的⾃动拟合特性节省了⼤量的特征设计⼯作。

2.3 强化学习

Mnih等[39]将Q-Learning与deep Q-Learning Network (DQN)中的深度学习⽅法相结合，即使⽤神经⽹络代替Q-table。

3 ⽅法论

花生采摘机3.1 概述

本⽅法由检测和定位部分组成。检测部分的⽬的是获得车道的初步边界盒位置。为了配合下⼀阶段的定位过程，我们仔细考虑了车道的特点，通过观察如图3所⽰的各种车道，我们总结如下:

边界框框出的车道线总是靠近矩形对⾓线

左上到右下：视野的左边；左下到右上：视野的右边（我总感觉这⾥写反了的样⼦。。）*

边界框的对⾓线⼤致可以⽤来表⽰直线的位置。对于弯曲车道，由于车道形状的巨⼤差异，它失败了。

车道所经过的对⾓线将是确定路标点初始位置的关键因素。

3.2 车道线检测

⾸先在车道数据集上对改进后的公共⽬标检测器进⾏再训练，并将其⽤于获得车道的初始位置。从技术上讲，⼏乎所有典型的对象检测器，如[40-43]都可以在这⾥使⽤。**第⼀阶段我们采⽤Faster R-CNN作为基线车道边界盒检测器。**通过检测车道坡度，将车道划分为不同类型，并将车道类型与3.1节讨论的内容统⼀起来。检测阶段完整⼯作流程如图4所⽰。

Faster R-CNN使⽤CNN完成proposal⽣成、回归和分类。⼀个输⼊图像在⽹络中只传播⼀次，提⾼了⽹络的效率。

⽤VGG作为CNN的⾻架。它从输⼊的三帧RGB图像中提取卷积特征映射。然后将整个图像特征向量和图像信息发送到RPN，⽣成区域建议。ROI pooling层有助于将区域建议的特征向量强制为固定⼤⼩。建议回归⽹络和建议分类⽹络分别使⽤多个全连通层来得到边界框偏差和分类概率。⽹络的详细结构如图4所⽰，其中Conv表⽰卷积层，Dense表⽰完全连通层。

车道检测阶段的最终输出为输⼊图像内所有车道的边界框位置和车道类型。

3.3 车道线定位

我们使⽤五个地标点来准确定位车道。地标在边界框内统⼀初始化。这样，定位阶段就变成了⼀个点移动博弈游戏，⽬标是将所有的地标移动到正确的位置。应⽤⼀种基于强化学习的深度Q-learning车道定位器来进⾏游戏。与边界框相⽐，地标有效地提⾼了曲⾯车道的表⽰能⼒，提供了更精确的位置信息。

3.3.1 游戏定义

如图3所⽰，经检测阶段的每个包围盒与盒⼦在⽔平⽅向上通过5条截⽌线分割成6个相等的区域。车道线所沿的对⾓线与这五条分割线在⼏个点相交。这些点被⽤作地标点的初始位置。

我们尝试通过深度强化学习⽅法来解决点定位博弈问题。这⾥使⽤的学习策略是Q-Learning[38]⽅法。

在原来的Q表中，它对每个不同的环境状态进⾏了重新编码，哪个⾏为选择会导致最⾼的回报。初始Q表给出随机的⾏动决策，它根据以下公式随训练过程更新:

（关于公式的理解和别的地⽅⼀样，这⾥不再赘述。）

除了Q表之外，环境状态、⾏动选项和奖励功能共同构成了深度Q学习的过程。下⾯的⼩节将详细介绍这三个关键组件。

3.3.2 环境状态

环境状态包含了影响⾏动决策结果的因素。对于这个移动点游戏，当前选择的地标点的位置信息，以及图像块都有助于到正确的位置。我们还考虑了之前已经做过的动作，我们称之为动作历史向量。（就是引⾔⾥说过的三部分组成：当前点位置、动作历史向量和已编码的图像特征）

S是当下环境状态，等式右侧第⼀项是已编码的图像特征（Ib是边界盒框起来的部分），第⼆项是当前点位置，第三项是动作历史向量。中间的符号表⽰concatenate操作。

二十年后的学校图5表⽰了环境状态的组成。

3.3.3 动作空间

地标点的纵坐标是⼀个固定的值，所以它只能⽔平移动。我们⼈为地定义了三种可选的操作类型。

delete action：agent决定删除当前点或采取其他操作。偏离范围或距离实际车道位置太远的点可能被删除。

moving action：对正常范围下的地标点，agent将点移向正确的⽅向，这些点沿⽔平线有两个移动⽅向，因此移动动作包含向左或向右的运动。

terminal action：当点与期望位置⾜够接近时，agent必须判断当前位置是否为最终位置。终端动作决定截断点移动过程或进⼊下⼀个动作选择。

所有的动作选择以及相应的实际像素级点移动如表1所⽰。其中x表⽰当前地标点的位置。

3.3.4 奖励函数

我们根据⾏动选择所导致的结果将其分为三种类型。

Invalid Action Choices：动作a将地标点移出了适当的图像范围，删除了应该保留的点或保留了应该删除的点。

Regular Action Choices：如果这个动作选择不是前⾯提到的⽆效的，⽽是⼀个移动的动作，我们称这个选择为常规的动作选择。我们定义当前点位置之间的距离和环境状态下点的真实位置为d(s)。

d(s’)新距离

三噻吩>黄高宝

本文发布于:2024-09-24 18:15:45，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/212528.html

上一篇：植物形态三维扫描系统关键技术研究

下一篇：Madelung常数和晶格能的计算机辅助计算

标签：车道检测位置边界图像深度

留言与评论（共有 0 条评论）