基于深度学习的智能车辆视觉里程计技术发展综述

2021年
第1期
【摘要】针对基于模型的视觉里程计在光照条件恶劣的情况下存在鲁棒性差、回环检测准确率低、动态场景中精度不
够、无法对场景进行语义理解等问题,利用深度学习可以弥补其不足。首先,简略介绍了基于模型的里程计的研究现状,然后对比了常用的智能车数据集,将基于深度学习的视觉里程计分为有监督学习、无监督学习和模型法与深度学习结合3种,从网络结构、输入和输出特征、鲁棒性等方面进行分析,最后,讨论了基于深度学习的智能车辆视觉里程计研究热点,从视觉里程计在动态场景的鲁棒性优化、多传感器融合、场景语义分割3个方面对智能车辆视觉里程计技术的发展趋势进行了展望。
主题词:视觉里程计深度学习智能车辆位置信息
中图分类号:U461.99
文献标识码:A
DOI:10.19620/jki.1000-3703.20200736
Review on the Development of Deep Learning-Based Vision Odometer
7705acTechnologies for Intelligent Vehicles
Chen Tao,Fan Linkun,Li Xuchuan,Guo Congshuai
(Chang ’an University,Xi ’an 710064)
【Abstract 】Visual odometer can,achieve with deep learning,better performance on robustness and accuracy through solving the problems such as the weak robustness under poor illumination,low detection accuracy in close loop and insufficient accuracy in dynamic scenarios,disability in understanding the scenario semantically.Firstly,this paper briefly introduces the research status of the model-based odometer,then compares the commonly-used intelligent vehicle datasets,
and then divides the learning-based visual odometer into supervised learning,unsupervised learning and hybrid model which combines model-based with deep learning-based model.Furthermore,it analyzes the learning-based visual odometer from the aspects of network structure,input and output characteristics,robustness and so on.Finally,the research hotspots of learning-based visual odometer for intelligent vehicle are discussed.The development trend of learning-based visual odom
eter for intelligent vehicle is discussed from 3aspects which respectively are robustness in dynamic scenarios,multi-
sensor fusion,and scenario semantic segmentation.
Key words:Visual odometer,Deep learning,Intelligent vehicle,Location information
陈涛
范林坤
李旭川
郭丛帅
(长安大学,西安710064)
*基金项目:国家重点研发计划项目(2018YFC0807500);国家自然科学基金面上项目(51978075)。
基于深度学习的智能车辆视觉里程计技术发展综述*
汽车技术·Automobile Technology
1前言
随着车辆逐渐向自主化、无人化方向发展,车辆的位置信息成为其执行决策时的重要参考因素。智能车的定位可分为绝对定位和相对定位,其中相对定位法主要包括惯性导航和里程计法,2种方法都不可避免地存在误差累积且难以消除。惯性导航效果的优劣受惯性测量单元(Inertial Measurement Unit ,IMU )精度的影响较大,高精度IMU 的成本较高。随着计算机视觉的发
展,通过视觉采集到的信息不但可以满足车辆定位的需求,而且可以进行车辆和行人的识别,同时,视觉传感器成本较低、体积较小、布置方便,因此,视觉方案是同时考虑成本、稳定性、精度和使用复杂度时的最佳方案。
视觉里程计(Visual Odometry ,VO )是无接触的位姿估计过程,根据单个或多个相机的输入得到系统每一时刻之间的相对位姿,同时可以根据输入的图像序列恢复场景的空间结构。1980年,Moravec 等人首次提出从连续的图像中估计相机位姿的思想[1]。Matthies 等人于
【引用格式】陈涛,范林坤,李旭川,等.基于深度学习的智能车辆视觉里程计技术发展综述[J].汽车技术,2021(1):1-10.
CHEN T,FAN L K,LI X C,et al.Review on the Development of Deep Learning-Based Vision Odometer Technologies for
Intelligent Vehicles[J].Automobile Technology,2021(1):1-10.
-
-1
1985年提出了经典的视觉里程计框架[2],该框架主要包括特征提取、匹配和帧间位姿估计,并一直作为视觉里程计的主要框架沿用至今,根据这一框架发展得到的VO系统称为基于模型的VO。根据图像信息利用方式的不同,基于模型的VO可以分为直接法VO和特征法VO。现有表现较好的VO系统多是基于模型的[3],但是这些VO系统必须被准确标定,而且要运行在光照稳定、纹理充足的环境中,同时,在大场景中的鲁棒性较低,无法对场景信息进行语义理解,另外,单目VO因其尺度不确定性而无法得到车辆的真实运动尺度。
目前,深度学习在物体识别、分类、同步定位与地图构建(Simultaneous Location and Mapping,SLAM)的回环检测和语义分割等方面都取得了不错的效果[4]。相较于人工设计特征,深度学习以端到端的方式从大量数据中学习特征,得到鲁棒性更好、效率更高的特征,从而能够有效解决基于模型
的VO在光照条件恶劣的情况下鲁棒性低、回环检测准确率低、动态场景中精度不高、无法对场景进行语义理解的问题,因此,基于深度学习的VO 是VO系统的重要发展方向之一。
很多学者针对VO系统进行了综述:李宇波等人综述了VO的发展过程,将VO分为单目、双目、多目,从鲁棒性、实时性和精确性3个方面对VO进行分析[5];Amani 等人将当时的VO系统进行分类,根据系统的输入、输出特性分析其特点[6];Mohammad等人将VO与其他的定位方式进行比较,并将当时效果较好的VO进行对比,分析了VO的应用难点和存在的挑战[7];He等人综述了单目VO的发展现状与代表性的VO系统[8];李传立等人将基于模型的VO分特征法和直接法进行了综述[9]。但是这些综述均面向基于模型的VO,而没有考虑基于深度学习的VO。由于VO是视觉同步定位与地图构建(Visual Simultaneous Location and Mapping,VSLAM)的组成部分,一些基于深度学习的SLAM的综述中会提到基于深度学习的VO[10-14],但将重点集中于SLAM系统,对基于深度学习的VO的综述不够全面。本文针对有监督、无监督和模型法与学习结合的视觉里程计,主要从帧间运动估计、系统的实时性、鲁棒性等方面对基于深度学习的智能车辆VO系统进行分析,综述基于深度学习的智能车辆VO的发展现状、现存的不足与发展趋势,为基于深度学习的智能车辆VO和VSLAM前端的发展提供建议。
2基于模型的VO
基于模型的VO主要包括相机标定、图像特征匹配、相机位姿估计,当考虑VO的全局位姿信息时,还
包括相机位姿的全局优化。如果将整幅图像视为一个矩阵来考虑,不但增大了计算量,同时也很难准确估计相机位姿,因此一般考虑图像的部分像素信息,并据此估计相机位姿。根据图片像素信息的2种不同利用方式,将基于模型的VO分为特征法VO和直接法VO,图1所示为基于模型的车辆VO位姿估计过程,A0、A1分别为空间点A在I0、I1帧上的投影。
图1基于模型的车辆VO位姿估计
2.1特征法VO
特征法VO首先在图像中选取特征,这些特征在相机视角发生少量变化时保持不变,于是可以在各图像中到相同的点,在此基础上对相机位姿进行估计。一组好的特征对位姿估计的最终表现至关重要,其中角点相较于边缘和区块更容易区分,是特征法VO的研究重点。角点提取算法有很多,如Harris角点、FAST角点、GFTT角点等[8]。为了增加角点的可重复性、可区别性、高效率和本地性,研究者设计了更多稳定的图像局部特征,最具代表性的有SIFT(Scale Invariant Feature Trans⁃form)、SURF(Speed-up Robust Features)、ORB(Oriented FAST and Rotated BRIEF)等[8]。
根据已经匹配好的特征估计相机位姿时,由于相机类型和特征点不同,相机位姿估计算法也不相同。当相机为单目相机时,已知2D的像素坐标,根据所有的2D 匹配点使用对极几何法计算相机的相对运动;当相机为双目或深度相机时,已知特征点的3D坐标,通常用迭代最近点(Iterative Closest Point,
ICP)算法估计相机位姿;当已知一些特征点在世界坐标系下的3D坐标和像素坐标时,常用PnP(Perspective-n-Point)、EPnP(Efficient Perspective-n-Point)、P3P(Perspective-Three-Point)算法。此外,为了使得到的位姿达到全局最优,常用光束法平差(Bundle Adjustment,BA)算法或滤波算法对相机位姿进行全局优化。
MonoSLAM是由Davison等发明的第一个成功应用单目摄像头的纯视觉SLAM系统[15],系统以扩展卡尔曼
A
A
I
I0A0
变换矩阵T
参考帧新帧
--2
汽车技术
滤波为后端,追踪前端是非常稀疏的特征点;PTAM (Parallel Tracking and Mapping)是首个以优化为后端的SLAM系统,该系统首次区分出前、后端的概念,同样引领了后期很多VSLAM的设计[16];Mur-Artal等人提出的ORB-SLAM是特征点法SLAM的集大成者[17],首次提出
了基于ORB的BOW(Bag of Words)回环检测方法。
特征点法VO因其较强的鲁棒性和较高的精确性成为目前主流的VO,但是特征的提取与描述子的计算耗时较多,使用特征时忽略了图片的其他信息,VO的运行环境遇到特征缺失的情况时无法到足够的特征计算相机运动是特征法VO的主要缺点。
2.2直接法VO
直接法VO是为了克服特征点法VO的不足而存在的,直接法根据像素的亮度信息估计相机运动,可以不寻特征和描述子,既节省了计算时间,也避免了特征缺失的情况,只要场景中存在明暗变化,直接法就能工作。根据使用像素数量的多少,直接法分为稀疏、稠密和半稠密3种。与特征点法只能重构稀疏特征点相比,直接法还具有恢复稠密和半稠密结构的能力。
LSD-SLAM[18-19]是Engel等为了构建半稠密三维地图提出的算法,该算法采用直接法进行数据关联,十字花封控
由深度估计、跟踪和建图3个线程组成。该方法对图像点建立随机深度图,并在后续帧中对深度进行调整,直至收敛。该方法的初始化不需要多视图几何约束,不会陷入多视图几何退化的困境,但初始化过程需要多个关键帧深度图才会收敛。直接稀疏里程计(Direct Sparse Odometry,DSO)[20]是直接法的拓展,其使用光度值误差最小化几何和光度学参数。DSO对图像中有梯度、边缘或亮度平滑变化的点均匀采样以降低计算量,并且对光度学模型校正、曝光时间、透镜光晕和非线性响应都进行了校准。为了提高速度、降低计算量,DSO使用滑动窗口方法,对固定帧数的位姿进行优化;DPPTAM (Dense Piecewise Planar Tracking and Mapping)[21]基于超像素对平面场景进行稠密重建,该方法对图像中梯度明显的点进行半稠密重建,然后对图像中其他点进行超像素分割,通过最小化能量函数完成稠密重建。
此外,直接法的缺点也很明显:完全依靠梯度搜索达到降低损失函数的目的,但图像是强烈的非凸函数,这很容易使得优化算法陷入局部最优;单个像素的区分度不明显;灰度不变性是个很强的假设,在很多情况下不会满足。
基于模型的VO已经可以达到很好的效果。以ORBSLAM为代表的特征法VO和以DSO为代表的直接法VO都可以在特定环境下达到很高的精度,同时保证系统的实时性,但是在缺少特征、光照变化明显、车载相
机运动剧烈的恶劣环境中,这些系统的鲁棒性很难得到
保证。深度学习在计算机视觉领域的成功应用给了研
究者们一些启示,利用深度学习的方法可以从输入图像
中自动提取特征,相较于人工设计的特征,其充分利用
了图像的信息。因此,通过提高对环境的学习能力来提
高VO的鲁棒性和精度是一条有效的解决途径,并已经
成为现阶段VO研究路线的一个重要分支。图2所示为3种视觉里程计框架。
(a)特征点法VO:最小化重投影误差
(b)直接法VO:最小化光度误差
(c)学习法VO:最小化损失函数
图23种视觉里程计框架
3基于深度学习的VO
基于深度学习的VO以端到端的方式进行帧间位
姿估计,输入为图像序列,输出是图像的相对位姿,包括
位移和旋转,位姿估计效果往往取决于网络的架构和损
失函数的形式。卷积神经网络(Convolution Neural Network,CNN)是位姿估计网络中常用的网络结构,主要由卷积层、池化层、全连接层组成,其中卷积层是CNN的
核心,不同的卷积核从图像中自动提取不同的特征,得
到的特征可以更充分地代表图像的信息。由于车载相
机的位姿变化具有连续性,循环神经网络(Recurrent Neural Network,RNN)也已经用于位姿估计网络。RNN 通过反馈循环来保持隐藏状态的记忆,并对当前输入与之前状态间的依赖关系进行建模。训练模型时根据训练数据是否带有标签,可以将基于深度学习的VO分为有监督的VO、无监督的VO和半监督学习的VO。
3.1智能车数据集
基于学习的VO需要大量的数据对搭建的模型进行图像序列
特征提取、描述子
计算、特征匹配
位姿估计
位姿(Pose)输出位姿优化图像序列位姿估计位姿优化
位姿(Pose)输出图像序列位姿(Pose)输出
互助系统
神经网络
--3
2021年第1期
训练。KITTI 数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合制作,是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集,用于评测立体图像(Stereo )、光流(Optical Flow )、视觉测距(Visual Odometry )、3D 物体检测(3D Object Detection )和3D 跟踪(3D Object Tracking )等计算机视觉技术在车载环境下的性能;Cityscapes 数据集采集了50个城市不同季节的街道车辆运行数据,目标是用于场景语义理解;Mapillary 数据集是由位于瑞典马尔默的公司Mapillary
AB 开发的,用来分享含有地理标记照片的服务,其创建者希望利用众包的方式将全世界(不仅是街道)以照片的形式存储;Comma.ai ’s Driving Dataset 的目的是构建低成本的自动驾驶方案,目前主要应用场景是使用改装手机来辅助自动驾驶,开源部分主要是行车记录仪的数据;Apolloscape 是百度的自动驾驶数据集,有很多复杂场景的道路。目前,智能车数据集以视频和图片为主,随着越
来越多公司的加入和众包方式的应用,公开的数据集会越来越丰富。表1列举了部分主要的智能车数据集。数据集KITTI
Cityscapes
还原炉Mapillary Comma.ai ’s Driving Dataset Nuscenes Washington DC ’s LiDAR
Data
Apollo Scape BDDV Oxford RobotCar
收集地点卡尔斯鲁厄50个不同的城市全球范围内的城市
高速公路波士顿和新加坡
华盛顿
国内多地
纽约、旧金山等多个城市多个时段的牛津大学的一条道路
应用特点立体图像、光流、视觉测距、3D 物体
检测和3D 跟踪场景语义分割构建地图
行车轨迹预测
场景语义分割、地图构建、行车轨迹
预测高分辨率地图、数字海拔模型
2D/3D 场景语义分割、定位、迁移学习、驾驶模拟目标检测、场景语义分割、车道线识别
场景语义分割,行车决策传感器形式相机、激光雷达、IMU 、GPS 双目相机多种类型相机行车记录仪
激光\毫米波雷达、相机、
IMU 、GPS
雷达
RGB 相机、立体相机、全景相
机相机、GPS 、IMU
双目相机
是否带标签
否否是否是是否
表1部分主要智能车数据集
3.2有监督学习的VO
A.Kendal 等人于2015年提出的PoseNet 是早期利
用深度学习进行位姿估计的典型代表[22],PoseNet 网络使用CNN 进行相机位姿估计,通过真实相机位姿的数据集进行训练,其使用的损失函数为:
L =  x -x 2+λ  q -q 2
(1)
式中,x 和q 分别为CNN 估计的相机的三维坐标和旋转四元数;x 、q 分别为相机的真实三维坐标和旋转四元数;λ为三维坐标和位姿损失函数的平衡因子。
经过充分训练后,PoseNet 的位姿估计精度与基于模型的VO 相当。
为了确定位姿估计的不确定性,Kedall 等人在PoseNet 的基础上进一步增加Dropout 层,提出了Bayesian PoseNet [23],在这个网络中平衡因子λ的选择同样至关重要,之后又在PoseNet 的基础上提出了一种混合网络[24],这种网络在训练过程中可以自动调整平衡因子λ,不但使网络的性能得到提升,而且可以得到网络的不确定性。
Oliveira 等人构建了一个度量网络,进行帧间位姿
估计和拓扑网络关系学习,对相机进行定位[25]。度量网络将轨迹分割成有限的位置点的集合,利用CNN 来学习拓扑网络间的关系,通过将该网络与自定位网络相结
合,系统表现出了很好的定位特性。DeTone 等人提出的HomographNet 用CNN 来预测双目图像的单应性矩阵参数[26],使用大量数据进行长时间训练后,网络的性能优于基于ORB 特征点估计的单应性矩阵参数算法。2017年,Wang 等人提出的DeepVO 单目视觉测距系
统[27]是有监督学习VO 的里程碑成果,之后的很多研究是以此为基础进行的。该系统中时间图像序列通过长短期记忆网络(Long Short-Term Memory ,LSTM )模块引入RCNN (Recurrent Convolution Neuro Network ),以端到端的方式训练RCNN 估计摄像机的运动,网络结构如图3所示。试验结果表明,该系统的精度和鲁棒性在当时的VO 中有很强的竞争力。同时,Wang 等人在Costante 等人的研究基础上,通过改善DeepVO 的网络结构实现了估计系统不确定性的功能[28]。Me
lekhovetal 等人在DeepVO 的基础上利用CNN 提出了相机摄影预估系统[29]。Turan 等人提出了类似于DeepVO 的Deep EndoVO [30],并将其应用于软骨机器人领域[31],取得了不错的效果。基于学习的方法总是存在泛化的问题,为了提高基于有监督学习VO 的泛化能力,Saputra 等将课程学习(即通过增加数据复杂性来训练模型)和几何损失约束[32]加入到DeepVO 中,知识提炼(即通过教一个较小的模型来压缩大模型)也被应用到该框架中,以减少网络参数的数量,使其更
3d涂鸦笔
-
-4
适合在移动设备上进行实时操作[33]。
图3DeepVO的网络架构[27] Ummenhofer等人利用一系列编码-解码网络提出
了有监督的DeMoN系统[34]。该系统专门设计了迭代网络,可以同时估计相机运动、图像景深、场景平面和光流,但需要大量标记有相关标签的数据进行训练。Peretroukhin等人没有直接使用深度神经网络预测相机的姿势[35],而是使用基于模型的几何估计器进行位姿预测,提出了DPC-Net,然后使用CNN进行预测位姿校正,也就是对提出的CNN进行训练,从基于模型的估计器中学习位姿真实值与预测值之间的误差,同时,该网络也可以减少相机参数标定带来的影响。Costante等人提出了一种CN
N体系结构,称为LS-VO[36],该网络将时间图像对作为输入,以端到端的形式进行训练。LS-VO由一个自动编码器网络组成,用于对光流的表示方式进行学习,用一个位姿估计网络来预测摄像机的位姿,但是没有解决尺度漂移的问题。为了解决这个问题,Frost等人采用CNN从连续的视频帧中进行速度回归[37],通过将估计速度进一步集成到集束调整中,成功实现了尺度漂移校正。
对比以上研究可以发现,有监督学习VO的基本思路为通过使用有标签的数据集训练神经网络,得到利用图片信息映射相机的位姿变化信息的网络结构,从而实现定位。得益于机器学习技术的发展和芯片计算能力的提高,这些端到端的学习方法可以直接从原始图像中自动学习相机位姿变换,并且可以达到甚至超越基于模型的VO的效果。但是,有监督学习的方法需要大量有标签的数据来训练网络,而对数据集进行标注需要大量工作,这限制了其应用范围。
3.3无监督学习的VO
基于无监督学习的VO不需要对数据进行标注,具有更好的适应性和泛化能力,是一个重要的研究方向。
由于受到图像仿射变换技术(Spatial Transformer)的启发[38],与VO相关的无监督深度学习方法主要集中在深度估计领域。Builtuponit等人利用立体图像对的左右光度约束提出了一种无监督深度估计方法[39],之后R.Garg等人采用左右目的光度误差作为损失函数,通过优化左右视图的仿射关系进一
电子点烟器
步对该算法进行优化[40]。在此基础上,Zhou等人利用单目图片对网络进行训练,可以得到含有绝对尺度的相机运动[41]。这些是早期的通过无监督方法估计相机运动的方法,展示出了无监督方法在相机位姿估计中的潜力。
Zhou等人提出了一种无监督深度学习的自我运动和深度估计系统[41],试验结果表明,系统性能与有监督的方法相当。但是,由于使用的是单目相机,系统无法恢复运动的绝对尺度。为了解决这个问题,Li等人受无监督深度估计方法的启发[40-41]提出了一种无监督学习的单目视觉测距系统UnDeepVO[42],使用双目图像对进行训练,如图4所示。UnDeepVO在位姿预测和深度估计中表现出良好的性能,此外,它还可以恢复6自由度姿势和深度图的绝对比例。Nguyen等[43]也将类似的无监督深度学习方法引入了单应性估计,并实现了不错的效果。H.Zhan等利用双目图片恢复运动的真实尺度,在相机基线已知时,在左右图像对之间额外引入了光度误差。完成训练后,该网络可以用单张图像进行位姿估计,因此所用的测试集和训练集是不同的[44]。最近的研究结果表明,图像景深估计和相机位姿估计可以通过光度损失函数代替基于真值的损失函数,使用无监督的方法进行学习。SfM-Learner[41]是第一个同时学习摄像机运动和深度估计的自我监督方法,SCSfM-Learner[45]是在其结构基础上提出的一种方法,它通过加强深度一致性来解决SfM-Learner中的尺度问题,该几何一致性损失会增强预测深度图和重构深度图之间的一致性。该框架将预测的深度图转换为3D结构,并将其投影回深度图以生成重建的深度图,这样深度预测便能够在连续帧上保持尺度一致。
图4UnDeepVO网络架构[42]
端到端的方法视频输入CNN RNN位姿
时间
张量
位姿
图像序列D e e p R C N N
输入图片
左目图片右目图片
训练测试反向传播
位姿
单目图片
(测试数据)
--5
2021年第1期

本文发布于:2024-09-23 05:33:07,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/263956.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:学习   进行   位姿
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议