SLAM综述:激光雷达与视觉SLAM

石英陶瓷辊SLAM综述:激光雷达与视觉SLAM
第⼀节概述。
第⼆节讲述激光SLAM:激光传感器,开源系统深度学习的应⽤。
第三节讲述视觉SLAM:相机传感器,开源系统,视觉惯性⾥程计,深度学习的应⽤。
第四节讲述激光雷达与视觉的融合。 最后展望SLAM的发展前景。
第⼀节:概述
**SLAM:**同时定位和建图(Simultaneous Localization and Mapping)。为了精确的定位,需要有精确的环境地图;为了得到精确的环境地图,需要有精确的定位。这便是先有鸡还是先有蛋的问题了。于是乎,只能同时定位与建图—SLAM。
事情还要追溯到1990年,【Estimating uncertain spatial relationships in robotics】利⽤扩展卡尔曼滤波器估计机器⼈姿态的后验分布。于是越来越多的研究者开始进⼊研究(⼊坑)。其中对于定位的研究主要基于GPS (Global Positioning System), IMU (Inertial Measurement Unit), and wireless signal。GPS只有在室外定位才⽐较精准,IMU具有累积误差,⽆限信号受制于成本和精确度。
⽬前较为主流的是filter-based SLAM, Graph-based SLAM。
第⼆节:激光SLAM
最开始是给机器⼈装备的SLAM系统融合了伺服驱动声呐传感器和扩展卡尔曼滤波器。后来激光的引⼊才使得SLAM勉强能看。
根据激光束的不同可将激光传感器区分为2D和3D传感器,都逐渐趋向于轻量化与⼩型化。作者还在⽂章中列举了⼀些传感器的公司和激光SLAM系统,系统分为2D SLAM系统(Gmapping、HectorSlam、KartoSLAM),3D SLAM系统(Loam、Lego-Loam、Cartographer),以及采⽤深度学习的激光 SLAM的系统。
困难及展望:
1.成本及适应性
激光的优势在于提供了3D信息(视⾓能到360°),且不受光线的影响。但是技术门槛⾼且贵。⽬前正在向⼩型化、成本低、⾼可靠性和适应性的趋势发展。
此处叙述有误,感谢评论区⼤佬指出
2.低维特征及动态环境
激光SLAM在低纹理环境下(⽐如⾛廊和管道)效果不好,于是【Imuassisted 2d slam method for low-texture and dynamic environments】将IMU和2D SLAM相结合以解决这类问题。【Dynamic pose graph slam: Long-term mapping in low dynamic environments】将时间维度融⼊到映射的过程中,以便在动态环境中精确建图。
3.对抗性样本
尼龙包胶线为了使系统规避⼀些潜在的风险,有⼀部分研究⼈员致⼒于⽣成模型的对抗性样本。这也是⼀个不错的研究⽅向。
第三节:视觉SLAM
伴随着图像处理的深⼊研究,以摄像机为传感器的SLAM系统得到了快速发展。与激光传感器相⽐,摄像机更加便宜、⼩且轻。⽬前视觉SLAM已经可以在微PC和嵌⼊式设备上运⾏了,以及⼀些在⼿机上的应⽤。
视觉SLAM系统包括传感器数据的搜集(camera and IMU),前端的视觉(惯性)测程,后端的优化,闭环及映射等,还包括重新定位等附加模块。
A. 视觉传感器
1.单⽬相机
⽆法获取图像的真实深度(官⽅术语:尺度模糊),所以必须初始化,并⾯临漂移问题。但是计算量是真的⼩。
型钢2.双⽬相机(也叫⽴体相机)
顾名思义,即两个单⽬相机的组合。通过左右(⼀般是左右放置,毕竟,类⼈嘛)图⽚的视差来计算物体所处的深度,但是计算量⽐较⼤(我觉得应该怪CPU运算能⼒不⾏,你看我们⼤脑多?,,,时间问题,等等运算⼒就上来了)。
3.RGBD相机
前⾯两个相机都要通过运算才得到深度信息,这哥们就⽐较?了,直接物理外挂—拍照⽚的时候就把深度信息存在进来,⼀般是通过结构光或者TOF技术来实现。但是也有缺点,鲁棒性不太好,应⽤范围有限,室外很少采⽤。
4.事件相机(Event camera)u交
事件相机并不是以固定的速率捕获图像,⽽是异步的测量每个像素的变化。(是不是⼀下就搞蒙了?)说⼈话就是:事件相机并不是⼀直在拍照,⽽是收到信号后才开始记录。它具有⾼动态范围、⾼时间分辨率及低功耗,不会出现运动迷糊。因此在⾼速、⾼动态的环境下优于传统相机。
B. 视觉SLAM系统
利⽤图像信息的⽅法可以分为直接法和基于特征的⽅法。直接法会得到半密集和密集结构,主要⽤于3D重构、导航、避障等⽅⾯,需要处理的数据量很⼤。基于特征的⽅法带来稀疏结构,虽然没法重构出当前场景,但也能得到当前场景中的部分信息,理论上可⽤于定位与跟踪。
1.稀疏的视觉SLAM
MonoSLAM是第⼀个实时单⽬系统,PTAM是第⼀个平⾏跟踪和建图的系统,它⾸先提出了包调整和关键帧的概念。ORB-SLAM采⽤了
MonoSLAM是第⼀个实时单⽬系统,PTAM是第⼀个平⾏跟踪和建图的系统,它⾸先提出了包调整和关键帧的概念。ORB-SLAM采⽤了三个线程:循迹,基于包调整的局部优化和基于位姿图的全局优化,该系统⽀持单⽬、双⽬及RGBD。
2.半密集视觉SLAM
LSD-SLAM(基于单⽬的系统)提出了⼀种基于李代数和直接法的直接跟踪新⽅案。SVO(单⽬)半直接的视觉导航,利⽤基于稀疏模型的图像对齐来获得较快的速度。DSO(单⽬)基于直接法和稀疏法建⽴了⼀个可视化的导航系统。EVO(基于事件相机)是⼀种基于事件的视觉测程算法,不受模糊运动的影响,在⾼动态场景中变现良好。
3.密集视觉SLAM
DTAM(单⽬)在⼀种新的⾮凸优化框架中,通过最⼩化全局空间正则化能量泛函,实现三维模型的实时重建。MLM SLAM(单⽬)⽆需GPU就可以在线重建3D模型(计算量⼩),突出贡献在于多分辨率的深度估计和空间平滑处理。Kinect Fusion(RGBD)⼏乎是第⼀个具有深度摄像机的三维重建系统。DVO(RGBD)提出基于熵的关键帧选择相似度度量和基于g2o框架的闭环检测。
4.视觉惯性测程SLAM
视觉SLAM的距离测定是技术难题:单⽬相机存在必要的初始化,尺度模糊和尺度漂移等问题;双⽬相机和RGBD相机计算量⼤,视场较⼩和场景的动态范围⼩等问题。逐渐,VIO (visual inertial odometry SLAM)视觉惯性⾥程计开始登上舞台。
VIO SLAM的开源系统:
SSF(松耦合、基于过滤器)⼀种基于EKF的单传感器和多传感器时延补偿融合框架;MSCKF-VIO(紧耦合、基于过滤器);ROVIO(紧耦合、基于过滤器、单⽬)扩展跟踪三维地标和图像斑块特征的卡尔曼滤波。
基于深度学习的VIO-SLAM可以在【Unsupervised deep visual-inertial odometry with online error correction for rgb-d imagery.】中看到,该系统不需要惯性测量单元(IMU)的固有参数,也不需要IMU与摄像机之间的外部标定,都⽤深度⽹络搞定。
5.基于深度学习的视觉SLAM
提出了⼀个概念:语义SLAM(semantic SLAM)在SLAM的处理过程中加⼊语义信息以提供⾼层次的理解、⾼鲁棒性、资源感知和任务驱动感知。接下来从三个⽅⾯来分析:
番荔枝种植1)特征及检测
Pop-up SLAM(单⽬)提供了⼀种实时的单⽬平⾯SLAM,证实了语义信息对于状态估计和稠密映射有益,尤其是在低纹理环境中。SuperPoint提出了⼀种⽤于训练兴趣点检测器和描述符的⾃监督框架。GCN-SLAM提出了⼀个基于深度学习的⽹络GCNv2,⽤于⽣成关键点和描述符。SalientDSO可以借助深度学习实现视觉显著性和环境感知。
2)识别与分割
SLAM++(CAD模型)指出了3DSLAM算法为导向的主要优势:充分利⽤了先验知识的循环,即许多场景是由重复的、领域特定的对象和结构组成。
语义融合Semanticfusion (RGBD)将卷积神经⽹络(CNN)和⼀种最先进(这个字眼,⼜来了)的密集SLAM技术相结合。DenseFusion是⼀个⽤于评估的通⽤框架RGB-D图像中⼀组已知物体的6D姿态。
3)恢复规模
CNN-SLAM(单⽬)通过深度学习来估计深度,⾕歌提出了⼀种在单⽬摄像机和场景中⼈员⾃由移动的情况下,基于⾮监督学习的稠密深度预测⽅法。
4)姿态输出及优化
PoseNet能够在没有任何优化的情况下从单张RGB图⽚得到⼀个6⾃由度的姿态。VInet(单⽬)对VIO中的运动进⾏估计,减少对⼿动同步和校准的依赖。DeepVO(单⽬)提出了⼀种基于深度递归卷积的单⽬VO端到端神经⽹络框架(RCNNs)。
5)长期定位
【Probabilistic data association for semantic slam】提出⼀个传感器状态和语义地标位置的优化问题,该问题集成了度量信息、语义信息和数据关联。[Lightweight unsupervised deep loop closure]提出了⼀种新的基于特征嵌⼊的⽆监督深度神经⽹络结构来实现视觉闭环。[Long-term visual localization using semantically segmented images]表明语义信息⽐传统的特征描述符更有效。
6)动态SLAM
RDSLAM(单⽬)是⼀种基于在线关键帧表⽰和修正⽅法的新型单⽬实时SLAM系统,能够在动态环境下鲁棒⼯作。DS-SLAM⼀个基于优化ORB-SLAM的具有语义信息的SLAM系统,语义信息可以使SLAM系统在动态环境下具有更强的鲁棒性。MaskFusion (RGB-D, 稠密点云)是⼀种基于Mask R-CNN的实时、对象感知、语义化、动态的RGB-D SLAM系统,它甚⾄可以在连续的、独⽴的运动中对⽬标进⾏语义标注。Detect-SLAM将SLAM与基于深度神经⽹络的⽬标检测相结合,使得这两种功能在未知动态环境中相互受益。DynaSLAM是⼀个⽀持单⽬、双⽬和RGBD的视觉SLAM系统。StaticFusion提出了⼀种动态环境下的鲁棒稠密的RGB-D SLAM⽅法,该⽅法在检测运动⽬标并同时重建背景结构。
C. 挑战与展望
鲁棒性和可移植性
视觉SLAM⾯临着光照条件、⾼动态环境、快速运动、剧烈旋转和低纹理环境等重要障碍。对于未来的发展,⾸先,全局快门(global shutter)代替滚动快门(rolling shutter)是实现相机精确定位的基础。其次,利⽤边缘、平⾯、地⾯等语义特征,甚⾄减少特征依赖,如结合边缘跟踪、直接跟踪或机器学习的组合,可能成为更好的选择。第三,基于SfM/SLAM的数学机制,精确的数学公式优于隐式学习的导航函数。
未来的展望:SLAM基于⼿机或嵌⼊式平台(如⽆⼈机–UAV),另⼀种是深度学习下的场景理解和三维重建。以及如何平衡系统的实时性和准确性。
防摔玻璃杯多传感器融合
多传感器融合
实际的机器⼈往往是多个传感器的融合。⽬前对移动⼿机VIO的研究将视觉信息与IMU信息进⾏融合,实现两个传感器的优势互补,为SLAM的⼩型化与低成本化提供了⼀种可⾏的⽅案。
语义SLAM
SLAM中的深度学习可以实现⽬标识别与分割,帮助SLAM系统更好的感知周围环境。语义SLAM还可以在全局优化、重定位和循环closure中起作⽤。
软硬件
SLAM系统更加有效地将算法和传感器相融合。⽐如特有处理器,集成传感器等。
第四节:激光雷达和视觉SLAM系统
A. 多传感器标定
a) Camera & IMU
Kalibr是解决标定问题的⼯具箱,其中包括:多个摄像机标定, 视觉-惯性校正(camera-IMU)和滚动快门相机校正。Vins-Fusion具有在线空间校准和在线时间校准
b) Camera & Depth
BAD SLAM提出了⼀个使⽤同步全球快门RGB和深度相机的校准基准
c) Lidar & IMU
LIO-mapping引⼊了⼀种紧密耦合的激光和IMU的融合⽅法。Lidar- align是⼀种寻三维激光雷达和6⾃由度姿态传感器之间的外部校准的简单⽅法。
d) Camera & Lidar
[Automatic online calibration of cameras and lasers]介绍了⼀种概率检测算法和⼀种连续校准的优化器,使得相机能在线⾃动校准。Lidar-Camera提出了⼀种新颖的⽅法和实验装置以寻精确的刚体变换,⽤于外部校准激光雷达和摄像机,使⽤3D-3D点对应。RegNet 是第⼀个在多模态传感器之间推导出6个⾃由度(DOF)外部校准的深度卷积神经⽹络。
B. 激光雷达与视觉融合
a) 硬件层 — Pandora
b) 数据层
激光雷达深度数据稀疏、精度⾼,⽽相机深度数据密集、精度低,这导致基于图像的深度上采样和修复。[Image guided depth upsampling using anisotropic total generalized variation] 提出了⼀种深度图像上采样⽅法。[In defense of classical image processing: Fast depth completion on the cpu.]仅依靠基本的图像处理操作来完成稀疏激光雷达深度数据的深度补全。
c) 任务层
[Intersection safety using lidar and stereo vision sensors]融合双⽬相机和激光雷达来感知。[Multiple sensor fusion and classification for moving object detection and tracking]融合雷达,激光雷达和相机来探测和分类移动的物体。
C. 挑战与未来
a) 数据融合
SLAM会融合越来越多的传感器,对不同的数据类型统⼀处理。还要考虑多传感器之间的物理模型建⽴、状态估计和优化。
b) 集成硬件
顾名思义,在硬件上集成更多功能。
c) 众包(Crowdsourcing)
分散的视觉SLAM适⽤于多机器⼈在绝对定位系统不可⽤的环境中⼯作。协同优化视觉多机器⼈SLAM需要分散的数据和优化,这被称为众包。
d) ⾼清晰度地图
地图清晰对于导航的重要性务须多⾔。
e) 鲁棒性、适应性、可收缩性
⽬前还没有⼀个系统可以覆盖所有的应⽤场景,为了在给定的场景中SLAM可以⼯作,多数场景都需要⼤量的调参。为了让机器⼈像⼈类⼀样感知,相⽐于基于特征,基于外观的⼯作更好,这将有助于将昼夜序列或不同季节之间的语义信息整合成闭环。
f) 抗风险和约束能⼒
完善的SLAM系统应具备故障安全机制和故障感知机制,这不是重定位或闭环问题。SLAM系统必须能对风险和故障做出相应补救措施。同时,SLAM系统应该能在不同的平台上运⾏,不⽤在乎平台限制。研究如何在精度、鲁棒性和有限资源之间取得平衡。
g) 应⽤
SLAM应⽤⼴泛,⽐如定位,导航,三维重建或语义地图重建、环境识别与理解、地⾯机器⼈、⽆⼈机、AR、VR、MR、AGV(⾃动导航车)、⾃动驾驶、虚拟室内设计师、虚拟试⾐间、沉浸式⽹络游戏、地震救援、视频分割和编辑。
最后,端到端的学习会不会主导SLAM?

本文发布于:2024-09-23 00:21:20,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/242193.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:深度   系统   传感器   视觉   信息   环境   语义   学习
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议