图像语义分割_uNetXST:将多个车载摄像头转换为鸟瞰图语义分割图像

磨具制造图像语义分割_uNetXST:将多个车载摄像头转换为鸟瞰图语
义分割图像
作者:Longway
来源:@3D视觉⼯坊
概述
准确的环境感知对于⾃动驾驶来说是⾮常重要的,当⽤单⽬摄像头时,环境中的距离估计是⼀个很⼤的挑战。当摄像机视⾓转换为鸟瞰视⾓(BEV)时,距离能够更加容易的建⽴。对于扁平表⾯,逆透视映射能够准确的转换图像到BEV。但是对于三维物体来说,会被这种转换所扭曲,使得很难估计他们相对于传感器的位置。
这篇⽂章描述了⼀种获取360°鸟瞰图的⽅法,这些图像来⾃于多个摄像头。对校正后的BEV图像进⾏语义分割,并预测遮挡的部分。该⽅法不需要⼿⼯标注数据,⽽是在合成数据集上⾯进⾏训练,这样就能够在真实世界表现更好的效果。
介绍
气门座圈最近,⾃动驾驶受到⼯业研究的⼴泛关注。⾃动驾驶的其中⼀个关键因素是准确的感知周围的环境,这对于安全来说⾄关重要。
不同的环境表⽰通过环境中的坐标信息都能够被计算出来,在⽤于了解环境的不同类型的传感器中,摄像机因其低成本和成熟的计算机视觉技术⽽流⾏。由于单⽬摄像机只能提供图像平⾯上位置的信息,因此可以对图像进⾏透视变换。
透视变换是从⼀个视⾓所看到的相同场景的近似,在这个视⾓中,成像平⾯与摄像机前⾯的地平⾯对齐。将相机图像转换为BEV的⽅法通常称为逆变换⾓度映射(IPM)。IPM假设世界是扁平的,但是任何三维物体都会违背这⼀假设,所以不太适⽤。
尽管IPM引⼊的错误是可以校正的,但是仍然需要在BEV中检测⽬标。深度学习⽅法对于语义分割等任务来说⾮常有效,但是需要标记数据,尽管模拟可以获得这些数据,和真实数据⽐起来还是有⼀些差距。从模拟中学习到的复杂任务到现实世界的归纳是困难的,为了缩⼩差距,许多⽅法都旨在使模拟数据更加真实。
在本⽂中,作者提出了⼀种不受IPM下的平度假设所带来的误差影响的BEV图像获取⽅法。通过计算语义分割的摄像机图像,从真实数据中去除⼤部分不必要的纹理。
通过语义分割的输⼊,该算法能够获取类信息,从⽽能够将这些信息纳⼊IPM⽣成的图像的校正中。模型的输出是输⼊场景的语义分段BEV,由于对象形状被保留,输出不仅可以⽤于确定⾃由空间,⽽且可以定位动态对象。
此外,语义分割的BEV图像包含了未知区域的颜⾊编码,这些未知区域被遮挡在原始摄像机图像中。IPM得到的图像和所需的真实BEV图像如下图所⽰。
这项⼯作的贡献如下所⽰:
1:提出了⼀种在BEV中能够将多个车载摄像机图像转换为语义分割图像的⽅法;
2:使⽤不同的神经⽹络架构,设计并⽐较了两种不同的⽅法,其中⼀种是专门为这项任务设计的;
3:在设计过程中,不需要对BEV图像进⾏⼈⼯标记来训练基于神经⽹络的模型;
4:最后展⽰了⼀个成功的实际应⽤的模型。
相关⼯作
汇聚路由器许多⽂献都说到了视⾓到BEV的转变,⼤多数作品都是基于⼏何的,重点是对地⾯的精确描绘。只有少数作品将摄像机图像转换成BEV与场景理解的任务结合起来。然⽽,他们却忽略了物体检测可以提供物体⼏何形状的线索,从⽽使变换受益。最近,⼀些深度学习⽅法展⽰了复杂的神经⽹络帮助改进经典的IPM技术,使其有助于环境感知。
⽐如说移除动态和三维物体来提⾼对道路场景的理解【1】,或者通过⼀个前置摄像头,合成整个道路场景的精确BEV表⽰【2】,这些⽅法都⽤到了GAN⽹络。还有很多⽅法,但是在作者看来,追求将多个语义分割的图像直接转换为BEV的想法的唯⼀来源是⼀篇博客⽂章【3】。该⽂章设计的神经⽹络是⼀个全卷积的⾃编码器,伴随着很多缺点,⽐如准确的⽬标检测范围相对较低。
⽅法
该作品基于卷积神经⽹络(CNN)的使⽤,但是⼤多数的CNNs只处理⼀个输⼊图像。为了融合安装在车辆上的多个摄像头的图像,单输⼊⽹络可以将多个图像按其通道级联作为输⼊。然⽽,这将导致输⼊和输出图像之间的空间不⼀致,卷积层在局部操作。针对这个问题的学习⽅法需要能够处理多视点图像,这表明需要⼀种额外的机制。
就像前⾯说到的,IPM会引⼊误差,但该技术⾄少能够产⽣与地⾯真实BEV图像相似的图像。由于这种相似性,将IPM作为⼀种机制来提供输⼊和输出图像之间更好的空间⼀致性似乎是合理的。
下⾯将介绍基于神经⽹络的⽅法的两种变体,它们都包含IPM的应⽤。在介绍这两种神经⽹络结构之前,作者详细介绍了应⽤的数据预处理技术。
1、处理遮挡:当只考虑输⼊域和期望的输出时,会出现⼀个明显的难题:交通参与者和静态障碍可能会遮挡部分环境,使得在BEV图像中预测这些区域⼏乎不可能。举个例⼦,当你在卡车后⾯⾏驶时,就会出现这样的遮挡:卡车前⾯发⽣的情况不能仅从车载摄像机的图像可靠地判断出来。
如何解决这位问题?作者对于每个车辆摄像机,虚拟光线从其安装位置投射到语义分割的地⾯真值BEV图像的边缘。对沿着这些射线的所有像素进⾏处理,根据以下规则确定它们的遮挡状态:
1.1:⼀些语义类如建筑、卡车总是阻塞视线;
1.2:⼀些语义类如道路从不遮挡视线;
1.3:汽车会挡住视线,但后⾯较⾼的物体如卡车、公共汽车除外;
1.4:部分被遮挡的物体仍然完全可见;
1.5:物体只有在所有的相机透视图中都被遮挡的情况下才被标记为被遮挡。
根据这些规则修改的真实BEV图像如下图所⽰。
2、投影预处理:IPM技术作为⽅法中的⼀部分,作者推导了汽车摄像机框架与BEV之间的投影变换,确定了单应矩阵涉及的相机内部和外部参数,并应在下⾯简要说明。
世界坐标xw和图像坐标xi之间的关系由以下投影矩阵P给出:
投影矩阵将相机的内在参数如焦距编码为⼀个矩阵K和外参(世界坐标系中的旋转R和平移t):
假设存在从道路平⾯xr到世界坐标系的变换M:
就可以获得从图像坐标xi到道路平⾯xr的转换:
设置该变换作为捕捉与真实BEV图像相同的视野。由于这⼀区域被所有摄像机图像的并集覆盖,因此它们⾸先通过IPM分别变换,然后合并成⼀个单独的图像,以下称为单应图像。重叠区域中的像素,即从两个摄像机可见的区域,从变换后的图像中任意选择⼀个。
3、变体1-单输⼊模型:作者预先计算如上节所⽰的单应性图像,以弥补相机视图和BEV之间的很⼤⼀部分差距。作者在此提供了神经⽹络输⼊与输出在⼀定程度上的空间⼀致性,⽹络的任务就是纠正IPM带来的错误。橡塑发泡保温材料
由于单应性图像和期望的⽬标输出图像覆盖相同的空间区域,作者使⽤已有的CNNS进⾏图像处理,这在语义分割等其他任务上已经被证明是成功的。最后作者选择了DeepLabv3+作为单⽹络输⼊的架构。
4、变体2-多输⼊模型:该模型处理来⾃车辆摄像头的所有⾮转换图像作为输⼊,在未转换的相机视图中提取特征,因此不完全受IPM引⼊的误差的影响。作为⼀种解决空间不⼀致性问题的⽅法,作者将射影变换集成到⽹络中。
为了构建⼀个多输⼊单输出图像的架构,作者将现有的CNN扩展为多个输⼊流,并在内部融合这些流。由于其简单性和易于扩展性,作者选择了流⾏的语义分割架构U-Net作为扩展的基础。最后简单的⽹络结构如下所⽰:
结果展⽰
管道防爬刺在模拟数据集上⾯的测试效果
在真实世界的测试效果
总结和思考
作者提出了⼀种能够通过多个车载摄像头采集到的数据,获得道路状况鸟瞰图的⽅法。其中解决了⼀些不利因素的影响,如前⾯提到不正确的平⾯假设所产⽣的误差,并且⽆需⼈⼯标记BEV数据集,最后产⽣的效果如上图所⽰。
在我看来,这是⼀项⾮常棒的⼯作,对于⾃动驾驶环境感知的研究有很⼤帮助。但是仍然有⼀些不⾜,在模拟数据集上⾯的效果和标签相差⽆⼏,在真实世界的效果却不是很好。同时道路交通也是⼀个⾮常复杂的情况,需要更深层次的研究。
真空泵叶片
【1】T. Bruls, H. Porav, L. Kunze, and P. Newman, “The Right (Angled) Perspective: Improving the Understanding of Road Scenes Using Boosted Inverse Perspective Mapping,” in 2019 IEEE Intelligent Vehicles Symposium (IV), 2019, pp. 302–309.
【2】X. Zhu, Z. Yin, J. Shi, H. Li, and D. Lin, “Generative Adversarial Frontal View to Bird View Synthesis,”
arXiv:1808.00327 [cs], 2019.
本⽂仅做学术分享,如有侵权,请联系删⽂。

本文发布于:2024-09-20 21:38:53,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/236736.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:图像   摄像机   作者   数据   语义   遮挡
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议