图像语义分割_uNetXST：将多个车载摄像头转换为鸟瞰图语义分割图像

磨具制造图像语义分割_uNetXST：将多个车载摄像头转换为鸟瞰图语

义分割图像

作者：Longway

来源：@3D视觉⼯坊

概述

准确的环境感知对于⾃动驾驶来说是⾮常重要的，当⽤单⽬摄像头时，环境中的距离估计是⼀个很⼤的挑战。当摄像机视⾓转换为鸟瞰视⾓(BEV)时，距离能够更加容易的建⽴。对于扁平表⾯，逆透视映射能够准确的转换图像到BEV。但是对于三维物体来说，会被这种转换所扭曲，使得很难估计他们相对于传感器的位置。

这篇⽂章描述了⼀种获取360°鸟瞰图的⽅法，这些图像来⾃于多个摄像头。对校正后的BEV图像进⾏语义分割，并预测遮挡的部分。该⽅法不需要⼿⼯标注数据，⽽是在合成数据集上⾯进⾏训练，这样就能够在真实世界表现更好的效果。

介绍

气门座圈最近，⾃动驾驶受到⼯业研究的⼴泛关注。⾃动驾驶的其中⼀个关键因素是准确的感知周围的环境，这对于安全来说⾄关重要。

不同的环境表⽰通过环境中的坐标信息都能够被计算出来，在⽤于了解环境的不同类型的传感器中，摄像机因其低成本和成熟的计算机视觉技术⽽流⾏。由于单⽬摄像机只能提供图像平⾯上位置的信息，因此可以对图像进⾏透视变换。

透视变换是从⼀个视⾓所看到的相同场景的近似，在这个视⾓中，成像平⾯与摄像机前⾯的地平⾯对齐。将相机图像转换为BEV的⽅法通常称为逆变换⾓度映射(IPM)。IPM假设世界是扁平的，但是任何三维物体都会违背这⼀假设，所以不太适⽤。

尽管IPM引⼊的错误是可以校正的，但是仍然需要在BEV中检测⽬标。深度学习⽅法对于语义分割等任务来说⾮常有效，但是需要标记数据，尽管模拟可以获得这些数据，和真实数据⽐起来还是有⼀些差距。从模拟中学习到的复杂任务到现实世界的归纳是困难的，为了缩⼩差距，许多⽅法都旨在使模拟数据更加真实。

在本⽂中，作者提出了⼀种不受IPM下的平度假设所带来的误差影响的BEV图像获取⽅法。通过计算语义分割的摄像机图像，从真实数据中去除⼤部分不必要的纹理。

通过语义分割的输⼊，该算法能够获取类信息，从⽽能够将这些信息纳⼊IPM⽣成的图像的校正中。模型的输出是输⼊场景的语义分段BEV，由于对象形状被保留，输出不仅可以⽤于确定⾃由空间，⽽且可以定位动态对象。

此外，语义分割的BEV图像包含了未知区域的颜⾊编码，这些未知区域被遮挡在原始摄像机图像中。IPM得到的图像和所需的真实BEV图像如下图所⽰。

这项⼯作的贡献如下所⽰：

1：提出了⼀种在BEV中能够将多个车载摄像机图像转换为语义分割图像的⽅法；

2：使⽤不同的神经⽹络架构，设计并⽐较了两种不同的⽅法，其中⼀种是专门为这项任务设计的；

3：在设计过程中，不需要对BEV图像进⾏⼈⼯标记来训练基于神经⽹络的模型；

4：最后展⽰了⼀个成功的实际应⽤的模型。