CVPR2020:三维实例分割与目标检测

CVPR2020：三维实例分割与⽬标检测

Joint 3D Instance Segmentation and Object Detection for Autonomous Driving

论⽂地址：

摘要

⽬前，在⾃主驾驶（AD）中，⼤多数三维⽬标检测框架（基于锚定或⽆锚）都将检测视为⼀个边界盒（BBox）回归问题。然⽽，这种紧凑的表⽰不⾜以探索对象的所有信息。为了解决这个问题，我们提出了⼀个简单实⽤的检测框架来联合预测3D BBox和实例分割。例如分割，我们提出⼀种空间嵌⼊策略，将所有前景点集合到它们对应的对象中⼼。基于聚类结果，可以采⽤简单的聚类策略⽣成⽬标⽅案。对于每个集，只⽣成⼀个建议。因此，这⾥不再需要⾮最⼤抑制（NMS）过程。最后，通过我们提出的基于实例的ROI池化，BBox被第⼆阶段⽹络改进。在公共KITTI数据集上的实验结果表明，与其他基于特征嵌⼊的⽅法相⽐，本⽂提出的SEs⽅法能显著提⾼实例分割的效果。同时，它也优于KITTI数据集测试基准上的⼤多数三维物体探测器。

1. 介绍

⽬标检测作为AD和机器⼈领域的⼀项基础性⼯作，近年来得到了⼴泛的研究。基于⼤量的标记数据集[8]、[38]、[39]和⼀些超强的基线，如基于建议的[9]、[35]和基于锚的⽅法[26]、[34]，⽬标检测的性能得到了显著的提⾼。为了便于泛化，对象通常表⽰为⼀个2D-BBox或3D-cubody，这些参数包括BBox的中⼼、维度和⽅向等。许多⽅法已经证明，这种简单的表⽰⽅法适⽤于深度学习框架，但也有⼀些局限性。例如，对象的形状信息被完全丢弃。此外，对于某个BBox，来⾃背景或其他对象的⼀些像素不可避免地被包含在其中。在闭塞的情况下，这种情况变得更加严重。此外，BBox表⽰不够精确，⽆法描述对象的确切位置。为了很好地克服这个限制，每个BBox都使⽤了⼀个额外的实例掩码来消除其他对象或背景的影响。通常，实例掩码是⼆进制的，⽤于描述像素是否属于此对象。通过这种表达⽅式，即使每个对象之间有很⼤的重叠，也可以清楚地区分它们。例如，⼀个简单的分割⽅法是⾸先检测对象，然后将其作为⼀个分类问题逐⼀预测每个BBox的⼆进制掩码。沿着这个⽅向，⼈们提出了各种各样的优秀作品，Mask RCNN[13]就是其中之⼀。

然⽽，Mask R CNN是⼀个两阶段的框架，其性能在很⼤程度上取决于其第⼀阶段的⽬标检测结果，例如快速R-CNN[9]或快速R-CNN[35]。另⼀个流⾏的分⽀是基于⽆提案的⽅法，它主要基于嵌⼊损失函数或像素单位学习，如[28]。由于这些⽅法通常依赖于密集的预测⽹络，因此它们⽣成的实例掩码可以具有⾼分辨率。此外，⽆建议⽅法通常⽐基于建议的⽅法报告更快的运⾏时间，但是，它们⽆法给出与基于两个阶段的⽅法可⽐较的结果。近年来，随着距离传感器（如激光雷达、RGB-D相机）的快速发展和AD的需求，基于三维点云的深度学习被频繁地提到。受⼆维⽬标检测框架的启发，设计了⼀些基于单阶段或两阶段的三维⽬标检测框架，如截锥点⽹[31]、体素⽹[54]、第⼆阶

段[46]、点柱[18]、点RCNN[37]、STD[48]等，[41]和[17]提出将实例信息嵌⼊到特征空间中，然后⽤meanshift聚类策略将其分离。三维⽬标检测在室内场景[30]和室外场景[52]中都得到了很好的研究。然⽽，⼤多数三维实例分割⽅法都是针对室内环境⽽设计的，很少能直接⽤于室外AD转换场景。在⽂献[19]中，Leibe等⼈提出了⼀种利⽤隐式形状模型同时进⾏⽬标分类和分割的⽅法，该模型可以将这两个任务集成到⼀个通⽤的概率框架中。⾸先，提取⼀些可能的局部补丁，并与现成的码本进⾏匹配。然后，每个激活的⾯⽚对对象中⼼的可能位置进⾏投

射。最后，采⽤mean-shift聚类技术在投射空间上到正确的⽬标位置。

受[19]的启发，我们提出同时从点云中联合检测和分割三维物体。同样，对于每个前景（FG）点，SE

s都是从⼀个深层神经⽹络中学习的，该⽹络对其所属的对象信息进⾏编码，如中⼼、维度和⽅向等。基于SEs，FG对象的点可以分别被拉⼊各⾃的BBoxes中⼼。通过学

三维景点

习SEs，使⽤聚类策略可以很容易地⽣成实例分割和ROI（感兴趣区域）建议。图2⽰出了FG对象的预测SE的⽰例，其中所有学习的SE向量从点开始并指向对象的中⼼。在这项⼯作中，我们提出在⼀个统⼀的框架中联合解决⽬标检测和实例分割，以提⾼彼此的性能。通过这样做，可以同时考虑本地实例和全局形状信息。总之，本⽂的贡献可以概括为

•设计了⼀个统⼀的端到端可训练框架，可以为AD转换场景联合获得3D BBox和实例分割。

•与⼆维图像中常⽤的特征嵌⼊⽅法相⽐，我们提出了综合考虑全局BBox和局部点信息的SE⽅法。

•公共KITTI数据集的实验结果证明了与其他最新⽅法相⽐的有效性和效率。

2. 相关⼯作

基于图像的⽬标检测与实例分割：⼆维⽬标检测[5]和实例分割[15]近年来引起了众多研究者的关注，并产⽣了各种性能优异的⽅法。近年来，在快速/快速RCNN和掩模RCNN等强⼤的基线系统的基础上，⽬标检测和实例分割在不同的公共基准上都得到了快速的改进，由于篇幅的限制，本⽂只介绍了最近提出的实例分割框架，供读者参考最近的综述论⽂[50]对⽬标检测的更多描述。⽬前，⼆维实例分

割的性能主要由基于两个阶段的⽅法主导，⽽Mask-RCNN通常被认为是其中的开拓性⼯作。这种⽅法基于检测和分割，⾸先利⽤现代⽬标检测器检测前景⽬标的包围盒，然后对每个⽬标逐个预测⼆值掩模。基于这⼀超强基线，先后提出了许多不同的版本[2]。虽然该⽅法在精度⽅⾯提供了良好的结果，但它⽣成的低分辨率掩模并不总是理想的（例如，对于照⽚编辑应⽤程序）并且以低帧速率操作，这使得它不适⽤于诸如AD的实时应⽤程序。

三维⽬标检测与实例分割：

随着距离传感器和AD转换技术的发展，交通场景中的三维⽬标检测越来越流⾏。受基于图像的⽬标检测启发，⾸先将点云投影到⼆维（如鸟瞰图[3]或前视图[44]）中获得⼆维检测结果，然后将⼆维BBox重新投影到三维中得到最终结果。三维物体检测的另⼀个代表性⽅向是基于体积卷积的⽅法，因为图形处理资源的快速发展。体素⽹[54]是利⽤体素来表⽰激光雷达点云，直接⽤三维卷积来检测三维物体的⼀项开创性⼯作。基于体素⽹的框架，提出了第⼆种⽅法[46]和点柱⽅法[18]。与上述两个⽅向不同，PointNet[32]是另⼀种有⽤的点云特征提取技术。沿着这⼀⽅向，已经提出了⼏种最先进的三维物体检测⽅法[31，37]。SGPN[40]是⾸次提出在室内环境中对三维点云进⾏实例分割的⼯作。在这项⼯作中，我们基于所提取的点⽹[32]特征为每个点建⽴了相似矩阵。然后训练分类器对两个点是否属于同⼀对象进⾏分类。

与SGPN不同的是，新提出的GSPN[49]是⼀个⽣成形状建议⽹络，它根据物体的先验形状信息和观测到的三维点云⽣成物体的三维模

型。MASC[23]依赖于SparseConvNet[10]体系结构的卓越性能，并将其与跨多个尺度估计的实例精度分数相结合。在[41]中，在特征嵌⼊过程中，作者提出将语义和实例分割的特征融合在⼀起。在[17]中，⽅向信息也被应⽤于特征嵌⼊过程。最后，通过嵌⼊特征空间的均值平

移mean-shift对实例进⾏聚类。

点云深度学习：

与⼆维图像不同，点云是⽆组织的，传统的CNN不能直接⽤于特征提取。为了利⽤经典的cnn，提出⾸先将点云投影到正视图或鸟瞰视图中，然后可以直接应⽤为2D图像设计的所有2D cnn。点云数据的另⼀个流⾏表⽰是体素化体积[54、27、36]。在此基础上，在三维坐标系中对所有点进⾏良好的组织，然后利⽤三维CNNs进⾏特征提取。由于点云的稀疏性，这些表⽰的缺点是内存问题。为了解决这⼀问题，提出了稀疏卷积，其中卷积只发⽣在有效体素上。基于此操作[46，10]，速度和内存问题都得到了解决。另⼀个⽅向是直接处理点云⽽不进⾏任何变换。本⽂的开创性⼯作是PointNet[32]，它应⽤MLPs直接提取点特征。沿着这个⽅向，许多框架被提出⽤于分类[33]、对象检

测[37]、语义分割[14，29]和其他应⽤[25，24，7]。

3. 提议的⽅法

我们的⽬标是在AD转换场景中，在给定的点云单帧内联合解决三维实例分割和检测问题。特别地，点云被⼴泛使⽤的64线Velodyne激光雷达传感器扫描。通过实例分割和检测的结合，我们可以得到以下好处：1）基于实例掩模的表⽰⽅法能够很好地捕捉局部⼏何信息点；2）基于BBox的对象表⽰⽅法能够帮助挖掘整个对象的全局形状信息。

3.1．概述

图3描述了我们的⽅法的概述。⼀般来说，本⽂提出的⽅法可以分为两部分：基于SE学习的⽬标建议和局部BBoxes改进。⾸先，可以通过使⽤⾻⼲⽹（例如PointNet++[33]）来获得点特征。通过采样和分组操作，提取了局部特征和全局上下⽂信息。在⾻⼲⽹的基础上，有语义分割和实例感知两个分⽀，分别编码为对象的中⼼和维度等，每个点都可以⽅便地⽣成语义类的基本真实性和所属BBox的信息。因此，⽹络的第⼀阶段可以通过监控信号进⾏训练。在SE结果的基础上，采⽤深度聚类层进⾏实例分割。同时，对于每个集，也会⽣成⼀

个BBox。然后，对于每个提案，应⽤⼀个重新定义的⽹络（例如PointNet[32]）来重新定义每个提案的3D BBox。在这⾥，所有建议共享相同的⽹络参数。为了更进⼀步，我们将这些建议转换为局部标准化坐标系。最后，重新定义的⽹络输出重新定义的3D BBoxes和实例掩码。

3.2．实例感知SE

受2D实例分割[28]的启发，已有许多研究[41]利⽤判别损失函数在特征空间（⽽不是直接在空间空间）中分割对象[17]。通过使⽤这种丢失，属于同⼀实例的特征被拉近，属于不同实例的特征被推远。然⽽，实例标签信息不能直接显式地集成到损失函数中，这种损失是⽤⼏个超参数在特征空间进⾏编码的[6]。尽管这种⽅法在室内环境中取得了令⼈印象深刻的性能，但是很少有⼈提出⽤于AD转换场景的⽅法。在介绍我们的⽅法之前，我们分析了⼆维图像和三维图像在实例分割⽅⾯的差异，⽐例尺[51]、空间布局模糊和遮挡是⼆维图像空间中的三个主要问题。它们严重影响了⽬标检测和实例分割的性能。⽽这些问题在三维点云中已经不存在了。相反，物体在空间中变得可分离。然⽽，从点云直接使⽤聚类⽅法会产⽣未经验证的结果。因此，为了便于聚类或分割，需要⼀个设计良好的中间过程来探索该点的潜在属性，如语义类、实例标签和该点所属的对象信息。点云特征提取：为了提取点云的逐点特征，我们采⽤了常⽤的PointNet++⽹络作为⾻⼲⽹络，具有多尺度采样和分组操作。特别地，所设计的框架是独⽴于⾻⼲⽹的，可以被PointConv[45]、EdgeConv[42]或稀疏卷积⽹络[11]等其它结构所

代替。基于所提取的特征，我们希望对⽬标信息进⾏如下预测。语义信息：以点特征为输⼊，设计了⼀个⽤于语义类预测的分割分⽀。由于采⽤了多尺度采样和分组策略，使得局部结构和全局上下⽂信息都被编码到每个点特征向量中。这对于处理不同⼤⼩的对象很有⽤。

3.3．基于聚类的⽅案⽣成

根据预测的SEs结果，将所有FG点聚合到相应对象的质⼼上。我们在图3的右上⾓显⽰了⼀个预测SE的例⼦，其中我们⽤红⾊表⽰拉点（原始位置加上预测偏移）。从这个例⼦中，我们可以明显地发现，这些红点可以通过简单的聚类算法（即K-均值[1]）很容易地分离出来。实例分割结果的⽰例也⽰于图3的右下⾓，其中每个实例已⽤不同颜⾊显⽰。在聚类之后，还通过平均前k个预测（例如，k=5）为每个实例⽣成⼀个平均BBox。此外，我们将为下⼀阶段的感兴趣区域（ROI）池保留点和BBox的聚类id。

3.4．BBox刷新

虽然第⼀阶段的BBox预测⾮常精确，但仍有⼀定的改进空间。与其他基于两阶段的⽅法类似，我们直接执⾏基于对象⽅案内部点

的PointNet++⽹络。此外，提出了⼀种基于实例的ROI轮询策略，以弥补BBox在提议阶段的不精确性。具体来说，在这个策略中已经做了两件事：第⼀，属于⼀个集的点将被⽤于第⼆阶段，即使其中⼀些点不在BBox内。其次，如果某些FG点与BBox共享不同的集id，那么即使它们位于BBox内，也会被删除。为了更好地利⽤局部信息，我们将该⽅案转换为局部标准化坐标系。对于每个返还率，M点和第⼀阶段提取的特征被随机选择作为返还⽹络的输⼊。

3.5．多任务丢失

使⽤多任务丢失来训练我们的⽹络。这⾥使⽤了三种损失，包括语义分割损失、SE损失和3D-BBox回归损失。此外，这⾥还使⽤了⼀些炒作参数来平衡它们的贡献。

4. 实验测试Experimental Results

本文发布于:2024-09-21 14:45:26，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/3/371363.html

上一篇：高职旅游专业智慧旅游教学平台建设与应用研究

下一篇：立体机详细资料