CVPR2020:三维实例分割与目标检测

CVPR2020:三维实例分割与⽬标检测
CVPR2020:三维实例分割与⽬标检测
Joint 3D Instance Segmentation and Object Detection for Autonomous Driving
论⽂地址:
摘要
⽬前,在⾃主驾驶(AD)中,⼤多数三维⽬标检测框架(基于锚定或⽆锚)都将检测视为⼀个边界盒(BBox)回归问题。然⽽,这种紧凑的表⽰不⾜以探索对象的所有信息。为了解决这个问题,我们提出了⼀个简单实⽤的检测框架来联合预测3D BBox和实例分割。例如分割,我们提出⼀种空间嵌⼊策略,将所有前景点集合到它们对应的对象中⼼。基于聚类结果,可以采⽤简单的聚类策略⽣成⽬标⽅案。对于每个集,只⽣成⼀个建议。因此,这⾥不再需要⾮最⼤抑制(NMS)过程。最后,通过我们提出的基于实例的ROI池化,BBox被第⼆阶段⽹络改进。在公共KITTI数据集上的实验结果表明,与其他基于特征嵌⼊的⽅法相⽐,本⽂提出的SEs⽅法能显著提⾼实例分割的效果。同时,它也优于KITTI数据集测试基准上的⼤多数三维物体探测器。
1. 介绍
⽬标检测作为AD和机器⼈领域的⼀项基础性⼯作,近年来得到了⼴泛的研究。基于⼤量的标记数据集[8]、[38]、[39]和⼀些超强的基线,如基于建议的[9]、[35]和基于锚的⽅法[26]、[34],⽬标检测的性能得到了显著的提⾼。为了便于泛化,对象通常表⽰为⼀个2D-BBox或3D-cubody,这些参数包括BBox的中⼼、维度和⽅向等。许多⽅法已经证明,这种简单的表⽰⽅法适⽤于深度学习框架,但也有⼀些局限性。例如,对象的形状信息被完全丢弃。此外,对于某个BBox,来⾃背景或其他对象的⼀些像素不可避免地被包含在其中。在闭塞的情况下,这种情况变得更加严重。此外,BBox表⽰不够精确,⽆法描述对象的确切位置。为了很好地克服这个限制,每个BBox都使⽤了⼀个额外的实例掩码来消除其他对象或背景的影响。通常,实例掩码是⼆进制的,⽤于描述像素是否属于此对象。通过这种表达⽅式,即使每个对象之间有很⼤的重叠,也可以清楚地区分它们。例如,⼀个简单的分割⽅法是⾸先检测对象,然后将其作为⼀个分类问题逐⼀预测每个BBox的⼆进制掩码。沿着这个⽅向,⼈们提出了各种各样的优秀作品,Mask RCNN[13]就是其中之⼀。
然⽽,Mask R CNN是⼀个两阶段的框架,其性能在很⼤程度上取决于其第⼀阶段的⽬标检测结果,例如快速R-CNN[9]或快速R-CNN[35]。另⼀个流⾏的分⽀是基于⽆提案的⽅法,它主要基于嵌⼊损失函数或像素单位学习,如[28]。由于这些⽅法通常依赖于密集的预测⽹络,因此它们⽣成的实例掩码可以具有⾼分辨率。此外,⽆建议⽅法通常⽐基于建议的⽅法报告更快的运⾏时间,但是,它们⽆法给出与基于两个阶段的⽅法可⽐较的结果。近年来,随着距离传感器(如激光雷达、RGB-D相机)的快速发展和AD的需求,基于三维点云的深度学习被频繁地提到。受⼆维⽬标检测框架的启发,设计了⼀些基于单阶段或两阶段的三维⽬标检测框架,如截锥点⽹[31]、体素⽹[54]、第⼆阶
段[46]、点柱[18]、点RCNN[37]、STD[48]等,[41]和[17]提出将实例信息嵌⼊到特征空间中,然后⽤meanshift聚类策略将其分离。三维⽬标检测在室内场景[30]和室外场景[52]中都得到了很好的研究。然⽽,⼤多数三维实例分割⽅法都是针对室内环境⽽设计的,很少能直接⽤于室外AD转换场景。在⽂献[19]中,Leibe等⼈提出了⼀种利⽤隐式形状模型同时进⾏⽬标分类和分割的⽅法,该模型可以将这两个任务集成到⼀个通⽤的概率框架中。⾸先,提取⼀些可能的局部补丁,并与现成的码本进⾏匹配。然后,每个激活的⾯⽚对对象中⼼的可能位置进⾏投
射。最后,采⽤mean-shift聚类技术在投射空间上到正确的⽬标位置。
受[19]的启发,我们提出同时从点云中联合检测和分割三维物体。同样,对于每个前景(FG)点,SE
s都是从⼀个深层神经⽹络中学习的,该⽹络对其所属的对象信息进⾏编码,如中⼼、维度和⽅向等。基于SEs,FG对象的点可以分别被拉⼊各⾃的BBoxes中⼼。通过学
三维景点
习SEs,使⽤聚类策略可以很容易地⽣成实例分割和ROI(感兴趣区域)建议。图2⽰出了FG对象的预测SE的⽰例,其中所有学习的SE向量从点开始并指向对象的中⼼。在这项⼯作中,我们提出在⼀个统⼀的框架中联合解决⽬标检测和实例分割,以提⾼彼此的性能。通过这样做,可以同时考虑本地实例和全局形状信息。总之,本⽂的贡献可以概括为
•设计了⼀个统⼀的端到端可训练框架,可以为AD转换场景联合获得3D BBox和实例分割。
•与⼆维图像中常⽤的特征嵌⼊⽅法相⽐,我们提出了综合考虑全局BBox和局部点信息的SE⽅法。
•公共KITTI数据集的实验结果证明了与其他最新⽅法相⽐的有效性和效率。
2. 相关⼯作
基于图像的⽬标检测与实例分割:⼆维⽬标检测[5]和实例分割[15]近年来引起了众多研究者的关注,并产⽣了各种性能优异的⽅法。近年来,在快速/快速RCNN和掩模RCNN等强⼤的基线系统的基础上,⽬标检测和实例分割在不同的公共基准上都得到了快速的改进,由于篇幅的限制,本⽂只介绍了最近提出的实例分割框架,供读者参考最近的综述论⽂[50]对⽬标检测的更多描述。⽬前,⼆维实例分
割的性能主要由基于两个阶段的⽅法主导,⽽Mask-RCNN通常被认为是其中的开拓性⼯作。这种⽅法基于检测和分割,⾸先利⽤现代⽬标检测器检测前景⽬标的包围盒,然后对每个⽬标逐个预测⼆值掩模。基于这⼀超强基线,先后提出了许多不同的版本[2]。虽然该⽅法在精度⽅⾯提供了良好的结果,但它⽣成的低分辨率掩模并不总是理想的(例如,对于照⽚编辑应⽤程序)并且以低帧速率操作,这使得它不适⽤于诸如AD的实时应⽤程序。
三维⽬标检测与实例分割:
随着距离传感器和AD转换技术的发展,交通场景中的三维⽬标检测越来越流⾏。受基于图像的⽬标检测启发,⾸先将点云投影到⼆维(如鸟瞰图[3]或前视图[44])中获得⼆维检测结果,然后将⼆维BBox重新投影到三维中得到最终结果。三维物体检测的另⼀个代表性⽅向是基于体积卷积的⽅法,因为图形处理资源的快速发展。体素⽹[54]是利⽤体素来表⽰激光雷达点云,直接⽤三维卷积来检测三维物体的⼀项开创性⼯作。基于体素⽹的框架,提出了第⼆种⽅法[46]和点柱⽅法[18]。与上述两个⽅向不同,PointNet[32]是另⼀种有⽤的点云特征提取技术。沿着这⼀⽅向,已经提出了⼏种最先进的三维物体检测⽅法[31,37]。SGPN[40]是⾸次提出在室内环境中对三维点云进⾏实例分割的⼯作。在这项⼯作中,我们基于所提取的点⽹[32]特征为每个点建⽴了相似矩阵。然后训练分类器对两个点是否属于同⼀对象进⾏分类。
与SGPN不同的是,新提出的GSPN[49]是⼀个⽣成形状建议⽹络,它根据物体的先验形状信息和观测到的三维点云⽣成物体的三维模
型。MASC[23]依赖于SparseConvNet[10]体系结构的卓越性能,并将其与跨多个尺度估计的实例精度分数相结合。在[41]中,在特征嵌⼊过程中,作者提出将语义和实例分割的特征融合在⼀起。在[17]中,⽅向信息也被应⽤于特征嵌⼊过程。最后,通过嵌⼊特征空间的均值平
移mean-shift对实例进⾏聚类。
点云深度学习:
与⼆维图像不同,点云是⽆组织的,传统的CNN不能直接⽤于特征提取。为了利⽤经典的cnn,提出⾸先将点云投影到正视图或鸟瞰视图中,然后可以直接应⽤为2D图像设计的所有2D cnn。点云数据的另⼀个流⾏表⽰是体素化体积[54、27、36]。在此基础上,在三维坐标系中对所有点进⾏良好的组织,然后利⽤三维CNNs进⾏特征提取。由于点云的稀疏性,这些表⽰的缺点是内存问题。为了解决这⼀问题,提出了稀疏卷积,其中卷积只发⽣在有效体素上。基于此操作[46,10],速度和内存问题都得到了解决。另⼀个⽅向是直接处理点云⽽不进⾏任何变换。本⽂的开创性⼯作是PointNet[32],它应⽤MLPs直接提取点特征。沿着这个⽅向,许多框架被提出⽤于分类[33]、对象检
测[37]、语义分割[14,29]和其他应⽤[25,24,7]。
3. 提议的⽅法
我们的⽬标是在AD转换场景中,在给定的点云单帧内联合解决三维实例分割和检测问题。特别地,点云被⼴泛使⽤的64线Velodyne激光雷达传感器扫描。通过实例分割和检测的结合,我们可以得到以下好处:1)基于实例掩模的表⽰⽅法能够很好地捕捉局部⼏何信息点;2)基于BBox的对象表⽰⽅法能够帮助挖掘整个对象的全局形状信息。
3.1.概述
图3描述了我们的⽅法的概述。⼀般来说,本⽂提出的⽅法可以分为两部分:基于SE学习的⽬标建议和局部BBoxes改进。⾸先,可以通过使⽤⾻⼲⽹(例如PointNet++[33])来获得点特征。通过采样和分组操作,提取了局部特征和全局上下⽂信息。在⾻⼲⽹的基础上,有语义分割和实例感知两个分⽀,分别编码为对象的中⼼和维度等,每个点都可以⽅便地⽣成语义类的基本真实性和所属BBox的信息。因此,⽹络的第⼀阶段可以通过监控信号进⾏训练。在SE结果的基础上,采⽤深度聚类层进⾏实例分割。同时,对于每个集,也会⽣成⼀
个BBox。然后,对于每个提案,应⽤⼀个重新定义的⽹络(例如PointNet[32])来重新定义每个提案的3D BBox。在这⾥,所有建议共享相同的⽹络参数。为了更进⼀步,我们将这些建议转换为局部标准化坐标系。最后,重新定义的⽹络输出重新定义的3D BBoxes和实例掩码。
3.2.实例感知SE
受2D实例分割[28]的启发,已有许多研究[41]利⽤判别损失函数在特征空间(⽽不是直接在空间空间)中分割对象[17]。通过使⽤这种丢失,属于同⼀实例的特征被拉近,属于不同实例的特征被推远。然⽽,实例标签信息不能直接显式地集成到损失函数中,这种损失是⽤⼏个超参数在特征空间进⾏编码的[6]。尽管这种⽅法在室内环境中取得了令⼈印象深刻的性能,但是很少有⼈提出⽤于AD转换场景的⽅法。在介绍我们的⽅法之前,我们分析了⼆维图像和三维图像在实例分割⽅⾯的差异,⽐例尺[51]、空间布局模糊和遮挡是⼆维图像空间中的三个主要问题。它们严重影响了⽬标检测和实例分割的性能。⽽这些问题在三维点云中已经不存在了。相反,物体在空间中变得可分离。然⽽,从点云直接使⽤聚类⽅法会产⽣未经验证的结果。因此,为了便于聚类或分割,需要⼀个设计良好的中间过程来探索该点的潜在属性,如语义类、实例标签和该点所属的对象信息。点云特征提取:为了提取点云的逐点特征,我们采⽤了常⽤的PointNet++⽹络作为⾻⼲⽹络,具有多尺度采样和分组操作。特别地,所设计的框架是独⽴于⾻⼲⽹的,可以被PointConv[45]、EdgeConv[42]或稀疏卷积⽹络[11]等其它结构所
代替。基于所提取的特征,我们希望对⽬标信息进⾏如下预测。语义信息:以点特征为输⼊,设计了⼀个⽤于语义类预测的分割分⽀。由于采⽤了多尺度采样和分组策略,使得局部结构和全局上下⽂信息都被编码到每个点特征向量中。这对于处理不同⼤⼩的对象很有⽤。
3.3.基于聚类的⽅案⽣成
根据预测的SEs结果,将所有FG点聚合到相应对象的质⼼上。我们在图3的右上⾓显⽰了⼀个预测SE的例⼦,其中我们⽤红⾊表⽰拉点(原始位置加上预测偏移)。从这个例⼦中,我们可以明显地发现,这些红点可以通过简单的聚类算法(即K-均值[1])很容易地分离出来。实例分割结果的⽰例也⽰于图3的右下⾓,其中每个实例已⽤不同颜⾊显⽰。在聚类之后,还通过平均前k个预测(例如,k=5)为每个实例⽣成⼀个平均BBox。此外,我们将为下⼀阶段的感兴趣区域(ROI)池保留点和BBox的聚类id。
3.4.BBox刷新
虽然第⼀阶段的BBox预测⾮常精确,但仍有⼀定的改进空间。与其他基于两阶段的⽅法类似,我们直接执⾏基于对象⽅案内部点
的PointNet++⽹络。此外,提出了⼀种基于实例的ROI轮询策略,以弥补BBox在提议阶段的不精确性。具体来说,在这个策略中已经做了两件事:第⼀,属于⼀个集的点将被⽤于第⼆阶段,即使其中⼀些点不在BBox内。其次,如果某些FG点与BBox共享不同的集id,那么即使它们位于BBox内,也会被删除。为了更好地利⽤局部信息,我们将该⽅案转换为局部标准化坐标系。对于每个返还率,M点和第⼀阶段提取的特征被随机选择作为返还⽹络的输⼊。
3.5.多任务丢失
使⽤多任务丢失来训练我们的⽹络。这⾥使⽤了三种损失,包括语义分割损失、SE损失和3D-BBox回归损失。此外,这⾥还使⽤了⼀些炒作参数来平衡它们的贡献。
4. 实验测试Experimental Results

本文发布于:2024-09-21 14:45:26,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/371363.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:实例   分割   检测   对象   提出
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议