分割点云数据_基于3D点云的深度学习方法

分割点云数据_基于3D点云的深度学习⽅法

前⾔

三维数据通常可以⽤不同的格式表⽰，包括深度图像、点云、⽹格和体积⽹格。点云表⽰作为⼀种常⽤的表⽰格式，在三维空间中保留了原始的⼏何信息，不需要任何离散化。因此，它是许多场景理解相关应⽤(如⾃动驾驶和机器⼈)的⾸选表⽰。

近年来，深度学习技术已成为计算机视觉、语⾳识别、⾃然语⾔处理、⽣物信息学等领域的研究热点，然⽽，三维点云的深度学习仍然⾯临着数据集规模⼩、维数⾼、⾮结构化等诸多挑战三维点云。在此基础上，本⽂对基于点云数据下的深度学习⽅法最新进展做了详解，内容包括三维形状分类、三维⽬标检测与跟踪、三维点云分割三⼤任务。

3D点云形状识别

这些⽅法通常先学习每个点的embedding，然后使⽤聚集⽅法从整个点云中提取全局形状embedding，最后通过⼏个完全连接的层来实现分类。

基于在每个点上进⾏特征学习的⽅法，现有的3D形状分类可分为基于投影的⽹络和point-based的⽹络。

基于投影的⽅法⾸先将⼀个⾮结构化点云投影到⼀个中间正则表⽰中，然后利⽤建⽴良好的⼆维或三维卷积来实现形状分类。

相⽐之下，基于点的⽅法直接作⽤于原始点云，⽽⽆需任何体素化或投影。基于点的⽅法没有引⼊显式的信息丢失，并且越来越流⾏。

基于投影的⽅法

这些⽅法⾸先将三维物体投影到多个视图中，提取相应的视图特征，然后融合这些特征进⾏精确的物体识别。如何将多个视图特征聚合为⼀个有区别的全局表⽰是⼀个关键的挑战。该类⽅法主要包括：

MVCNN

smi

MHBN

Learningrelationships for multi-view 3D object recognition

Volumetric andmulti-view CNNs for object classification

GVCNN: Groupviewconvolutional neural networks for 3D shape recognition

Dominant setclustering and pooling for multi-view 3D object recognition

Learningmulti-view representation with LSTM for 3D shape recognition and retrieval

除此之外，还有⼀些对3D点云进⾏volumetric representation，主要包括：

VoxNet

3D shapenets: Adeep representation for volumetric shapes

OctNet: Learning deep3D representations at high resolutions

OCNN:Octree-based convolutional neural networks for 3D shape analysis

Pointgrid: A deepnetwork for 3d shape understanding

Point-based⽹络

根据⽤于每个点特征学习的⽹络体系结构，该类⽅法可分为逐点MLP、卷积⽅式、基于Graph、基于数据索引的⽹络和其他典型⽹络。⽹络汇总如下表所⽰：

3D点云⽬标检测与跟踪

3D⽬标检测

三维⽬标检测的任务是精确地定位给定场景中所有感兴趣的⽬标。类似于图像中的⽬标检测，三维⽬标检测⽅法可以分为两类：region proposal-based methods 和 single shotmethods。

针对region proposal-based methods：这些⽅法⾸先提出⼏个可能包含对象的区域(也称为proposal)，然后提取区域特征来确定每个proposal的类别标签。根据它们的proposal⽣成⽅法，这些⽅法可以进⼀步分为三类：基于多视图的⽅法、基于分割的⽅法和基于frustum的⽅法。

针对single shot methods：这些⽅法直接预测类别概率，并使⽤单级⽹络回归物体的三维bounding box。这些⽅法不需要region proposal和后处理。因此，它们可以⾼速运⾏，⾮常适合实时应⽤。根据输⼊数据的类型，⼜可以分为两类：基于BEV(投影图)的⽅法和基于点云的⽅法。

两种⽅式的⽹络汇总：

3D⽬标跟踪

2011浙江高考语文给定对象在第⼀帧中的位置，对象跟踪的任务是估计其在随后帧中的状态。由于三维⽬标跟踪可以利⽤点云中丰富的⼏何信息，因此有望克服⼆维图像跟踪所⾯临的遮挡、光照和尺度变化等缺点。主要⽅法包括：

Leveraging shape completion for3D siamese tracking

Context-aware correlationfilter tracking

Efficient tracking proposalsusing 2D-3D siamese networks

Complexer-YOLO: Real-time 3Dobject detection and tracking

除了上述⽅式，还有⼀些基于光流思想的跟踪算法。类似于⼆维视觉中的光流估计，已有多种⽅法开始从点云序列中学习有⽤信息(如三维场景流、空间临时信息)，主要包括：

Flownet3D: Learning scene flowin 3D point clouds

FlowNet3D++: Geometric lossesfor deep scene flow estimation

HPLFlowNet: Hierarchicalpermutohedral lattice flownet for scene flow estimation

天津师范大学学报PointRNN: Point recurrentneural network for moving point cloud processing

MeteorNet: Deep learning on dynamic 3D point cloud sequences

Just go with the flow:Self-supervised scene flow estimation

3D点云分割

三维点云分割需要了解全局⼏何结构和每个点的细粒度细节。根据分割粒度，三维点云分割⽅法可分为三类：语义分割(场景级)、实例分割(对象级)和部件分割(部件级)。

语义分割

语义分割是基于场景级别，主要包括基于投影和基于点的⽅法。

针对投影⽅式的分割算法：主要包括Multi-viewRepresentation、Spherical Representation、Volumetric Representation、PermutohedralLattice Representation、Hybrid Representation五种⽅式，下图对近期的分割⽹络进⾏了汇总：

导电碳浆针对基于point⽅式的分割算法：基于点的⽹络直接作⽤于不规则点云。然⽽，点云是⽆秩序的、⾮结构化的，直接应⽤标准CNN是不可⾏的。为此，提出了开创性的PointNet来学习使⽤共享MLP的逐点特征和使⽤对称池函数的全局特征。基于该思想，后期的⽅法⼤致可以分为点MLP⽅法、点卷积⽅法、基于RNN的⽅法和基于图的⽅法。针对近期point-based分割⽹络，下表进⾏了详细的汇总：

实例分割

与语义分割相⽐，实例分割更具挑战性，因为它需要对点进⾏更精确、更精细的推理。特别是，它不仅要区分语义不同的点，⽽且要区分语义相同的实例。总的来说，现有的⽅法可以分为两类：基于proposal的⽅法和proposal-free的⽅法。

创造适合学生的教育

基于proposal的⽅式将实例分割问题转化为两个⼦任务：三维⽬标检测和实例掩码预测。⽽基于proposal-free的⽅式没有对象检测模块，相反，这类⽅法通常将实例分割视为语义分割之后的后续聚类步骤。特别地，⼤多数现有的⽅法是基于假设属于相同实例的点应该具有⾮常相似的特征。因此，这些⽅法主要集中在鉴别特征学习和点分组两个⽅⾯。两种⽅式的⽹络汇总如下所⽰：

部件分割(Part Segmentation)

三维形状的部件分割有两个难点。⾸先，具有相同语义标签的形状零件具有较⼤的⼏何变化和模糊性。其次，该⽅法对噪声和采样应该具有鲁棒性。现有算法主要包括：

VoxSegNet: Volumetric CNNs forsemantic part segmentation of 3D shapes

3D shape segmentation withprojective convolutional networks

SyncSpecCNN: Synchronizedspectral CNN for 3D shape segmentation

3D shape segmentation via shapefully convolutional networks

凌斌胡雪

CoSegNet: Deep co-segmentationof 3D shapes with group consistency loss

本文发布于:2024-09-23 04:30:12，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/33342.html

上一篇：三维CT皮肤检测

下一篇：机器视觉—三维重建技术简介