3D目标检测多模态融合综述

3D⽬标检测多模态融合综述
0前⾔
本篇⽂章主要想对⽬前处于探索阶段的3D⽬标检测中多模态融合的⽅法做⼀个简单的综述,主要内容为对⽬前⼏篇⼏篇研究⼯作的总结和对这个研究⽅⾯的⼀些思考。机械滑道
在前⾯的⼀些⽂章中,笔者已经介绍到了多模态融合的含义是将多种传感器数据融合。在3D⽬标检测中,⽬前⼤都是将lidar和image信息做融合。在上⼀篇⽂章中,笔者介绍到了⽬前主要的⼏种融合⽅法,即early-fusion,deep-fusion和late-fusion,并介绍了⼀种基于Late-fusion的融合⽅法。但是在⼤多数研究⼯作中,都是以deep-fuion的⽅法为主要的融合策略。
1背景知识
1.1多模态融合的主要难点
难点⼀:传感器视⾓问题
3D-CVF(ECCV20)的研究提出的做fusion的对做融合⼯作最⼤的问题即是在视⾓上的问题,描述为如下图所⽰的问题,camera获取到的信息是“⼩孔成像”原理,是从⼀个视锥出发获取到的信息,⽽lidar是在真实的3D世界中获取到的信息。这使得在对同⼀个object的表征上存在很⼤的不同。
难点⼆数据表征不⼀样
这个难点也是所⽤多模态融合都会遇到的问题,对于image信息是dense和规则的,但是对于点云的信息则是稀疏的、⽆序的。所以在特征层或者输⼊层做特征融合会由于domain的不同⽽导致融合定位困难。
MKD-S78
难点三信息融合的难度
从理论上讲,图像信息是dense和规则的,包含了丰富的⾊彩信息和纹理信息,但是缺点就是由于为⼆维信息。存在因为远近⽽存在的sacle问题。相对图像⽽⾔,点云的表达为稀疏的,不规则的这也就使得采⽤传统的CNN感知在点云上直接处理是不可⾏的。但是点云包含了三维的⼏何结构和深度信息,这是对3D⽬标检测更有利的,因此⼆者信息是存在理论上的互补的。此外⽬前⼆维图像检测中,
深度学习⽅法都是以CNN为基础设计的⽅法,⽽在点云⽬标检测中则有着MLP、CNN,GCN等多种基础结构设计的⽹络,在融合过程中和哪⼀种⽹络做融合也是⽐较需要研究的。
铭牌制作
1.2 点云和imgae融合的纽带
既然做多模态特征融合,那么图像信息和点云信息之间必然需要联系才能做对应的融合。就在特征层或者输⼊层⽽⾔,这种联系都来⾃于⼀个认知,即是:对于激光雷达或者是相机⽽⾔,对同⼀个物体在同⼀时刻的扫描都是对这个物体此时的⼀种表征,唯⼀不同的是表征形式,⽽融合这些信息的纽带就是绝对坐标,也就是说尽管相机和激光雷达所处的世界坐标系下的坐标不⼀样,但是他们在同⼀时刻对同⼀物体的扫描都仅仅是在传感器坐标系下的扫描,因此只需要知道激光雷达和相机之间的位置变换矩阵,也就可以轻松的得到得到两个传感器的坐标系之间的坐标转换,这样对于被扫描的物体,也就可以通过其在两个传感器下的坐标作为特征联系的纽带。
但是,就联系的纽带⽽⾔,由于在做特征提取过程中可能存在feature-map或者domain的⼤⼩的改变,所以最原始坐标也会发⽣⼀定的改变,这也是需要研究的问题。
2. ⽬前存在的⼀些融合⽅法
如果硬要把⽬前存在的融合⽅法做⼀个划分的话,那么笔者从early-fuion,deep-fusion和late-fusion三
个层⾯对最近的⽂章做⼀些简单介绍。这⾥把early-fusion和deep-fusion当做同⼀类融合⽅法介绍,late-fusion当做另外⼀种融合策略介绍。
2.1 early-fusian & deep-fusion
在上⼀篇⽂章中,笔者也提及到这种融合⽅法如下图所⽰。在后⾯,笔者将这两种⽅法都统称为特征融合⽅法,将late-fusion成为决策融合⽅法。如下图所⽰的融合⽅法,该融合需要在特征层中做⼀定的交互。主要的融合⽅式是对lidar 和image分⽀都各⾃采⽤特征提取器,对图像分⽀和lidar分⽀的⽹络在前馈的层次中逐语义级别融合,做到multi-scale信息的语义融合。
为了⽅便分析,在该种融合策略下,笔者按照对lidar-3D-detection的分类⽅法分为point-based的多模态特征融合和voxel-based的多模态特征融合。其差别也就是lidar-backbone是基于voxel还是基于point的。就笔者的理解是,基于voxel的⽅法可以利⽤强⼤的voxel-based的backbone(在⽂章TPAMI20的⽂章Part-A^2中有研究过point-based⽅法和voxel-based的⽅法最⼤的区别在于CNN和MLP的感知能⼒上,CNN优于MLP)。但是如果采⽤voxel-backbone的⽅法就会需要考虑点到图像的映射关系的改变,因为基于point的⽅法采⽤原始的点云坐标做为特征载体,但是基于voxel的⽅法采⽤voxel中⼼作为CNN感知特征载体,⽽voxel中⼼与原始图像的索引相对原始点云对图像的坐标索引还是存在偏差的。
1. 基于voxel-based的多模态特征融合
这篇发表在ECCV20的多模态融合的⽂章⽹络结构图如下所⽰,该特征融合阶段为对特征进⾏融合,同时对于点云的backbone采⽤voxel-based的⽅法对点云做特征提取。所以这⾥需要解决的核⼼问题除了考虑怎么做特征的融合还需要考虑voxel-center作为特征载体和原始点云坐标存在⼀定的偏差,⽽如果将图像信息索引到存在偏差的voxel中⼼坐标上,是本⽂解决的另外⼀个问题。
筋膜放进B里面3D-CVF特征融合⽅法
3D-CVF 将camera的pixel转化到点云的BEV视图上(voxel-feature-map)时,转化的⼤⼩是lidar-voxel-feature-map的x-y各⾃的两倍⼤⼩,也就是说整体的voxel个数是Lidar的四倍,即会包含⽐较多的细节信息。
以下表⽰的Auto-Calibrated Projection Method的设计⽅案,前⾯提到的是该结构是将image转化到bev上的⽹络结构,具体的做法是:(1)投影得到⼀个camera-plane,该plane是图像特征到bev视⾓的voxel-dense的表达。
(2)将lidar划分的voxel中⼼投影到camera-plane上(带有⼀个偏移量,不⼀定是坐标⽹格正中⼼)
(3)采⽤近邻插值,将最近的4个pixel的image特征插值个lidar-voxel。插值的⽅式采⽤的是距离为权重的插值⽅法。
这样,作者就得到了了image信息的feature-map在lidar-voxel上的表⽰,值得提到的是前⾯说的偏移值是为了更好的使camera和lidar对齐。这⾥的第⼆步也就是为了解决上⾯提到的做标偏差的问题。
视觉智能识别系统
如下图所⽰,
2. 基于point-based的多模态融合⽅法
由于point-based的⽅法在特征提取过程也是基于原始点为载体(encoder-decoder的结构会点数先减少再增加但是点是从原始点中采样得到,对于GCN的结构则是点数不改变),所以在做特征融合时,可以直接利⽤前⾯提到的转化矩阵的索引在绝对坐标系上做特征融合,所以⽬前基本也都是基于point的⽅法⽐较好融合,研究⼯作也多⼀些。
2.2 late-fuion高温锂基脂
3 笔者总结
参看⽂献

本文发布于:2024-09-21 18:31:53,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/291048.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:融合   信息   特征
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议