一种基于激光雷达和相机数据融合的实时目标检测方法



1.本发明属于计算机视觉和智能信息处理领域,具体涉及一种基于激光雷达和相机数据融合的实时目标检测方法。


背景技术:



2.目标检测是智能机器人环境感知系统的重要组成部分之一,在自动驾驶、家用机器人、无人机和agv等领域均有广泛应用。但由于现实环境复杂且空间广大等问题,大部分目标检测算法的检测效率较低,难以满足实时性和识别准确率的要求。因此,开发具有高精度和高实时性的目标检测算法是现阶段亟需解决的问题。
3.目前,目标检测模块的常用传感器包括rgb相机和激光雷达。其中,相机检测速度快,可以捕捉待检测目标的丰富纹理信息,但难以直接测量物体的形状和位置,同时作为一种无源传感器,容易受环境光线强度变化的影响。与rgb相机相比,激光雷达通过激光检测周围环境,可以准确测量物体的距离和形状且对光线变化具有较强的鲁棒性,但即使是高分辨率的激光雷达,其采集的点云数据也较为稀疏。因此,将rgb图像和点云图像进行融合得到语义信息丰富、距离信息准确、且不易受光线变化影响的数据,可为检测算法提供可靠的源数据进而提高检测的准确率。
4.多模态数据的融合策略包括数据层融合、特征层融合和决策层融合等方法。数据层融合将rgb图像和深度图像转成多维张量图,在张量深度维度拼接融合。但该方法融合后的张量数据量较大,卷积处理耗费时间长,难以满足实时性要求。数据层融合作为一种浅层融合方法,仅实现简单拼接,未构建多模态数据之间的联系,会降低融合性能。决策层融合采用两个独立的卷积神经网络处理rgb图像和深度图像得到检测结果,最终决策取决于两个结果的整合,但受到两个网络检测结果可能互斥的影响,易导致其最终的检测性能不佳。相比之下,特征层融合从多传感器采集的源数据中提取抽象特征图并将其融合成单一特征向量,并通过卷积处理检测识别。抽象特征图比未经处理原始图像数据量小故处理耗时短,且特征层融合可在两卷积神经网络结构间进行多次融合加强了多模态数据的关联性。


技术实现要素:



5.本发明针对技术背景中提到的问题,提出了一种基于激光雷达和相机数据融合的实时目标检测方法。该方法采用特征层融合方法,可有效减少数据计算量、提高算法实时性,同时融合加强了多模态数据的关联性,提高了所包含信息的丰富性以及检测的准确率。具体包括以下步骤:
6.1)准备待处理的彩相机图像数据和对应的激光雷达点云数据;
7.2)将步骤1)中原始点云数据通过多传感器联合标定,将点云中每个数据点投影到rgb图像平面上转成深度图像,使得rgb图像和深度图像有相同视场范围;
8.3)构建基于孪生神经网络的目标检测模型,模型由两个分支组成,分别卷积处理rgb图像和深度图像;
9.4)构建基于特征层融合的交叉融合模块,孪生网络模型两并行分支由多个卷积层组成,模型通过多层卷积提取不同尺寸特征图,在并行分支的多个卷积层后添加融合层将非同质数据的特征图通过叠加运算完成多模态数据融合;
10.5)将rgb图像和对应的深度图像输入到神经网络进行训练,并在模型收敛后进行检测,得到最终检测结果。
11.进一步,所述步骤2)中的点云转深度图方法。首先根据公式1,将点云数据从激光雷达坐标系旋转平移到相机坐标系下;之后根据公式2将转置后的数据从相机坐标系透射投影到图像坐标系下;最后根据公式3将投影后的数据从图像坐标系缩放到像素坐标系下。
[0012][0013]
其中[xc,yc,zc]为激光雷达坐标系下的坐标,[x
l
,y
l
,z
l
]为相机坐标系下的坐标,r为旋转矩阵,t为平移矩阵。
[0014][0015]
其中,f是相机的焦距,[x,y]是图像坐标系下的坐标。
[0016][0017]
其中,[u,v]是像素坐标系下的坐标,[u0,v0]是像素坐标系的原点。
[0018]
进一步,所述步骤3)中的孪生神经网络目标检测模型由两个相同的并行分支构成,其中,分支1用来卷积处理rgb图像,分支2用来卷积处理深度图像,两输入图像尺寸均为(w,h)。
[0019]
进一步,所述的孪生神经网络模型的两分支,每个分支的特征提取网络为darknet53,包括6个卷积层和5组残差模块,依次为:第1个卷积层,卷积核大小为3
×
3,步长为1,通道数为32,输出尺寸为第2个卷积层,卷积核大小为3
×
3,步长为2,通道数为64,输出尺寸为第1组残差模块,由1个残差模块组成,输出尺寸为第3个卷积层,卷积核大小为3
×
3,步长为2,通道数为128,输出尺寸为第2组残差模块,由2个残差模块组成,输出尺寸为第4个卷积层,
卷积核大小为3
×
3,步长为2,通道数为256,输出尺寸为第3组残差模块,由8个残差模块组成,输出尺寸为第5个卷积层,卷积核大小为3
×
3,步长为2,通道数为512,输出尺寸为第4组残差模块,由8个残差模块组成,通道数为512,输出尺寸为第6个卷积层,卷积核大小为3
×
3,步长为2,通道数为1024,输出尺寸为第5组残差模块,由4个残差模块组成,输出尺寸为
[0020]
进一步,所述的5组残差模块,第1组残差模块中的每个残差模块,由2个卷积层和1个残差单元组成,第1个卷积层卷积核大小为1
×
1,步长为1,通道数为32;第2个卷积层卷积核大小为3
×
3,步长为1,通道数为64。第2组残差模块中的每个残差模块,由2个卷积层和1个残差单元组成,第1个卷积层卷积核大小为1
×
1,步长为1,通道数为64;第2个卷积层卷积核大小为3
×
3,步长为1,通道数为128。第3组残差模块中的每个残差模块,由2个卷积层和1个残差单元组成,第1个卷积层卷积核大小为1
×
1,步长为1,通道数为128;第2个卷积层卷积核大小为3
×
3,步长为1,通道数为256。第4组残差模块中的每个残差模块,由2个卷积层和1个残差单元组成,第1个卷积层卷积核大小为1
×
1,步长为1,通道数为256;第2个卷积层卷积核大小为3
×
3,步长为1,通道数为512。第5组残差模块中的每个残差模块,由2个卷积层和1个残差单元组成,第1个卷积层卷积核大小为1
×
1,步长为1,通道数为512;第2个卷积层卷积核大小为3
×
3,步长为1,通道数为1024。
[0021]
进一步,所述的基于特征层融合的交叉融合模块,由3个加法层组成。加法层通过对两分支卷积得到的多维特征向量图中特征值进行加运算,在不改变特征图维度情况下将深度图像和rgb图像的特征图信息融合,多次融合可加深融合程度使两非同质数据充分融合。其中,第1个加法层放在两分支的第3组残差模块后,将两分支尺寸为特征图c
13
和c
23
通过加运算生成尺寸为的特征图c
1,
;第2个加法层放在两分支的第4组残差模块后,将两分支尺寸为的特征图c
14
和c
24
通过加运算生成尺寸为的特征图c
1,
;第3个加法层放在两分支的第5组残差模块后,将两分支尺寸为的特征图c
15
和c
25
通过加运算生成尺寸为的特征图c
1,

[0022]
进一步,所述的目标检测算法头部,采用yolo系列的one-stage结构,同时预测待检测目标的类别和位置。输出通道数为3(k+5),3表示每个预测位置有3个不同大小尺寸的预测框,k为预测类别数,5表示预测框的4个坐标和1个置信度。
[0023]
和现有技术相比,本发明具有下列优点:
[0024]
1、本发明对激光雷达点云数据进行预处理,通过构建联合标定矩阵将点云映射到2d平面构造深度图,在保留深度信息的同时降低了数据的运算量。
[0025]
2、本发明构建的孪生神经网络模型,由两个相同的并行分支构成,分别用来卷积处理rgb图像和深度图像,可有效捕捉多模态数据中更多待检测物体的共同抽象特征。
[0026]
3、本发明构建的基于特征层融合的交叉融合模块,将两神经网络分支卷积得到的多尺寸特征图输入加法层进行多模态数据融合。在训练时,网络模型可根据融合数据调整权重,加强了非同质数据的关联性。采用该融合方法降低了特征图尺寸和数据运算量,同时提高了处理实时性。
附图说明
[0027]
图1为本发明实施例的总体流程图。
[0028]
图2为本发明实施例的孪生神经网络模型。
[0029]
图3为本发明实施例的检测结果图。
具体实施方式
[0030]
下面将结合本发明实施例中的附图,对本发明进行详细描述:
[0031]
第一步:准备待处理的彩相机图像数据和对应的激光雷达点云数据。将kitti官方公布的7481张rgb图像和点云图及对应标签按8:1:1的比例划分成训练集、验证集和测试集。并对数据标签进行处理,转成标准的voc格式。
[0032]
第二步:将原始点云数据转成深度图像。根据激光雷达和相机的内外参构建联合标定矩阵。首先根据公式1通过空间旋转和平移将原始点云数据从激光雷达坐标系转到相机坐标系,之后根据公式2通过透射投影将旋转平移后的数据从相机坐标系转到图像坐标系,最后根据公式2通过伸缩和平移变换将投影后的数据从图像坐标系转到像素坐标系得到深度图像。
[0033][0034]
其中[xc,yc,zc]为激光雷达坐标系下的坐标,[x
l
,y
l
,z
l
]为相机坐标系下的坐标,r为旋转矩阵,t为平移矩阵。
[0035][0036]
其中,f是相机的焦距,[x,y]是图像坐标系下的坐标。
[0037][0038]
其中,[u,v]是像素坐标系下的坐标,[u0,v0]是像素坐标系的原点。
[0039]
第三步:构建基于孪生神经网络的目标检测模型,模型由两个相同的并行分支组
成,分别卷积处理rgb图像和深度图像。每个分支的特征提取网络为darknet53,包括6个卷积层和5组残差模块,依次为:第1个卷积层,卷积核大小为3
×
3,步长为1,通道数为32,输出尺寸为第2个卷积层,卷积核大小为3
×
3,步长为2,通道数为64,输出尺寸为第1组残差模块,由1个残差模块组成,输出尺寸为第3个卷积层,卷积核大小为3
×
3,步长为2,通道数为128,输出尺寸为第2组残差模块,由2个残差模块组成,输出尺寸为第4个卷积层,卷积核大小为3
×
3,步长为2,通道数为256,输出尺寸为第3组残差模块,由8个残差模块组成,输出尺寸为第5个卷积层,卷积核大小为3
×
3,步长为2,通道数为512,输出尺寸为第4组残差模块,由8个残差模块组成,通道数为512,输出尺寸为第6个卷积层,卷积核大小为3
×
3,步长为2,通道数为1024,输出尺寸为第5组残差模块,由4个残差模块组成,输出尺寸为
[0040]
其中,第1组残差模块中的每个残差模块,由2个卷积层和1个残差单元组成,第1个卷积层卷积核大小为1
×
1,步长为1,通道数为32;第2个卷积层卷积核大小为3
×
3,步长为1,通道数为64。第2组残差模块中的每个残差模块,由2个卷积层和1个残差单元组成,第1个卷积层卷积核大小为1
×
1,步长为1,通道数为64;第2个卷积层卷积核大小为3
×
3,步长为1,通道数为128。第3组残差模块中的每个残差模块,由2个卷积层和1个残差单元组成,第1个卷积层卷积核大小为1
×
1,步长为1,通道数为128;第2个卷积层卷积核大小为3
×
3,步长为1,通道数为256。第4组残差模块中的每个残差模块,由2个卷积层和1个残差单元组成,第1个卷积层卷积核大小为1
×
1,步长为1,通道数为256;第2个卷积层卷积核大小为3
×
3,步长为1,通道数为512。第5组残差模块中的每个残差模块,由2个卷积层和1个残差单元组成,第1个卷积层卷积核大小为1
×
1,步长为1,通道数为512;第2个卷积层卷积核大小为3
×
3,步长为1,通道数为1024。
[0041]
第四步:构建基于特征层融合的交叉融合模块。融合方法为在神经网络的卷积层间构建多层连接并融合多模态数据的特征图。通过融合数据量较少的特征图替代原始数据的简单叠加,可有效降低数据运算量,提高算法的实时性。多层连接使网络根据非同质数据更新网络权重,加强了数据的关联性。交叉融合模块由3个加法层组成:第1个加法层放在两分支的第3组残差模块后,将两分支尺寸为的特征图c
13
和c
23
通过加运算生成尺寸为的特征图c
1,
;第2个加法层放在两分支的第4组残差模块后,将两分支尺寸为的特征图c
14
和c
24
通过加运算生成尺寸为的特征图c
1,
;第3个加法层放在两分支的第5组残差模块后,将两分支尺寸为的特征图c
15
和c
25
通过
加运算生成尺寸为的特征图c
1,

[0042]
第五步:构建基于yolo系列的one-stage检测头部,同时输出待检测目标的类别和位置。头部结构输出通道数为3(k+5),3表示每个预测位置有3个不同大小尺寸的预测框,k为预测类别数,5表示预测框的4个坐标和1个置信度。将训练集中的rgb图像和对应的深度图像输入到构建好的网络模型中进行训练和验证,在模型收敛后用测试集进行测试并与其他算法对比,对比算法包括:
[0043]
f-pointnet,可参考qi c r,liu w,wu c,et al.frustum pointnets for 3d object detection from rgb-d data[c].ieee conference on computer vision and pattern recognition,2018:918-927.
[0044]
3d-cvf atspa,可参考yoo j h,kim y,kim j,choi j w.3d-cvf:generating joint camera and lidar features using cross-view spatial feature fusion for 3d object detection[c].in european conference on computer vision,2020:720-736.
[0045]
clcos,可参考pang s,morris d,radha h.clocs:camera-lidar object candidates fusion for 3d object detection[c].ieee international conference on intelligent robots and systems,2020:10386-10393.
[0046]
imvoxelnet,可参考rukhovich d,vorontsova a,konushin a.imvoxelnet:image to voxels projection for monocular and multi-view general-purpose 3d object detection[c].proceedings of the ieee/cvf winter conference on applications of computer vision,2020:2397-2406.
[0047]
pointpillars,可参考lang a h,vora s,caesar h,zhou l,yang j,beijbom o.pointpillars:fast encoders for object detection from point clouds[c].proceedings of the ieee/cvf conference on computer vision and pattern recognition,2019:12697-12705.
[0048]
pointrcnn,可参考shi s,wang x,li h.pointrcnn:3d object proposal generation and detection from point cloud[c].proceedings of the ieee/cvf conference on computer vision and pattern recognition,2019:770-779.
[0049]
pointrcnn,可参考yang z,sun y,liu s,jia j.3dssd:point-based 3d single stage object detector[c].proceedings of the ieee/cvf conference on computer vision and pattern recognition,2020:11040-11048.
[0050]
最终检测结果如表1所示。
[0051]
表1本发明所述方法在kitti测试集上与其他方法的对比实验结果
[0052]
[0053][0054]
注:l表示激光雷达,r表示彩相机
[0055]
表1给出了本发明所述方法在kitti测试集上与其他方法的对比实验结果。相比基于点云图像融合及单点云的目标检测方法,本发明方法实现了较好的检测性能,在kitti官方提供的简单、中等、困难三个基线上检测准确率均高于其他方法。此外,本方法运行时间仅为0.05秒,远低于其他算法,说明其在提高检测性能的同时兼顾了实时性。
[0056]
以上所述仅是本发明的实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

技术特征:


1.一种基于激光雷达和相机数据融合的实时目标检测方法,其特征在于,包括以下步骤:1)准备待处理的彩相机图像数据和对应的激光雷达点云数据;2)将步骤1)中原始点云数据通过多传感器联合标定,将点云中每个数据点投影到rgb图像平面上转成深度图像,使得rgb图像和深度图像有相同视场范围;3)构建基于孪生神经网络的目标检测模型,模型由两个分支组成,分别卷积处理rgb图像和深度图像;4)构建基于特征层融合的交叉融合模块,孪生网络模型两并行分支由多个卷积层组成,模型通过多层卷积提取不同尺寸特征图,在并行分支的多个卷积层后添加融合层将非同质数据的特征图通过叠加运算完成多模态数据融合;5)将rgb图像和对应的深度图像输入到神经网络进行训练,并在模型收敛后进行检测,得到最终检测结果。2.根据权利要求1所述的一种基于激光雷达和相机数据融合的实时目标检测方法,其特征在于,步骤2)中通过多传感器联合标定将点云数据转成深度图;首先根据公式1,将点云数据从激光雷达坐标系旋转平移到相机坐标系下;之后根据公式2将转置后的数据从相机坐标系透射投影到图像坐标系下;最后根据公式3将投影后的数据从图像坐标系缩放到像素坐标系下;其中[x
c
,y
c
,z
c
]为激光雷达坐标系下的坐标,[x
l
,y
l
,z
l
]为相机坐标系下的坐标,r为旋转矩阵,t为平移矩阵;其中,f是相机的焦距,[x,y]是图像坐标系下的坐标;其中,[u,v]是像素坐标系下的坐标,[u0,v0]是像素坐标系的原点。3.根据权利要求1所述的一种基于激光雷达和相机数据融合的实时目标检测方法,其特征在于,步骤3)中的孪生神经网络目标检测模型由两个相同的并行分支构成,其中,分支1用来卷积处理rgb图像,分支2用来卷积处理深度图像,两输入图像尺寸均为(w,h)。4.根据权利要求3所述的一种基于激光雷达和相机数据融合的实时目标检测方法,其
特征在于,每个分支的特征提取网络为darknet53,包括6个卷积层和5组残差模块,依次为:第1个卷积层,卷积核大小为3
×
3,步长为1,通道数为32,输出尺寸为第2个卷积层,卷积核大小为3
×
3,步长为2,通道数为64,输出尺寸为第1组残差模块,由1个残差模块组成,输出尺寸为第3个卷积层,卷积核大小为3
×
3,步长为2,通道数为128,输出尺寸为第2组残差模块,由2个残差模块组成,输出尺寸为第4个卷积层,卷积核大小为3
×
3,步长为2,通道数为256,输出尺寸为第3组残差模块,由8个残差模块组成,输出尺寸为第5个卷积层,卷积核大小为3
×
3,步长为2,通道数为512,输出尺寸为第4组残差模块,由8个残差模块组成,通道数为512,输出尺寸为第6个卷积层,卷积核大小为3
×
3,步长为2,通道数为1024,输出尺寸为第5组残差模块,由4个残差模块组成,输出尺寸为5.根据权利要求4所述的一种基于激光雷达和相机数据融合的实时目标检测方法,其特征在于,第1组残差模块中的每个残差模块,由2个卷积层和1个残差单元组成,第1个卷积层卷积核大小为1
×
1,步长为1,通道数为32;第2个卷积层卷积核大小为3
×
3,步长为1,通道数为64;第2组残差模块中的每个残差模块,由2个卷积层和1个残差单元组成,第1个卷积层卷积核大小为1
×
1,步长为1,通道数为64;第2个卷积层卷积核大小为3
×
3,步长为1,通道数为128;第3组残差模块中的每个残差模块,由2个卷积层和1个残差单元组成,第1个卷积层卷积核大小为1
×
1,步长为1,通道数为128;第2个卷积层卷积核大小为3
×
3,步长为1,通道数为256;第4组残差模块中的每个残差模块,由2个卷积层和1个残差单元组成,第1个卷积层卷积核大小为1
×
1,步长为1,通道数为256;第2个卷积层卷积核大小为3
×
3,步长为1,通道数为512;第5组残差模块中的每个残差模块,由2个卷积层和1个残差单元组成,第1个卷积层卷积核大小为1
×
1,步长为1,通道数为512;第2个卷积层卷积核大小为3
×
3,步长为1,通道数为1024。6.根据权利要求1所述的一种基于激光雷达和相机数据融合的实时目标检测方法,其特征在于,步骤4)中的基于特征层融合的交叉融合模块,由3个加法层组成;加法层通过对两分支卷积得到的多维特征向量图中特征值进行加运算,在不改变特征图维度情况下将深度图像和rgb图像的特征图信息融合,多次融合可加深融合程度使两非同质数据充分融合;其中,第1个加法层放在两分支的第3组残差模块后,将两分支尺寸为的特征图c
13
和c
23
通过加运算生成尺寸为的特征图c
1,23
;第2个加法层放在两分支的第4组残差模块后,将两分支尺寸为的特征图c
14
和c
24
通过加运算生成尺寸为
的特征图c
1,24
;第3个加法层放在两分支的第5组残差模块后,将两分支尺寸为的特征图c
15
和c
25
通过加运算生成尺寸为的特征图c
1,25
。7.根据权利要求1所述的一种基于激光雷达和相机数据融合的实时目标检测方法,其特征在于,步骤5)中采用yolo系列的one-stage头部结构,同时预测待检测目标的类别和位置;输出通道数为3(k+5),3表示每个预测位置有3个不同大小尺寸的预测框,k为预测类别数,5表示预测框的4个坐标和1个置信度。

技术总结


本发明公开了一种基于激光雷达和相机数据融合的实时目标检测方法,该方法采用卷积神经网络模型实现,具体包括:构建传感器联合标定矩阵,将3D激光雷达点云图映射到2D平面转成深度图;搭建包括两个相同并行分支的孪生卷积网络模型,分别提取深度图和彩图中的特征张量;在此基础上,提出一种基于特征层融合的数据融合方法,将所提取的多尺度特征张量通过叠加运算进行多模态数据融合,并将融合数据输入检测头部实现目标检测分类和位置回归。本发明提出的基于融合数据的目标检测方法在提高检测准确率的同时保证了良好的实时性,综合性能优于现有目标检测方法。优于现有目标检测方法。优于现有目标检测方法。


技术研发人员:

刘海滨 武超 王涣杰

受保护的技术使用者:

北京工业大学

技术研发日:

2022.09.27

技术公布日:

2022/12/30

本文发布于:2024-09-21 08:43:00,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/50724.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:卷积   步长   模块   数为
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议