基于联合递归特征金字塔的多尺度目标检测方法



1.本发明属于图像处理技术领域,特别涉及一种基于循环特征的多尺度目标检测方法,可用于交通、安防及医疗等领域。


背景技术:



2.目标检测是计算机视觉领域的基本任务之一,其广泛应用于交通、安防、医疗等领域,具有极高的应用价值。目标检测的任务包含定位图像中目标的位置以及预测图像中目标的类别两项。其中,由于目标自身大小和距离相机远近的不同,目标呈现在图像中的尺度通常具有较大的差异,从而导致检测性能下降。
3.近年来,多尺度目标检测问题已经受到了广泛的关注。现有的算法采用构造特征金字塔的方法,即将主干网络中的特定层单独输出,通过下采样和特征融合的方式构造特征金字塔,得到高分辨率且语义信息丰富的特征。此外,一些学者通过为特征金字塔引入循环机制和为主干网络引入可切换空洞卷积来提高检测效果。
4.传统的特征金字塔结构中各层级之间的存在较大的语义差距,直接进行自上而下的下采样特征融合方式无法很好地将高层语义信息传递至低层,并且最高一层只有信息损失而没有更高一层的特征进行融合,因此多尺度信息提取能力不足。为此现有技术提出了一些基于特征金字塔结构的变体方法。
5.由于特征金字塔分层构建不同空间分辨率特征图的策略能够显著提高模型对不同尺度目标的检测性能,因此基于特征金字塔及其变体的目标检测算法是多尺度目标检测的主流方法。ghiasi等人使用自动搜索算法以需要融合的特征图作为搜索空间,搜索出了一种特征金字塔结构。然而这类使用自动搜索算法搜索出来的结构往往具有较高的数据集依赖性,通常表现为在特定数据集上具有较好的性能但在其他数据集上表现平庸。qiao等人首次将循环机制引入目标检测任务提出了循环特征金字塔结构,并为主干网络设计了可切换空洞卷积。然而他们忽略了金字塔各层之间固有的语义差距,使得该方法的性能无法达到最佳,并且可切换空洞卷积推理速度满慢、显存占用高。guo等人考虑到了特征金字塔最高层仅有信息损失的问题,设计了一个残差特征增强模块对特征金字塔最高层特征进行补全,并且还设计了一个自适应空间融合模块用于融合特征金字塔的各层,融合后的特征再用于预测目标类别及回归目标位置,显著提高了检测器的多尺度信息提取能力。然而,该方法仅仅是简单地将各层特征进行融合后再进行预测和回归,忽略了各层之间固有的语义差距,因此性能无法达到最佳。liu等认为传统特征金字塔中的信息传播路径过长,因此优化了特征金字塔中的连接路径使得利于目标定位的底层特征能更快地流到高层,以提高检测器的多尺度目标检测能力。尽管该方法优化了特征金字塔中的信息传播路径,但是他们依然忽略了各层之间固有的语义差距,因此性能无法达到最佳。


技术实现要素:



6.本发明的目的在于针对上述已有技术的不足,考虑到最高层信息损失和各层之间
固有的语义差距,提出一种基于联合递归特征金字塔的多尺度目标检测方法,通过引入循环机制,综合其与特征金字塔的优点,以在无需可切换卷积的特殊卷积层的条件下,使得检测性能达到最优。
7.为实现上述目的,本发明技术方案的实现步骤包括如下:
8.(1)读取目标检测数据库数据,对训练数据的图像依次进行调整、翻转和归一化,对测试数据的图像依次进行调整和归一化,并设置rgb三个通道的归一化均值和标准差,最终得到图像对应的张量数据;
9.(2)使用包括有5个串联卷积块的resnet卷积神经网络作为主干网络,将经过(1)预处理后的图像张量数据输入到该卷积神经网络,得到通过5个卷积块分别提取的图像特征,分别记为c1,c2,c3,c4和c5;
10.(3)根据resnet卷积神经网络所提取的图像特征,构建特征金字塔:
11.3a)将resnet卷积神经网络提取出来的图像特征c2,c3,c4和c5分别经过4个核大小为1
×
1,步长为1的卷积层,使得c2特征的通道数依然保持为256,c3特征的通道数由512下降至256,c4特征的通道数由1024下降至256,c5特征的通道数由2048下降至256,最终得到4层主干降维特征c2

,c3

,c4

和c5


12.3b)将3a)所得的各层主干降维特征执行自顶向下的特征融合操作,形成由p2、p3、p4和p5金字塔特征组成的特征金字塔结构;
13.(4)构建由通道注意力模块和空间注意力模块串联组成的联合反馈处理器;
14.(5)利用联合反馈处理器对步骤(3)所得各层金字塔特征进行处理,完成特征融合:
15.5a)将p2,p3,p4和p5这4层金字塔特征输入到通道注意力模块,得到通道注意力特征mc;
16.5b)将5a)得到的通道注意力特征mc输入空间注意力模块,得到空间注意力特征ms;
17.5c)将空间注意力特征ms拆分为4个特征图,并将这4个特征图分别下采样至与主干网络各卷积块输出特征ci尺寸相同;
18.5d)将上采样后的特征图分别经过4个核大小为1
×
1,步长为1的卷积层,将通道数分别提升至256,512,1024和2048,得到与主干网络待融合的特征图mi,再将各特征图mi与主干网络各卷积块输出特征ci对应相加完成特征融合;
19.(6)重复步骤(3)至步骤(5)两次,得到最终的多尺度特征p2

,p3

,p4

和p5

,将其输入到现有的检测头网络,输出预测的目标位置参数(x,y,w,h)以及目标相应类别的置信度c,其中,(x,y)为目标边界框左上角在图像中的坐标,w为目标边界框的宽度,h为目标边界框的高度,完成对多尺度目标的检测。
20.本发明与现有技术相比具有如下优点:
21.第一,本发明由于在循环特征金字塔的基础上,引入联合反馈处理器,对特征金字塔的反馈特征进行统一处理,可使得特征金字塔的最顶层特征能够有信息流补充,且各层之间的语义差距能缩小,检测器多尺度的信息提取能力高升,进而提高了网络检测效果;
22.第二,本发明由于无需可切换空洞卷积等特殊卷积操作来增大感受野,本发明方法较其他循环方法推理速度有显著提升。
附图说明
23.图1是本发明的实现流程图;
24.图2是本发明中联合递归特征金字塔的示意图;
25.图3是本发明中联合反馈处理器的示意图;
26.图4是用本发明对光学遥感图像中舰船目标进行检测的仿真结果图。
具体实施方式
27.以下结合附图对本发明的实施例和效果进行进一步描述。
28.参照图1,本实施例的实现步骤如下:
29.步骤1,读取目标检测数据库数据,并对图像数据进行预处理。
30.目标检测数据库数据包括训练阶段的数据和测试阶段的数据,本步骤对这两个阶段的图像数据分别进行如下预处理:
31.1.1)训练阶段的数据预处理:
32.先将输入图像的尺寸缩放至800
×
800,再以0.5的概率随机调整图像的亮度、对比度、饱和度和调,再以0.5的概率随机翻转图像;
33.采用均值标准差归一的方法归一化图像,其中,设置rgb三个通道的归一化均值分别为[123.675,116.28,103.53],设置三个通道的标准差分别为[58.395,57.12,57.375],最终得到该阶段图像对应的张量数据;
[0034]
1.2)测试阶段的数据预处理:
[0035]
将输入图像的尺寸缩放至800
×
800;
[0036]
采用均值标准差归一的方法归一化图像,其中,设置rgb三个通道的归一化均值分别为[123.675,116.28,103.53],
[0037]
设置三个通道的标准差分别为[58.395,57.12,57.375],最终得到该阶段图像对应的张量数据。
[0038]
步骤2,使用resnet卷积神经网络作为主干网络提取图像的特征。
[0039]
resnet卷积神经网络拥有5个串联的卷积块,每一个卷积块包含若干组卷积组,每一组卷积组包含一个卷积层、一个批归一化层和一个relu激活函数。本发明所使用的主干网络涉及resnet-50、resnet-101和resnet-152三个版本,将经过步骤1预处理后的图像张量输入resnet卷积神经网络提取图像特征,5个卷积块提取的图像特征分别记为c1,c2,c3,c4和c5。该主干网络结构及分别提取的图像特征如表1所示。
[0040]
表1:resnet卷积神经网络结构及提取的图像特征
[0041][0042]
步骤3,根据resnet卷积神经网络所提取的图像特征,构建特征金字塔。
[0043]
参照图2,本步骤的具体实现如下:
[0044]
3.1)将resnet卷积神经网络提取出来的图像特征c2,c3,c4和c5分别经过4个核大小为1
×
1,步长为1的卷积层,使得c2特征的通道数依然保持为256,c3特征的通道数由512下降至256,c4特征的通道数由1024下降至256,c5特征的通道数由2048下降至256,最终得到4层主干降维特征c2

,c3

,c4

和c5


[0045]
3.2)将3.1)所得的各层主干降维特征执行自顶向下的特征融合操作:
[0046]
3.2.1)将最高层主干降维特征记为最高层金字塔特征p5,将p5做2倍上采样操作后与次高层主干降维特征直接相加,得到次高层金字塔特征p4;
[0047]
3.2.2)将次高层金字塔特征p4做2倍上采样操作后与次底层主干降维特征直接相加,得到次底层金字塔特征p3;
[0048]
3.2.3)将次底层金字塔特征p3做2倍上采样操作后与底层主干降维特征直接相加,得到底层金字塔特征p2;
[0049]
3.3)将上述p2、p3、p4和p5这些金字塔特征自下而上排列,组成特征金字塔结构。
[0050]
步骤4,构建联合反馈处理器。
[0051]
4.1)选用依次包含上采样、特征拼接、全局平均池化层、全连接层和sigmoid函数的通道注意力模块,用于提取通道注意力特征,其中,sigmoid函数的表达式为:
[0052][0053]
4.2)选用依次包含平均池化层、最大池化层、卷积层和sigmoid函数的空间注意力模块,用于提取空间注意力特征;
[0054]
4.3)将通道注意力模块与空间注意力模块串联连接起来,构成联合反馈处理器。
[0055]
步骤5,利用联合反馈处理器对步骤3所得各层金字塔特征进行处理,完成特征融
合。
[0056]
参照图3,本步骤的具体实现如下:
[0057]
5.1)将p2,p3,p4和p5这4层金字塔特征输入到通道注意力模块,得到通道注意力特征mc:
[0058]
5.1.1)分别对金字塔特征p2、p3、p4和p5进行上采样,得到其上采样后的对应特征x2、x3、x4、x5,这些对应特征的尺寸均为200
×
200,通道数均为256;
[0059]
5.1.2)将上采样后的金字塔对应特征x2、x3、x4、x5拼接为一个通道总特征m
cat1
,其尺寸为200
×
200,通道数为1024;
[0060]
5.1.3)将通道总特征m
cat1
经过一个全局平均池化层压缩为一个长度为1024的平均池化压缩向量v
gap

[0061]
5.1.4)将平均池化压缩向量v
gap
经过一组全连接层、批标准化层和一个relu激活函数,再次进行压缩得到一个长度为256的通道再压缩向量v
fc1

[0062]
5.1.5)将通道再压缩向量v
fc1
经过另一个全连接层对通道数进行释放,得到一个长度为1024的通道释放向量
[0063]
5.1.6)使用sigmoid函数对通道释放向量v
fc2
进行归一化,得到长度为1024的归一化向量v
norm

[0064]
5.1.7)将通道总特征m
cat1
与归一化向量v
norm
做点积,得到通道注意力特征mc:
[0065]
mc=m
cat1
·vnorm
[0066]
其中,通道注意力特征mc的尺寸为200
×
200,通道数为1024。
[0067]
5.2)将5.1)得到的通道注意力特征mc输入空间注意力模块,得到空间注意力特征ms:
[0068]
5.2.1)将通道注意力特征mc分别经过一个最大池化层和一个平均池化层,得到最大池化特征m
max
和平均池化特征m
avg
,其中,最大池化特征和平均池化特征的尺寸均为200
×
200,通道数均为1;
[0069]
5.2.2)将最大池化特征m
max
和平均池化特征m
avg
拼接为一个空间总特征m
cat2
,其尺寸为200
×
200,通道数为2;
[0070]
5.2.3)将空间总特征m
cat2
经过一个核大小为7
×
7,步长为1的卷积层后,得到一个新的特征m
un
,其尺寸为200
×
200,通道数为1;
[0071]
5.2.4)使用sigmoid函数对新特征m
un
进行归一化,得到归一化特征m
norm
,其尺寸为200
×
200,通道数为1;
[0072]
5.2.5)将通道注意力特征mc与归一化特征m
norm
做哈达玛积,得到空间注意力特征ms:
[0073][0074]
其中,符号表示哈达玛积,空间注意力特征ms的尺寸为200
×
200,通道数为1024;
[0075]
5.3)将空间注意力特征ms拆分为4个特征图,并将这4个特征图分别下采样至与主干网络各卷积块输出特征ci尺寸相同;
[0076]
5.4)将上采样后的特征图分别输入到4个核大小为1
×
1,步长为1的卷积层,并将通道数分别提升至256,512,1024和2048,得到与主干网络待融合的特征图mi,再将各特征
图mi与主干网络各卷积块输出特征ci对应相加完成特征融合。
[0077]
步骤6,完成多尺度目标的检测。
[0078]
6.1)重复步骤3至步骤5两次,得到最终的多尺度特征p2

,p3

,p4

和p5


[0079]
6.1)将多尺度特征p2

,p3

,p4

和p5

输入到现有的检测头网络,输出预测的目标位置参数(x,y,w,h)以及目标相应类别的置信度c,其中,(x,y)为目标边界框左上角在图像中的坐标,w为目标边界框的宽度,h为目标边界框的高度,完成对多尺度目标的检测。
[0080]
下面结合仿真实验对本发明的效果做进一步的描述。
[0081]
1.实验条件:
[0082]
所用计算机处理器为intel(r)core(tm)i7 cpu@3.5ghz,运行内存128g,显卡为一块显存为12gb的nvidia titan x gpu。
[0083]
操作系统为64位ubuntu 18.04(lts),使用的深度学习框架为pytorch(版本1.8.0)。
[0084]
所有的网络训练均采用反向传播算法计算各层残差,并使用带有动能项和权重衰减项的随机梯度下降算法更新网络参数,其中动能项为0.9,权重衰减项为0.0001。
[0085]
实验使用hrsc2016光学遥感舰船检测数据库、自建数据库hrsc2016-ms和dior大规模光学遥感目标检测数据库进行评估,评价指标为map、aps、apm和ap
l
。其中,map为50%交并比阈值下的平均精度均值,aps为尺寸小于32
×
32目标的平均精度,apm为尺寸大于等于32
×
32且小于96
×
96标的平均精度,ap
l
为尺寸大于96
×
96目标的平均精度。
[0086]
hrsc2016数据库是目前唯一开源的光学遥感舰船检测数据库,包含1,070幅光学遥感图像,空间分辨率为2米和0.4米,图像尺寸从300
×
300至1500
×
900不等且大部分图像尺寸大于1000
×
1000,包含2,976个舰船实例。
[0087]
自建数据库hrsc2016-ms是在hrsc2016数据库的基础上扩充并重新标注所得的光学遥感舰船检测数据库,包含1,680幅光学遥感图像7,655个舰船实例。
[0088]
dior数据库是目前规模较大的光学遥感目标检测数据库,包含23,463幅光学遥感图像,涵盖20个目标类别共192,472个目标实例。
[0089]
2.实验内容:
[0090]
实验1:在上述实验条件下使用本发明方法和现有的13种方法对hrsc2016和hrsc2016-ms数据库中的舰船目标进行检测,其检测结果如表2所示。
[0091]
表2本发明和现有13种方法在hrsc2016和hrsc2016-ms数据库上的检测结果
[0092]
[0093][0094]
表2中的13中现有方法分别为:
[0095]
ssd:liu等人提出的一种单阶段多包围盒目标检测算法;
[0096]
yolof:chen等人提出的一种基于单级特征图的目标检测算法;
[0097]
retinanet:lin等人提出的一种基于focal loss的单阶段目标检测算法;
[0098]
nas-fpn:ghiasi等人提出的一种基于神经网络架构搜索算法在一定搜索空间中搜索出来的金字塔特征结构的目标检测算法;
[0099]
fcos:tian等人提出的一种全卷积单阶段目标检测算法;
[0100]
panet:liu等人提出的一种基于路径聚合特征金字塔的双阶段目标检测算法;
[0101]
faster r-cnn:ren等人提出的一种基于区域建议网络的实时双阶段目标检测算法;
[0102]
mask r-cnn:he等人在faster r-cnn的基础上增加了一个掩膜预测分支的可用于目标实例分割和目标检测的算法;
[0103]
cascade r-cnn:cai等人提出的一种基于级联r-cnn的双阶段目标检测算法;
[0104]
detectors:qiao等人提出的一种基于循环特征金字塔结构的目标检测算法;
[0105]
libra r-cnn:pang等人提出的一种基于平衡交并比采样、平衡特征金字塔和平衡l1损失函数的目标检测算法;
[0106]
yolox:ge等人融合了多种设计技巧提出的一种高性能单阶段快速目标检测算法;
[0107]
htc:chen等人基于mask r-cnn和cascade r-cnn针对目标检测和目标实例分割任务而提出的混合任务级联模型。
[0108]
其中,本发明方法在hrsc2016-ms数据库上进行舰船检测的主观结果,如图4所示,其光学遥感图像中的小型、中型和大型的多尺度舰船目标均能准确地检测出来,获得对应的边界框。
[0109]
从图4中展示的主观结果和表2中展示的客观结果可以看到,本发明方法在hrsc2016和hrsc2016-ms数据库上均取得了最佳的检测效果,证明了本发明方法的有效性。
[0110]
实验2:在上述条件下使用本发明所提出的联合递归特征金字塔结构和5个现有的特征金字塔结构作为颈部结构与基线方法组合后在hrsc2016-ms数据库上进行对比,其中,
基线方法为去除了颈部结构和语义预测分支的htc模型,结果如表3所示。
[0111]
表3本发明的联合递归特征金字塔与现有5个特征金字塔结构在hrsc2016-ms数据库的对比结果
[0112][0113]
表3中各方法分别介绍如下:
[0114]
baseline:基线方法,具体为去除颈部结构和语义预测分支的htc模型;
[0115]
baseline+fpn:传统特征金字塔作为颈部结构与基线方法组合而成的方法;
[0116]
baseline+pafpn:路径聚合特征金字塔作为颈部结构与基线方法组合而成的方法;
[0117]
baseline+bfp:平衡特征金字塔作为颈部结构与基线方法组合而成的方法;
[0118]
baseline+bifpn:双流特征金字塔作为颈部结构与基线方法组合而成的方法;
[0119]
baseline+rfp:循环特征金字塔作为颈部结构与基线方法组合而成的方法;
[0120]
baseline+jrfp:本发明提出的联合递归特征金字塔作为颈部结构与基线方法组合而成的方法。
[0121]
从表3中展示的结果可以看到,本发明方法所提出的联合递归特征金字塔作为颈部结构在hrsc2016-ms数据库上取得了最佳的检测效果,并且在大、中、小三个尺度上都取得了最佳的检测效果,进一步证明了本发明方法的有效性。
[0122]
实验3:在上述条件下使用本发明方法和现有15种方法在大规模的光学遥感数据库dior上进行目标检测,结果如表4所示。
[0123]
表4本发明方法和现有15种方法在dior数据库上的检测结果
[0124]
方法平均精度均值r-cnn37.7ricnn44.2ricaod50.9rifd-cnn56.1ssd58.6faster r-cnn63.1mask r-cnn63.5cornernet64.9
retinanet65.7cascade r-cnn70.3yolov371.0panet71.1detectors71.8htc72.6afpn72.6本发明方法76.9
[0125]
表4中7种前述未提及的方法分别介绍如下:
[0126]
r-cnn:girshick等人提出的一种基于区域卷积的目标检测算法;
[0127]
ricnn:cheng等人提出的一种基于旋转不变卷积的高分辨率光学遥感图像目标检测算法;
[0128]
ricaod:li等人提出的一种基于旋转不敏感区域建议网络和局部上下文特征融合网络的遥感图像目标检测算法;
[0129]
rifd-cnn:cheng等人提出的一种基于旋转不变和费舍尔判别卷积的遥感图像目标检测算法;
[0130]
cornernet:law等人提出的一种基于沙漏网络的目标检测算法;
[0131]
yolov3:joseph等人提出的第三版yolo系列单阶段快速目标检测算法;
[0132]
afpn:cheng等人提出的一种基于感知特征金字塔结构的遥感图像目标检测算法。
[0133]
从表4中展示的结果可以看到,本发明方法在大规模光学遥感数据库dior数据库上取得了最佳的检测效果,进一步证明了本发明方法的有效性。

技术特征:


1.一种基于联合递归特征金字塔的多尺度目标检测方法,其特证在于,包括如下步骤:(1)读取目标检测数据库数据,对训练数据的图像依次进行调整、翻转和归一化,对测试数据的图像依次进行调整和归一化,并设置rgb三个通道的归一化均值和标准差,最终得到图像对应的张量数据;(2)使用包括有5个串联卷积块的resnet卷积神经网络作为主干网络,将经过(1)预处理后的图像张量数据输入到该卷积神经网络,得到通过5个卷积块分别提取的图像特征,分别记为c1,c2,c3,c4和c5;(3)根据resnet卷积神经网络所提取的图像特征,构建特征金字塔:3a)将resnet卷积神经网络提取出来的图像特征c2,c3,c4和c5分别经过4个核大小为1
×
1,步长为1的卷积层,使得c2特征的通道数依然保持为256,c3特征的通道数由512下降至256,c4特征的通道数由1024下降至256,c5特征的通道数由2048下降至256,最终得到4层主干降维特征c2

,c3

,c4

和c5

;3b)将3a)所得的各层主干降维特征执行自顶向下的特征融合操作,形成由p2、p3、p4和p5金字塔特征组成的特征金字塔结构;(4)构建由通道注意力模块和空间注意力模块串联组成的联合反馈处理器;(5)利用联合反馈处理器对步骤(3)所得各层金字塔特征进行处理,完成特征融合:5a)将p2,p3,p4和p5这4层金字塔特征输入到通道注意力模块,得到通道注意力特征m
c
;5b)将5a)得到的通道注意力特征m
c
输入空间注意力模块,得到空间注意力特征m
s
;5c)将空间注意力特征m
s
拆分为4个特征图,并将这4个特征图分别下采样至与主干网络各卷积块输出特征c
i
尺寸相同;5d)将上采样后的特征图分别输入到4个核大小为1
×
1,步长为1的卷积层,将通道数分别提升至256,512,1024和2048,得到与主干网络待融合的特征图m
i
,再将各特征图m
i
与主干网络各卷积块输出特征c
i
对应相加完成特征融合;(6)重复步骤(3)至步骤(5)两次,得到最终的多尺度特征p2

,p3

,p4

和p5

,将其输入到现有的检测头网络,输出预测的目标位置参数(x,y,w,h)以及目标相应类别的置信度c,其中,(x,y)为目标边界框左上角在图像中的坐标,w为目标边界框的宽度,h为目标边界框的高度,完成对多尺度目标的检测。2.根据权利要求1所述的方法,其特征在于,步骤(1)中对训练阶段和测试阶段的图像依次进行调整、翻转、归一化,并设置rgb三个通道的均值和标准差,实现如下:1a)训练阶段的数据预处理:将输入图像的尺寸缩放至800
×
800,并以0.5的概率随机调整图像的亮度、对比度、饱和度和调;再以0.5的概率随机翻转,并采用均值标准差归一的方法归一化图像;设置rgb三个通道的归一化均值分别为[123.675,116.28,103.53],设置三个通道的标准差分别为[58.395,57.12,57.375],最终得到该阶段图像对应的张量数据;1b)测试阶段的数据预处理:将输入图像的尺寸缩放至800
×
800,再采用均值标准差归一的方法归一化图像;设置rgb三个通道的归一化均值分别为[123.675,116.28,103.53],设置三个通道的标准差分别为[58.395,57.12,57.375],最终得到该阶段的图像对应张量数据。
3.根据权利要求1所述的方法,其特征在于,步骤(2)中的resnet卷积神经网络的5个串联的卷积块,结构相同,每一个卷积块包含若干组卷积组,每一组卷积组包含一个卷积层、一个批归一化层和一个relu激活函数。4.根据权利要求1所述的方法,其特征在于,步骤(3b)中将3a)所得的各层特征执行自顶向下的特征融合操作,实现如下:3b1)将最高层主干降维特征c5

记为最高层金字塔特征p5,将p5做2倍上采样操作后与次高层主干降维特征c4

直接相加,得到次高层金字塔特征p4;3b2)将次高层金字塔特征p4做2倍上采样操作后与次底层主干降维特征c3

直接相加,得到次底层金字塔特征p3;3b3)将次底层金字塔特征p3做2倍上采样操作后与底层主干降维特征c2

直接相加,得到底层金字塔特征p2;3b4)将上述p2、p3、p4和p5这些金字塔特征自下而上排列,组成特征金字塔结构。5.根据权利要求1所述的方法,其特征在于,步骤(4)中的通道注意力模块和空间注意模块结构如下:所述通道注意力模块,依次包含上采样、特征拼接、全局平均池化层、全连接层和sigmoid函数的操作,该模块用于提取通道注意力特征;所述空间注意力模块,依次包含平均池化层、最大池化层、卷积层和sigmoid函数,该模块用于提取空间注意力特征。6.根据权利要求1所述的方法,其特征在于,步骤5a)中将p2,p3,p4和p5这4层金字塔特征输入到通道注意力模块,得到通道注意力特征m
c
,实现如下:5a1)分别对金字塔特征p2、p3、p4和p5进行上采样,得到其上采样后的对应特征x2、x3、x4、x5,这些对应特征的尺寸均为200
×
200,通道数均为256;5a2)将上采样后的金字塔对应特征x2、x3、x4、x5拼接为一个通道总特征m
cat1
,其尺寸为200
×
200,通道数为1024;5a3)将通道总特征m
cat1
经过一个全局平均池化层压缩为一个长度为1024的平均池化压缩向量v
gap
;5a4)将平均池化压缩向量v
gap
经过一组全连接层、批标准化层和一个relu激活函数,再次进行压缩得到一个长度为256的通道再压缩向量v
fc1
;5a5)将通道再压缩向量v
fc1
经过另一个全连接层对通道数进行释放,得到一个长度为1024的通道释放向量5a6)使用sigmoid函数对通道释放向量v
fc2
进行归一化,得到长度为1024的归一化向量v
norm
;5a7)将通道总特征m
cat1
与归一化向量v
norm
做点积,得到通道注意力特征m
c
:m
c
=m
cat1
·vnorm
其中,通道注意力特征m
c
的尺寸为200
×
200,通道数为1024。7.根据权利要求1所述的方法,其特征在于,步骤5b)中将通道注意力特征m
c
输入空间注意力模块,得到空间注意力特征m
s
,实现如下:5b1)将通道注意力特征m
c
分别经过一个最大池化层和一个平均池化层,得到最大池化特征m
max
和平均池化特征m
avg
,其中,最大池化特征和平均池化特征的尺寸均为200
×
200,通
道数均为1;5b2)将最大池化特征m
max
和平均池化特征m
avg
拼接为一个空间总特征m
cat2
,其尺寸为200
×
200,通道数为2;5b3)将空间总特征m
cat2
经过一个核大小为7
×
7,步长为1的卷积层后,得到一个新的特征m
un
,其尺寸为200
×
200,通道数为1;5b4)使用sigmoid函数对新特征m
un
进行归一化,得到归一化特征m
norm
,其尺寸为200
×
200,通道数为1;5b5)将通道注意力特征m
c
与归一化特征m
norm
做哈达玛积,得到空间注意力特征m
s
:其中,符号表示哈达玛积,空间注意力特征m
s
的尺寸为200
×
200,通道数为1024。

技术总结


本发明公开了一种基于联合递归特征金字塔的多尺度目标检测方法。主要解决现有技术在复杂场景下多尺度目标检测精度低的问题。其实现方案是:1)读取目标检测数据库数据,并对图像数据进行预处理;2)使用ResNet卷积神经网络作为主干网络提取图像的特征;3)根据所提取的图像特征构建特征金字塔;4)构建由通道注意力模块和空间注意力模块串联组成的联合反馈处理器;5)利用联合反馈处理器对各层金字塔特征进行处理,完成特征融合;6)重复步骤3)至步骤5)两次,得到多尺度特征;7)将多尺度特征输入到现有的检测头,完成多尺度检测。本发明显著提高了复杂场景下多尺度目标检测的精度,可用于智慧交通、智慧安防和遥感影像处理。智慧安防和遥感影像处理。智慧安防和遥感影像处理。


技术研发人员:

韩冰 陈玮铭 高新波 杨铮 黄晓悦

受保护的技术使用者:

西安电子科技大学

技术研发日:

2022.10.29

技术公布日:

2022/12/26

本文发布于:2024-09-23 13:27:48,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/49348.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:特征   卷积   通道   金字塔
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议