一种基于改进Mask R-CNN模型的遥感图像目标识别方法

人工智能•Artificial Intelligence
一种基于改进Mask R-CNN模型的遥感图像目标识别方法
余慧明,周志祥,彭杨,崔志斌
(武汉兴图新科电子股份有限公司平台产品部,湖北武汉430073)
摘要:目标识别技术作为机器视觉领域的一个重要分支,在各个领域有着重要的应用$鉴于一般的目标识别模型在遥感图片中表现不佳,另外需要识别的目标数量较多,尺寸大小不一,因此在经典的目标识别Mask R-CNN模型的基础上,提出了一种融合了通道注意力机制和数据增强技术的模型Mask R-CNN模型$在输入图片数据时,首先通过Random-Batch images操作对数据进行增强处理,提高模型对尺寸大小不一的目标识别的准确率;然后提取特征时,将原Mask R-CNN模型中的FPN改进为BiFPN,使提取到的特征能更好体现原本的图片信息;在最后的Mask阶段,增加了通道注意力机制,使得模型更多地得到需要的信息$经过实验表明,此模型在遥感图像的特殊目标细粒度识别中有良好的表现$对于同一个数据集,其评价指标在各个方面都要优于其他对比算法$
22cccc关键词:目标识别;Mask R-CNN;通道注意力;数据增强
中图分类号:TP389.1文献标识码:A DOI:10.19358/j.issn.2096-5133.2021.03.007
引用格式:余慧明,周志祥,彭杨,等.一种基于改进Mask R-CNN模型的遥感图像目标识别方法[J],信息技术与网络安全,2021,40(3):38-42,47.
A remote sensing image target recognition method
based on improved Mask R-CNN model
Yu Huiming,Zhou Zhixiang,Peng Yang,Cui Zhibin
(Wuhan Xing Tu Xin Ke Co.,Ltd.,Platform Products Department,Wuhan430073,China)
Abstract:As an important branch in the field of machine vision,target recognition technology has important applications in various fields.In view of the fact that the general target recognition model does not perform well in remote sensing images,the number of targets that need to be recognized is large,and the sizes are different,based on the classic tar­get recognition Mask R一CNN model,a Mask R一CNN model fusing channel attention mechanism and data enhancement technology is proposed.When inputting image data,the data through the Random一Batch images operation to improve the accuracy of the model"s recognition of targets of different sizes is first enhanced;then,when extracting features,the FPN in the original Mask R一CNN model is improved to
BiFPN,so that the extracted features can better reflect the original picture information;in the final Mask stage,the channel attention mechanism is added,so that the model can get more information.Experiments show that this model is used in remote sensing images.It has a good performance in the fine-grained recognition of special targets.For the same data set,its evaluation indicators are superior to other comparison al­gorithms in all aspects.
Key words:target recognition;Mask R-CNN;channel attention;data enhancement
0引言
随着人工智能的兴起,深度学习[1]算法各个领域的优势被体现岀来"对视频、图像中的多目标#细粒度的目标识别技术,可以方便人们在复杂的情景中快速定位到所需要的检测目标"随着场景的复杂度加深,基于基础模型的各种改进版本层岀不穷"
在过去近10年中,目标识别技术又有了飞速的发展,从最开始的机器学习算法,再到目前主流的
巨磁阻传感器
深度学习目标识别算法,如RCNN[2]#SSP-Net[3]# Fast R-CNN[4]#Faster R-CNN[5],目标识别技术已经
Artificial Intelligence•人工智能
在各个领域都有了很好的应用!但是,由于数据集的制约,针对遥感图像的军事目标识别却是一个例外。另外,军事码头物体数量众多,需要检测的目标与其他物体交错相间,大大降低了模型的准确性。对于一些密集型的目标检测,PAN X78等人提岀了一个由特征选择模块(Feature Selection Module,FSM)和动态优化头(Dynamic Refinement Head,DRH)组成的动态优化网络。FSM使神经元能够根据目标物体的形状和方向调整接受野,而DRH使模型能够以一种对象感知的方式动态地改进预测。何代毅[7]等人就提岀了一种基于改进Mask-RCNN[J9的建筑物自动提取方法,在网络的设计中添加了路径聚合网络和特征增强功能,通过监督和迁移学习的方式在Inria航空影像标签数据集中进行多线程迭代训练与模型优化学习,实现了建筑物的自动精确分割和提取。对于数据集缺乏等问题,林通["等人通过迁移姿态生成对抗网络生成姿态不同的行人图片,对数据集进行了扩充。
针对遥感图像的军事目标多目标细粒度的识别,在主流的Mask R-CNN模型表现不佳的情况下,本文在Mask R-CNN模型的基础上进行改进,经过改进后的模型更加高效地实现了对多目标的自动精确分割和提取,也提高了对遥感图像中军事目标的细粒度识别的准确率。
1算法原理与网络改进
1.1Mask R-CNN模型
Mask R-CNN是目标检测近年来最成功的算法之一,它是由何凯明于2017年提岀,在其前一代版本Fa
ster R-CNN的基础上进行了改进,将原有的感兴趣区域(Region Of Interest,ROI)Pooling改进为更加精确的ROI Align,此外,还在Faster R-CNN网络的基础上新增了一个Mask7109分支。其算法的结构流程图如图1所示。
从图1中可以看到,Mask R-CNN网络在Faster R-CNN的基础上,运用特征学习效果较好的组合ResNet[1195O/1O1+FPN,极大程度上提高了模型对特征的学习能力,ROI Align通过双线性插值的办法解决了ROI pooling像素点的偏差较大的问题,增强了特征框检测的精确度。另外,对于每一个类别都有一个独立的Mask分支与之对应。经验表明,通过为每个类别对应一个Mask可以有效避免类间竞争(其他目标类别不贡献Loss值),这可以提高实例分割的效果7129。整体而言,Mask R-CNN相较于Faster R-CNN各方面性能指标有了很大程度的提升。
Mask R-CNN算法采用多任务损失函数,通过不断地学习减小损失函数的值,最终达到全局最优解。
1.2Mask R-CNN网络的改进
传统的Mask R-CNN网络功能强大,但是针对遥感军事图像存在大量图片尺寸不一,清晰度不足,细粒度目标检测效果欠佳;单向的FPN网络特征图中的高层特征与低层特征之间的联系不太紧密,不利于特征信息的有效结合;在Mask网络中,对有效的信息没有特别的关注的问题。因此,本文在继承Mask R-CNN网络的优点的前提下,对其做岀了如
人工智能•
Artificial  Intelligence
下的改进!
1.2.1输入数据集的改进
针对数据集,在预处理后进行了增强处理,针对 每张图片运用Random  - Batch  images 的思想进行处 理°对原本尺寸为1 280 x  1 280的每一个目标,根据
图片中目标数量的多少,动态截取640 x  640 # 320 x
320 # 160 x  160的图片,然后对截取后的同等大小图
片按照其尺寸随机拼接还原成1 280x  1 280的图 片 ° 以截取框 640 x  640 为例,Random  - Batch  images
思想如图2所示°
过简单的网络连接的改变,在基本不增加原有模型 计算量的情况下,大幅度地提升了小尺寸目标检测 的性能°其结构如图3所示°氨分解制氢
如图 3 所示,输入的图片通过高层特征的上采
样和底层特征进行自顶向下的连接,每一层都会进 行预测°
而本文采用的是FPN 的变体,FPN 的一种复杂
双向融合模型—— BiFPN ,其可以更加方便地融合 多尺度特征,针对多尺度的目标细粒度检测任务有 很好的效果° BiFPN 的结构如图4所示°
1 280 x  1 280
:□
l_
□ u
1___□ □
■・l
酮康唑香波1 280x  ) 280
甲占
I ______I 640 x  640
1 280 x  1 280
BiFPN
图4 BiFPN 结构
-----—► predict
ceCT^O-predict
—O-------—► predict
------4®—► predict
C3 -----------------------------—► predict
1 2K0 x  1
图 2 Random  一 Batch  images
如图2所示,采用640 x  640的截取框对原图像
进行截取,然后随机地拼接还原为原始尺寸的大 小,不仅仅对原始数据集进行扩充,而且也增加了
模型的识别能力。
1 .2.
2 FPN 网络的改进
FPN 最早是在Faster  R-CNN 模型中被提岀的, FPN 主要是用来解决目标检测中的多尺度问题,通
1.2.3 Mask 网络的改进
掩码网络(Mask)是Mask  R-CNN 网络的关键所 在,它通过添加一个分支与现有的用于边界框识
别的分支并行来预测目标Mask ,从而扩展了 Faster
R-CNN 。然而它在进行预测时,并不能关注到需要
的有用的信息,增加有用信息的权重,因此在Mask
分支上添加通道注意力机制,对所需要识别的模糊 目标给予更多的权重,提高了目标检测的准确性。
其结构如图5所示。
X
Ct ct ct ct ct  rpdi p(li e(li p(li p(li  n  r  r  r  r
p  p  p  p  p  Q
()()=
Input
图3 FPN 结构
Artificial Intelligence#人工智能
Mask R-CNN网络在提取军事码头的集装箱、小型船只等清晰、独立的目标物时效果较好°但是,军事码头各种大小型船只交错相间,遥感图像较模糊,一些模糊的小目标无法被准确地识别出来,因此,本文在原本的Mask分支基础上增加了通道注意力机制,针对模糊不易被察觉的目标,给予更多的注意力,也在一定程度上增加了模型整体的准确率°
2算法的总流程
由于本文使用的是尺寸大小固定为1280!1280 并且带有标记的数据集,因此省去了数据标注和数据裁剪等步骤°具体步骤为:⑴获取数据集;⑵运用Random-Batch images对数据集进行了增强处理,对原始数据集进行扩充和增强处理;(3)在原始的Mask R-CNN模型上进行搭建自己的模型;(4)配置网络参数,如初始化学习率,定义Epoch等;(5)载入预训练权重及标签数据开始训练,并保存训练得到的权重等数据;(6)载入训练得到的权重,读取测试集图片的掩模图片;(7)对掩模图片的各个特征进行二值化处理;(8)对输出的结果进行性能评估并对比其他模型°整体的算法流程如图6所示°
3实验与算法评价
3.1实验过程
本实验使用开源的PyTorch学习框架,使用Python 语言编程实现算法网络,硬件环境为配有NVIDIA GeForce GTX TITAN2080显卡(32GB),64位Ubun-
获取数据集数据增强搭建模型
载入权虫
得到掩膜图像
开始训练调整模型参数
对掩模图像
进行二值化处理
模型的评估与分析
图6算法的总体流程
tu16.04操作系统°
本文采用迁移学习方法,运用网上公开的COCO2014数据集训练得到预训练模型,作为本文遥感军事场景多目标细粒度识别算法模型的预训练模型°本文使用的数据集,其中的训练集包含3000张图片,经过Random-Batch images后扩充至5000张图片,测试集为260张,图片尺寸均为1280!1280°
3.2评价指标
由于需要检测的目标数较多,因此使用平均准确率(mAP)平均召回率(mRecall)、平均查准率(mPrecision)和F1[13](式(1)〜式(4))作为模型的评价指标°其中C为所要检测目标的种类数°
mAPv C!j"P($)%($)
C"V1J0
mRecallv&T f(t PW f F)x100%
C
mPrecisionv§(tp WF n)x100%
(1_2x mPrecision x mRecall
Precision+Recall
其中)($)为准确率-召回率曲线()-$曲线),TP (True Positive)表示算法和人工标注都识别出需要检测的目标物,FN(False Negative)表示算法没有识别出但是人工标注了的目标物,FP(False Positive)表示算法检测出而人工未标注的目标物°
为了验证本文所提出的改进模型较主流的目标识别网络有优势,使用支持向量机(Support Vector Machine,SVM)〔⑷、全卷积网络(Fully Convolutional Network,FCN)[15]、Mask R-CNN模型在相同的数据集上进行对比试验°由表1可以看出,相较于其他
(1)
(2)
(3)
(4)
人工智能•Artificial Intelligence
表1比赛官方数据集上主流算法比较
(%)
方法SVM FCN改进前Mask R-CNN改进后Mask R-CNN
mAP54.67358.26564.15668.227
mRecall55.22359.61565.51670.977
mPrecision58.21363.53466.53673.167
F155.14260.97065.51072.567
供水控制器
主流目标识别网络,经过改进后的M&sF R-CNN在总体上效果更好。
3.3结果分析
本文采用的数据集为带有标注的遥感目标数据,如图7所示,目标类型较多,目标物较为模糊,其他物体数量较多,对需要检测的目标造成了较大的干扰°另外,数据集较少,只有3000张图片,因此本文采用了Random-Batch images策略,如图8所示,将图片裁剪后进行拼接,对数据进行了增广处理°
图7带标注的图片图8Random一Batch images
生成的图片
由表1可以看岀,相较于主流的目标识别模型,本文提岀的模型在此数据集上的各个评价指标均有一定的提升,说明本文提岀的模型具有一定的优越性"
4结论
本文针对的是基于遥感图片的军事多目标细粒度识别,提岀了一种基于主流的目标识别网络Mask R-CNN的改进模型,通过Random-Batch images 思想,对数据集进行增广处理;然后将Mask R-CNN 模型中的FPN改进为BiFPN,使模型能更加方便地融合多尺度的模型;Mask网络层通道注意力机制的加入,提高了模型对小目标的关注度,提高了模型目标识别的准确率。整体而言,本文提岀的方法在遥感图片的军事目标多目标细粒度识别取得了不错的效果,相较于其他主流模型有较为明显的提升。参考文献
[1]KRIZHEVSKY A,SUTSKEVER I,HINTON G    E.
Imagenet classification with deep convolutional neural
networks[C].Lake Tahoe:Proceedings of the25th
International Conference on Neural Information Pro-
cessing Systems,2012.
[2]GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich
feature hierarchies for accurate object detection and
semantic segmentation[C].Columbus,OH:2014IEEE
Conference on Computer Vision and Pattern Recogni-tion,2014.
[3]HE K,ZHANG X,REN S,et al.Spatial pyramid
pooling in deep convolutional networks for visual
recognition[C].European Conference on Computer
Vision(ECCV),2014.
[4]GIRSHICK R.Fast R-CNN[C].IEEE International
Conference on Computer Vision(ICCV),2015.
[5]REN S Q,HE K M,GIRSHICK R,et al.Faster
R-CNN:towards real-time object detection with
region proposal networks[C].Montreal:Proceedings of
Advances in Neural Information Processing Systems,
2015.
[6]PAN X,REN Y,SHENG K,et al.Dynamic refinement
network for oriented and densely packed object
detection[J].Computer Vision and Pattern Recognition
(cs.CV),arXiv:2005.09973,2020.
[7]何代毅,施文灶,林志斌,等.基于改进Mask-RCNN
的遥感影像建筑物提取[J].计算机系统应用,2020,
29(9):160-167.
[8]HE K M,GKIOXARI G,DOLLAR P,et al.Mask
R-CNN[C].Venice:Proceedings of2017IEEE Inter-national Conference on Computer Vision,2017.
[9]林通,陈新,唐晓,等.基于双流卷积神经网络和生
成式对抗网络的行人重识别算法[J].信息技术与
三板模网络安全,2020,39(6):7-12.
(下转第47页)

本文发布于:2024-09-21 22:15:43,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/228140.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:目标   模型   数据
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议