融合SPP和改进FPN的YOLOv3交通标志检测

融合SPP和改进FPN的YOLOv3交通标志检测
刘紫燕1,袁磊1,朱明成1,马珊珊1,陈霖周廷2
1.贵州大学大数据与信息工程学院,贵阳550025
2.贵州理工学院航空航天工程学院,贵阳550003
摘要:针对交通标志目标检测尺寸较小、分辨率低、特征不明显问题,提出一种改进的YOLOv3网络模型。在利用颜增强方法对交通标志进行数据增强后,改进原网络中的FPN结构,保留原网络中52×52的大尺度预测,然后利用YOLOv3网络中第二次下采样输出的特征图建立108×108的更大尺度预测。为了解决图像尺寸和失真的问题,在检测层前使用固定分块大小为5、9、13的池化操作,再将输出的特征与原来的特征图进行融合,从而实现对不同尺寸的输入得到相同大小的输出。最后,利用K-means聚类算法对TT100K交通标志数据集进行聚类分析,重新定义网络的初始候选框,使用YOLOv3网络模型和改进的YOLOv3网络模型以及其他小目标检测算法在TT100K数据集上进行对比实验。实验结果表明,改进后的YOLOv3网络模型能更有效的检测交通标志,其检测的平均精确度在三个尺度下相对原YOLOv3网络模型分别提升8.3%、6.1%、4.3%,在FPS变化不大的情况下,召回率和准确率都有明显提升,同时,改进后的YOLOv3算法相对其他小目标检测算法具有更好的检测精度和实时性。
关键词:目标检测;交通标志;YOLOv3;数据增强;大尺度预测
文献标志码:A中图分类号:TP391.4doi:10.3778/j.issn.1002-8331.2007-0117
YOLOv3Traffic sign Detection based on SPP and Improved FPN
LIU Ziyan1,YUAN Lei1,ZHU Mingcheng1,MA Shanshan1,CHEN Linzhouting2
1.College of Big Data and Information Engineering,Guizhou University,Guiyang550025,China
2.School of Aerospace Engineering,Guizhou Institute of Technology,Guiyang550003,China
Abstract:Aiming at solving the problems of small size,low resolution and insignificant features in traffic sign targets detection,an improved network model of YOLOv3is proposed.After using the color enhancement method to enhance the traffic sign data,the FPN structure in the original network is improved,retaining the large-scale prediction with a scale of 52×52in the original network,then it builds a larger-scale prediction with a scale of108×108by using the feature map of the second down-
sampling output in the YOLOv3network.In order to solve the problem of image size and distortion,it uses pooling operations with fixed block sizes of5,9,and13before the detection layer.And then,the separately output features are merged with the original feature map to achieve the same output size for different input sizes.Finally,the K-means clustering algorithm is used to cluster the TT100K traffic sign data set,the initial candidate box of the network is redefined,and the YOLOv3network model,the improved YOLOv3network model and other small target detection algorithms are used to compare experiments on the TT100K data set.The results show that the improved YOLOv3net-work model can detect traffic signs more effectively,and the average detection accuracy of the improved YOLOv3net-work model is8.3%,6.1%and4.3%higher than that of the original YOLOv3network model at three scales.When the FPS changes little,the recall rate and accuracy are significantly improved.At the same time,the improved YOLOv3algo-rithm has better detection accuracy and real-time performance than other small target detection algorithms.
Key words:object detection;traffic sign;YOLOv3;data enhancement;large-scale prediction
基金项目:贵州省科学技术基金(黔科合基础[2016]1054);贵州省联合资金资助项目(黔科合LH字[2017]7226);贵州大学2017年度学术新苗培养及创新探索专项(黔科合平台人才[2017]5788);贵州省科技计划项目(黔科合基础[2017]1069);贵州省教育厅创新体重大研究项目(黔教合KY字[2
018]026);贵州省普通高等学校工程研究中心项目(黔教合KY字[2018]007);贵州省科技计划重点项目([2019]1416)。
作者简介:刘紫燕(1974—),女,硕士,副教授,CCF会员,研究方向:无线通信系统、移动机器人、大数据挖掘分析;袁磊(1995—),男,硕士研究生,研究方向:目标检测;朱明成(1993—),男,硕士研究生,研究方向:行人重识别;马珊珊(1996—),女,硕士研究生,研究方向:信道估计;陈霖周廷(1981—),男,博士,副教授,研究方向:智能控制。
收稿日期:2020-07-08修回日期:2020-09-01文章编号:1002-8331(2021)07-0164-07
目标检测(object detection )作为计算机视觉领域基本的视觉识别问题之一,被广泛应用于自动驾驶、视频监控、人机交互、人脸检测等领域,受到学界与工业界的密切关注,是计算机视觉领域的研究热点。目标检测的目的是定位并识别图像中单个或多个目标,返回目标空间位置的同时对其所属类别进行正确分类[1];其包含目
标定位(Location )和目标识别(Classification )[2]。在真实
场景下的交通标志检测任务中,由于需要尽早识别出交通标志,则交通标志在图像中只占据较小的像素,可视为小目标[3]。Bell 等[4]将小目标定义为COCO 数据库中尺寸小于等于32×32像素的目标,由于目标尺寸较小、分辨率低、特征不明显,在进行目标检测时需要专门的数据和精度更高的算法[5]。
近年来,随着深度学习技术的不断发展,它被广泛应用于各种目标检测算法,在行人检测、车辆检测、障碍物检测等领域有着不错的效果,但对小目标的检测效果不够理想。因此,小目标检测在计算机视觉中仍是一项具有挑战性的任务[6],Faster-RCNN [7]、DCNv2[8]、M2Det [9]等为代表的两阶段检测算法由于其需要在检测前生成候选区域,导致其检测速度远不能满足实时需求。单阶段目标检测算法虽然具有较快的检测速度,但是对小目标的检测效果较差。SSD [10]、DSSD [11]、FCOS [12]等算法对小目标的检测精度有一定提升,但运行速度却较大幅度下降,Redmon 等[13]提出的YOLOv3对YOLO9000[14]进行了改进,增加多尺度预测方法,小目标的检测效果比YOLO9000有所提升。
本文以YOLOv3目标检测网络为主网络,提出一种
改进的YOLOv3网络实现交通标志的检测。首先,将原网络中的第3个尺度的特征融合图进行上采样,与Darknet-53中的2次下采样特征图进行融合,输入检测层,进行尺度为108×108的预测,同时保留原网络中尺度为52×52的预测,进行两个尺度的预测。然后,参考
空间金字塔池化(SPP )[15]
的方法,在检测层之前使用固
定分块大小为5、9、13的池化操作,对不同尺寸的输入实现相同大小的输出。最后,分别对不同改进方法的网络进行对比实验,分别使用416、608和1024尺寸的图片对3种改进后的YOLOv3网络与原网络进行对比实验。
1YOLOv3算法
YOLOv3是一种目标检测器,其骨干网络采用Darknet-53代替Darknet-19,共有53个卷积层,网络结构如图1所示。Darknet-53借鉴了ResNet 的残差思想,形成残差结构,可以很好的控制梯度的传播,避免出现梯度消失或者爆炸等不利于训练的情形,使得训练深层网络难度大大减小。该网络的主体部分由5个残差块组成,每个残差块中包含多个残差单元,每个残差单元由两个DBL 模块和一个快捷链路组成,如图2所示。Darknet-53的最小组件DBL 模块则包括卷积、批标准化及带泄露修正线性单元(Leaky ReLU )激活函数组成。
YOLOv3将预测分为13×13、26×26、52×52的3个尺度,这3种尺度分别输出3种不同尺度的特征图到检测层中,其中低层特征图感受野较小,负责检测小目标,
Convolutional Convolutional Convolutional Convolutional Residual
Convolutional Convolutional Convolutional Residual
Convolutional Type
3264326412864128256Filters 3×33×3/21×13×33×3/21×13×33×3/2Size 416×416208×208
208×208
104×104104×104104×10452×52
Output 1×
图1YOLOv3网络模型
深层特征图感受野大,容易检测出大目标。因此,YO-LOv3在检测大目标和小目标上都有不错的表现。
由于YOLOv3网络具有训练效率高,对不同尺度目标的适应性强、适合于复杂交通场景等优势,因此本文改进YOLOv3网络,使用交通标志数据集TT100K[16]进行训练和检测。
2改进YOLOv3检测算法
如前文所述,真实场景下的交通标志检测是小目标检测,而YOLOv3模型针对COCO数据集预设的初始候选框及其网络结构并不适合小目标检测。因此,本文使用K-means聚类对交通标志数据集进行聚类分析,重新定义初始候选框大小,然后改进YOLOv3模型以实现交通标志检测。
2.1K-means聚类分析
YOLOv3网络所设置的初始候选框宽高为固定值,会影响目标检测的精度和速度。因此,本文使用K-means聚类算法对TT100K交通标志数据集进行聚类分析,采用平均重叠度(AvgIOU)作为目标聚类分析的量度,聚类的AvgIOU目标函数f可表示为:
f=arg max ∑
i=1
k∑
j=1
n k
I IOU()
B,C
n(1)
式中,B表示样本,即ground truth中的目标;C表示簇的中心;n k表示第k个聚类中心中样本的个数;n表示样本的总个数;k表示簇的个数;I IOU()
B,C表示簇的中心框和聚类框的交并比;i表示样本序号;j表示聚类中心中样本的序号。
由于K-means聚类算法对初始聚类中心的选取较为敏感,不同的初始聚类中心会导致不用的聚类结果,因此,本文首先采取随机方式生成初始聚类中心,结果表明,同样的k值下也会产生不同的聚类结果,甚至有的结果之间差别很大,会导致最后选取的k值和聚类框不够准确。为了得到更好、更准确的k值和聚类框,本文以数据的平均值作为第一个聚类中心,以此选择数据中与第一个聚类中心距离最远的k−1个点作为剩下的初始聚类中心,以该方法设置初始聚类中心后得到的聚类结果相对稳定,得到的AvgIOU值以及聚类框大小相对稳定。因此,本文以最远距离的方式生成初始聚类中心,便于对比k值以获得更好的聚类框。
取k=1~9,分别对TT100K交通标志数据集中样本进行聚类分析,得到k值与AvgIOU之间的关系如图3
所示。
随着k值的增大,目标函数变化越来越平稳,变化的拐点可以认为是最佳的初始候选框的个数。当k值大于6时,曲线开始变得平稳,故选取初始候选框的数量为6,既可以加快损失函数的收敛,又可以消除候选框带来的误差。
该6个初始候选框对应数据集中的输入图片尺寸为416×416,608×608,1024×1024时分别设置宽和高为[4×4,5×6,8×8,11×11,15×16,22×24],[5×6,7×8,10×11,13×14,19×20,30×32],[9×11,14×15,19×21,16×19,36×40,56×59]。
2.2交通标志的数据增强
为了实现交通标志的数据增强,本文使用基于交通标志红、黄、蓝三的颜增强方案以增强图像中交通标志的特征,反之弱化图像中其他特征,使网络在训练时能学习到更多关于交通标志的特征。通过筛选图像中每个像素点的R、G、B值,削弱除交通标志之外区域的R、G、B像素值,从而增强图像中的交通标志,如图4所示。作为图像输入网络之前的预处理过程,采用颜增强能够增强图像中交通标志的特征,同时由于仅使用颜增强方案,因此不会增加太多的额外计算量,不会影响检测的速度。经过实验发现,在增强交通标志的同时,图像中包含与交通标志颜相近的物体也相应增强;但是这些颜相近的物体与交通标志的形状相似度很低,如图4(a3)、(b3)所示。因此,实现基于
交通标志的颜增强,网络的检测效果有一定的提升。
2.3改进YOLOv3网络模型
为了充分利用网络中浅层特征所包含的小目标的更多信息,使用Darknet-53中的2次下采样特征图,将YOLOv3网络中第3个尺度的特征融合图实现上采样,然后与Darknet-53中的2次下采样特征图融合,将其输入检测层实现尺度为108×108的预测。
由于YOLOv3网络中的中、小尺度的预测输出尺度为26×26和13×13的特征图,以TT100K数据集中的尺寸为2048×2048的图片举例,当图像被下采样至26×26
图3K-means 聚类分析结果
123456789
k
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
A
v
g
领导者的影响力I
O
U 图2DBL模块
或13×13时,图像中尺寸小于76×76或158×158的目标被压缩至小于一个像素,而图像中的交通标志小目标小于76×76,因此,YOLOv3中的中小尺度预测对小目标检
测意义不大。为了提高小目标检测的精确度、减少计算量,故删除原网络中尺度为13×13和26×26的预测层。因此,改进后的YOLOv3网络的尺度分别为108×108和52×52的两个预测层。以608图片输入尺寸为例,在TT100K 数据集中尺度52×52对应的初始候选框为[13×14,19×20,30×32],尺度108×108对应的初始候选框框
为[5×6,7×8,10×11],改进后的网络如图5所示。相对于原YOLOv3算法在3个尺度上进行预测,改
进后的YOLOv3算法仅需预测两个尺度,可以更快地检测图像中的目标。
由于高分辨率的交通标志图像在预处理和多尺度预测时可能会造成信息的丢失或尺度的不统一,从而影响检测效果。而空间金字塔池化通过对一张图片进行不同的分块池化,每个块中提取出一个特征作为一个维
kis2009度,确保最后得到特征的维度一致,从而解决信息丢失和尺度不统一的问题。故参考空间金字塔池化的方法,在检测层前使用固定分块大小的池化操作,为了实现局部特征和全局特征的特征图级别的融合,空间金字塔池化结构的最大的池化核要尽可能接近等于需要池化的特征图的大小(13×13),因此将最大池化核设置为13,其余两个核依次减4,设置为9和5。通过此方式提取每
一张图片多方面的特征,提高交通标志的检测精度,如图6所示。采用3个不同分块的空间金字塔池化虽然增加了一定的模型复杂度,影响模型速度,但是实验表明,模型速度下降较少,精度提升较多,因此加入空间金字
塔池化是值得的。
(b1)增强后图像
(a1)
原图像
(b2)增强后图像
(a2)
原图像(b3)增强后图像
(a3)原图像
图4
基于RGB
值的数据增强
Convolutional Convolutional Convolutional Convolutional Residual Type 4×
32643264Filters 3×33×3/21×13×3Size 416×416208×208208×208Output
图5改进YOLOv3网络模型
卡曼奇43实验及结果分析
为了验证本文提出的改进YOLOv3的交通标志检测算法的正确性和有效性,本文进行两个实验,分别
是将不同改进方法的YOLOv3算法进行对比实验和使用3个图片输入尺寸(416×416,608×608,1024×1024),从平均检测精确度(mAP)、每秒检测帧数(FPS)和准确率-召回率(P-R)曲线等方面对两个实验进行验证。
3.1标准数据集及实验平台
本文使用交通标志数据集TT100K,该数据集提供100000张2048×2048的图像,其中30000个交通标志实例为小目标。
数据集中共有45类对象,分别代表相应的交通标志,分别为:i2,i4,i5,il100,il60,il80,io,ip,p10,p11,p12,p19,p23,p26,p27,p3,p5,p6,pg,ph4,ph4.5,ph5,pl100,pl120,pl20,pl30,pl40,pl5,pl50,pl60,pl70,pl80,pm20,pm30,pm55,pn,pne,po,pr40,w13,w32,w55,w57,w59,wo。
股指仿真交易
删除数据集中无标注文件的图片,将6105张图片用于训练,3070张图片用于测试。
实验平台:操作系统Ubuntu16.04,深度学习框架pytorch1.4,CPU为AMD-R2700,内存为32GB,GPU为NVIDIA GeForce1080ti*2,显存为22GB。
3.2模型训练及评价指标
分别训练YOLOv3网络和改进YOLOv3网络,使用YOLOv3内置的参数进化方法调整参数,设置初始学习率为0.001,最大迭代次数为300个epoch,设置学习率分别在迭代次数为75个epoch,150个epoch和250个epoch时衰减10倍。采用翻转、平移变换等方法对数据集进行数据增强。同时,采用多尺度训练,使尺度在设定范围上下浮动,以取得更好的训练效果。
首先测试训练后的两个模型,计算其精确度(Preci-sion)和召回率(Recall),计算精确度和召回率的公式分别为:
p=TP
TP+FP(2)
R=TP
TP+FN(3)式中,TP为将正类预测为正类数,FP为将负类预测为正类数误报,FN为将正类预测为负类数。
通过设定固定阈值,按照置信度分数对检测器预测结果进行降序排列,逐个将样本作为正例输出进行预测,就可计算其P、R值并绘制P-R曲线。
3.3实验结果与分析
3.3.1改进YOLOv3对比实验
分别对原YOLOv3网络增强基于交通标志(命名为YOLOv3-A)、改进YOLOv3网络检测层和FPN结构(YOLOv3-B)、添加空间金字塔模块(YOLOv3-C)以及加入以上3个改进的YOLOv3-D网络,在输入图片尺寸为608×608下对4种模型在TT100K数据集上进行训练和测试,并与原YOLOv3网络进行对比实验。实验结果如表1所示。
从表1可以看出,改进YOLOv3在交通标志TT100K 数据集上的检测效果均比原YOLOv3网络模型有所提高。其中,YOLOv3-A的检测精度提高了1.6%mAP,表明基于交通标志的数据增强能够使交通标志的特征更加明显,使网络能更好地检测图像中的交通标志;YOLOv3-B的检测精度提升了4.5%mAP,同时检测速度也有一定的提升,这表明大尺度的预测可以更好的利用图像中小目标的信息,能更好的检测出交通标志小目标,同时由于检测层由原来的3个尺度变为两个尺度,减少了网络计算量,因此网络的FPS得以提升。YOLOv3-C 模型由于增加了空间金字塔池化层,导致网络的计算量增加,FPS下降3.5,mAP提升0.8%,提升不明显,这可能是由于数据集中图片尺寸皆为2048×2048,但真实情况下的交通标志图像会有不同的尺寸,因此,本文认为加入空间金字塔模块有着必要的实际意义。融合了3种改进的YOLOv3-D模型的mAP达到了75.2%,效果在4个网络中最好,虽然其FPS下降到了31.3f/s,但是仍然能满足实时检测的要求。
3.3.2不同图片尺寸的改进YOLOv3实验
为了进一步验证改进算法的有效性,在图像输入尺寸分别为416、608和1024的情况下,对改进后的YOLOv3网络(YOLOv3-D)及原YOLOv3网络进行对比实验。
在输入尺寸分别为416、608和1024情况下,YOLOv3网络和改进YOLOV3网络模型的P-R曲线对比图如图7(a)、(b)、(c)所示,改进后YOLOv3网络模型其准确率和召回率均比YOLOv3网络有一定程度的提升。
表1改进的YOLOv3和YOLOv3检测结果
模型
YOLOv3
YOLOv3-A
YOLOv3-B
YOLOv3-C
YOLOv3-D
mAP
0.691
0.707
0.736
dtfd0.699
0.752
FPS/(f·s−1)
34.2
32.9金霉素
36.4
30.7
31.3图6空间金字塔池化模块

本文发布于:2024-09-22 06:58:32,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/473402.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:检测   网络   目标   交通标志   进行   数据   特征   尺度
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议