一种改进的YOLOv4-tiny车辆目标检测方法

电子产品世界一种改进的YOLOv4-tiny车辆目标检测方法* An improved YOLOv4-tiny vehicle target detection method

赵家琪1，高贵1,2，黄晓峰1，刘道宽1 （1.湖南工业大学轨道交通学院，湖南株洲 412007；

2.西南交通大学地球科学与环境工程学院，四川成都 611756）

摘要：伴随深度学习的不断发展，深度学习的目标检测方法被广泛应用。基于特征融合的思想，本文提出了一种改进的YOLOv4-tiny目标检测方法，通过添加卷积模块及调整部分超参数对其网络架构进行优化，以实现对道路车辆目标的快速检测、识别和定位。首先为了改善YOLOv4-tiny网络对小目标类型检测精度差的问题，基于特征金字塔网络对第二标度输出层的最后一个CBL输出特征与网络中第二个CSP输出特征进行融合，并在原有网络的基础上增加52×52的标度输出；其次，利用迁移学习权重在自己采集的数据集上进行实验，训练得出合适的权重进行测试。实验结果表明，与YOLOv4-tiny相比，改进后的网络结构相对YOLOv4-tiny的AP提升4.4%、召回率（Recall）提升4.6%、准确率（Precision）提升8.4%，且可以准确检测并定位车辆的位置。

关键词：车辆检测；特征融合；改进的YOLOv4-tiny；目标检测

*基金项目：湖南省省市联合基金（2019JJ60060），多功能机组绝缘故障诊断关键技术研究

0 引言

伴随近几年人工智能的快速发展，以及深度学习技术的不断突破创新，智能交通系统已经成为社会的发展趋势。国家要实现交通系统的智能化和自动化运行，就要将大量的交通信息利用计算机视觉技术进行处理，例如车牌识别、车辆识别与流量统计、无人驾驶等[1]。目前，深度学习技术被广泛运用到目标检测领域。为了提高驾驶的便捷性和安全性，自动驾驶技术被广泛重视并推向了商业化，高级驾驶辅助系统（ADAS）得到了广泛的应用，ADAS可以实现道路检测与车辆目标检测等多种功能。因此，高效准确的车辆目标检测技术对智慧交通系统的发展起到了至关重要的作用。

目前，基于计算机视觉的目标检测算法分为传统的目标检测算法和基于深度学习的目标检测算法[2]。传统的目标检测算法是基于机器学习的分类器与人工提取的局部特征相结合的算法，主要包括提取特征和分类两个方面，提取的特征通常是梯度方向直方图或类harr特征，结合支持向量机或AdaBoost进行目标检测。使用传统的基于机器学习的方法提取特征需要人为设计特征，容易损失信息从而造成误差，不能满足高精度和高检测速度的场景。与传统的目标检测算法相比，基于深度学习的目标检测算法具有更高的准确率、更快的检测速度和更强的鲁棒性。因此，越来越多的深度学习方法被不断应用到目标检测领域[3-6]。

基于深度学习的目标检测方法包括两阶段（Two stage）目标检测算法[7]和单阶段（One stage）目标

检测算法[8]，两阶段算法是对图像生成可能包含目标的候选区域（region）用卷积神经网络（CNN）对候选区域进行分类，精度很高，但速度方面欠佳。两阶段目标检测算法包括R-CNN、Fast R-CN、Faster R-CNN、基于区域的全卷积网络(R-FCN)等，虽然两阶段法比一阶段法具有更高的精度，但一阶段法比两阶段法具有更快的检测速度[9-10]。单阶段检测算法目标检测以整张图作为输入，在特征层输出边框位置和所属的类别，从而转

作者简介：赵家琪（1996—），男，河南，硕士研究生，主要研究方向为机器学习、深度学习、计算机视觉。

E-mail：*****************。

高贵（1981—），男，湖南，西南交通大学地球科学与环境工程学院教授，博士生导师，国家优秀青年科学基金获得者，主要研究方向为摄影测量与遥感、雷达信号处理等。

设计应用

esign & Application

变为一个回归问题。YOLO （The You Only Look Once ）[11]

算法是Redmon 等人提出的第一个基于回归的单阶段算法，之后Redmon 等人又提出了基于YOLO 算法的YOLOv2算法 [12]，删除了完全连通层和最后一个汇集层，使用锚点框来预测边界框，并设计出DarkNet -19的新基础网络。YOLOv3[13]是Redmon 等人提出的YOLO 方法的最后一个版本。它引入了特征金字塔网络、更好的基本网络darknet -53和二进制交叉熵损失，以提高检测精度和检测较小目标的能力。由于YOLOv3采用的信息融合类型没有充分利用低级信息，这是限制其在工业中潜在应用的一个弱点。因此，Alexey 等人提出了YOLOv4算法，它使用CSPDarknet53主干、空间金字塔池模块、PANet 路径聚合颈和YOLOv3(基于锚点)头作为YOLOv4的架构。以上基于深度学习的目标检测算法在目标检测领域虽然取得一定效果，但其在智能交通领域针对小目标的检测仍然不够精准。本文通过对道路车辆目标图像进行分析，结合最新的YOLOv4-tiny 算法并对其模型进行合理优化，实现了对道路图像车辆目标的快速准确检测。

1 YOLOv4-tiny方法改进

１．１　ＹＯＬＯｖ４－ｔｉｎｙ模型

Yolov4-tiny [14]

寻梦奇地

(You Only Look Once vision4-tiny )算

法是在Yolov4算法的基础上设计的，使其具有更快的目标检测速度，使用1080Ti GPU , Yolov4-tiny 的目标检测速度可达到371帧/s ，精度可以满足实际应用的要求。Yolov4-tiny 算法使用CSP Darknet53-tiny 网络作为骨干网络来代替Yolov4算法中使用的CSPDarknet53网络，空间金字塔池(SPP )和路径聚合网络(PANet )也由特征金字塔网络(FPN )代替，以减少检测时间。此外，它还使用了两个尺度的预测(26×26和13×13)，而不是3个尺度的预测。CSPDarknet53-tiny 网络在跨级部分网络中使用了CSPBlock 模块，在剩余网络中使用了ResBlock 模块。

CSPBlock 模块将特征映射分成两部分，通过跨阶段残差边缘将两部分进行组合，这使得梯度流可以在两种不同的网络路径上传播，增加梯度信息的相关性差异。与ResBlock 模块相比，CSPBlock 模块不仅可以提

高卷积网络的学习能力、计算精度，而且还可以减少计算量。消除了ResBlock 模块中计算量较大的计算瓶颈，提高了Yolov4-tiny 方法在常数情况下的精度，减少了计算量。为了进一步简化计算过程，Yolov4-tiny 方法在CSPDarknet53-tiny 网络中使用Leaky ReLU 函数作为激活函数，而不使用Yolov4中使用的Mish 激活函数。

在特征融合部分，Yolov4-tiny 方法使用特征金字塔网络提取不同尺度的特征地图，提高了目标检测速度，而不使用Yolov4方法中使用的空间金字塔池化和路径聚合网络。与此同时，Yolov4-tiny 使用了13

×13和26×26这两种不同尺度的特征地图来预测检测结果。假设输入图的大小为416×416，特征分类为80， Yolov4-tiny 网络结构如图1所示。

Yolov4-tiny 方法的预测过程与Yolov4方法相同。首先调整输入图像的大小，使所有输入图像具有相同的固定大小；其次将输入图像划分为大小为S ×S 的网格，每个网格使用B 个边界框检测目标，因此输入图像会生成S ×S ×B 的边界框，生成的边界框覆盖了整个输入图像。如果某个对象的中心落在某个网格中，网格中的边界框将预测该对象，为了减少预测过程中边界框的冗余，提出了置信阈值。如果边界框的置信值高于置信阈值，则边界框保持不变；否则边框将被删除。包围盒的置信值可得如下:

钴盐C p i i j j =,pred

*IOU truth

其中C i j 代表第i 个网格中第j 个边界框的置信度，p i j ，是目标函数。如果目标在第i 个网格的第j 个方格中，

则p i j ,=1，否则p i j ,=0。IOU pred

truth

表示预测框与真实框在并集上的交集。可比性得分越大，预测框就越接近地面真相框。Yolov4-tiny 的损耗函数与Yolov4相同，都是由目标框损失L coord 、置信度损失L coin 和分类损失L class 三部分组成，公式如下所示：

loss loss loss loss =++123

loss 1，loss 2，loss 3分别代表置信度损失、分类损失、目标框回归损失。

置信度损失函数：

loss [C log()(1C )log(1)λnoob 1j ij i i i i

∑∑=−+−−−i j S

B ==2

∑∑i j S B

==2

00(1)[C log()(1C )log(1)]−+−−W C C W C C ij i i i i

obj j j j j obj j j j j ˆˆˆˆ

电子产品世界

这里S 2是输入图像的格子的个数，B 是格子里边框的个数，W ij obj 是一个目标函数。如果jth 边框是ith 格子里检测的正确目标，W ij obj =1，否则W ij obj =0。C i j 和C ˆi

j 分别是预测框的置信度分数和真实框的置信度分数，λnoobj 是一个权重参数。

分类损失函数：

loss [()log(())(1())log(1())]−−2p

c p c ˆi i =−−j

∑∑∑i j c S B

===2

001

W p

c p c ij

i i obj j j ˆ这里的p c i j

()和p

c ˆi j

()分别代表预测框和真实框目标属于c 类目标在jth 边框中是ith 格子里的概率。迈克尔卡特-威廉姆斯

位置回归损失：loss 1IOU 16π41IOU arctan arctan 3−+−=−+

arctan arctan π44

ρw w h h 2

gt gt (,)

b b

c −2

w w h h gt

gt gt 4

其中IOU 是预测框和真实框之间的交集并集，w gt

和h gt 分别为真实框的宽度和高度，W 和h 分别为预测框的宽度和高度，ρ2(,)b b gt 为预测框中心点与真实框中心点之间的欧氏距离，C 是能包含预测边界盒和真值边界盒的最小对角线距离。

２．２　ＹＯＬＯｖ４－ｔｉｎｙ改进模型

对于卷积神经网络，不同深度的卷积层对应不同级别的特征信息。低级网络具有更高的分辨率和更详细的

特征，而高级网络具有更低的分辨率和更多的语义特征。为了使更深层次的网络同时包含丰富的语义特征和图像表面特征，我们基于特征融合思想改进了YOLOv4-tiny 的网络架构，在原有的框架基础上增加了52×52比例的输出，使分割图像的像元变小，这有助于提高小尺寸物体检测的精度。改进的YOLOv4-tiny 网络架构如图2所示。其中实线代表YOLOv4-tiny 网络架构，虚线代表我们改进后的网络。

1）增加52×52的标度输出①提取高层语义信息和浅层表面信息

我们提取了距离第二输出最近的CSPBlock 卷积层的输出信息，由于在网络中的深层位置，其包含了丰富的语义信息。此外，提取包含图像丰富表面信息的浅层CSPBlock 的输出。

②特征融合

将A 部分提取的两个输出送入1×1×128的CBL ，输出大小为26×26×128，之后是上采样层，将其大小改为52×52×128。然后将输出结果送入concat 层进行融合，融合后的特征图大小为52×52×256。这些融合的特征图被处理成3×3×256的CBL ，用于进一步的信息提取。

③增加一个输出尺度

将B 节中获得的融合特征图通过1×1×255的Conv 层，再增加一个52×52×255的输出。在YOLOv4-tiny 中，网络具有13×13和26×26的输出。在改良的

图１　ＹＯＬＯｖ４－ｔｉｎｙ网络框架

设计应用

esign & Application

YOLOv4-tiny 中，我们增加了52×52比例的输出，使分割图像的像元变小，这有助于提高小尺寸物体检测的精度。

2）损失函数优化

YOLOv4-tiny 优化后的损失函数由目标框损失L coord 、置信度损失L coin 和分类损失L class 组成：αL ()（L L c x y w h x c ,,,,)

Coin(,)Coord(,,,)class(,)

x y w h x c =+N

+L 式中：L （c x y w h ,,,,)为优化后的YOLOv4-tiny 损失函数；N 为匹配到目标区域的Default Box 的数量；α为用于调整目标框损失L coord 的比例（α初=1）。目标检测算法流程如图3所示:

烙饼问题教学设计2 实验结果与分析

本次实验的环境为：英特尔酷睿

i7-8700 CPU @

3.20 GHz ；Window10带有Pytorch1.6.0和Python3.6；GPU 是NVIDIA Geforce GTX 3090，计算机配置如表1所示。

表１　实验硬件设备

Device name configuration Processor Intel Core i7-8700TM GPU NVIDIA GeForce GTX 3090Ti

RAM 8 G Hard disk 128 G

本文使用的车辆目标数据集是利用摄像装置在道路上采集得到，并使用图片标志工具（label Img ）对数据集进行标注。通过对图像中的车辆目标用矩形框标记，标记后的图片将以XML 文件存储，作为对应训练图片的标签。数据由训练集、测试集、验证集3部分组成（如图表2所示），共使用8 000张图片进行训练，对已标记好的图像进行整理，以XML 文件作为对应图片训练的标签，存储了3个属性：Label 、Pixels 、Usage 。

表２　数据的训练集组成

Dataset

type configuration

Training set 6 500Validation set 1 200Testing set 300

２．１　实验结果展示

在这篇文章中，我们所用的数据集都是自己在道路中采集的，之后对数据集进行标签处理。该数据集包含6 500张训练集和1 200张验证集，最后从300张测试集中随机抽取2张图像分别用YOLOv4-tiny 和改进后的YOLOv4-tiny 模型进行测试，测试效果如图4和图5所示。

从图4、图5可以看出，通过对YOLOv4-tiny 与改进后的YOLOv4-tiny 模型进行检测效果对比，YOLOv4-tiny 没有将图像中的小目标检测出来，改进后的YOLOv4-

图２　改进的ＹＯＬＯｖ４－ｔｉｎｙ网络框架

图３　算法流程图

电子产品世界

tiny模型可以较好地检测出图像中的小目标，并且对其他目标的检测准确率也有所提高。实验测试结果表明，优化后的YOLOv4-tiny能够从图像中比较准确的识别和定位出小目标的位置，同时具有较高的检测精度。

图４　ＹＯＬＯｖ４－ｔｉｎｙ模型检测结果

图５　改进的ＹＯＬＯｖ４－ｔｉｎｙ模型检测结果

２．２　实验对比与评估

文章将提出的方法与YOLOv4、YOLOv4-tiny进行比较，测试它们在检测效果精确率P（Precision）、召回率R（Recall）、AP的性能。其公式可表示为：P =

TP+FP

R =

TP+FN

其中，FP（False Positive）是真实类别为负，预测类别为正；FN（False Negative）是样本真实类别为负，预测类别为负；TP（True Positive）是样本真实类别为正，预测类别为正；TN（True Negative）是真实类别为正，预测类别为负。

表３　实验结果比较

网络名称准确率/%召回率/%AP/%

YOLOv476.585.767.9

YOLOV4-tiny61.263.254.2 Improve YOLOV4-tiny69.667.858.63 结束语

为了提高对小目标的检测效果，文章提出了一种改进的YOLOv4-tiny，将YOLOv4-tiny提取的高级卷积特征和低级卷积特征进行融合，增加52×52尺度的输出，并使用K-means聚类方法在数据集上生成检测框架的锚框。通过将数据集在改进前后的网络上训练，并进行对比测试。实验结果表明，改进后的YOLOv4-tiny与YOLOv4相比，各项指标表都比较低；改进后的YOLOv4-tiny与YOLOv4-tiny相比，准

确率（Precision）提高了8.4%，召回率（Recall）提高了4.6%，AP值提高了4.4%。与YOLOv4-tiny相比，改进后的YOLOv4-tiny 可以较好地检测出图像中存在的小目标。

参考文献：

[1] 徐子睿，刘猛，谈雅婷.基于YOLOv4的车辆检测与流量统计研究[J].现代信息科技,2020,4(15):98-100+103.

[2] 王永平，张红民，彭闯，等.基于YOLO v3的高压开关设备异常发热点目标检测方法[J].红外技术,2020,42(10):983-987.

[3] REDMON J,FARHADI A.YOLOv3:An Incremental Improvement[Z].arXive -prints,2018.

[4] REDMON J,FARHADI A.YOLOv3:An incremental improvement[Z].arXiv preprint,2018.

[5] SIMONYAN K,ZISSERMAN A.Very deep convolutional networks for large scale image recognition[Z].arXiv preprint,2014.

[6] REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once:Unified,real-time object detection[C].In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2016:779-788.

[7] ZHANG Y,SONG C,ZHANG D.Deep Learning-Based Object Detection Improvement for Tomato Disease[J].IEEE Access,2020(8):56607-56614.

[8] ALGABRI M,MATHKOUR H,BENCHERIF M A,et al.Towards Deep Object Detection Techniques for Phoneme Recognition[J].IEEE Access,2020(8):54663-54680.

[9] ZHOU L,MIN W, ,LIN D, ,et al. .Detecting Motion Blurred Vehicle Logo in IoV Using Filter-Deblur GAN and VL-YOLO[J]. .IEEE Transactions on Vehicular Technology, 2020, ,69(4)::3604-3614. .

菲奥娜[10] ZHANG H,QIN L,LI J,et al.Real-Time Detection Method for Small Traffic Signs Based on Yolov3[J].IEEE Access,2020(8):64145-64156

[11] REDMON J,DIVVALA S,GIRSHICK R,et al.You Only Look Once:Unified,Real-Time Object Detection[C].In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,Las Vegas,NV,USA,2016:779-788.

[12] REDMON J,FARHADI A.YOLO9000:Better,Faster, Stronger[J].IEEE Trans.Pattern Anal.2017,29:6517–6525.

[13] REDMON J,FARHADI A.YOLOv3:An Incremental Improvement[J].IEEE Trans.Pattern Anal.2018,热失重

15:1125–1131.

[14] HOU X,MA J,ZANG S.Airborne infrared aircraft t a r g e t d e t e c t i o n a l g o r i t h m b a s e d o n Y O L O v4-tiny[J].2021 International Conference on Advances in Optics and Computational Sciences (ICAOCS) 2021,Ottawa,Canada,IOP Publishing Ltd.

本文发布于:2024-09-24 08:24:49，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/212545.html

上一篇：RRT与人工势场法结合的机械臂避障规划

下一篇：三维模型自适应变形方法[发明专利]

标签：检测目标特征网络进行算法

留言与评论（共有 0 条评论）