一种基于激活函数的改进YOLOv4车辆行人检测算法

著录项
  • CN202210007093.5
  • 20220105
  • CN114694104A
  • 20220701
  • 西安电子科技大学;陕西理工大学
  • 王兰美;魏兵;王桂宝;廖桂生;贾建科;孙长征
  • G06V20/54
  • G06V20/54 G06V20/56 G06V40/10 G06V10/44 G06V10/764 G06V10/82 G06K9/62 G06N3/04 G06N3/08

  • 陕西省西安市雁塔区太白南路2号
  • 陕西(61)
摘要
本发明提出了一种基于激活函数的改进YOLOv4车辆行人检测算法;构造了零点处梯度并不突变的FMish激活函数,保证信息流动,不会出现“梯度消失”;本发明在Dense?YOLOv4与Dense?YOLOv4?Small网络结构的基础上,将全部的激活函数替换为FMish激活函数;本发明将KITTI道路目标数据集中的“Misc”和“Dontcare”剔除得到KITTI?7classes道路目标数据集,在KITTI?7classes数据集上对三个模型进行训练,并比较了检测速度和检测性能;基于FMish激活函数的网络模型不仅避免饱和问题,而且避免了“梯度爆炸”问题,保证训练过程的稳定性,提升检测效果。
权利要求

1.一种基于激活函数的改进YOLOv4车辆行人检测算法,基于Kitti-7classes通用数据集的道路目标数据集的检测定位,其特征在于:

利用KITTI道路目标数据集进行车辆行人检测,KITTI包含各种道路场景采集的真实图像数据,KITTI数据集共包含九类,分别为Car,Van,Truck,Pedestrian,Person(sitting),Cyclist,Tram,Misc和Dontcare,由于KITTI中有两类为“Misc”和“Dontcare”,分别为“杂乱无章”类和“不关心的”类,这两种类别是无意义的,并且由于这两类没有特定的目标特征,在不同的图片中其“Misc”类可能包含的物体是不同的,本发明对原始KITTI数据集中的“Misc”和“Dontcare”剔除,形成KITTI-7Classes数据集,本发明将在KITTI-7Classes上进行训练和测试;

所述车辆行人检测算法包含以下步骤:

步骤一、下载当前目标检测领域通用数据集KITTI道路目标数据集,KITTI数据集是目前最大的自动驾驶场景下数据集,剔除原始KITTI数据集中的“Misc”和“Dontcare”两类数据,创建KITTI-7Classes道路目标数据集,使用该数据集可保证算法检测效果与该领域公开的通用数据集保持一致,构建了本发明使用的道路目标数据集;将测试集、验证集与训练集按照6:2:2的比例划分;

步骤二、使用标准YOLOv4网络训练并识别和定位车辆行人;使用标准YOLOv4网络对基于步骤一道路目标数据集进行训练,下载标准YOLOv4网络并进行编译,标准YOLOv4网络的下载地址:https://github/AlexeyAB/darknet;为道路目标数据kitti-7classes更改cfg文件夹中kitti7.data文件中的训练集、验证集、测试集目录为下载数据集的地址,指定类别数量与类别名称,在训练执行的命令行中根据精度要求设定迭代次数(epoch)为100,根据本次实验数据集加载kitti7.data,同时加载yolov4.cfg,程序即可开始训练;保存训练过程中各层的权重文件Q1,作为训练结束后检测的权值输入文件;利用权重文件Q1进行测试,得到均值平均精度(Mean Average Precision,mAP)、召回率(Recall)与检测时的帧率(Frame Per Second,FPS);

1)构建YOLOv4网络模型,使用Initialization函数进行神经网络各层权值参数的初始化;

YOLOv4由四个部分组成,分别是:(1)Input输入端:指输入网络原始样本数据;(2)BackBone网络:指进行特征提取操作的卷积神经网络结构;(3)Neck颈部:对主干网络提取的图像特征进行融合,并将融合后的特征传递到预测层;(4)Head头部:对图像中的感兴趣目标物体进行预测,并生成可视化的预测框与目标类别;

下载标准YOLOv4网络后,对YOLOv4网络使用make命令进行编译,形成可执行文件darknet;为道路目标数据集KITTI-7classes编辑cfg文件夹中kitti7.data文件,将class、train、valid、names字符串改为对应数据集的目录与参数,这样就编辑好了标准YOLOv4网络Input部分需要的参数,在训练执行的命令行中设定epoch后,根据本次实验数据集加载kitti7.data,同时加载yolov4.cfg,程序即可开始训练;程序在运行时会使用Initialization函数进行神经网络各层权值参数的初始化;

2)从Input部分输入图片数据,经过Backbone部分,最终输出两个尺度的特征图,并使用分类器输出预测框Pb1与分类概率CPx;

从Input部分输入图片数据,经过Backbone部分,最终输出两个尺度的特征图,将两种不同尺度的特征图送入特征金字塔网络(Featuer Pyramid Network,FPN)组成的Neck部分,并将融合后的特征传递到预测层中,与此同时Head部分完成目标的分类并输出预测框Pb1与分类概率CPx,其中x为每个分类的索引;

3)对这些数据进行IoU与NMS后处理,将预测框Pb2与真实框Gtb对比,并使用Adam算法进行神经网络各层权值更新;

经过Backbone网络生成的预测框Pb1数量太大,对图片中同一物体有大量检测框存在,造成检测结果冗余;YOLOv4的Head部分会同时完成预测框与其对应的分类概率;对这些数据进行IoU与NMS后处理,得到处理好的数据;这里使用的IoU与NMS为标准YOLOv4的CIoU_loss与NMS;经过这些后处理后就可以得到感兴趣目标的预测框Pb2与其对应的分类概率CPx;同时,使用Adam算法使用后处理过程中得到的loss进行神经网络各层权值更新;

4)循环执行步骤2)和3)继续迭代至命令中设定的epoch值,停止训练,输出记录每一层权重与偏移的文件Q1;利用Q1得到的权重与偏移对测试集进行检测,计算得到mAP、Recall与检测时的帧率FPS;

本发明按照精度要求设置迭代阈值epoch=100,迭代次数小于阈值时,使用Adam算法进行网络各层权值更新,直到阈值epoch=100停止训练,计算mAP与Recall,输出记录每一层权重与偏移的文件Q1;

YOLOv4拥有良好的实时性,模型检测速度与模型权重文件大小也是非常重要的评价指标;检测速度因硬件配置不同而不同,本发明中所有实验使用同一硬件平台,检测速度的标准为每秒检测的图片数量,基于YOLOv4的车辆行人目标的检测表明模型检测速度不高,内存占用大,为了进一步提升检测速度和检测精度设计了基于FMish激活函数dense-FMish-YOLOv4与Dense-FMish-YOLOv4-Small模型;

步骤三、设计FMish激活函数,使得函数在零点处梯度并不突变,而是为非常小的负梯度,避免了饱和问题,而且在x>0部分其梯度略小于Mish,与Mish相比FMish函数较为平缓,可以保证训练过程的稳定性;

本发明设计了FMish激活函数,Mish激活函数与本发明设计的FMish公式如下:

其中x为批标准化(Batch Normalization,BN)层传递的矩阵;

本发明在Dense-YOLOv4与Dense-YOLOv4-Small网络结构的基础上,引入了FMish激活函数,将全部的激活函数替换为FMish激活函数,称为Dense-FMish-YOLOv4与Dense-FMish-YOLOv4-Small算法;

步骤四、将步骤二与步骤三模型性能的检测结果进行对比,包括模型检测精度、模型检测速度、模型检测召回率、模型权重文件大小,并查看步骤二与步骤三实际检测的数据集中的图像,分析检测结果。

说明书
技术领域

该发明属于图像识别领域,一种基于激活函数的改进YOLOv4车辆行人检测算法,该算法在通用标准数据集上表现出很好的检测性能。

随着计算机技术的不断发展及算力的不断提升,计算机视觉与其中的目标检测成为了近年来热门方向。利用目标检测可以对特定物体进行识别与定位,在驾驶辅助系统、军事预警系统等有广泛的发展前景。目标检测技术包括传统目标检测技术及基于深度学习的目标检测技术,而后者由于在性能与复杂度方面优于前者,已成为当前目标检测领域的主流算法。为了更高效管理交通道路,维持社会稳定,需要对道路上的行人车辆等目标进行检测。车辆行人的检测任务在无人驾驶领域中占据重要地位。进行智能车辆行人识别,可以辅助交警进行有效的管理和交通流量控制,并且可以及时预测接下来的交通状况,预防交通拥堵。

本发明基于YOLOv4网络和KITTI道路目标数据集,构建了更高性能的车辆行人检测算法。以YOLOv4为基础网络,借鉴DenseNet的思想,设计了Dense- SPP模块和Dense-特征融合模块,称为Dense-YOLOv4,可以有效地对高层特征进行多尺度池化以增加感受野以及更加充分的融合网络高层的特征,同时还能减少网络的计算量。

本发明所用的数据集是KITTI道路目标数据集,为了使模型能够更加轻量化的同时还能基本保持检测精度,设计了Dense-YOLOv4-Small网络模型,同时构造了FMish激活函数,其在零点处梯度并不突变,而是为非常小的负梯度,从而保证信息流动。在KITTI道路目标数据集上对YOLOv4、Dense-FMish- YOLOv4、Dense-FMish-YOLOv4-Small三个模型进行训练,并对比三种模型在检测速度,mAP和Recall指标上的性能。FMish激活函数不仅能避免饱和问题,而且函数较为平缓,避免“梯度爆炸”的问题,可以保证训练过程的稳定性,提升检测效果。

针对以上问题,本发明的目的是提供一种针对YOLOv4网络结构的基于激活函数的改进YOLOv4车辆行人检测算法。

为了实现上述目的,本发明采取如下的技术解决方案:

一种基于激活函数的改进YOLOv4车辆行人检测算法,在Dense-YOLOv4与 Dense-YOLOv4-Small网络结构的基础上,构造了FMish激活函数,其在零点处梯度并不突变,而是为非常小的负梯度,将全部的激活函数替换为FMish激活函数,称为Dense-FMish-YOLOv4与Dense-FMish-YOLOv4-Small算法,FMish 激活函数不仅能避免饱和问题,而且函数较为平缓,避免“梯度爆炸”的问题,可以保证训练过程的稳定性,提升检测效果。

所述车辆行人检测算法包括以下步骤:

步骤一、下载当前目标检测领域通用数据集KITTI道路目标数据集,剔除原始KITTI数据集中的“Misc”和“Dontcare”两类数据,创建KITTI-7Classes道路目标数据集,使用该数据集可保证算法检测效果与该领域公开的通用数据集保持一致,构建了本发明使用的道路目标数据集;将测试集、验证集与训练集按照 6:2:2的比例划分;

KITTI数据集是目前最大的自动驾驶场景下数据集;KITTI包含各种道路场景采集的真实图像数据;KITTI数据集共包含九类,分别为Car,Van,Truck, Pedestrian,Person(sitting),Cyclist,Tram,Misc和Dontcare;由于KITTI中有两类为“Misc”和“Dontcare”,分别为“杂乱无章”类和“不关心的”类,这两种类别是无意义的,并且由于这两类没有特定的目标特征,在不同的图片中其“Misc”类可能包含的物体是不同的,本发明对原始KITTI数据集中的“Misc”和“Dontcare”剔除,形成KITTI-7Classes数据集,本发明将在KITTI-7Classes上进行训练和测试;

步骤二、使用标准YOLOv4网络训练并识别和定位车辆行人;使用标准 YOLOv4网络对基于步骤一道路目标数据集进行训练,下载标准YOLOv4网络并进行编译,标准YOLOv4网络的下载地址:https://github/AlexeyAB/darknet;为道路目标数据kitti-7classes更改cfg文件夹中kitti7.data文件中的训练集、验证集、测试集目录为下载数据集的地址,指定类别数量与类别名称,在训练执行的命令行中根据精度要求设定迭代次数(epoch)为100,根据本次实验数据集加载kitti7.data,同时加载yolov4.cfg,程序即可开始训练;保存训练过程中各层的权重文件Q1,作为训练结束后检测的权值输入文件;利用权重文件Q1进行测试,得到均值平均精度(Mean Average Precision,mAP)、召回率(Recall)与检测时的帧率(Frame Per Second,FPS);

1)构建YOLOv4网络模型,使用Initialization函数进行神经网络各层权值参数的初始化;

YOLOv4由四个部分组成,分别是:(1)Input输入端:指输入网络原始样本数据;(2)骨架(Backbone)网络:指进行特征提取操作的卷积神经网络结构;(3)Neck颈部:对主干网络提取的图像特征进行融合,并将融合后的特征传递到预测层;(4)Head头部:对图像中的感兴趣目标物体进行预测,并生成可视化的预测框与目标类别;

下载标准YOLOv4网络后,对YOLOv4网络使用make命令进行编译,形成可执行文件darknet;为道路目标数据集KITTI-7classes编辑cfg文件夹中kitti7.data 文件,将class、train、valid、names字符串改为对应数据集的目录与参数,这样就编辑好了标准YOLOv4网络Input部分需要的参数,在训练执行的命令行中设定epoch后,根据本次实验数据集加载kitti7.data,同时加载yolov4.cfg,程序即可开始训练;程序在运行时会使用Initialization函数进行神经网络各层权值参数的初始化;

2)从Input部分输入图片数据,经过Backbone部分,最终输出两个尺度的特征图,并使用分类器输出预测框Pb1与分类概率CPx;

从Input部分输入图片数据,经过Backbone部分,最终输出两个尺度的特征图,将两种不同尺度的特征图送入特征金字塔网络(Featuer Pyramid Network, FPN)组成的Neck部分,并将融合后的特征传递到预测层中,与此同时Head部分完成目标的分类并输出预测框Pb1与分类概率CPx,其中x为每个分类的索引;

3)对这些数据进行IoU与NMS后处理,将预测框Pb2与真实框Gtb对比,并使用Adam算法进行神经网络各层权值更新;

经过Backbone网络生成的预测框Pb1数量太大,对图片中同一物体有大量检测框存在,造成检测结果冗余;YOLOv4的Head部分会同时完成预测框与其对应的分类概率;对这些数据进行IoU与NMS后处理,得到处理好的数据;这里使用的IoU与NMS为标准YOLOv4的CIoU_loss与NMS;经过这些后处理后就可以得到感兴趣目标的预测框Pb2与其对应的分类概率CPx;同时,使用Adam算法使用后处理过程中得到的loss进行神经网络各层权值更新;

4)循环执行步骤2)和3)继续迭代至命令中设定的epoch值,停止训练,输出记录每一层权重与偏移的文件Q1;利用Q1得到的权重与偏移对测试集进行检测,计算得到mAP、Recall与检测时的帧率FPS;

本发明按照精度要求设置迭代阈值epoch=100,迭代次数小于阈值时,使用 Adam算法进行网络各层权值更新,直到阈值epoch=100停止训练,计算mAP 与Recall,输出记录每一层权重与偏移的文件Q1;

YOLOv4拥有良好的实时性,模型检测速度与模型权重文件大小也是非常重要的评价指标;检测速度因硬件配置不同而不同,本发明中所有实验使用同一硬件平台,检测速度的标准为每秒检测的图片数量,基于YOLOv4的车辆行人目标的检测表明模型检测速度不高,内存占用大,为了进一步提升检测速度和检测精度设计了基于FMish激活函数dense-FMish-YOLOv4与Dense-FMish- YOLOv4-Small模型;

步骤三、设计FMish激活函数,使得函数在零点处梯度并不突变,而是为非常小的负梯度,避免了饱和问题,而且在x>0部分其梯度略小于Mish,与 Mish相比FMish函数较为平缓,可以保证训练过程的稳定性;

本发明设计了FMish激活函数,Mish激活函数与本发明设计的FMish公式如下:

yMish=x·tanh(ln(1+ex)),

其中x为批标准化(Batch Normalization,BN)层传递的矩阵;

本发明在Dense-YOLOv4与Dense-YOLOv4-Small网络结构的基础上,引入了FMish激活函数,将全部的激活函数替换为FMish激活函数,称为 Dense-FMish-YOLOv4与Dense-FMish-YOLOv4-Small算法;

步骤四、将步骤二与步骤三模型性能的检测结果进行对比,包括模型检测精度、模型检测速度、模型检测召回率、模型权重文件大小,并查看步骤二与步骤三实际检测的数据集中的图像,分析检测结果;

本发明在Dense-YOLOv4与Dense-YOLOv4-Small网络结构的基础上,引入了FMish激活函数,将全部的激活函数替换为FMish激活函数,FMish激活函数不仅能避免饱和问题,而且函数较为平缓,避免“梯度爆炸”的问题,可以保证训练过程的稳定性,提升检测效果。

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中需要使用的附图做简单介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明方法的流程图;

图2是使用YOLOv4进行训练的流程图;

图3是本发明的FMish和Mish激活函数对比图;

图4是Dense-FMish-YOLOv4模型结构图;

图5是Dense-FMish-YOLOv4-Small模型结构图;

图6是三种模型检测性能对比柱状图;6(a)mAP对比柱状图,6(b)召回率对比柱状图;

图7是YOLOv4和Dense-FMish-YOLOv4检测结果对比图;7(a)YOLOv4 图片A检测结果图,7(b)Dense-FMish-YOLOv4图片A检测结果图;

图8是YOLOv4和Dense-FMish-YOLOv4-Small检测结果对比图;8(a) YOLOv4图片B检测结果图,8(b)Dense-FMish-YOLOv4-Small图片B检测结果图;

图9是三种模型检测速度性能对比;

图10是三种模型的mAP性能分析;

为了让本发明的上述和其它目的、特征及优点能更明显,下面特举本发明实施例,并配合所附图示,做详细说明如下:

图1为本方法具体流程图,可分为四个步骤:

步骤一、下载当前目标检测领域通用数据集KITTI道路目标数据集,剔除原始KITTI数据集中的“Misc”和“Dontcare”两类数据,创建KITTI-7Classes道路目标数据集,使用该数据集可保证算法检测效果与该领域公开的通用数据集保持一致,构建了本发明使用的道路目标数据集;将测试集、验证集与训练集按照 6:2:2的比例划分;

KITTI数据集是目前最大的自动驾驶场景下数据集;KITTI包含各种道路场景采集的真实图像数据;KITTI数据集共包含九类,分别为Car,Van,Truck,Pedestrian,Person(sitting),Cyclist,Tram,Misc和Dontcare;由于KITTI中有两类为“Misc”和“Dontcare”,分别为“杂乱无章”类和“不关心的”类,这两种类别是无意义的,并且由于这两类没有特定的目标特征,在不同的图片中其“Misc”类可能包含的物体是不同的,本发明对原始KITTI数据集中的“Misc”和“Dontcare”剔除,形成KITTI-7Classes数据集,KITTI-7Classes数据集,本发明将在KITTI-7Classes上进行训练和测试;

步骤二、使用标准YOLOv4网络训练并识别和定位车辆行人;使用标准 YOLOv4网络对基于步骤一道路目标数据集进行训练,下载标准YOLOv4网络并进行编译,标准YOLOv4网络的下载地址:https://github/AlexeyAB/darknet.为道路目标数据kitti-7classes更改cfg文件夹中kitti7.data文件中的训练集、验证集、测试集目录为下载数据集的地址,指定类别数量与类别名称,在训练执行的命令行中根据精度要求设定迭代次数(epoch)为100,根据本次实验数据集加载kitti7.data,同时加载yolov4.cfg,程序即可开始训练;保存训练过程中各层的权重文件Q1,作为训练结束后检测的权值输入文件;利用权重文件Q1进行测试,得到均值平均精度(Mean Average Precision,mAP)、召回率(Recall)与检测时的帧率(Frame Per Second,FPS);

参照图2,训练过程可分为四步:

1)构建YOLOv4网络模型,使用Initialization函数进行神经网络各层权值参数的初始化;

YOLOv4由四个部分组成,分别是:(1)Input输入端:指输入网络原始样本数据;(2)BackBone网络:指进行特征提取操作的卷积神经网络结构;(3) Neck颈部:对主干网络提取的图像特征进行融合,并将融合后的特征传递到预测层;(4)Head头部:对图像中的感兴趣目标物体进行预测,并生成可视化的预测框与目标类别;

下载标准YOLOv4网络后,对YOLOv4网络使用make命令进行编译,形成可执行文件darknet;为道路目标数据集KITTI-7classes编辑cfg文件夹中 kitti7.data文件,将class、train、valid、names字符串改为对应数据集的目录与参数,这样就编辑好了标准YOLOv4网络Input部分需要的参数,在训练执行的命令行中设定epoch后,根据本次实验数据集加载kitti7.data,同时加载 yolov4.cfg,程序即可开始训练;程序在运行时会使用Initialization函数进行神经网络各层权值参数的初始化;

2)从Input部分输入图片数据,经过Backbone部分,最终输出两个尺度的特征图,并使用分类器输出预测框Pb1与分类概率CPx;

从Input部分输入图片数据,经过Backbone部分,最终输出两个尺度的特征图,将两种不同尺度的特征图送入特征金字塔网络(Featuer Pyramid Network, FPN)组成的Neck部分,并将融合后的特征传递到预测层中,与此同时Head部分完成目标的分类并输出预测框Pb1与分类概率CPx,其中x为每个分类的索引;

3)对这些数据进行IoU与NMS后处理,将预测框Pb2与真实框Gtb对比,并使用Adam算法进行神经网络各层权值更新;

经过Backbone网络生成的预测框Pb1数量太大,对图片中同一物体有大量检测框存在,造成检测结果冗余;YOLOv4的Head部分会同时完成预测框与其对应的分类概率;对这些数据进行IoU与NMS后处理,得到处理好的数据;这里使用的IoU与NMS为标准YOLOv4的CIoU_loss与NMS;经过这些后处理后就可以得到感兴趣目标的预测框Pb2与其对应的分类概率CPx;同时,使用Adam算法使用后处理过程中得到的loss进行神经网络各层权值更新;

4)循环执行步骤2)和3)继续迭代至命令中设定的epoch值,停止训练,输出记录每一层权重与偏移的文件Q1;利用Q1得到的权重与偏移对测试集进行检测,计算得到mAP、Recall与检测时的帧率FPS;

本发明按照精度要求设置迭代阈值epoch=100,迭代次数小于阈值时,使用 Adam算法进行网络各层权值更新,直到阈值epoch=100停止训练,计算mAP 与Recall,输出记录每一层权重与偏移的文件Q1;

最基础的网络性能评价指标分为四个分类,分别为TP(True Positives):正样本被正确识别为正样本,即狗被正确识别为狗;TN(True Negatives):负样本被正确识别为负样本,即猫被正确识别为猫;FP(False Positives):负样本被错误识别为正样本,即猫被错误识别为狗;FN(False Negatives):正样本被错误识别为负样本,即狗被错误识别为猫;准确率(Accuracy)代表预测正确的样本数量与总样本数量的比值,用来评价算法模型的整体准确性能,计算方法为精确率(Precision)即查准率,指的是识别正确的样本数占总识别样本数的比例,计算方法为而召回率(Recall) 即查全率,是指正确识别为正例的样例占所有正样例的比例,计算方法为性能好的算法模型应该在保证较高准确率的情况下,召回率维持在较高水平使用Precision-Recall(P-R)曲线来展示算法模型在准确率与召回率之间的权衡;AP指的是在某一阈值下获得的准确率与召回率所绘制的P-R曲线图与横纵坐标轴围成的面积大小,衡量模型在每个类别上检测性能的好坏,即mAP指的是多个目标类别的AP再取平均值,用来衡量算法模型在所有待测类别上检测性能的好坏;设有N个类别,则mAP的计算方法为本发明主要使用模型总体评价指标mAP与Recall作为主要评价指标;

YOLOv4拥有良好的实时性,模型检测速度与模型权重文件大小也是非常重要的评价指标;检测速度因硬件配置不同而不同,本发明中所有实验使用同一硬件平台,检测速度的标准为每秒检测的图片数量,基于YOLOv4的车辆行人目标的检测表明模型检测速度不高,内存占用大,为了进一步提升检测速度和检测精度设计了基于FMish激活函数dense-FMish-YOLOv4与Dense-FMish-YOLOv4- Small模型;

步骤三、设计FMish激活函数,使得函数在零点处梯度并不突变,而是为非常小的负梯度,避免了饱和问题,而且在x>0部分其梯度略小于Mish,与Mish 相比FMish函数较为平缓,可以保证训练过程的稳定性;

参照图3:本发明设计了FMish激活函数,Mish激活函数与本发明设计的 FMish公式如下:

yMish=x·tanh(ln(1+ex)),

其中x为批标准化(Batch Normalization,BN)层传递的矩阵;

参照图4与图5:本发明在Dense-YOLOv4与Dense-YOLOv4-Small网络结构的基础上,引入了FMish激活函数,将全部的激活函数替换为FMish激活函数,称为Dense-FMish-YOLOv4与Dense-FMish-YOLOv4-Small算法;

步骤四、将步骤二与步骤三模型性能的检测结果进行对比,包括模型检测精度、模型检测速度、模型检测召回率、模型权重文件大小,并查看步骤二与步骤三实际检测的数据集中的图像,分析检测结果;

本发明在Dense-YOLOv4与Dense-YOLOv4-Small网络结构的基础上,引入了FMish激活函数,将全部的激活函数替换为FMish激活函数,FMish激活函数不仅能避免饱和问题,而且函数较为平缓,避免“梯度爆炸”的问题,可以保证训练过程的稳定性,提升检测效果。

本发明构造了FMish激活函数,其在零点处梯度并不突变,而是为非常小的负梯度,从而保证信息流动。FMish激活函数不仅能避免饱和问题,而且函数较为平缓,避免“梯度爆炸”的问题,可以保证训练过程的稳定性,提升检测效果。

下面结合仿真实例对该发明做进一步的描述。

仿真实例:

本发明使用原始YOLOv4作为对比样本,训练数据集与测试数据集均来自通用数据集KITTI数据集以验证算法对不同数据集的普适性。

图9给出了YOLOv4、Dense-FMish-YOLOv4和Dense-FMish-YOLOv4- Small三种网络模型在KITTI-7classes数据集中的七个类Car,Van,Truck, Pedestrian,Person(sitting),Cyclist,Tram的AP值,从图9可以看出,Dense- FMish-YOLOv4方法给出的7个类的测试精度全部优于YOLOv4方法,大量剪枝之后的模型Dense-FMish-YOLOv4-Small与YOLOv4性能非常接近,计算速度大大提升。

引入FMish激活函数后模型的性能对比图6所示,参照图6:原始YOLOv4 模型的mAP值为89.1%,Recall为89.5%,引入FMish激活函数后,Dense-FMish- YOLOv4模型的mAP提升1.4%,达到90.5%,Recall提升1.6%,达到91.1%。所以本节提出的FMish激活函数可以有效的提升网络模型的检测效果和精度。而大量剪枝之后的模型Dense-FMish-YOLOv4-Small由于FMish激活函数的引入,mAP值达到88.5%,其性能非常接近YOLOv4模型,其Recall值达到90.2%,比原始YOLOv4模型高出0.7%。

图7给出Dense-FMish-YOLOv4算法模型与原始YOLOv4模型对实际检测效果对比图,将同一张图片分别放在原始YOLOv4、Dense-FMish-YOLOv4两种模型上进行检测,原始YOLOv4的左右两辆车的检测置信度分别为95%和74%, Dense-FMish-YOLOv4的左右两辆车的检测置信度分别为96%和88%,分别提升了1%和14%,说明本发明设计的FMish激活函数不仅能避免饱和问题,而且函数较为平缓,避免“梯度爆炸”的问题,可以保证训练过程的稳定性,提升检测效果。

图8给出Dense-FMish-YOLOv4-Small与原始YOLOv4模型对实际检测效果的对比图,将同一张图片分别放在原始YOLOv4、Dense-FMish-YOLOv4-Small 两种模型上进行检测,在图8(a)中,原始YOLOv4模型将图中一辆“Tram”有轨电车识别成两辆,出现误检问题,而在图8(b)中,Dense-FMish-YOLOv4-Small 模型则正常识别,并没有出现误检问题,这是因为本发明设计的Dense跨层融合模块可以融合之前卷积的信息,在网络中进行已提取特征的跨层融合,使网络更加有层次性,提升检测精度和效果。并且对Dense-YOLOv4网络进行剪枝之后的Dense-YOLOv4-Small网络,剪掉了多余冗余的计算,保留了有效的计算,网络检测速度上升,但是检测精度和置信度并没有下降。此发明设计的FMish激活函数也能避免“梯度爆炸”,使训练过程更稳定,提高检测精度和效果。

图10给出了YOLOv4、Dense-FMish-YOLOv4和Dense-FMish-YOLOv4- Small三种网络模型在KITTI-7classes数据集上的处理速度,总参数量和内存占用的对比关系,从表中可以看出YOLOv4和Dense-FMish-YOLOv4的处理速度相差不大,Dense-FMish-YOLOv4的处理速度略快于YOLOv4和内存占用上略小于YOLOv4。Dense-FMish-YOLOv4-Small处理速度略和内存占用上明显优于 YOLOv4。

综上仿真结果表明,与原始YOLOv算法模型相比,本发明提出的基于FMish 激活函数的Dense-FMish-YOLOv4和Dense-FMish-YOLOv4-Small的性能有明显的提升,Dense-FMish-YOLOv4在7个类上的AP值都有明显提升,Dense- FMish-YOLOv4-Small削减残差结构的个数消除了网络的冗余计算,没有引起网络整体性能大幅度的下降,模型检测速度大幅度提升,内存占用大大减小。

本文发布于:2024-09-23 20:11:21,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/73058.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议