一种基于yolov5算法的管制刀具检测模型

著录项
  • CN202111206564.7
  • 20211017
  • CN113971783A
  • 20220125
  • 河南工业大学
  • 陈法权;高辉;杨晓雅;万冬厚;邓淼磊;张德贤
  • G06V20/52
  • G06V20/52 G06V10/762 G06V10/82 G06N3/04 G06N3/08

  • 河南省郑州市高新技术产业开发区莲花街100号河南工业大学科技处
  • 河南(41)
摘要
本发明提出一种基于yolov5目标检测算法的且针对刀具特点进行改进的管制刀具检测模型。本发明的核心技术包括:收集并制作了相关的管制刀具数据集;使用CA注意力机制对yolov5进行改进;使用可变形卷积(DCN v2)对yolov5进行改进;针对刀具数据集设定anchor的大小和高宽比;训练出多种不同精度和速度的权重供用户选用。本发明可对监控画面进行实时智能分析以判断是否出现刀具,对管制刀具危险品检测识别精度高且实时性强,可满足利用公共监控摄像头进行暴恐识别及预警的迫切需要。
权利要求

1.提出一种基于yolov5目标检测算法的且针对刀具特点进行改进的管制刀具检测模型;本发明可对监控画面进行实时分析以判断是否出现刀具,对管制刀具危险品检测识别精度高且实时性强,可满足利用公共监控摄像头进行暴恐识别及预警的迫切需要;本发明的主要步骤包括:

(1)制作管制刀具目标检测数据集;由于目前没有公开的管制刀具数据集供本发明使用,因此本发明收集并制作了相关的管制刀具数据集;为了尽可能的接近实际应用场景,本发明没有使用只含有刀具的图片,而是全部选择了人员的图片;

(2)使用CA注意力机制对yolov5进行改进;本管制刀具检测模型使用CA注意力机制,对SPP层生成的特征进行处理,同时考虑了通道注意力和空间注意力;

(3)使用可变形卷积(DCN v2)对yolov5进行改进;采用性能优异的可变形卷积(DCNv2),使得卷积核在输入特征图的采样点发生偏移,集中于我们感兴趣的区域,可以实现在当前位置附近随意采样而不局限于之前的规则格点;

(4)训练出多种不同精度和速度的检测刀具的权重供用户选用;为了适应不同硬件设备及应用场景的需求,对发明对这4种版本的模型都进行了训练,得到了相应的权重,用户可以根据自己的实际情况选择相应的版本。

说明书
技术领域

本发明涉及一种利用监控摄像头的管制刀具检测方法,特别涉及一种采用基于yolov5 目标检测算法的且针对刀具特点进行改进的管制刀具检测方法,属于计算机视觉技术领域。

当今社会,人口众多,存在众多安全隐患。随着人们对安全性要求的提高以及经济条件的改善,监控摄像头的个数增长速度越来越快,覆盖的范围也越来越广。但是,传统的视频监控仅提供视频的捕获、存储和回放等简单的功能,主要用来记录发生的事情,很难起到预警和报警的作用。若要保证实时监控异常行为并及时采取有效措施,就需要监控人员一刻不停的监看视频,这种情况下,监控人员容易疲惫,尤其面对多路监控视频时,往往目不暇接,很难及时对异常做出反应。采用人工分析的视频监控方式已经远远不能满足需要。这就迫切需要智能视频监控,来辅助监控人员的工作,由此智能视频监控技术应运而生并迅速成为一个研究热点。

我们希望能利用覆盖面极其广泛的公共摄像头,采用先进计算机视觉技术对监控录像进行分析处理,从而自动检测刀具。这样不但能减轻监控人员的负担,更能及时发出警报信息,减少流血事件的发生,这也是本发明的初衷。

与本发明相关专利包括:专利“一种用于安检检测识别管制刀具的方法”(中国专利: CN110853019A),该发明专利公开了一种用于安检检测识别管制刀具的方法,该方法基于 SSD-ResNet101目标检测模型,对X射线管制刀具危险品检测识别精度高,安检实时性强。专利“一种基于卷积神经网络的细长类物品检测方法”(中国专利:CN109446888A),该发明涉及一种基于卷积神经网络的细长类物品检测方法,以SSD为基础,构建ESSD检测模型,在SSD的基础上,增加两个预测分支:利用1×5的卷积预测1:4的default bounding box 的输出,以及利用5×1的卷积预测4:1的default bounding box的输出,最后和SSD的3×3 的卷积预测输出结果融合之后,作为最后的检测结果。该发明技术方案有效提高了如管制刀具、钝器、支等长条状的违禁品检测效果。专利“一种基于深度学习的危险物识别方法”(中国专利:CN108647559A),该发明公开一种基于深度学习危险物识别方法,应用于智能视频技术领域,通过安装在监控区域中不同地点的视频前端设备实时采集图像信息,将图像信息传送至后台服务器,服务器根据余弦训练的深度学习算法对采集到的图像进行分析,得出是否存在危险物的判断结果;该发明的图像处理可实现毫秒级的速度,为危险物识别以及预警处理提高了效率。

本发明根据管制刀具数据集特点,提出了一种采用基于yolov5目标检测算法的且针对刀具特点进行改进的管制刀具检测方法,所提出方法具有检测精度高、鲁棒性强,适应多种监控场景类型等特点。

1.刀具检测模型

1.1 yolov5目标检测模型简介

在目标检测领域,yolo系列模型因其优良的性能被广泛在工程实践中。本设计采用目前最先进的yolov5目标检测算法为基础,在coco数据集上进行预训练。在此基础上使用制作的相关刀具数据集进行训练,从而实现对刀具的检测。

yolov5网络如图1所示(以yolov5s版本为例),由其三个主要组件组成:1)Backbone:在不同图像细粒度上聚合并形成图像特征的卷积神经网络,用于特征提取。2)Neck:一系列混合和组合图像特征的网络层,并将图像特征传递到预测层,主要作用是融合多层特征以增强其表达能力。3)Prediction Head:对图像特征进行预测,生成边界框和并预测类别。 yolov5中用到的重要的模块包括Mosaic,Focus,BottleneckCSP,SPP,PANET。模型的上采样Upsample是采用nearst两倍上采样插值。

yolov5官方代码中,给出的目标检测网络中一共有4个版本,分别是yolov5s、yolov5m、 yolov5l、yolov5x四个模型。yolov5s网络是yolov5系列中深度最小,特征图的宽度最小的网络。后面的3种都是在此基础上不断加深,不断加宽。对于yolov5,无论是V5s、V5m、 V5l还是V5x其Backbone、Neck和Head一致。唯一的区别在与模型的深度和宽度设置,只需要修改这两个参数就可以调整模型的网络结构。yolov5s网络最小,速度最少,AP精度也最低。但如果用于检测的硬件计算能力较弱,倒也是个不错的选择。其他的三种网络,在此基础上,不断加深加宽网络,AP精度也不断提升,但速度的消耗也在不断增加。图2展示了yolov5各版本的在COCO目标检测数据集上的性能对比。

1.2 CA注意力模型简介

一个coordinate attention(CA)块可以被看作是一个计算单元,旨在增强网络中特征的表达能力。它可以将任何中间特征张量作为输入并通过转换输出了与张量具有相同size同时具有增强表征的特征。通过将二维全局池操作分解为两个一维编码过程,比其他具有轻量级属性的注意力方法(如SENet、CBAM和TA)效果更好,CA注意力机制的结构如图3所示。

CA通过精确的位置信息对通道关系和长期依赖性进行编码,具体操作分为Coordinate 信息嵌入和Coordinate Attention生成2个步骤。

首先将全局平均池化分解成水平和竖直两个方向。具体来说,给定输入X,首先使用尺寸为(H,1)或(1,W)的pooling kernel分别沿着水平坐标和垂直坐标对每个通道进行编码。因此,高度为h的第c通道的输出可以表示为:

同样,宽度为w的第c通道的输出可以写成:

上述2种变换分别沿两个空间方向聚合特征,得到一对方向感知的特征图。这与在通道注意力方法中产生单一的特征向量的SE Block非常不同。这两种转换也允许注意力模块捕捉到沿着一个空间方向的长期依赖关系,并保存沿着另一个空间方向的精确位置信息,这有助于网络更准确地定位感兴趣的目标。

为了利用由此产生的表征,还需要经过第2个转换,称为Coordinate Attention生成。通过信息嵌入中的变换后,该部分将上面的变换进行concatenate操作,然后使用1*1卷积变换函数对其进行变换操作。再将所得结果沿着空间维数分解为2个单独的张量。利用另外2 个1*1卷积变换分别将其变换为具有相同通道数的张量到输入X。最后将所得的两个张量与输入X对应相乘即可。

1.3可变形卷积(DCN)

可变形卷积顾名思义就是卷积的位置是可变形的,并非在传统的N×N的网格上做卷积,这样的好处就是更准确地提取到我们所期望的特征(传统的卷积仅仅只能提取到矩形框的特征)。可变卷积的处理方式,其实就是在每一个卷积采样点加上了一个偏移量。对于输入的一张feature map,假设原来的卷积操作是3×3的,那么为了学习偏移量offset,我们定义另外一个3×3的卷积层(图中上面的那层),输出的维度其实就是原来featuremap大小,channel 数等于2N(分别表示x,y方向的偏移)。下面的可变形卷积可以看作先基于上面那部分生成的offset做了一个插值操作,然后再执行普通的卷积。

但是DCN v1也存在一个问题:可变形卷积有可能引入了无用的上下文(区域)来干扰我们的特征提取,这显然会降低算法的表现。在DCN v1中只在conv 5中使用了三个可变形卷积,在DCNv2中把conv3到conv5都换成了可变形卷积,提高算法对几何形变的建模能力。在DCN v2中我们不只添加每一个采样点的偏移,还添加了一个权重系数,来区分我们引入的区域是否为我们感兴趣的区域。假如这个采样点的区域我们不感兴趣,则把权重学习为0即可。

1.4改进yolov5模型

SPP层包含了多种最大池化操作,每一种池化都对应了不同大小的感受野,从而生成了多层融合的特征图。但就一定范围内大小的物体而言,不同的感受野对应的特征对该物体的检测效果应该是不同的,因此有必要使用通道注意力机制进行处理。目标物体有可能在图像范围内任何一个位置出现,这就导致不同空间位置的特征,对目标物体具有不同的检测效果,因此可以通过空间注意力机制对其进行处理。因此本管制刀具检测模型使用CA注意力机制,对SPP层生成的特征进行处理,同时考虑了通道注意力和空间注意力。本模型之所以没有在骨干网络中使用太多的CA注意力机制,其中的一个重要原因是这样做会过多增加计算量从而导致检测速度变慢。

在计算机视觉领域,同一物体在不同场景,角度中未知的几何变换是检测/识别的一大挑战,通常来说我们有两种做法:(1)通过充足的数据增强,扩充足够多的样本去增强模型适应尺度变换的能力。(2)设置一些针对几何变换不变的特征或者算法,比如SIFT和sliding windows。两种方法都有缺陷,第一种方法因为样本的局限性显然模型的泛化能力比较低,无法泛化到一般场景中,第二种方法则因为手工设计的不变特征和算法对于过于复杂的变换是很难的而无法设计。本发明采用性能更优的可变形卷积(DCN v2),使得卷积核在输入特征图的采样点发生偏移,集中于我们感兴趣的区域,可以实现在当前位置附近随意采样而不局限于之前的规则格点。

yolov5检测头中默认使用的anchor形状和大小是根据coco目标数据集而设定的,但是本模型所用的数据集是自己搜集制作的管制刀具数据集。该刀具数据集与coco数据集中的目标物体大小及形状差距较大,例如本刀具数据集图片中多是小目标和条形目标,因此不宜使用默认的anchor设置。为此本模型使用yolo系列中的k-means算法针对自制的管制刀具数据集进行聚类分析,用得到相应的anchor用于替换默认的anchor设置。

2.制作管制刀具数据集

由于目前没有公开的管制刀具数据集供本发明使用,因此本发明中收集并制作了相关的管制刀具数据集。为了尽可能的接近实际应用场景,本发明没有使用只含有刀具的图片,而是选择了那些人员的图片。由于真实场景中的有关人员的图片非常稀少,因此本管制刀具数据集图像的收集渠道有3种,分别是:防爆恐演习视频资料、影视作品、自己拍摄。本管制刀具的数据集一共包含2500张人员图片,这满足yolov5所要求的单类目标多于 1500个。完成收集图片后,我们使用LabelImg目标检测标注工具对图片中的刀具进行标注。然后再将标注的文件划分成训练集、验证集和检测集,并且将标注文件转化成yolov5所要求的格式。需要说明的是,由于本数据集属于小型数据集,其不足以支撑复杂网络的训练。因此本发明会将相应的模型先在coco数据集上进行预训练,然后再使用本刀具数据集进行训练。

3.训练多组刀具检测权重

yolov5官方代码中,给出的目标检测网络中一共有4个版本,分别是yolov5s、yolov5m、 yolov5l、yolov5x四个模型。yolov5s模型最小,检测速度最快,但准确率最差。yolov5x模型最大,准确率最高,但检测速度最慢。因此为了适应不同硬件设备及应用场景的需求,对发明对这4种版本的模型都进行了训练,得到了相应的权重。因此用户可以根据自己的实际情况选择相应的版本。图4中展示了使用yolov5x的检测效果,可见本发明可以较好地检测出刀具。

4.检测实验和结果分析

4.1实验环境和参数配置

本实验过程都在Linux服务器上进行,训练模型和测试算法性能所使用的具体硬件和软件环境如表1所示

表1实验环境和参数配置

训练神经网络时一般需要调整学习率,随着epoch的增加,学习率不断衰减。学习率如果太大,非常容易发生震荡,此时需要调小学习率,如果学习率太小,则训练的时间太长。 yolov5算法采用余弦退火方式来调节学习率。本实验会将相应的模型先在coco数据集上进行预训练,再使用本刀具数据集进行训练。以下针对yolov5s版本进行实验分析,主要用于验证改进方案的可行性。值所以选用yolov5s版本来验证改进方案,主要原因是yolov5s相对于另外三种版本的模型而言更容易训练,可以大幅缩短实验时间。另一方面,前文已近指出yolov5s和其余三个版本的模型相比,结构上基本一致,只是在骨干网络上深度上有所区别。

表2展示了关于yolov5s模型改进的消融实验。实验结果显示,该发明中每一种改进方案都可以提升yolov5s对于管制刀具检测的性能。改进后的yolov5s检测精度为71.6%,相比于原始模型提高了12.2。其中改变anchor形状对于该管制刀具数据集的检测性能的提升最为明显,这也进一步印证了上文所提到的,在刀具数据集中的物体形状与COCO中的物体形状相差较大,使用默认的anchor是不合适的。

表2 yolov5s模型改进的消融实验

4.2方法对比分析

为验证本发明针对管制刀具改进后的yolov5算法性能,实验选择Faster-RCNN算法、 FCOS算法、RetinaNet算法。为体现实验的公平性,我们同样根据刀具数据集对Faster-RCNN 和RetinaNet中的anchor进行了调优。因为FCOS为anchor-free模型,所以不需要进行调整。各算法性能在本管制刀具数据集上做了7组测试,测试结果如表3所示。试验结果显示,只有yolov5s的准确性略低于三种对比方案(Faster-RCNN、RetinaNet和FCOS),yolov5m、 yolov5l和yolov5x的准确性明显高于对比方案。需要说明的是,虽然yolov5在准确性上略低,但是其的检测速度明显高于其他模型。可以说,本发明中的这4个版本的yolov5管制刀具检测各有千秋,使用者可以根据实际情况进行选择最合适的版本,这也是本方案提供多个版本的目的。

表3改进后的yolov5与其他算法的对比

本发明所描述的系统在实际部署中验证结果良好,本发明所描述的系统在实际部署中验证结果良好,可对监控画面进行实时智能分析以判断是否出现刀具,对管制刀具危险品检测识别精度高且实时性强,可满足利用公共监控摄像头进行暴恐识别及预警的迫切需要。

图1为yolov5结构图。

图2为yolov5各版本性能对比图。

图3为CA注意力结构图。

图4为DCN v1结构图。

图5为刀具检测效果图。

步骤一:为了尽可能的接近实际应用场景,本发明没有使用只含有刀具的图片,而是选择了那些人员的图片。由于真实场景中的有关人员的图片非常稀少,因此本管制刀具数据集图像的收集渠道有3种,分别是:防爆恐演习视频资料、影视作品、自己拍摄。本管制刀具的数据集一共包含2500张人员图片。完成收集图片后,使用LabelImg目标检测标注工具对图片中的刀具进行标注。然后再将标注的文件划分成训练集、验证集和检测集,并且将标注文件转化成yolov5所要求的格式。

步骤二:使用CA注意力机制,对SPP层生成的特征进行处理,同时考虑了通道注意力和空间注意力。本模型之所以没有在骨干网络中使用太多的CA注意力机制,其中的一个重要原因是这样做会过多增加计算量从而导致检测速度变慢。

步骤三:在计算机视觉领域,同一物体在不同场景,角度中未知的几何变换是检测/识别的一大挑战。本发明采用性能更优的可变形卷积(DCN v2),使得卷积核在输入特征图的采样点发生偏移,集中于我们感兴趣的区域,可以实现在当前位置附近随意采样而不局限于之前的规则格点。

步骤四:yolov5检测头中默认使用的anchor形状和大小是根据coco目标数据集而设定的,但是本模型所用的数据集是自己搜集制作的管制刀具数据集。该刀具数据集与coco数据集中的目标物体大小及形状差距较大,为此本模型使用yolo系列中的k-means算法针对自制的管制刀具数据集进行聚类分析,用得到相应的anchor用于替换默认的anchor设置。

步骤五:由于本刀具数据集属于小型数据集,其不足以支撑复杂网络的训练。因此本发明先将相应的模型先在coco数据集上进行预训练,然后再使用自制刀具数据集进行训练。

步骤六:在自制管制刀具数据集上,依次检验所训练的4种刀具检测模型的检测效果。

本文发布于:2024-09-25 06:31:12,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/72728.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议