一种基于深度学习的目标检测提取视频图像关键帧的方法

⼀种基于深度学习的⽬标检测提取视频图像关键帧的⽅法
调频音箱摘要:针对传统的关键帧提取⽅法误差率⾼、实时性差等问题,提出了⼀种基于深度学习的⽬标检测提取视频图像关键帧的⽅法,分类提取列车头部、尾部及车⾝所在关键帧。在关键帧提取过程中,重点研究了基于SIFT特征的粗识别和Alex-Net卷积神经⽹络模型的精识别两个阶段,通过模型训练验证基于卷积神经⽹络的关键帧提取器的可⾏性。
关键词:卷积神经⽹络(CNN);关键帧;⽬标检测
中图分类号:TP391    ⽂献标识码:A    ⽂章编号:1009-3044(2018)36-0201-03
1 概述
随着我国铁路的不断发展,铁路在运⾏过程中的安全性问题⽇益凸显,视频监控在铁路交通安全中起
着⾄关重要的作⽤。通过摄像头监控、互联⽹的传播,监控画⾯实时显⽰,铁路部门可以利⽤视频中的有效图像信息,对视频流进⾏处理,从⽽有效地保证铁路系统的正常运营。因此,如何快速有效地提取铁路视频图像中的关键帧信息,是本⽂研究的重点。
考虑到视频中相邻帧的重复率⼀般⽐较⾼,关键帧的提取可以减少帧数,进⽽提升图像特征点检测和匹配效率,同时也为图像拼接提供⼀个组织框架。针对这项关键技术,得到了研究者们的⼴泛关注,并取得了⼀定研究成果。⽂献[1]从相邻帧间的颜⾊或纹理信息变化程度出发,提出了基于视频内容的⽅法。⽂献[2]通过计算当前帧与类⼼之间特征值的距离,将视频中所有帧进⾏聚类分析,得到基于视频聚类的分析⽅法。⽂献[3]提出基于运动特征分析的算法,其基本原理是利⽤光流分析,将视频中运动量最⼩的⼀帧作为关键帧。
上述的三类传统算法主要基于图像整体信息的变化来选定关键帧,容易造成关键帧选取错误、计算量⼤、实时性差等问题。因此,本⽂在此基础上使⽤⼀种基于深度学习的⽬标检测⽅法,通过建⽴卷积神经⽹络(Convolutional Neural Network,CNN)模型,分类提取视频中列车头部、尾部及车⾝所在关键帧,使得基于深度学习的⽬标检测在关键帧提取的应⽤中成为可能。
2 卷积神经⽹络概述
作为深度学习在计算机视觉领域应⽤的关键技术,卷积神经⽹络是通过设计仿⽣结构来模拟⼤脑⽪层
空气太阳能的⼈⼯神经⽹络,可实现多层⽹络结构的训练学习。同传统的图像处理算法相⽐较,卷积神经⽹络可以利⽤局部感受野,获得⾃主学习能⼒,以应对⼤规模图像处理数据,同时权值共享和池化函数设计减少了图像特征点的维数,降低了参数调整的复杂度,稀疏连接提⾼了⽹络结构的稳定性,最终产⽣⽤于分类的⾼级语义特征,因此被⼴泛应⽤于⽬标检测、图像分类领域。
2.1 基本结构
利⽤卷积神经⽹络模型的⾃主学习能⼒,可以实现⽬标检测,本节主要介绍⼀种典型的卷积神经⽹络结构,如图1所⽰。
卷积神经⽹络是⼀种多层深度⽹络结构,主要由输⼊层、卷积层、池化层、全连接层和输出层等部分组成。输⼊层是需要处理的图像,计算机可将其理解为若⼲矩阵。卷积层是卷积神经⽹络的重要组成部分,通过输⼊层和卷积层之间矩阵的卷积运算,提取输⼊图像的特征。池化层也是卷积神经⽹络的重要组成部分,通常设置在卷积层之后,作⽤是对输⼊图像的⽬标区域像素取平均值(Average)或最⼤值(Max),即降采样处理,降低特征图像分辨率的同时避免出现过拟合。全连接层位于最后⼀个池化层和输出层之间,由0个或多个组成,其中每⼀个神经元都与前⼀层的全部神经元相连接,并根据⽬标检测的需要,有针对性地将特征向量映射到输出层,便于分类。输出层位于神经⽹络的最后,设定为Softmax回归,主要作⽤是对全连接层映射过来的输⼊向量进⾏分类,最终输出⼀维预测向量,维数等于分类的数⽬。
卷积神经⽹络中卷积层+池化层的组合,可以根据实际任务需要重复出现多次。通过多层神经⽹络的特征提取,逐步由空间特征到深层语义特征,得到不同深度的特征表达能⼒,最终经过全连接层和输出层得到⽬标检测的结果。因此,根据每层的功能,卷积神经⽹络可以划分为两个部分——由输⼊层、卷积层和池化层构成的特征提取器以及由全连接层和输出层构成的分类器。
2.2 训练⽅法
确定取消卷积神经⽹络的训练⽅法如图2所⽰,主要由前向传播和反向传播两部分组成。前向传播是样本数据由低层到⾼层逐层传播的过程,如果前向传播得到的输出值与⽬标值存在误差,则将误差从⾼层往低层反向传播回⽹络中,计算误差梯度,最后利⽤误差梯度更新卷积神经⽹络每⼀层参数的权重,达到⾃主学习的能⼒。
2.3 常⽤模型
经过近⼆⼗年的快速发展,涌现出了众多卷积神经⽹络模型结构,从早期⽤于⼿写数字识别的LeNet模型到最近的深度残差学习ResNet模型,卷积神经⽹络的层数和深度不断增加,图像识别的准确度也不断提⾼。
1998年LeCun等⼈[⽂献4]设计了早期最具代表性的卷积神经⽹络LeNet,主要有2个卷积层、2个下抽
样层(池化层)、3个全连接层组成。2012年,Krizhevsky等⼈[⽂獻5]提出的Alex-Net模型在ILSVRC竞赛中⼤幅度提⾼了图像分类的准确率,模型包含5个卷积层、3个池化层以及3个全连接层,通过长时间和⼤数据的训练(约6000万训练参数),展现了卷积神经⽹络在图像分类领域的巨⼤潜⼒。VGG-Net模型于2014年由Simonyan等⼈[⽂献6]设计,⼀共有六种不同的⽹络结构,其中所有卷积核的⼤⼩均设置为3×3,体现了 “简洁,深度”的特点。2015年Szegedy等⼈[⽂献7]提出的GoogleNet模型,不同于Alex-Net和VGG-Net模型通过增⼤⽹络结构的层数来提⾼准确率,⽽是引⼊inception模块,改变感受野的⼤⼩,提取到更丰富的特征。2016年He等⼈[⽂献8]提出了ResNet模型,利⽤残差学习缓解了⽹络结构层数增加到⼀定程度后,准确度出现退化的问题,取得了当前最好的图像识别效果。
3 基于⽬标检测的关键帧提取⽅法研究
传统的关键帧提取⽅法通常借助于图像整体信息的变化,在铁路监控视频上取得了不错的效果,但仍然存在⼀些问题。⾸先,需要⼈⼯设计选定⼀列车厢的⾸尾帧,影响关键帧提取的实时性和效率。其次,没有深⼊挖掘图像的特征,造成选取的⽬标关键帧错误率较⾼,泛化能⼒差。
卷积神经⽹络在⽬标检测上的成功应⽤,可以看作识别图像为⽬标还是为⾮⽬标。因此,本章设计了基于卷积神经⽹络的关键帧提取器,⾸先采⽤基于SIFT特征的关键点检测算法,在铁路视频图像上提
取少量区域作为候选,并通过Alex-Net模型提取候选区域的深度特征,最后将特征输⼊到SVM分类器中进⾏分类,得到列车头部、尾部和车⾝三种结果,验证基于卷积神经⽹络的关键帧提取器的可⾏性。本⽂提出的关键帧提取器流程图如图3所⽰。
3.1 基于SIFT特征的关键帧粗识别
SIFT(Scale Invariant Feature Transform)全称尺度不变特征变换,是⼀种检测和描述图像中局部特征的算法,由David Lowe于1999年提出[⽂献],原理是在不同的尺度空间寻极值点(特征点),计算位置、尺度、⽅向等信息,并把特征点⽤⼀个128维的特征向量进⾏描述。由于SIFT特征可以较好地描述⽬标的局部特性且对平移、旋转等变换保持不变,可以应⽤在视频图像的关键帧特征区域检测。
SIFT特征点算法主要包括四个部分:⾸先在建⽴尺度空间的基础上,利⽤⾼斯差分⾦字塔到局部关键点;然后对尺度空间拟合处理,得到关键点位置和尺度的精确值;再进⼀步使⽤梯度⽅向直⽅图为关键点分配⽅向信息;最后⽣成特征点的描述向量。通过基于SIFT的关键帧特征区域粗识别,⼤量与⽬标检测差异较⼤的区域被拒绝,只有少数与⽬标检测相似的特征点作为候选区域进⼊卷积神经⽹络,为接下来的精识别减少了⼯作量。
3.2 基于卷积神经⽹络的关键帧精识别
在关键帧提取器的粗识别阶段,已经筛选出⼤量的⾮⽬标区域,留下了少数候选区域。候选区域的图像特征点具有相似性,需要深度挖掘图像特征⽅可区分。因此,在关键帧提取器的精识别阶段,使⽤Alex-Net卷积神经⽹络模型,对候选⽬标区域提取深度卷积⽹络特征,⽣成特征向量,并利⽤关键帧提取器的SVM分类器将特征向量分类,得到最终的提取结果。
本⽂中使⽤Alex-Net卷积神经⽹络模型,包含5个卷积层、3个池化层和3个全连接层,其中有60M个参数和650K神经元,最多可以为1000类⽬标进⾏分类。候选⽬标区域的SIFT特征向量,作为输⼊图像进⼊模型,经过五层卷积操作和相应的最⼤池化处理,同时使⽤⾮线性激活函数ReLU加快收敛速度,GPU并⾏架构实现⾼效的卷积计算。
4 实验结果
本⽂的实验环境为:Intel(R)Core(TM)i5-4210M CPU @ 2.60GHZ,8GB内存,NVIDIA GTX 850M 显卡。使⽤的开发⼯具为基于Python 3.6.5版本的PyCharm,Alex-Net卷积神经⽹络使⽤TensorFlow框架。
在实验中,我们将事先录好的铁路监控视频,作为输⼊图像导⼊到关键帧提取器,通过SIFT特征提取和卷积神经⽹络的深度特征提取,⾃动调整⽹络参数和权重,实现基于深度学习的⽬标检测提取视频图像关键帧,提取出视频的關键帧图像如图4所⽰。
5 总结
通过卷积神经⽹络在⽬标检测领域的应⽤,本⽂实现了铁路视频图像关键帧提取器的设计和实现,其中粗识别阶段选取传统的SIFT特征点,精识别阶段利⽤卷积神经⽹络挖掘图像深度特征,提⾼了关键帧提取的精度。
参考⽂献:
化学螺栓检测[1] 林通, 张宏江, 封举富,等. 镜头内容分析及其在视频检索中的应⽤[J]. 软件学报, 2002, 13(8):1577-1585.
[2] 张婵, ⾼新波, 姬红兵. 视频关键帧提取的可能性C-模式聚类算法[J]. 计算机辅助设计与图形学学报, 2005, 17(9):2040-2045.
[3] 章毓晋.图像理解[ M] . 北京:清华⼤学出版社, 2006:377-380.
[4] LEcun, Yann, Bottou, Leon, Bengio, Yoshua, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11):2278-2324.
[5] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural
networks[C]// International Conference on Neural Information Processing Systems. Curran Associates Inc. 2012:1097-1105.
[6] K.Simonyan, A.Zisserman. Very deep convolutional networks for large-scale  image recognition[C]. International Conference on Learning Representations  (ICLR),  San Diego, CA, USA, 2015, 1-14.
[7] C.Szegedy,W. Liu,Y. Jia, et al. Going deeper with convolutions[C]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, MA, USA,  2015, 1-9.
[8] K. He, X. Zhang, S. Ren, et al. Deep residual learning for image recognition[C]. Proc. of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, 2016, 770-778.
柴油燃烧器[9] 李旭冬. 基于卷积神经⽹络的⽬标检测若⼲问题研究[D]. 电⼦科技⼤学, 2017.
[10] 殷⽂斌. 卷积神经⽹络在遥感⽬标识别中的应⽤研究[D]. 中国科学院⼤学(中国科学院遥感与数字地球研究所), 2017.

本文发布于:2024-09-25 15:16:58,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/145565.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:卷积   图像   特征   神经   提取   视频   检测   深度
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议