一种基于改进的C3D视频行为检测方法

著录项
  • CN201910302041.9
  • 20190416
  • CN111832336A
  • 20201027
  • 四川大学
  • 卿粼波;李龙;何小海;李诗菁;吴晓红;滕奇志
  • G06K9/00
  • G06K9/00 G06N3/08 G06N3/04

  • 四川省成都市武侯区一环路南一段24号
  • 四川(51)
摘要
本发明提供了一种基于改进的C3D视频行为检测方法,主要涉及卷积神经网络。在NVIDIA JetsonTX2上,采用改进的SqueezeNet与C3D相结合卷积神经网络,并引入BN层与short?cut结构,最后将训练模型部署到NVIDIA JetsonTX2上,对视频行为进行分析、检测。实验结果表明,改进后的SqueezeNet?C3D卷积神经网络相比于C3D神经网络在精度上提高了4.4%;改进后的SqueezeNet?C3D网络与SqueezeNet?C3D网络相比,参数量降低了15%,降低网络对计算机硬件的要求。可见本发明提出的网络具有精度高、参数量少的优点。
权利要求

1.一种基于改进的C3D视频行为检测方法,其特征在于主要包括以下过程步骤:

(1)本发明以C3D网络为基本网络进行网络改进,首先,引入BN(Batch Normalization)层,防止梯度弥散,加快网络收敛速度;

(2)SqueezeNet网络主要是由多个输出通道数相同或不同的Fire_Module模块组成,能够有效简化网络复杂度,本发明对SqueezeNet网络进行如下改进以应用到C3D网络中,因为C3D为三维卷积网络,所以将SqueezeNet的Fire_Module中的1*1和3*3卷积改为三维卷积1*1*1和3*3*3,本发明借鉴InceptionV1的设计思路对SqueezeNet进行改进,在Fire_Module的expand层中增加一个数量为e5的5*5*5卷积支路,输出通道大小为H*W*(e1+e3+e5),这样不仅增加了网络的宽度,而且改进后的SqueezeNet包含了3种不同尺寸的卷积,同时也增加了网络对不同尺度的适应性,从而提高准确度,然后将它封装,称为Fire_Module V1,但这种改进会增加网络的参数量;

(3)为降低网络的参数量,本发明借鉴Inception V3的设计思路将Fire_Module的expand层中的3*3*3卷积改为3*1*3卷积,数量为e3,进行封装,称为Fire_Module V2,这种改进相比于Fire_Module和Fire_Module V1参数量降低很多;

(4)然后将网络中的卷积层使用改进后的Fire_Module替换,如果全部使用Fire_Module V1,会造成网络参数量增大,经多次实验得出,当网络第二、三个卷积层使用Fire_Module V1替代,其余部分(除第一个和最后一个卷积层)使用Fire_Module V2替代时,准确度会得到明显提高,参数量会大大减小;

(5)最后在输出通道数量相同的Fire_Module V2模块之间,添加ResNet的short-cut结构,将训练得到的网络模型进行行为检测。

说明书
技术领域

本发明涉及深度学习领域中的行为检测问题,尤其是涉及一种基于改进的C3D视频行为检测方法。

行为检测作为计算机视觉领域和图像处理中的一个重要的研究方向。在传统行为检测领域,DT算法是最经典的算法之一,它主要包括密集采样特征点,特征点轨迹跟踪以及基于轨迹的特征提取三个部分;2013年由IEAR实验室发表的iDT算法,对DT算法做了改进,主要改进在于对光流图像的优化,特征正则化方式的改进以及特征编码方式的改进,大大提升了算法的效果。自深度学习应用到行为检测领域后,使用基于深度学习的方法得到的效果已经明显超过了使用传统算法。

深度学习理论提出以来,研究人员发现应用深度学习去进行行为检测,可以有效提高检测效果和性能,因此深度学习在实时视频的行为检测开始广泛应用,到现在为止,其检测效率和精度已经有了很大提高。在深度学习理论中,Two-Stream是一个主流方法,它是由时间、空间两个网络组成,该方法提出对视频序列中每两帧计算密集光流,然后得到密集光流的序列。然后再对光流序列和图像序列分别训练卷积神经网络模型,然后再训练一个fusion网络进行融合图像序列和光流序列的网络;C3D(3-Dimensional Convolution)是另一个主流方法,在目前来看,使用C3D方法得到的效果要比Two-Stream方法略差些,但C3D网络结构简单,而且C3D运行时间短,处理速度快,所以仍然是当前研究热门。总之,使用基于深度学习的方法得到的效果已经明显超过了使用传统算法。

本发明的目的是为提高检测精度的同时减少网络参数量,本发明基于深度学习,提出了一种基于改进的C3D视频行为检测方法,相比C3D神经网络,本发明的方法提高了检测的准确度,大大减小网络的参数量。

为了方便说明,首先引入如下概念:

卷积神经网络(Convolutional Neural Network,CNN):受视觉神经机制的启发而设计,是一种多层前馈神经网络,每层由多个二维平面或三维平面组成,平面上的每个神经元独立工作,卷积神经网络主要包括特征提取层和特征映射层。

C3D(3-Dimensional Convolution)卷积神经网络:该网络采用三维卷积对视频连续帧进行操作,相比于二维卷积更能简单有效地处理时间信息。如图1所示,C3D一共进行了8次卷积、5次池化和2次全连接操作,具有较高的准确度,是一种简单、高效、通用、快速的行为识别卷积神经网络。

SqueezeNet:主要是为了降低卷积神经网络模型参数数量而设计的,如图2所示,将原本为一层的卷积分解为两层:squeeze层和expand层,每层都有一个激活层,squeeze层里都是1*1的卷积,数量为s1;expand层里有1*1和3*3两种卷积核,数量分别为e1、e3,在数量上4*s1=e1=e3。expand层之后将1*1和3*3卷积后得到的feature map进行拼接,然后把这两层封装为一个Fire_Module。Fire_Module输入的feature map为H*W*C,输出的featuremap为H*W*(e1+e3),可以看到feature map的分辨率是不变的,变化的是通道的数量。

本发明具体采用如下技术方案:

本发明的基本思想是以C3D网络为基础,结合ResNet的short-cut结构以及改进的SqueezeNet来进行网络结构调整,并将网络部署到NVIDIA JetsonTX2上进行行为检测,如图3所示。

本发明对SqueezeNet提出如下两种修订,以应用到C3D网络中:

(1)因为所用网络使用的是三维卷积,所以将Fire_Module中的1*1和3*3卷积改为使用三维卷积1*1*1和3*3*3。为提高准确度,借鉴Inception V1结构,在Fire_Module的expand层中增加一个数量为e5的5*5*5卷积支路,如图4,输出大小为H*W*(e1+e3+e5),这样不仅增加了网络的宽度,而且改进后的Fire_Module包含了3种不同尺寸的卷积,同时也增加了网络对不同尺度的适应性,从而提高准确度。而网络越到后面,特征也越抽象,每个特征所涉及的感受野也更大,因此随着网络深度的增加,3*3*3和5*5*5的卷积比例也会增加。

(2)如果将网络中的卷积全部应用为上述改进后的Fire_Module V1,因为5*5*5卷积所需的计算量太大,会造成特征图厚度增大,网络参数量也会随着增加。为减少网络参数量,借鉴Inception V3结构,提出另一种方法,将Fire_Module中的3*3*3卷积替换为3*1*3卷积,在不影响网络性能的情况下,大大减小参数量,如图5所示。

本文在C3D网络基础上,对网络结构进行调整,首先,紧跟着卷积层引入BN(BatchNormalization)层,在神经网络层的中间,它起到预处理的功能,也就是对上一层的输入进行归一化后,再送到网络的下一层,这样做可以有效防止梯度弥散,也可以在网络训练过程中加快网络收敛速度,加速网络训练。其次,将网络中的卷积层替换为Fire_Module V1、Fire_Module V2,如果全部使用Fire_Module V1,会造成网络参数量增大,经多次实验得出,Fire_Module V1、Fire_Module V2按图6所示进行卷积层替换,参数量会大大减小。最后,替换后的网络深度变深,为防止训练时出现梯度退化问题以及提高精度,在Fire_Module V2通道数量相同的模块之间,添加short-cut结构,如图7。

本文采用改进的SqueezeNet与C3D相结合的卷积神经网络,引入BN层,随着网络深度的增加采用了ResNet的short-cut结构,对走路、跑步、打架、摔倒、坐、等动作进行检测识别,取得较好的检测结果,得到以下结论:

(1)本文提出的网络提升了检测的准确度,具有较好的识别率。

(2)本文提出的网络参数量减少很多,降低对硬件的要求,使得C3D网络性能在嵌入式平台如NVIDIA JetsonTX2上进一步提高。

图1为C3D网络结构;

图2为Fire_Module结构;

图3为为本发明总体结构图;

图4为基于InceptionV1的Fire_Module V1;

图5为基于InceptionV3的Fire_Module V2;

图6为整体网络结构图;

图7为Short-cut结构。

下面对本发明作进一步的详细说明,有必要指出的是,以下的实施例只用于对本发明做进一步的说明,不能理解为对本发明保护范围的限制,所属领域技术熟悉人员根据上述发明内容,对本发明做出一些非本质的改进和调整进行具体实施,应仍属于本发明的保护范围。

基于改进的C3D视频行为检测方法,主要包括以下步骤:

(1)本专利使用的数据集为UCF101数据集,该数据集共有13320个视频,每个视频大小为320*240,包含动作101类,并为每个动作贴上相应的名称。

(2)将数据集中的视频转换为图片格式;按照3:1的比例将数据集分为训练集、测试集。

(3)训练:训练平台配置:Intel(R)Core(TM)i7-6700 3.4GHz处理器;显卡为显存12GB的NVIDIA Titan X;Ubuntu 16.04 64位操作系统;训练采用的深度学习框架为Keras。将改进的网络在服务器上采用GPU模式进行网络训练。

(4)对训练得到的模型进行评估。

本文发布于:2024-09-24 18:24:15,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/73324.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议