基于C3D卷积神经网络人体动作识别方法改进

实  验  技  术  与  管  理 第38卷  第10期  2021年10月
Experimental Technology and Management Vol.38  No.10  Oct. 2021
收稿日期:  2021-03-19
作者简介: 吕淑平(1963—),女,黑龙江哈尔滨,博士,教授,控制工程(电气工程)实验教学中心主任,主要研究方向为模式识别与
智能系统、实验室建设与管理,lvshuping@hrbeu.edu 。
引文格式: 吕淑平,黄毅,王莹莹. 基于C3D 卷积神经网络人体动作识别方法改进[J]. 实验技术与管理, 2021, 38(10): 168-171.
Cite this article: LYU S P, HUANG Y, WANG Y Y. Improvement of human action recognition method based on C3D convolutional neural network [J]. Experimental Technology and Management, 2021, 38(10): 168-171. (in Chinese)
ISSN 1002-4956 CN11-2034/T
DOI: 10.16791/jki.sjg.2021.10.031
基于C3D 卷积神经网络人体动作识别方法改进
吕淑平,黄  毅,王莹莹
(哈尔滨工程大学 智能科学与工程学院,黑龙江 哈尔滨  150001)
摘  要:针对C3D 卷积神经网络存在网络结构较浅、输入图像分辨率较低、训练过程中易产生过拟合现象等问题,该文设计了基于C3D 卷积神经网络的人体动作识别改进算法。对3D 卷积核进行分解,采用时空分离的(2+1)D 卷积方式代替3D 卷积;加深网络结构,增加一层(2+1)D 卷积层和一层3D 池化层,使输入图像由16帧112×112提升至32帧224×224;同时在每个(2+1)D 卷积层后加入BN 层,减少了训练过程梯度弥散。改进后的网络模型相较于原网络以及其他相关方法有更高的识别精度。 关键词:人体动作识别;C3D 卷积神经网络;深度学习
中图分类号:TP183;G642    文献标识码:A    文章编号:1002-4956(2021)10-0168-04
Improvement of human action recognition method based on
C3D convolutional neural network
LYU Shuping, HUANG Yi, WANG Yingying
(College of Intelligent Systems Science and Engineering, Harbin Engineering University, Harbin 150001, China)
Abstract: Aiming at the problems of shallow network structure, low input image resolution and over-fitting in the training process of C3D convolutional neural network, an improved human motion recognition algorithm based on C3D convolutional neural network is designed in this paper. The 3D convolution kernel is decomposed and the spatiotemporal separated (2+1)D convolution method is used instead of 3D convolution, to deepen the network structure, and add a (2+1)D convolution layer and a 3D pooling layer, so that the input image is raised from 16 frames 112×112 to 32 frames 224×224. At the same time, BN layer is added after each (2+1)D convolution layer to reduce the gradient dispersion in the training process. Compared with the original network, the improved network has higher recognition accuracy.
Key words: human action recognition; C3D convolutional neural network; deep learning
作为计算机视觉领域的研究热点和难点,人体动作识别受到国内外研究人员的广泛关注[1-2]。目前人体动作识别方法可分为两大类:一是传统的手动设计并提取特征,采用机器学习方法对特征进行分类;二是以卷积神经网络为代表的深度学习方法。
随着深度学习技术的快速发展,国内外研究人员提出多种用于视频识别领域的卷积神经网络。如Ji 等人对2D 卷积进行拓展,采用3D 卷积神经网络进行人体动作特征提取[3];Du 等人在3D 卷积神经网络基础
上进行了改进,提出了C3D 卷积神经网络[4];Ye 等人在Du 基础上,又加入了LSTM 网络[5]。相比于传统方法,上述方法具有识别准确率高、泛化能力强、不需要手动提取特征等优点。
C3D 卷积神经网络的提出,有效提高了人体动作识别准确率,但在实际应用中仍存在一些问题。该网络结构较浅,输入图像分辨率较低,使得特征提取不够充分,对较复杂的动作识别较困难;3D 卷积核的参数数量过多,训练时使模型易产生过拟合现象[6]。
太阳能沼气吕淑平,等:基于C3D 卷积神经网络人体动作识别方法改进 169
本文在借鉴[3—5]文献研究基础上,针对C3D 卷积神经网络存在的问题进行了改进,改进后的网络模型相较于原C3D 网络以及其他相关方法有更高的识别精度。
1  C3D 卷积神经网络结构
C3D 卷积神经网络结构如图1所示,该网络包括5个卷积层、5个池化层、两个全连接层以及一个Softmax 分类层,激活函数使用的是Relu ,网络输入
颗粒级配
是16帧运动相关图像。5个卷积层中每层卷积核数目分别为64、128、256、512、512,所有卷积核大小均为3×3×3,在时间和空间维度设置padding=True ,卷积核滑动步长为1。所有池化层均采用最大值池化方式,第一层池化层采用二维卷积,池化核尺寸为2×2,其余池化层均采用三维卷积,池化核尺寸均为2×2×2。通过设置第一层池化层采用二维卷积方式,有利于提取高层运动信息,避免由于过早合并时间信号导致缩减图像之间出现运动信息问题,从而提升识别精度。
图1  C3D 卷积神经网络结构
2  基于C3D 卷积神经网络的改进
针对C3D 卷积神经网络存在的问题,改进策略如下:①改进卷积方式,将3D 卷积方式改为时空分离的(2+1)D 卷积方式;②加深网络结构,增加一层(2+1)D 卷积层和一层3D 池化层,使原始输入从16帧112×112大小图像拓展为32帧224×224;③在每个卷积层之后加入批标准化层(BN 层),解决因网络结构加深使梯度消失问题。 2.1  3D 卷积分解
将3D 卷积核分解为(2+1)D 卷积核,即2D 空间卷积以及1D 时间卷积,将3D 卷积显式地分解为两个单独卷积操作,如图2所示。
图2  3D 卷积分解为(2+1)D 卷积
相对于3D 网络结构,这种分解有两个优势:①尽管卷积核参数数量没有减少,但每个2D 空间卷积和1D 时间卷积后都会使用Relu 激活函数,网络非线性增加1倍[7],使网络模型更具表示复杂性的功能,减少了网络的过拟合[8];②训练时,(2+1)D 卷积核网络误差小于相同结构的3D 卷积核网络误差,使训练过程的优化器更易于寻优。 2.2  网络模型设计
基于C3D 卷积神经网络结构,本文网络模型结构设计如图3所示。以时空分离的(2+1)D 卷积方式代替3D 卷积,增加一层(2+1)D 卷积层以及一层三维池化层,使输入视频帧大小达到224×224。连续输入帧数为32,有利于对运动时间较长、视频像素更丰富的视频片段进行运动分析。
为适应网络结构的加深,增加了全连接层神经元个数,同时为加快学习速率、增强网络鲁棒性,在每个卷积层之后加入了BN 层。根据文献[4]和文献[9],选取2D 卷积空间尺度为3×3,1D 卷积时间尺度为3,采用Relu 作为激活函数,卷积核步长为1。所有池化
层均采用最大值池化方式,三维池化层的池化核大小为2×2×2。
图3  本文网络模型结构
在图3中,第一层结构包括一个(2+1)D 卷积层,一个BN 层,一个二维池化层。(2+1)D 卷积层包括的2D 空间维度卷积层有23个3×1×3×3卷积核,1D 时间维度卷积层有64个23×3×1×1卷积核。池化层输出的特征图大小为112×112,时间维度为32。
第二层结构包括一个(2+1)D 卷积层,一个BN 层,
一个三维池化层。(2+1)D 卷积层包括的2D 空间维度卷积层有230个64×1×3×3卷积核,1D 时间维度卷积层有128个230×3×1×1卷积核。池化层输出的特征图大小为56×56,时间维度为16。
第三层结构包括两个(2+1)D 卷积层,一个BN 层,一个三维池化层。第一个(2+1)D 卷积层包括的2D 空
170
实验技术与管理
间维度卷积层有460个128×1×3×3卷积核,1D时间维度卷积层有256个460×3×1×1卷积核。第二个(2+1)D卷积层包括的2D空间维度卷积层有576个256×1×3×3卷积核,1D时间维度卷积层有256个576×3×1×1卷积核。池化层输出的特征图大小为28×28,时间维度为8。采集重构
第四层结构包括两个(2+1)D卷积层,一个BN层,一个三维池化层。第一个(2+1)D卷积层包括的2D空间维度卷积层有921个256×1×3×3卷积核,1D时间维度卷积层有512个921×3×1×1卷积核。第二个(2+1)D卷积层包括的2D空间维度卷积层有1152个512×1×3×3卷积核,1D时间维度卷积层有512个1152×3×1×1卷积核。池化层输出的特征图大小为14×14,时间维度为4。
cofdm
第五层结构包括两个(2+1)D卷积层,一个BN层,一个三维池化层。第一个(2+1)D卷积层包括的2D空间维度卷积层有1152×1×3×3卷积核,1D时间维度卷积层有512个1152×3×1×1卷积核。第二个(2+1)D卷积层包括的2D空间维度卷积层有1152个512×1×3×3卷积核,1D时间维度卷积层有512个1152×3×1×1卷积核。池化层输出的特征图大小为7×7,时间维度为2。
第六层结构与第四层、第五层相同,经此层处理后,特征图大小为4×4,时间维度为1。第六层后是两层全连接层以及一个Softmax分类层,两层全连接层神经元个数均为5120。
3实验led贴片模组
实验环境:Windows 10操作系统;CPU:Inter Core i5-9400f;GPU:RTX 2060 Super(8 G显存);搭载Tensorflow深度学习框架。
3.1 采样间隔帧数实验
3D卷积神经网络受输入图像容量限制,仅需提取视频中部分图像作为输入即可,本文采用间隔N帧的采样方法。实验中使用的是UCF-101人体行为数据集,该数据集共有13 320个人体动作视频、101种人体动作类[10],其约束条件较少,对算法要求较高,是学术界较为认可的人体动作识别基准数据集。
选取UCF-101人体行为数据集前10种运动视频进行实验,按照80%训练集、20%测试集划分。在视频采样帧数为32前提下,取2、3、4帧的采样间隔进行对比实验。对本文网络模型迭代训练16轮,实验结果如表1所示。
一般情况下,摄像机录制人体动作视频的动作变化较为缓慢,选取较大采样帧间隔有助于消除冗余信息,得到更有代表性的动作特征。考虑UCF-101数据
表1不同采样帧间隔实验结果
采样帧数采样间隔识别准确率/%
32 2 77.2
32 3 85.6
32 4 89.2环氧树脂模具
集每个视频的FPS为25,本网络输入一组采样帧为
32,设置采样帧间隔为4。
3.2  (2+1)D卷积核与3D卷积核对比实验
选取UCF-101人体行为数据集前10种动作视
频进行训练及测试,其中80%作为训练集、20%作
为测试集。数据集中的所有视频都已被分解为视频
帧存放在文件夹中,并已进行预处理,优化器采用
SGD(随机梯度下降)。模型迭代训练40轮,采用
(2+1)D和3D卷积方式,网络模型训练误差曲线如图
4所示。
图4不同卷积方式网络模型训练误差曲线
从图4中可以看出,在训练轮次相同情况下,采
用(2+1)D卷积方式的网络模型训练误差要小于采用
3D卷积方式的网络训练误差,说明采用时空分离
(2+1)D卷积核的网络结构更易于优化器寻优。
3.3本文网络模型训练及测试
本文网络模型在UCF-101数据集上训练,进行网
络参数调整。数据集中所有视频都已被分解为视频帧
存放在文件夹中,并已进行预处理。图像以非重叠方
式、以32帧为一组制作成训练集,在模型训练过程中
随机抽取作为网络模型输入。
输入到本文网络模型的图像经预处理后的大小为
224×224,最后经过两层神经元个数均为5120的全连
接层得到一个5120维特征向量,使用Softmax分类器
得到动作分类结果。
实验中采用SGD优化器,每次批量迭代数据量为
32,随机失活率设置为0.85,初始学习率设置为0.003,
训练集和测试集按照80%和20%比例划分,每训练4
轮学习率减小至原来的1/10。迭代训练16轮,模型
训练及其测试准确率和误差曲线如图5所示。
吕淑平,等:基于C3D 卷积神经网络人体动作识别方法改进 171
图5  模型训练及其测试准确率和误差
3.4  实验结果
将本文网络模型与一些高被引文章在UCF-101数据集上取得的识别结果进行对比,如表2所示。其中,IDT (改进密集轨迹)方法是目前效果最好的非深度学习方法,C3D(1)表示C3D 卷积神经网络直接在UCF-101数据集上训练得到的实验结果,C3D(2)表示C3D 卷积神经网络先在Sports-1M 人体动作数据集上进行预训练,然后在UCF-101数据集上进行权值微调得到的实验结果。
表2  本文网络模型与其他方法的比较
方法
识别准确率/%
IDT 方法[11] 76.2
LRCN 网络[12] 82.9 R3D 网络[13] 87.6 C3D(1) 82.4
C3D(2) 85.2
Two-stream 网络[14] 88.0
本文网络模型 90.7
从表2可以看出,本文设计的网络模型优于原C3D 卷积神经网络,可以很好地捕捉帧之间的运动信息及帧的空间信息。相较于识别精度较高的Two- stream 网络,本网络模型精度也有一定提升,并且本方法不需要对光流信息进行提取,识别速度相对较快,具有良好的应用前景。使用预训练模型的C3D 卷积神
经网络相较于原C3D 卷积神经网络,识别精度也有一定提升,说明适当运用迁移学习可以有效提升模型精度。从表2还可以看出,以IDT 为代表的手动提取特征方法识别率较低,说明在运动背景较为复杂的情况下,手动方式难以提取到有效特征。
4  结语
本文基于C3D 卷积神经网络提出改进方法,改进后的网络模型有更高的识别精度。通过采用时空分离的(2+1)D 卷积方式对3D 卷积方式进行替换,使网络模型更具表示复杂性的功能,减少网络出现过拟合现象,同时使模型更易优化;通过增加一层(2+1)D 卷积层以及一层3D 池化层,加深了网络结构,有利于对运动时间较长、视频像素更丰富的视频进行有效学习;通过在每个(2+1)D 卷积层之后加入B
N 层,较好地解决了由于网络结构加深带来的梯度消失问题,同时增强了网络泛化能力。 参考文献 (References)
[1] 刘强,张文英,陈恩庆. 基于异构多流网络的多模态人体动作识别[J]. 信号处理,2020, 36(9): 1422–1428.
[2]
胡琼,秦磊,黄庆明. 基于视觉的人体动作识别综述[J]. 计算机学报,2013, 36(12): 2512–2524.
[3] JI S W, XU W, YANG M, et al . 3D convolutional neural
networks for human action recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(1): 221–231.
[4] TRAN D, BOURDEV L, FERGUS R, et al . Learning
spatiotemporal features with 3D convolutional networks[C]// 2015 IEEE International Conference on Computer Vision (ICCV). 2015: 4489–4497.
[5] YE Y C, TIAN Y L . Embedding sequential information into
spatiotemporal features for action recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). 2016: 1110–1118.
[6] STERGIOU A, POPPE R . Spatio-temporal fast 3D convolutions for human action recognition[C]//18th IEEE International Conference On Machine Learning And Applications (ICMLA).
2019: 183–190.
[7] TRAN D, WANG H, TORRESANI L, et al . A closer look at
spatiotemporal convolutions for action recognition[C]//
Conference on Computer Vision and Pattern Recognition
(CVPR). 2018: 6450–6459.
[8]
KÖPÜKLÜ O, BABAEE M, HÖRMANN S, et al . Convolutional neural networks with layer reuse[C]//2019 IEEE International Conference on Image Processing (ICIP). 2019: 345–349.  [9] REDDY K K, SHAH M . Recognizing 50 human action
categories of web videos[J]. Machine Vision & Applications, 2013, 24(5): 971–981.
(下转第176页)

本文发布于:2024-09-23 14:31:42,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/329872.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:卷积   网络   模型   训练   人体   动作
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议