首页 > 专利信息

三维卷积和视频帧采样算法下斗殴检测技术

在当今社会形势下，人工智能应用已遍布人类生活的各个方面，成为人们生活所依赖的技术。其中，智慧小区就是近年来热点研究和建设的项目与应用。然而简单的门禁管理和人员来访登记已无法满足需求，对小区监控视频的结构化分析正成为智慧小区领域的研究重点。这其中，对小区人员的行为分析，尤其是斗殴行为识别和分析尤为迫切和重要，这既是社区安防的需要，也是视频监控领域亟待解决的问题。

本文提出一种新的基于三维卷积神经网络（Three-Dimensional Convolution Neural Network，3D-CNN）的斗殴行为检测方法，应用于智慧社区视频监控领域。主要贡献如下：

（1）提出了一种斗殴行为关键区域检测算法。通过应用姿态估计算法模块，得到人体目标关节和肢体的单位位移信息，从而确定斗殴行为的起始位置，形成斗殴行为预识别空间。

（2）提出了一种时空采样算法，使得训练视频数据被采样至一个设定的降维空间，同时保留视频数据的时空特征，保证深度学习网络的单次训练任务能学习到整个行为过程的信息。

（3）构建了一个基于三维卷积的神经网络进行时空特征提取和识别。

三维卷积和视频帧采样算法下斗殴检测技术

黎晓昀1，贾杰2

1.江西应用科技学院人工智能学院，南昌330100

2.南昌航空大学信息工程学院，南昌330063

摘要：针对监控视频中斗殴行为检测的需求，提出了一种新的基于三维卷积神经网络和视频帧采样算法的斗殴行为检测方法。针对监控视频行为检测起始定位的难点，提出了一种利用基于人体姿态信息的关键区域检测算法定位斗殴行为起始帧的方法，形成了斗殴行为预识别空间。针对深度学习训练数据冗余和优化程度不够的问题，提出了基于时间采样的视频帧采样算法，并且搭建了一个三维卷积神经网络，使网络学习到整个行为动作的时空信息。实验结果证明了所提方法在两个公共数据集上取得了优越的性能。

关键词：斗殴检测；三维卷积；预识别空间；时空信息

文献标志码：A中图分类号：TP391doi：10.3778/j.issn.1002-8331.2002-0189

Technology of Fighting Detection Based on Three-Dimensional Convolution and Video Frame Sampling Algorithm

LI Xiaoyun1,JIA Jie2

1.College of Artificial Intelligence,Jiangxi University of Applied Sciences,Nanchang330100,China

2.College of Information,Nanchang Hangkong University,Nanchang330063,China

Abstract：Aiming at the demand of fighting action detection in surveillance video,a novel method of fighting action detec-tion based on three-dimensional convolution neural network and video sampling algorithm is proposed.In view of the dif-ficulty in the initial location of surveillance video action detection,a method based on the key region detection algorithm with human pose information is proposed to locate the initial frame of fighting action,thus forming the pre-recognition space of fighting action.As to the problem of redundancy and insufficient optimization degree of deep learning training data,a video sampling algorithm based on spatial temporal sampling is proposed.Also a three-dimensional convolution neural network is proposed,the network can learn the spatial temporal information of the whole action.Experimental results show that the proposed method achieves superior performance on two common datasets.

Key words：fighting detection;three-dimensional convolution;pre-recognition space;spatial temporal information

基金项目：国家自然科学基金（61263012，U1431118）。

作者简介：黎晓昀（1982—），女，硕士研究生，讲师，研究领域为计算机应用；贾杰（1972—），

男，博士，教授，研究领域为计算机、多智能体编队协同，无人机总体与控制，E-mail：。

收稿日期：2020-02-14修回日期：2020-05-11文章编号：1002-8331（2021）10-0241-05

本文提出的方法在两个公共数据集上取得了较好的性能。

1研究现状

近年来，行为识别的研究引起了中外学者的广泛关

注。随着智慧社区建设的深入和深度学习算法[1-3]的发展，斗殴行为检测在安防领域中被提出了新的更高的要求。传统的基于传感器的行为识别方法[4]，无法保证设备的长期稳定性和鲁棒性，并且传感器设备十分容易收到外部环境的干扰，难以有效对斗殴行为进行识别和检测。文献[5]提出了基于图像的斗殴行为检测方法，其采用直方图的方向和幅值的熵以及速度的方差来判断是否发生打斗行为，对斗殴行为检测做了探讨和研究。文献[6]提出了联合加权重构轨迹与直方图熵的异常行为检测算法。文

献[7]提出了一种基于3D-CNN 结构的暴力检测方法，通过三维深度神经网络直接对输入进行操作。文献[8]立足于目标距离关系以及图像光流特征进行跟踪定位，以确定帧图像中目标间位置距离关系，再基于光流方向直方图熵来判定打架行为。文献[9]提出一种双流CNN 模型的打斗行为识别方法。由Hinton 等人提出的深度学习网络[10]

，使得基于图像的深度学习研究快速发展，如目标检测[11]

、图像分类[12]

等研究，已发展较为成熟并逐步实现了工业化。基于神经网络的行为识别[13-14]研究也得到了较大的发展。近几年，对智慧社区监控视频中斗殴行为识别检测的研究正成为越来越多学者关注的焦点。

本文为了解决上述问题，提出了一种新的基于三维卷积神经网络的斗殴行为检测方法，利用基于人体姿态信息的关键区域检测算法定位目标行为区域，形成斗殴行为预识别空间。同时，针对深度学习训练数据，提出了时空采样算法，配合构建三维卷积神经网络的单次训练输入设置，使网络学习到整个

行为动作的时空信息。相关实验证明了本文方法的优越性能。

2提出的方法

本文提出了一种新的基于三维卷积神经网络的斗

殴行为检测方法。首先利用人体姿态算法将监控视频

做姿态估计处理，形成骨架信息。然后获取人体手腕关节点的单位位移量，从而作为斗殴行为动作的起始判断依据，形成斗殴行为预识别空间。训练模型过程中，针对深度学习训练数据冗余和优化程度不够的问题，提出了时空采样算法，配合所提出的三维卷积神经网络的单次训练输入设置，使网络学习到整个行为动作的时空信息，进行特征提取和分类判断。所提方法流程图如图1所示。

2.1斗殴行为预识别空间

针对监控视频行为检测起始定位的难点，首先将视

频进行姿态估计处理，如openpose 算法[15]和alphapose 算法[16]。因为斗殴行为几乎都伴随着手腕关节点的快速位移，所以获取手部关节点的速度成为预判的关键。定义相邻两帧，第n 帧和第n +1帧间手部关节点的距离如式（1）所示：

D (n +1,n )=(x n +1-x n )2+(y n +1-y n )2

（1）

其中，D (n +1,n )表示距离，x n +1、

y n +1、x n 、y n 分别表示相邻两帧间手部关节点的坐标信息。颈部到髋部的距离，即躯干长度如式（2）所示：

D (neck,hip)=(x neck -x hip )2+(y neck -y hip )2

（2）

其中，D (neck,hip)表示距离，x neck 、y neck 、x hip 、y hip 分别表示颈部和髋部关节点的坐标信息。根据姿态估计算法得到的数据，做了样本统计，当手腕速度满足式（3）时，则可预判为挥拳斗殴行为，将第n 帧标注为预识别空间的起始。

D (n +1,n )≥13

D (neck,hip)（3）

根据统计结果，一次完整挥拳的持续时间约为0.5~

1.2s 。因此对监控视频来说，即持续15~36帧。保险起见，本文取40帧作为单个预识别空间元素的容量。如图2所示为预识别处理的对比。

原视频序列

…

姿态估计算法预识别空间视频帧采样

正常行为

斗殴行为

…

︙

罐笼防坠器

图1斗殴行为检测总体构架

2.2视频帧采样算法

针对上一节的预识别空间内的视频帧，本文提出了

一种基于时空采样的视频帧采样算法。为了有效地学习视频的整体时间信息，本文模型能够一次处理所有帧。然而，一个主要的挑战是处理长度不等的各种视频。在现有的大多数方法中，每个视频都被分成16帧的短片段，然后模型从这些短片段中学习时间信息。3D-CNN [17]将每个视频分成16帧。然而，在每秒30帧的视频中，16帧只能持续约0.5s ，无法表达全部的动作信息。视频帧是高度冗余的，一些连续的帧几乎是相同的，如图3（a ）所示的斗殴行为视频的前8帧。现有的方法以这种方式为其网络提供信息，因此必须通过特征或评分融合的后处理来聚合来自单个帧或短剪辑的部分

时间信息。在图3（b ）中这段视频的8个均匀采样帧可以很好地捕捉到整体的时间动态信息。

工程仿真

与原始视频帧相比，采样后的帧在相同数量的图像帧下提供了更多的动态信息。因此，相当于在40帧的视频上，采样出长度为8帧的视频。将40帧平均分为8个部分，每部分5帧，在各部分的5帧中随机采样1帧，组成采样后的视频，如式（4）所示：

Video new =random (frame 1,⋯,frame 5)+

渣油四组分

random (frame 6,⋯,frame 10)+…+random (frame 31,⋯,frame 35)+random (frame 36,⋯,frame 40)

（4）

当视频被采样到一个恒定长度后，构建了三维卷积神经网络在一个过程中处理后的视频。机读答题卡

2.3

基于三维卷积的斗殴行为检测神经网络

三维卷积最早是在文献[17]中提出用于动作识别

的，后来在文献[18]中改进为11层3D 网络。基于三维卷积的模型在许多基于视频的应用中得到了广泛的应用。与2D-CNN 相比，3D-CNN 同时从多个帧中提取空间和时间特征。2D-CNN 仅作用于二维输入，因此在二维卷积过程中也会丢失时间信息。在2D-CNN 中，在卷积层上进行二维卷积，从上一层的特征图上提取局部邻域的特征，然后施加一个偏置，通过激活函数传递结果。

在(a ,b )处的单位值如式（5）所示：

Value ab =tanh æèçö

÷t ∑h =0H -1∑w =0W -1xy (a +h )(b +w )+z （5）

其中，

tanh(∗)为双曲正切函数，t 和x 是当前特征图的连接参数，H 和W 是特征图的高度和宽度，z 是特征图的偏置。当应用于视频分析问题时，需要获得多个连续帧中的动作信息。三维卷积解决了这个问题，如式（6）所示：

Value abc

=tanh æèçö

÷t ∑h =0H -1∑w =0W -1∑d =0D -1xy (a +h )(b +w )(c +d )+z （6）

其中，D 是三维卷积核在时间维度的值。因此，通过执

行3D 卷积从空间和时间两个维度提取特征，可获取多个相邻帧中的动作信息。

通常3D-CNN 的输入是16个连续的原始RGB 帧，从16帧剪辑中提取外观和时间信息。然而16

个连续的

（a ）原始视频帧

（b ）采样后视频帧图2

预识别空间处理对比

（a ）视频的前8帧

（b ）8个均匀采样帧图3

视频帧采样对比图

帧不足以表示整个操作。因此根据2.2节得到的采样后的视频，设置单次输入训练的帧数为8，设计了如图4的三维神经网络。

本文提出的三维卷积网络有6个卷积层，5个最大池化层和2个全连接层，最后连接着Softmax 层。所有的三维卷积核在时间和空间维度上都是3×3×3和步长为1，过滤器的数量在图中标出。3D 池化层表示从pool1到pool5。除了前两个池化层的核尺寸是1×2×2，其余所有池化层的核大小都是2×2×2。每个全连接层有1024个输出单元。

3实验结果与分析

3.1数据集和实验条件

本文在两个公共数据集上进行实验和分析。CASIA 数据集[19]作为实验数据，该数据由中国科学院自动化研究所模式识别实验室采集提供，共1446段视频，在室外环境下拍摄，交互行为包括打斗、跟随、超越、会合等。所有视频由分布在水平视角、斜角和俯角的三个静止的摄像机同时拍摄，帧率为25frame/s ，分辨率为320×240。UT 交互数据集（http ：//utexas.edu/SDHA2010/Human_Interaction.html ）是一个人类交互动作视频数据集，具

有握手、指点、拥抱、击打、推、踢6类人类交互动作，共120个视频段，视频格式为720×480，30frame/s ，视频中人像的大小为200像素。UT 交互数据集的数据量较小，为了深度学习模型的准确性，通过数据增强处理，如加噪、水平翻转、缩放等手段，将数据集拓展为总量约1000段视频的增强数据集。同时，将两个数据集中打斗行为作为异常数据集，其余作为正常行为标注。为了平衡正负样本数据，对异常数据集做数据增强处理，保持正负样本比例1∶1左右。本文将训练集和测试集的样本按4∶1的比例划分。

本文实验设备采用配置为Intel

Xeon

E-2136

CPU ，16GB RAM ，NVIDIA QUDARO P5000（16GB ）GPU ，操作系统为Ubuntu 18.04。采用Caffe 深度学习框架完成了深度学习模型的实现。相应的算法是在Matlab2016b 和VS2017中开发的。3D-CNN 的最大迭代次数为12000，初始学习速率为0.001。

3.2实验分析

本文设计了4个实验来证明所提方法的优越性。

首先，对预识别空间进行实验分析，检验其作用和性能。如表1所示，在两个数据集上对有无预识别空间处理进行了分析。预识别空间在监控视频检测时可缩小

搜索范围，在数据训练时可有效去除非目标动作干扰视频帧部分。

时空采样算法能够进一步地优化训练数据，在预识别空间数据的基础上去除冗余视频帧。同时，根据保留的单个视频的帧数，设计了相应的3D-CNN 网络参数，使两者相等。也就是说，3D-CNN 不会将视频数据切割成多个小块后再通过一致性函数做分数融合操作，而是一次性提取和学习到整个视频的动作时空特征。表2和表3分别展示了时空采样算法的性能和不同采样帧数的性能，可以看出8帧采样的时空采样算法检测准确率最高。

本文还对近年来的一些斗殴行为检测算法进行了分析，并与本文所提方法进行比较。文献[20]提出了基于加权样本选择与主动学习的视频异常行为检测算法。文献[6]提出了联合加权重构轨迹与直方图熵的异常行为检测算法。但是，它们都忽略了行为动作的时空特性，单纯的瞬时信息无法准确地识别斗殴行为，正确率较低。文献[7]提出了一种基于3D-CNN 结构的暴力检测方法，通过三维深度神经网络

直接对输入进行操作，但是对神经网络的训练数据没有做优化处理，并且没有提出针对监控视频检测过程的处理方法。文献[8]立足于目标距离关系以及图像光流特征进行跟踪定位，以确定帧图像中目标间位置距离关系，再基于光流方向直方图熵来判定打架行为。文献[9]提出了一种双流CNN 模型的打斗行为识别方法，忽视了对训练数据的优化和光流模态计算量大的缺点。表4展示了本文所提方法和近期其他算法的准确率的比较数据，显示了本文方法的优越性和鲁棒性。

最

大池化层

卷积层132卷积层264最大池化层

卷积层3a 128卷积层3b 128最大池化层

卷积层4256卷积层5512最大池化层

最大池化层

全连接层21024

全连接层11024Softmax 层

图4三维卷积神经网络

表1

预识别空间的作用和准确率比较类别

不生成预识别空间生成预识别空间

CASIA 92.0993.65

UT 95.2496.08

方法

不使用时空采样算法使用时空采样算法

CASIA 92.4193.65

UT 95.1796.08

表2

时空采样算法的作用和准确率比较%

采样帧数

4816

CASIA 89.7293.6588.38

UT 94.2996.0893.90

表3

时空采样不同帧数的准确率比较

4结论

本文提出了一种新的基于三维卷积神经网络的斗殴行为检测方法。首先针对监控视频行为检测起始定位的难点，利用基于人体姿态信息的关键区域检测算法定位斗殴行为起始帧，进而形成斗殴行为预识别空间。针对深度学习训练数据冗余和优化程度不够的问题，提出了时空采样算法，结合本文提出的三维卷积神经网络的单次训练输入设置，使网络学习到整个行为动作的时空信息。实验结果证明了本文方法的优越性和鲁棒性。

参考文献：

[1]LECUN Y，BOTTOU L，BENGIO Y，et al.Gradient-based

learning applied to document recognition[J].Proceedings of the IEEE，1998，86（11）：2278-2324.

[2]吕永标，赵建伟，曹飞龙.基于复合卷积神经网络的图像去

噪算法[J].模式识别与人工智能，2017，30（2）：97-105. [3]莫凌飞，蒋红亮，李煊鹏.基于深度学习的视频预测研究综

述[J].智能系统学报，2018，13（1）：85-96.

[4]贾雅亭，刘晶花，范书瑞.基于三轴加速度传感器人体姿态

识别的特征选择[J].应用科学学报，2019，37（3）：427-436. [5]何鹏，安井然，杨曼.基于区域光流法的人体异常行为检

测[J].电视技术，2015（7）：106-109.

[6]徐志通，骆炎民，柳培忠.联合加权重构轨迹与直方图熵的

异常行为检测[J].智能系统学报，2018，13（6）：155-166. [7]周智，朱明，YAHYA K，等.基于3D-CNN的暴力行为检测[J].

计算机系统应用，2017，26（12）：207-211.

[8]高翔.视频监控中行人异常行为分析研究[D].成都：电子

科技大学，2018.

[9]高阳.基于双流卷积神经网络的监控视频中打斗行为识别

研究[D].西安：西安理工大学，2018.

[10]HINTON G E，OSINDERO S，TEH Y W.A fast learning

algorithm for deep belief nets[J].Neural Computation，2006，18（7）：1527-1554.

[11]SUN F，KONG T，HUANG W，et al.Feature pyramid

reconfiguration with consistent loss for object detection[J].

IEEE Transactions on Image Processing，2019，28（10）：5041-5051.

[12]WAN S，GONG C，ZHONG P，et al.Multiscale dynamic

graph convolutional network for hyperspectral image

classification[J].IEEE Transactions on Geoscience and

Remote Sensing，2020，58（3）：3162-3177.

[13]CAO C，ZHANG Y，ZHANG C，et al.Body joint guided

3-D deep convolutional descriptors for action recogni-

tion[J].IEEE Transactions on Cybernetics，2018，48（3）：1095-1108.

[14]KOOHZADI M，CHARKARI N M.A survey on deep

learning methods in human action recognition[J].IET

Computer Vision，2017，11（8）：623-632.

[15]CAO Z，SIMON T，WEI S E，et al.Realtime multi-person

2D pose estimation using part affinity fields[C]//2017

IEEE Conference on Computer Vision and Pattern Rec-

ognition，2017：1302-1310.

[16]FANG H S，XIE S Q，TAI Y W，et al.RMPE：regional

multi-person pose estimation[C]//2017IEEE International

Conference on Computer Vision，2017：2353-2362. [17]JI S W，XU W，YANG M，et al.3D convolutional neural

networks for human action recognition[J].IEEE Transac-

tions on Pattern Analysis and Machine Intelligence，2013，35（1）：221-231.

[18]TRAN D，BOURDEV L，FERGUS R，et al.Learning spatio-

temporal features with3D convolutional networks[C]//

2015IEEE International Conference on Computer Vision，2015.电力线网络摄像机

[19]中国科学院行为分析数据库[EB/OL].[2020-01-12].http：//

www.cbsr.ia.ac/china/Action DatabasesCH.asp.

[20]林玲，廖德，高阳，等.基于加权样本选择与主动学习的视

频异常行为检测算法[J].模式识别与人工智能，2016，29（4）：341-349.

方法文献[20]文献[6]文献[7]文献[8]文献[9]本文方法CASIA

90.83

92.79

90.98

htc a310

89.74

89.30

93.65

92.57

93.43

95.17

90.26

93.94

96.08

表4本文方法和其他算法准确率的比较%

本文发布于:2024-09-23 18:27:24，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/2/251370.html

上一篇：v4l2接口解析和摄像头数据采集

下一篇：MINI PCI-E采集卡规格参数

标签：行为视频检测

留言与评论（共有 0 条评论）