首页 > 专利查询

基于运动学动态图的人体动作识别方法

肖志涛，张

曌，王

雯

（天津工业大学电子与信息工程学院，天津300387）

摘

要：为了识别RGB-D 视频中的人体动作，针对视频中运动信息利用不充分的问题，

提出了一种基于运动学动态图的人体动作识别方法。首先利用RGB 视频序列和对应的深度图序列生成场景流特征图，

基于场景流特征图计算运动学特征图序列，其中包含丰富的运动信息；使用分层排序池化将运动学特征图序列编码为运动学动态图，

同时将RGB 视频序列编码为外观动态图，最后将运动学动态图和外观动态图输入到双流卷积网络进行人

体动作识别。结果表明：基于运动学动态图和双流卷积网络的人体动作识别方法融合了外观信息和运动信息，不仅充分表征了视频的动态，而且使用了视频中具有丰富运动信息的运动学特征；在公开的数据集上对本方法进行验证，在M 2I 数据集和SBU Kinect Interaction 数据集的动作识别率分别为

91.8%和95.2%。

关键词：人体动作识别；运动学特征；动态图；双流卷积网络中图分类号：TN911.73

文献标志码：A

文章编号：员远苑员原园圆源载（圆园21）园1原园园53原07

DOI ：10.3969/j.issn.1671-024x.2021.01.010

Human action recognition based on kinematic dynamic image

XIAO Zhi-tao ，ZHANG Zhao ，WANG Wen

（School of Electronics and Information Engineering ，Tiangong University ，Tianjin 300387，China ）

Abstract ：To recognize human action in RGB-D video袁aiming at the problem of insufficient using of motion information in

the RGB-D video袁a human action recognition method was proposed based on kinematic dynamic image.Firstly袁RGB sequence and its depth maps sequence were used to generate scene flow feature map袁which is used to get motion feature sequence and it has more motion information.Hierarchical rank pooling is used to encode kine鄄matic feature maps sequence into a kinematic dynamic image袁and to encode RGB sequence into appearance dy鄄namic image.Finally袁the kinematics dynamic image and the appearance dynamic image were fed into the dual-stream convolution network for human action recognition.The experiment results show that the proposed method combines the evolution of appearance and motion information袁which can fully represent the dynamics and ex鄄

plore more motion information.This method is evaluated on public RGB-D datasets and the action recognition

accurate on the M 2I dataset and the SBU Kinect Interaction dataset are 91.8%and 95.2%袁respectively.

Key words ：human action recognition曰kinematic feature曰dynamic image曰dual-stream convolution network

收稿日期：2019-11-01

基金项目：天津市科技支撑计划重点项目（14ZCZDGX00033）

通信作者：肖志涛（1971—），男，博士，教授，主要研究方向为图像处理、机器学习，

E-mail ：*********************** 基于RGB-D 数据人体动作识别已成为计算机视觉中重要的研究方向。RGB-D 数据包括由RGB 相机拍摄的RGB 数据和由深度相机拍摄的包含物体和相

机之间距离信息的深度图像组成。此外，

RGB-D 数据不受照明、阴影的影响，所以基于RGB-D 数据的人体动作识别方法具有更出的性能。

为了获得RGB-D 视频中的运动信息，文献[1-3]提出了场景流的方法，但是场景流仅提供场景中运动

目标的速度信息，因此场景流提供的运动信息并不充

分。文献[4]提出了基于散度、旋度、错切运动学特征的描述符，增强了运动目标的局部运动。文献[5]

使用散

度、旋度等运动学特征，证明了运动学特征有尺度不变性，并且此特征可以逐帧计算。文献[6]使用排序池

化算法把视频映射为外观动态图，并利用外观动态图和CaffeNet 进行动作分类。

人体动作的执行时间只占视频中的一部分帧，

视第40卷第1期圆园21年2月

Vol.40No.1February 2021

天津工业大学学报允韵哉砸晕粤蕴韵云栽陨粤晕GONG 哉晕陨灾耘砸杂陨栽再

第40卷天津工业大学学报

频中含有与动作无关的冗余帧，只对视频逐帧计算运动学特征会受到冗余帧的干扰。本文提出了一种基于运动学动态图和双流卷积网络的人体动作识别方法。通过视频的场景流向量计算视频的散度、旋

度、错切运动学特征图序列。使用分层排序池化[7]把运动学特征图序列映射为运动学动态图，得到视频的运动信息。把原始视频对应的外观动态图[6]和运动学动态图输入到双流卷积网络中以实现人体动作识别。基于运动学动态图和双流卷积网络的人体动作识别方法融合了外观信息和运动信息，不仅充分表征了视频的动态，而且使用了视频中具有丰富运动信息的运动学特征。

1视频的运动学动态图和网络训练

1.1运动学特征图序列

将RGB-D视频中的2个连续的RGB帧和对应的2个连续的深度图输入到初级对偶算法[2]中，得到实时的稠密场景流s=（u，v，w）T，其中u、v、w分别为任意一个像素点在水平、垂直和深度3个方向上的瞬时速度。与RGB彩图像类似，场景流向量s可看作RGB彩图像，3个分量u、v、w可以看作s的3个通道，s称为场景流特征图。视频中每对相邻帧和其对应

的相邻的深度图均计算出一幅场景流特征图s，得到视频的场景流特征图序列。

运动学是描述和研究物体位置随时间变化规律的力学分支，不涉及物体本身的物理性质和作用于物体无关的力，仅捕捉运动信息。因此，运动学特征有助于人体动作识别。受到DCS（divergence-curl-shear）描述符[4]的启发，本文基于视频的场景流特征图计算运动学特征。这里计算的运动学特征包

括通过散度、旋度和错切特征计算得到的散度运动学特征图序列、旋度运动学特征图序列和错切运动学特征图序列，分别描述了视频中的尺度变化、旋转变化和错切运动。通过这3种运动学特征图，计算振幅运动学特征图序列以表征这3种运动学特征之间的关系[8]。

（1）散度运动学特征图序列。散度是场景流的局部一阶微分标量，能很好地描述场景流的物理模式并获取场景流中局部扩张的运动信息。定义场景流向量s=（u，v，w）T，则在第t帧的像素p t处的散度为：div（p t）=鄣u（p t）鄣x+鄣v（p t）鄣y+鄣w（p t）鄣z（1）计算视频中单帧图像中所有像素点的散度，得到散度运动学特征图。然后计算视频中每帧场景流的每个点的散度，就构成了一组散度运动学特征图序列。

（2）旋度运动学特征图序列。旋度表示场景流场中某个点的旋转程度，能够突出视频中人体的圆周运动。点p t在场景流s中的旋度curl为：

curl（p t）x=鄣w（p t）鄣y-鄣v（p t）鄣z

curl（p t）y=鄣u（p t）鄣y-鄣w（p t）鄣x

curl（p t）z=鄣v（p t）鄣x-鄣u（p t）鄣y

扇

墒

设设

设缮

设设

设

（2）

七彩山鸡养殖式中：curl（p t）x、curl（p t）y、curl（p t）z分别为旋度在水平、垂直、深度3个方向的分量，该点的旋度幅值为：curl（p t）=

（curl（p t）x）2+（curl（p t）y）2+（curl（p t）z）2

姨（3）计算s中所有帧的旋度幅值得到旋度运动学特征图序列。

（3）错切运动学特征图序列。为了更加全面对视频中的运动信息进行描述，本文在场景流的基础上提取错切特征，从而捕获动作视频中人体运动在场景流中产生的形变程度。首先计算点p t在场景流的双曲项hyper1和hyper2

hyper1（p t）x=鄣v（p t）鄣y-鄣w（p t）鄣z

hyper1（p t）y=鄣u（p t）鄣x-鄣w（p t）鄣z

hyper1（p t）z=鄣v（p t）鄣x-鄣v（p t）鄣y

扇

卡环弯制

墒

设设

设缮

设设

抗振压力表

设

（4）hyper2（p t）x=鄣w（p t）鄣y+鄣v（p t）鄣z

hyper2（p t）y=鄣w（p t）鄣x+鄣u（p t）鄣z

hyper2（p t）z=鄣v（p t）鄣x+鄣u（p t）鄣y

扇

墒

设设

设缮

设设

设

（5）

式（4）、式（5）分别为双曲项在水平、垂直和深度方向上的分量。双曲项的幅值分别为：

hyper1（p t）=

hyper1（p t）x2+hyper1（p t）y2+hyper1（p t）z2

姨（6）hyper2（p t）=

hyper2（p t）x2+hyper2（p t）y2+hyper2（p t）z2

姨（7）双曲项能够描述场景流中更为复杂结构的错切，

然后计算点p t的错切特征

shear（p t）=

hyper12（p t）+hyper22（p t）

姨（8）式中：shear（p t）表示点p t处场景流对应的错切特征。根据式（8）计算视频中所有像素点的错切特征得到错切运动学特征图序列。

54--

第1期（4）振幅运动学特征图序列。

为了描述散度、旋度和错切运动学特征之间的关系，计算振幅运动学特征图AM ：

AM =div 2+curl 2+shear 2

姨（9）将同一视频的散度、旋度和错切运动学特征图序列通

过式（9）计算得到振幅运动学特征图序列。

1.2分层排序池化方法

排序池化是一种时间编码方法，

将视频序列的动态映射为一个动态图[6]。首先使用时变平均向量平滑

视频X =[x 1，x 2，…，x t ]，x 1，x 2，…，

x t 表示序列中在第t 帧。视频序列关于时间t 的均值向量为：

m t =1t 伊t

t =1

移x t

（10）

平滑结果为：v t =m t

椰m t 椰（11）

式中：

椰m t 椰=

t=1

移x

姨

（12）

式中：v t 表示均值向量在时间t 的方向，平滑后的序列

为V =[v 1，v 2，…，v t

]。然后对序列V 的动态D 进行编

码。动态D 反映在时间t 变为t +1的时间段内序列的改变。假设序列V 足够平滑，则可以通过参数向量u 的线性函数来逼近D ，即

u =arg min

（D -追u ）（13）

给定一组稳定的函数组追，相同类别的不同视频的动态函数追（·；u i ）是相似的。因此，可将不同类别视频的动态函数的差异作为动作识别的判别依据。虽然不同的视频序列动态变化不同，但序列排序保持不变，而且具有相同形式的动态函数。因此，本文采用动态参数u i 表示视频的动态信息。

视频中如果v t+1在v t 后一帧，则在这里标记为v t+1>

v t 。可得顺序约束v n >v t >…>v 1。为了利用排序池化来编码视频的外观动态，求解满足最小约束条件的组合学习排序方程[9]，使其满足帧顺序的约束。组合排序函数即动态函数追（v t ；u ）通过参数u 学习t 时刻的排序分数函数为：

追（v t ；u ）=s （t |u ）=〈u ，v t 〉=u T ·

v t （14）

（·）是向量的点乘运算，通过参数u 使排序分数反映了视频中每帧的排序。排序分数以较大的边界满足组合条件v t+1>v t 。排在后面的帧排序分数越大[10]，即

v t i

>v t j

圯u T ·v t i

>u T ·v t j

圯

v t i

>v t j

圯S （v t i

|u ）>S （v t j

|u ）

（15）

参数u 可采用RankSVM [11]进行求解如下：

u *=籽（V 1，…，V T ；追）=arg min u 姿2

椰u 椰2+

2T （T -1）伊v t >v

t 移max{0，1-S （v t i

|u ）+S （v t j

|u ））

}（16）

式中：u *的第1项是SVM 的二次正则化，用于对权值

进行惩罚，第2项是SVM 的Hinge 损失函数，参数向量u *编码视频中的所有帧的外观或运动信息，可以描述序列中外观或运动信息随时间变化的动态过程。参

数向量u *的元素个数等于视频帧的像素数，把参数向量调整为原视频帧的大小，

得到视频的动态图。排序池化操作将视频里的外观编码成一个动态图。但对于动作执行时间较长的视频，

对整个序列直接使用排序池化算法无法捕获动作中更精细的运动信息，导致动态图无法准确地描述视频随时间演变，降低了动态图对动作识别的判别性。为了解决这个问题，本文采用了分层排序池化[7]。1.3网络训练

本文采用双流卷积网络框架[12]进行动作分类，

其中外观动态图输入到空间通道的网络中，

将三通道运动学动态图和振幅运动学动态图输入到时间通道的

网络中。外观动态图和运动学动态图分别描述视频中的外观信息和运动信息，特征表达能力强。本文方法框架如图1所示。

图1基于运动学动态图的人体动作识别方法

Fig.1Framework of action recognition using kinematic

dynamic image

最终分数向量分数向量

分数向量分数融合

分数融合

分数向量

Convnets

发动机飞轮壳

分层排序池化

外观动态图

三通道运动学

特征图序列三通道运动

学动态图

振幅运动学动态图

振幅运动学特征图序列场景流序列

错切运动学特征图序列

散度运动学特征图序列

旋度运动学

特征图序列

分层排序池化

RGB 序列

RGB 序列深度序列

肖志涛，等：基于运动学动态图的人体动作识别方法平压平自动模切机

55--

第40卷

天津工业大学学报

具体步骤如下：

（1）首先使用初级对偶算法计算帧数为N的

RGB-D视频的场景流向量，初步提取视频的运动

信息。

（2）利用场景流向量计算散度、旋度、错切运动学

特征图序列，合并为三通道运动学特征图序列，同时

计算振幅运动学特征图序列。

（3）利用分层排序池化算法把原始RGB视频映

射为外观动态图，将三通道运动学特征图序列编码为

三通道运动学动态图，将振幅运动学特征图序列编码

为振幅运动学动态图。

（4）使用双流卷积网络进行训练和分类，将各通

道的结果融合实现人体动作识别。

2实验结果与分析

采用M2I数据集[13]和SBU Kinect Interaction数据

集[14]验证本文方法性能。M2I数据集有22类动作，分为

3种：双人交互、双人与物体交互和单人与物体交互，

其中双人交互有9类、双人物体交互有3类、单人物

体交互有10类，共1760个视频，包含前向和侧向2

个视角的视频。SBU Kinect Interaction数据集有8类双

人交互动作，共336个视频、6614帧。

由于动作序列是随时间由过去到未来变化的[10]，

因此在计算运动学动态图时仅考虑正向动作序列。对

M2I数据集中“双人鞠躬”动作中的散度、旋度、错切、

三通道和振幅运动学动态图如图2所示。

散度、旋度、错切运动学动态图是散度、旋度、错

切运动学特征图序列分别由分层排序池化映射得

到的。

分层排序池化步长为1、窗口大小为20、层数为

3，适合人体动作视频[7]。本文训练过程使用Caffe框

架[15]完成训练及测试过程。网络的动量设置为0.9，权

重衰减为0.001，初始学习率设置为0.001，每经过10万次迭代学习率变为原来的1/10。随机失活率设置为0.6。本文训练的过程微调自预训练模型ILSVRC-2012[16]，为了减少过拟合，本文采用图像翻转、图像旋转、对比度增强、线性对比度增强、高斯滤波和随机裁剪多种数据增广方法，增加数据集的多样性。

在M2I数据集上，本文在前向和侧向2个视角中使用不同形式的动态图，包括外观动态图、散度运动学

动态图、旋度运动学动态图、错切运动学动态图、三通道运动学动态图、振幅运动学动态图。在AlexNet[16]上的实验结果如表1所示。

由表1可知，不同类型的动态图代表不同方面的动态，外观动态图表示了视频外观随时间的变化，散度运动学动态图、旋度运动学动态图和错切运动学动态图分别代表视频的散度、旋度和错切运动信息随时间的变化，振幅运动学动态图表示了散度、旋度和错切这3种运动信息的关系。因此，同时输入以上外观动态图和运动学动态图，可以描述视频多种信息，融合了外观动态图和运动学动态图识别的结果，验证了实验效果。

在双流卷积网络同时输入外观动态图、三通道运动学动态图和振幅运动学动态图。在不同CNN

（包括

（e）振幅运动学动态图

图2M2I数据集中“双人鞠躬”动作序列的散度、旋度、错切、三通道和振幅动态图

Fig.2KDI-D，KDI-C，KDI-S，KDI-DCS，KDI-AM on video"bow"in M2I dataset

（a）散度运动学动态图（b）旋度运动学动态图

（c）错切运动学动态图（d）三通道运动学动态图

表1不同组合形式动态图的动作分类结果Tab.1Recognition results using dynamic image with

different forms

方法

识别准确率/%

侧视角前向视角外观动态图[6]76.173.1外观+散度运动学动态图75.577.3

外观+旋度运动学动态图71.074.1

外观+错切运动学动态图72.476.1

外观+振幅运动学动态图79.680.2

外观+三通道运动学动态图84.986.7

外观+三通道+振幅运动学动态图85.988.2

56--

第1期表2

采用不同CNN 的人体动作分类结果

Tab.2Recognition results of using different CNN

网络准确率/%侧视角前向视角ResNet-50

[18]

87.688.8GoogLeNet Inception V3

[19]

86.1

86.5

AlexNet [16]85.988.2VGG16[17]89.091.2VGG19

[17]

89.4

91.8图3M 2

I 数据集使用VGG19网络的前视角混淆矩阵

Fig.3Confuse matrix of used VGG19network on front

汽车水箱除垢剂view in M 2I dataset

图4

M 2I 数据集使用VGG19网络侧视角混淆矩阵

Fig.4Confuse matrix of used VGG19network on side view

in M 2I dataset

表3本文方法与其他方法的比较

Tab.3Comparison with other methods

侧向视角前向视角IDT-COM （BoW ）[20]

76.975.3IDT-COM （FV ）

[20]77.279.6SFAM-D [8]71.283.0SFAM-S [8]

70.175.0SFAM-RP [8]

79.981.8SFAM-AMRP [8]

82.278.0Max-Score Fusion SFAM All [8]

87.688.8Average-Score Fusion SFAM All [8]

88.289.1Multiply-Score Fusion SFAM All [8]

89.491.2外观+三通道+振幅运动学动态图（本文方法）

85.9

88.2

方法

准确率/%肖志涛，等：基于运动学动态图的人体动作识别方法

AlexNet 、VGG16[17]、VGG19[17]、Resnet -50[18]、GoogLeNet

Inception V3[19]）

中的实验结果如表2所示。VGG 相对于其他网络扩展性较强，泛化性较好，

VGG19的分类结果最好。

图3和图4分别是以外观动态图、三通道运动学动态图和振幅运动学动态图同时作为输入得到的结

果，用VGG19网络训练在前向和侧向视角的识别混淆矩阵。

从图3和图4的混淆矩阵可以看出，

本文方法在多人交互动作和多人物体交互动作中识别的效果更

好，除了“拥抱”、“握手”、“踢足球”以外，其他双人交互动作和双人物体交互动作识别准确率均达到了100%。此外，

“弹吉他”、“打电话”、“照相”等单人物体交互动作识别率较低，易被错分为其他动作。

表3为本文方法与现有方法

（改进稠密轨迹（IDT ）[20]和场景流动作特征图（SFAM ）[8]

）。

表3使用AlexNet 在M 2I 数据集上进行动作识别

率的比较。

IDT 级联了包括HOG 、HOF 和MBH 的所有特征，记作IDT-COM ，并使用词袋（Bow ）和Fisher Vector （FV ）的特征编码方法后的动作识别结果。

在与场景流动作特征图的比较中，

本文分别比较了4种场景流动作特征图，包括差分场景流动作特征图（SFAM-D ）、求和场景流动作

特征图（SFAM-S ）、动态场景流动作特

征图

（SFAM -RP ）和振幅动态场景流动作特征图（SFAM-AMRP ）。从表3可见，由于本文提出的运动学动态图不仅描述了运动随视频的变化，而且运动信息也比轨迹和场景流动作特征图更丰富，提高了动作识别准确率。融合了4种场景流动作特征图方法的动作识别率比本文方法识别率高，这是因为场景流动作特征图比本文方法多融合了一个通道的信息，即差分场景流动作特征图和求和场景流动作特征图，这两种场景流动作特征图表征了累积运动差分能量的分布。

同时在SBU Kinect Interaction 数据集上进行了实验。表4给出了不同形式的动态图以及不同训练网络

下的识别结果。表4比较了原始骨架（Raw skeleton ）[14]

、

分层循环神经网络（Hierarchical RNN ）[21]

、时空长短时

间记忆网络（ST-LSTM ）[22]、多任务学习网络

（MTLN ）[23]

和全局上下文长注意力短时间记忆网络

（GCA-LSTM ）[24]

等方法的识别结果。实验结果表明，

本文方法的识别率更高，这是因为上述5种方法仅用了RGB-D 视频

中的骨架信息，以单通道的骨架信息或者双通道的骨架信息输入到网络中，缺乏对动作的描述。而本文方

法使用了RGB 视频和深度图两个模态的特征，

并且使用外观动态图和运动学动态图。分析可见，本文方法对两人交互动作的识别率相对较高。

57--

本文发布于:2024-09-22 09:35:05，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/4/142231.html

上一篇：基于骨骼数据的人体行为识别分析

下一篇：2.leapmotion之开发指南

标签：运动学动态图特征动作视频序列信息场景

留言与评论（共有 0 条评论）