一种基于骨架和图像数据融合的动作识别方法



1.行为识别是一项通过视频等数据,利用特定算法分析判断人们的动作类型的技术。该技术是公共安全管理、人机交互、智慧养老、智慧医疗等许多应用的基础,有着广泛的应用前景。因此,对行为识别展开研究有着重要的理论意义和实践价值。在真实场景中,行为识别是一项极具挑战性的任务,其易受光照、背景、拍摄角度等外界因素的影响,且不同人做同一动作的方式各不相同,导致其类间差异较大。行为识别也因其富有挑战性且覆盖多个学科,成为了计算机视觉领域的研究热点。


背景技术:



2.根据输入数据类型不同,基于深度神经网络的行为识别方法可分为基于图像的行为识别方法和基于骨架的行为识别方法。基于图像的行为识别方法通过分析rgb图像序列识别视频中的人体动作,主要分为三个流派:
3.1)以时域分割网络模型(temporal segment network,tsn)为代表的双流网络模型;
4.2)以三维卷积网络(convolutional 3d,c3d)为代表的3d卷积神经网络模型;
5.3)以时间差分网络(temporal difference network,tdn)为代表的2d卷积神经网络模型。
6.近年来,基于以上流派的研究十分广泛,且均取得了先进性能。上述模型的输入通常是对视频帧进行缩放和随机裁剪后得到的图像,虽然一定程度上减小了图像的尺寸,但仍存在以下缺陷:1)缩小尺寸将降低图像精度,从而影响模型对细微动作的识别;2)图像尺寸虽然减小,但训练数据规模依旧很大,对显存要求较高,计算时延较长。
7.基于骨架的行为识别方法通过分析骨架序列识别人体动作。早在20世纪70年代,johansson等人证明骨架数据可以有效描述人体运动。随着人体运动估计技术的发展,如先进的人体姿态估计算法、多模态传感器等,骨架数据的获取成本降低。基于此,研究人员展开了大量基于骨架的行为识别方法研究,主要分为三类:基于循环神经网络(recurrent neural network,rnn)的网络模型、基于卷积神经网络(convolution neural network,cnn)的网络模型和基于图卷积网络(graph convolution network,gcn)的网络模型。基于rnn和基于cnn的网络模型将骨架视为序列或伪图像,导致骨架的拓扑结构被破坏。而基于gcn的网络模型通过图卷积提取骨架特征,维护了骨架的天然结构,模型性能得到迅速提升。近年来,基于gcn的网络模型已成为骨架行为识别领域的主流方法。虽然基于gcn的网络模型取得了先进性能,却也存在如下缺陷:1)运动信息在行为识别任务等视频分类任务有着重要作用,然现有方法未充分挖掘骨架序列中蕴含的运动信息;2)图卷积网络的感受野受卷积核大小限制,无法为骨架中相距较远的节点建立长距离联系。
8.除了上述不足之处,图像数据和骨架数据本身也均存在局限性。图像数据具有丰富的场景信息和细节信息,但其易受光照等环境因素干扰,且图像数据规模大,相关模型训练时间长。骨架数据则以一种更紧凑的方式描述人体运动,数据量小,对硬件要求较低,且
相较于图像数据,骨架数据不易受外部因素干扰(如光照遮挡等),具有较强的鲁棒性。虽然骨架数据有上述诸多优点,但其不具备图像所特有的场景信息和细节信息,然而这两种信息在行为识别中起到了重要作用,在动作较为细微或动作依赖场景的情况下尤为显著。综上所述,图像数据和骨架数据存在高度互补性,融合基于图像的行为识别网络模型和基于骨架的行为识别网络模型具有更好的研究意义。


技术实现要素:



9.为了解决现有技术问题,本发明的目的在于克服已有技术存在的不足,提供一种用于公共安全的动作识别方法,基于骨架和图像数据的行为识别网络模型,根据数据类型差异,该网络模型分为基于骨架数据的行为识别网络模型和基于图像数据的行为识别网络模型两个分支:前者通过轻量网络提取骨架特征,擅长识别幅度较大的动作,在动作识别任务中发挥主要作用;后者通过裁剪图片降低训练成本,并从关键图像块中提取图像特征,擅长识别集中于手部脚部的小幅度动作,在动作识别任务中起到补充细节信息的作用。
10.为达到上述发明创造目的,本发明采用如下技术方案:
11.一种用于公共安全的动作识别方法,分别建立基于骨架数据的行为识别网络模型和基于图像数据的行为识别网络模型组成识别网络,基于骨架数据的行为识别网络模型利用轻量网络提取骨架特征,用于识别幅度较大的动作,完成主要动作识别任务,基于骨架数据的行为识别网络模型的模型输入数据为骨架序列,该输入数据依次经过坐标运动信息指导的采样模块、多尺度运动信息融合模块和多流时空相对transformer模型,得到动作类别预测概率;基于图像数据的行为识别网络模型通过裁剪图片方法,从图像块中提取图像特征,用于识别集中于手部脚部的小幅度动作,在动作识别任务中补充细节信息;基于图像数据的行为识别网络模型的模型输入数据息为图像序列,该输入数据将依次经过基于关节点的图片裁剪模块和基于关键图像块特征提取模型(kbn),得到补充的动作类别预测概率;将基于骨架数据的行为识别网络模型和基于图像数据的行为识别网络模型得到的各动作类别预测概率进行融合,进而得到整个模型的最终分类预测概率,从而完成用于公共安全的动作识别过程。
12.优选地,在基于骨架数据的行为识别网络模型中,坐标运动信息指导的帧采样模块根据坐标运动信息衡量指标,筛选出骨架序列中具有代表性的骨架序列;多尺度运动信息融合模块将骨架的静态信息与多尺度运动信息融合,还根据人体不同动作具有不同变化速度和持续时间的特点,设定两种不同类型的运动信息,分别为固化运动信息和自适应运动信息;其中,固化运动信息包括两种不同的尺度,使网络适应不同变化速度的动作;自适应运动信息则使识别网络具备识别不同持续时间动作的能力;多流时空相对transformer模型为各关节点在时空域上建立长距离联系,多流时空相对transformer模型如下:在空间域上,设定了基于骨架的空间拓扑图,构造空间相对transformer模块,用于建立空域中关节点远距离依赖;在时间域上,构造基于骨架序列的时间拓扑图,建立时域相对transformer模块,用于建立时域中关节点远距离依赖;然后,将空间和时域相对模块进行组合,得到时空相对transformer模型,进而提取骨架序列的时空特征;采用多时间尺度框架对至少4个输入数据不同时空相对模型进行融合,构建多流时空相对transformer模型。
13.进一步优选地,坐标运动信息指导的帧采样模块包括:
14.1.1设计衡量坐标运动信息的指标:
15.在骨架数据中,关节点由3d坐标表示;将关节点在相邻两帧的位移距离将作为衡量该关节点蕴含运动信息量的指标,将骨架中所有关节点的位移距离之和将作为衡量该骨架整体包含的运动信息量的指标,进而判断该骨架是否具有代表性;假设第t帧的标签为i的关节点坐标为第t-1帧的标签为i的关节点坐标为则第t帧所蕴含的坐标运动信息m
t
如公式(1)所示:
[0016][0017]
其中,n表示一帧中包含的关节点数量;
[0018]
为了消除因视频长度不同带来的尺度伸缩影响,对每一帧蕴含的坐标运动信息进行归一化处理,如公式(2)所示:
[0019][0020]
其中,t表示视频包含的帧数量;
[0021]
1.2、采用累积分布函数对视频进行采样:
[0022]
假设需从长度为t的视频中采样n帧,具体操作如下:
[0023]
首先对骨架坐标运动信息进行逐帧累加,得到累积坐标运动信息,第t帧的累积坐标运动信息c
t
计算公式如(3)所示:
[0024][0025]
依据将序列分为n个片段,从上述n个片段中分别随机采样一帧,组成新序列,从而通过该衡量指标筛选出骨架序列中具有代表性的骨架系列。
[0026]
进一步优选地,多尺度运动信息融合模块包括:
[0027]
2.1设计不同尺度运动信息:
[0028]
通过采样从原骨架序列i
origin
=[i1,

,if]选出t帧按原顺序组合成新的骨架序列i
new
=[i1,

,i
t
],f表示原骨架序列的总帧数,i表示每一帧中所有关节点的坐标;运动信息通过计算同一关节点在两帧中的坐标位移得到:表示原始骨架序列i
origin
中第t帧的标签为i的关节点,表示采样得到的骨架序列i
new
中第t帧的标签为i的关节点;
[0029]
自适应运动信息ma通过骨架序列i
new
中连续两帧关节点坐标相减得到,具有从不同长度的视频中获取到不同尺度的运动信息的特点,公式如以下所示:
[0030][0031][0032]
其中,表示新骨架序列i
new
中第i帧的自适应运动信息;
[0033]
运动信息分为两种:短距离运动信息m
t
和长距离运动信息mi;短距离运动信息ms通过原骨架序列i
origin
中相隔2帧的骨架关节点坐标相减得到,用于捕捉变化快速的动作的运动信息;计算公式如以下所示:
[0034][0035][0036]
其中,表示新骨架序列中第i帧的短距离运动信息,f为新骨架序列i
new
中第i帧在原骨架序列i
origin
中的编号;表示原骨架序列i
origin
中第f帧的标签为n的关节点;
[0037]
长距离运动信息mi通过原骨架序列i
origin
中相隔5帧的骨架关节点坐标相减得到,用于捕捉变化较慢的动作的运动信息,计算公式表达如以下所示:
[0038][0039][0040]
其中,表示新骨架序列中第i帧的长距离运动信息,f表示新骨架序列i
new
中第t帧在原骨架序列i
origin
中的编号;
[0041]
2.2、不同尺度运动信息的高维映射:
[0042]
骨架的静态信息i
new
、自适应运动信息ma、短期运动信息ms和长期运动信息m
l
的张量大小均为(t,n,c0),其中t表示视频帧数,n表示一副骨架的关节点数,c0表示关节点的坐标维数;如图将上述四种信息分别通过嵌入模块(embedding block)映射到高维空间得到高维特征f、f
ma
、f
ms
和f
ml
;嵌入模块由两个卷积层和两个激活层(relu)构成:
[0043]
第一次卷积将各类信息均映射至维度为c的空间,第二次卷积将各类信息分别映射至维度为c1、,c2、c3、c4的高维空间;不同运动信息对应的卷积核相互独立,参数不共享;以静态信息i
new
为例,嵌入模块二次映射公式如(10)所示:
[0044]
f=σ(w2(σ(w1i
new
+b1))+b2)
ꢀꢀꢀ
(10)
[0045]
其中,σ表示激活函数,w1、b1表示第一次卷积函数中的参数,w2、b2表示第二次卷积函数中的参数,两次卷积函数中的参数均由学习得到,i
new
表示静态信息;
[0046]
2.3、多尺度运动信息融合:
[0047]
通过堆叠操作(concat)对各类信息进行融合得到骨架的动力学表示z,如公式(11)所示;该操作使骨架的动力学表示z包含了多尺度的运动信息,进而提高网络适应不同变化速度、不同持续时间动作的能力;
[0048]
z=concat(f,f
ma
,f
ms
,f
ml
)
ꢀꢀꢀ
(11)
[0049]
将四种高维特征融合得到的z,作为多尺度运动信息融合模块输出。
[0050]
进一步优选地,多流时空相对transformer模型包括:
[0051]
3.1、构造基于骨架的空间拓扑图:
[0052]
除了骨架中原有的关节点外,该步骤引入一个虚拟节点,与所有关节点一起构成一个新的空间拓扑图作为模型输入,引入的虚拟节点不仅需要从各个关节点收集整合信息,还承担着将整合得到的全局信息分发给各关节点的作用,该虚拟节点被命名为空间中继节点;
[0053]
同时,在各节点之间建立了两种类型的连接,分别为空间固有连接和空间虚拟连接,以构造骨架的空间拓扑图;包含n个关节点的空间图结构共有n-1条空间固有连接;
[0054]
3.2、设计空间相对transformer模块:
[0055]
该模块包含空间关节点更新模块(sju)和空间中继节点更新模块(sru)两部分,通过交替更新sju模块和sru模块达到为空域中的远距离关节点建立联系;模型输入为第t帧骨架中的关节点序列其中,n表示这一帧中关节点的数量,表示关节点的所有邻居关节点标签的集合;每个节点都有对应的query向量key向量value向量
[0056]
空间关节点更新模块(spatial joint nodes update block,sju)中,针对任一关节点首先对该关节点相应的query向量q
it
和其邻居节点相应的key向量做点积操作,以获取各邻居节点对该关节点的影响力度,如公式如(12)所示:
[0057][0058]
其中,表示节点j对节点i的影响力度;邻居节点包括其相邻的关节点空间中继节点r
t
和它本身r表示空间中继节点的标签;
[0059]
计算得到影响力度后,将其与邻居节点对应的value向量相乘,并对所有乘积进行求和,得到的值即为关节点的更新值,公式如(13)所示:
[0060][0061]
其中,是经过关节点更新子模块(sju)一次更新后得到的结果,该结果同时聚合了局部信息和全局信息,dk表示key向量的通道维度,起到归一化的作用,softmaxj表示对所有相邻关节点的影响力度进行归一化处理;
[0062]
为了使空间中继节点合理充分地收集整合各关节点的信息,空间中继节点更新子模块(sru)中也采用了点积操作计算各关节点对此中继节点的影响力度;通过影响力度将各关节点信息整合为全局信息;影响力度通过中继节点对应的query向量与各关节点对应的key向量相乘得到,公式如(14)所示:
[0063][0064]
空间中继节点的更新如公式(15)所示,表示关节点对空间中继节点r
t
的影响力度得分,为所有节点的value向量;
[0065][0066]
交替更新关节点和空间中继节点实现了信息在各关节点之间的交换,最终实现每个关节点同时收集邻居关节点和远距离关节点的信息的目标;
[0067]
3.3、构造基于骨架序列的时间拓扑图:
[0068]
在构造时间拓扑图时引入了一个时间中继节点,通过时间固有连接和时间虚拟连接,各关节得以相互连接,共同构成时间域中的图结构;
[0069]
沿着时间维度,连续帧中的同一关节点构成新序列,该步骤还为首尾关节点构建连接,组成环状结构;由n个关节点组成的序列包含n个时间固有连接;
[0070]
3.4、设计trt模块:
[0071]
temporal relative transformer模块(trt)包含时间关节点更新模块(tju)和时间中继节点更新模块(tru)两部分,用于提取时域特征;该模块将骨架中每个关节点视为独立节点,分别以帧序列中同一关节点组成的序列为对象提取该关节点的时域特征;trt模块的输入为为所有帧的同一关节点组成的序列;每个关节点有其相对应的query向量key向量和value向量时间中继节点rv对应query向量key向量和value向量
[0072]
在tju子模块中,每个待更新关节点通过虚拟连接收集邻居节点的信息进行自我更新;邻居节点的影响力度计算公式如(16)所示:
[0073][0074]
其中,表示第j帧中同一关节点或时间中继节点rv对第i帧中某关节点的影响力度,表示对进行转置处理;关节点的更新如公式(17)所示:
[0075][0076]
将所有query向量组合成矩阵qv∈rc×1×
t
,所有key向量组合成矩阵kv∈rc×b×
t
,所有value向量组合成矩阵vv∈rc×b×
t
;影响力度的矩阵形式定义如公式(18)所示:
[0077][0078]
其中,b代表邻居节点个数,
°
表示哈德玛乘积;
[0079]
在tru模块中,时间中继节点rv通过虚拟连接从其他各帧收集信息,从而完成自身节点更新;具体操作如以下所示:
[0080][0081][0082]
其中,表示第j帧中的关节点对中继节点rv的影响力度,为缩放因子;
[0083]
3.5、封装st-rt模块:
[0084]
st-rt模块由srt模块和trt模块连接组合得到,srt模块中包含空间关节点更新模块和空间中继节点更新模块;trt模块中包含时间关节点更新模块和时间中继节点更新模块;每个更新模块都向后连接前向反馈网络层,将特征映射到更大维度的空间以增强模型表达能力;l
×
表示循环l次;
[0085]
3.6、封装msst-rt网络:
[0086]
通过多流框架对四个输入数据不同st-rt模型进行融合封装得到msst-rt模型;不同的采样频率也可以为模型提供补充信息,分别对关节序列和骨骼序列采样n1帧和n2帧;骨架数据通过msst-rt网络将获得最终的基于骨架数据的分类预测概率。
[0087]
优选地,在基于图像数据的行为识别网络模型中,基于关节点的图片裁剪模块选择对人体手部、脚部关节点进行裁剪;采用端到端训练的图像方块特征提取模型,并以时域分割网络为基础框架,将端到端训练的图像方块特征提取模型封装成基于关键图像块特征提取模型。
[0088]
进一步优选地,基于关节点的图片裁剪模块包括:
[0089]
第t帧的图像i
t
通过矩阵p
t
表示,所需裁剪的关节点nj在图像中的坐标为(x,y),裁剪图片尺寸大小为l
×
l,则在图像i
t
中围绕手部、脚部关节点nj裁剪得到的图像方块集合如以下公式所示:
[0090][0091][0092]
除了以关节点坐标为中心对图片进行裁剪,还通过相邻两帧对应的图片方块提取光流,公式如(23)所示:
[0093][0094]
其中,tv-l1是一种经典的光流计算方法,表示x轴方向上的光流场,表示y轴方向上的光流场。
[0095]
进一步优选地,基于关节点的图片裁剪模块包括:基于关键图像块的行为识别网络包括:
[0096]
5.1、设计ibcn模型:
[0097]
基于骨架关节点裁剪的图像方块之间存在既存在独立性又存在相关性,ibcn模型首先将裁剪得到的每一个图像方块分别输入到卷积神经网络中,得到各图像方块的特征计算公式如(24)所示:
[0098][0099]
其中,表示通过参数为w的卷积神经网络提取图像方块的特征,各卷积神经网络参数共享;然后将各图像方块的特征f
tj
进行拼接,得到新的特征向量如公式(25)所示
[0100][0101]
最后通过点乘的方式计算特征向量f
t
中任意空间位置xi与其他位置xj的相似度f(xi,xj),如公式(26)所示:
[0102]
f(xi,xj)=softmax(θ(xi)
t
·
φ(xj))
ꢀꢀꢀ
(26)
[0103]
其中,θ(
·
)和φ(
·
)为1
×
1卷积函数;
[0104]
得到的相似度f(xi,xj)将作为权值与g(xj)进行加权求和,以实现xi从其他位置获
取信息,yi即为xi进行全局信息交换后的结果,如公式(27)所示:
[0105][0106]
其中,g(
·
)为映射函数,采用1
×
1卷积函数进行映射;nl'2为选择特征图的尺寸,将其作为归一化系数避免因输入尺寸不同而产生的尺度伸缩;当输入为特征张量时,公式如(28)所示:
[0107][0108]
其中,θ(
·
)、φ(
·
)和g(
·
)均为1
×
1卷积函数,nl'2为归一化系数;
[0109]
5.2、封装kbn网络:
[0110]
以tsn网络为框架,将ibcn模型封装为kbn网络,该网络分为空间流和时间流,其中输入数据为图像块对应于空间流,输入数据为光流块对应于时间流;采用空间流,首先通过稀疏采样从视频中采样若干帧,并通过基于关节点的图像裁剪模块对每一帧进行处理;然后将每一帧对应的关键图像块集合分别输入ibcn模型,根据采样帧初步预测类概率,各ibcn模型参数共享;接着通过共识函数融合所有采样帧的预测分类结果,以得到视频级的分类预测,计算公式如(29)所示:
[0111][0112]
其中,kbn-s为kbn网络空间流的预测结果,tk表示从视频分割后的第k个片段,表示第k个采样帧对应的图像方块集合,表示通过ibcn模块对图像方块集合进行处理,时间流预测结果计算方法与空间流一致。
[0113]
本发明与现有技术相比较,具有如下显而易见的突出实质性特点和显著优点:
[0114]
1.本发明提出融合骨架数据和图像数据的行为识别网络模型,对骨架运动信息进行充分挖掘、为远距离关节点建立依赖,增强了细节动作的识别能力;并进一步融合局部图像数据与骨架数据,从而补充了丰富的动作细节信息同时避免了高昂的计算成本;
[0115]
2.本发明在数据集ntu60上达到了98.65%的识别水平,本发明提出基于骨架数据和基于图像数据的行为识别网络模型,并对两种网络模型进行融合;提高模型准确率,
[0116]
3.本发明通过non-local模块建立各空间位置间的信息交换通道,实现各图像方块之间的全局信息交换,兼顾了各图像方块间的独立性和关联性,进而提高人体局部细微动作识别能力;最后将基于骨架数据的行为识别网络模型与基于图像数据的行为识别网络模型融合,充分发挥骨架数据和图像数据的互补性。
附图说明
[0117]
图1为本发明方法的网络模型整体结构示意图。
[0118]
图2为本发明方法的骨架运动信息累积分布函数曲线图。
[0119]
图3为本发明方法的各类运动信息计算示意图。
[0120]
图4为本发明方法的骨架动力学信息表示模块示意图。
[0121]
图5为本发明方法的基于骨架的空间拓扑图。
[0122]
图6为本发明方法的空间相对transformer模块示意图。
[0123]
图7为本发明方法的基于骨架序列的时间拓扑图。
[0124]
图8为本发明方法的temporal relative transformer(trt)模块示意图。
[0125]
图9为本发明方法的st-rt模型的整体架构示意图。
[0126]
图10为本发明方法的msst-rt模型的整体架构示意图。
[0127]
图11为本发明方法的基于关节点位置的图像裁剪和对应光流示意图。
[0128]
图12为本发明方法的全局式图像方块特征提取模型(ibcn)示意图。
[0129]
图13为本发明方法的基于关键图像块的行为识别网络(kbn)示意图。
具体实施方式
[0130]
以下结合具体的实施例子对上述方案做进一步说明,本发明的优选实施例详述如下:
[0131]
实施例一:
[0132]
在本实施例中,如图1所示,一种用于公共安全的动作识别方法,分别建立基于骨架数据的行为识别网络模型和基于图像数据的行为识别网络模型组成识别网络,基于骨架数据的行为识别网络模型利用轻量网络提取骨架特征,用于识别幅度较大的动作,完成主要动作识别任务,基于骨架数据的行为识别网络模型的模型输入数据为骨架序列,该输入数据依次经过坐标运动信息指导的采样模块、多尺度运动信息融合模块和多流时空相对transformer模型,得到动作类别预测概率;基于图像数据的行为识别网络模型通过裁剪图片方法,从图像块中提取图像特征,用于识别集中于手部脚部的小幅度动作,在动作识别任务中补充细节信息;基于图像数据的行为识别网络模型的模型输入数据息为图像序列,该输入数据将依次经过基于关节点的图片裁剪模块和基于关键图像块特征提取模型(kbn),得到补充的动作类别预测概率;将基于骨架数据的行为识别网络模型和基于图像数据的行为识别网络模型得到的各动作类别预测概率进行融合,进而得到整个模型的最终分类预测概率,从而完成用于公共安全的动作识别过程。
[0133]
下面将依次对每个模块进行具体描述。
[0134]
(1)坐标运动信息指导的采样模块
[0135]
坐标运动信息指导的帧采样模块创新点在于根据坐标运动信息衡量指标筛选出骨架序列中具有代表性的骨架,进而增加采样序列蕴含的运动信息,具体步骤如下。
[0136]
步骤1.1、设计衡量坐标运动信息的指标
[0137]
骨架数据中,关节点通常由3d坐标表示。将关节点在相邻两帧的位移距离将作为衡量该关节点蕴含运动信息量的指标,将骨架中所有关节点的位移距离之和将作为衡量该骨架整体包含的运动信息量的指标,进而判断该骨架是否具有代表性。假设第t帧的标签为i的关节点坐标为第t-1帧的标签为i的关节点坐标为则第t帧所蕴含的坐标运动信息m
t
如公式(1)所示:
[0138][0139]
其中,n表示一帧中包含的关节点数量。
[0140]
为了消除因视频长度不同带来的尺度伸缩影响,对每一帧蕴含的坐标运动信息进
行归一化处理,如公式(2)所示:
[0141][0142]
其中,t表示视频包含的帧数量。
[0143]
步骤1.2、采用累积分布函数对视频进行采样
[0144]
假设需从长度为t的视频中采样n帧,具体操作如下:首先对骨架坐标运动信息进行逐帧累加,得到累积坐标运动信息,第t帧的累积坐标运动信息c
t
计算公式如(3)所示。
[0145][0146]
依据将序列分为n个片段,如图2中虚线所示(图2中为总共采样10帧)。最后,从上述n个片段中分别随机采样一帧,组成新序列。
[0147]
综上所述,本模块提出了骨架坐标运动信息衡量指标,并通过该衡量指标筛选出骨架序列中具有代表性的骨架,进而增加采样序列蕴含的运动信息。
[0148]
(2)多尺度运动信息融合模块
[0149]
多尺度运动信息融合模块创新点在于将骨架的静态信息与多尺度运动信息融合,起到丰富模型输入信息的作用。根据人类不同动作具有不同变化速度和持续时间的特点,该模块中设计了两种不同类型的运动信息,分别为固化运动信息和自适应运动信息。其中,固化运动信息包括两种不同的尺度,使网络适应不同变化速度的动作;自适应运动信息则使网络具备识别不同持续时间动作的能力。融合上述多尺度运动信息可以提高网络的泛化能力,具体步骤如下。
[0150]
步骤2.1、设计不同尺度运动信息
[0151]
通过采样从原骨架序列i
origin
=[i1,

,if]选出t帧按原顺序组合成新的骨架序列i
new
=[i1,

,i
t
],如图3所示,粉帧为采样帧,i表示每一帧中所有关节点的坐标。运动信息通过计算同一关节点在两帧中的坐标位移得到:表示原始骨架序列i
origin
中第t帧的标签为i的关节点,jn
it
表示采样得到的骨架序列i
new
中第t帧的标签为i的关节点。
[0152]
自适应运动信息ma通过骨架序列i
new
中连续两帧关节点坐标相减得到,具有从不同长度的视频中获取到不同尺度的运动信息的特点,公式如以下所示:
[0153][0154][0155]
其中,表示新骨架序列i
new
中第t帧的自适应运动信息。
[0156]
尽管自适应运动信息ma通过求新骨架序列i
new
中相邻两帧之差得到,但这两帧之间的距离取决于它们在i
origin
中的位置,与原骨架序列的长度密切相关,每个骨架序列都获得与其长度相匹配的运动信息。
[0157]
固化运动信息分为两种:短距离运动信息ms和长距离运动信息m
l
。短距离运动信息ms通过原骨架序列i
origin
中相隔2帧的骨架关节点坐标相减得到,用于捕捉变化快速的动作的运动信息。计算公式如以下所示:
[0158][0159][0160]
其中,表示新骨架序列中第t帧的短距离运动信息,f为新骨架序列i
new
中第t帧在原骨架序列i
origin
中的编号。
[0161]
长距离运动信息m
l
通过原骨架序列i
origin
中相隔5帧的骨架关节点坐标相减得到,用于捕捉变化较慢的动作的运动信息。计算公式表达如以下所示:
[0162][0163][0164]
其中,表示新骨架序列中第t帧的长距离运动信息,f表示新骨架序列i
new
中第t帧在原骨架序列i
origin
中的编号。
[0165]
步骤2.2、不同尺度运动信息的高维映射
[0166]
骨架的静态信息i
new
、自适应运动信息ma、短期运动信息ms和长期运动信息m
l
的张量大小均为(t,n,c0),其中t表示视频帧数,n表示一副骨架的关节点数,c0表示关节点的坐标维数。如图将上述四种信息分别通过嵌入模块(embeddingblock)映射到高维空间得到高维特征f、f
ma
、f
ms
和f
ml
。嵌入模块由两个卷积层和两个激活层(relu)构成:第一次卷积将各类信息均映射至维度为c的空间,第二次卷积将各类信息分别映射至维度为c1、,c2、c3、c4的高维空间。不同运动信息对应的卷积核相互独立,参数不共享。以静态信息i
new
为例,嵌入模块二次映射公式如(10)所示:
[0167]
f=σ(w2(σ(w1i
new
+b1))+b2)#(10)
[0168]
步骤2.3、多尺度运动信息融合
[0169]
通过堆叠操作(concat)对各类信息进行融合得到骨架的动力学表示z,如公式(11)所示。该操作使骨架的动力学表示z包含了多尺度的运动信息,进而提高网络适应不同变化速度、不同持续时间动作的能力。
[0170]
z=concat(f,f
ma
,f
ms
,f
ml
)#(11)
[0171]
综上所述,本模块提出三种不同尺度的运动信息,分别为自适应运动信息、短期运动信息和长期运动信息,然后采用嵌入模块将上述运动信息以及静态信息分别映射至高维空间,最后将四种高维特征融合,作为模型输入。本节提出的方法使模型输入蕴含丰富运动信息,且其多尺度的特点可以提高行为识别网络的泛化性。
[0172]
(3)多流时空相对transformer模型
[0173]
在行为识别任务重,很多人体动作往往需要相聚较远的关节点配合完成。例如,人在鼓掌时,需要左手和右手协同合作完成,左右手的关节点在骨架中相距较远,却在该动作中有强相关性。多流时空相对transformer模型的创新点在于为各关节点在时空域上建立了上述长距离联系,工作如下:在空间域上,设计了基于骨架的空间拓扑图,并提出了空间相对transformer模块,用于建立空域中关节点远距离依赖;在时间域上,设计了基于骨架序列的时间拓扑图,并提出了时域相对transformer模块,用于建立时域中关节点远距离依赖。然后,将空间和时域相对模块进行组合,得到时空相对transformer模型,进而提取骨架
序列的时空特征。最后,采用多时间尺度框架对四个输入数据不同时空相对模型进行融合,得到多流相对时空模型。具体步骤如下。
[0174]
步骤3.1、构造基于骨架的空间拓扑图
[0175]
除了骨架中原有的关节点外,该步骤引入一个虚拟节点,与所有关节点一起构成一个新的空间拓扑图作为模型输入。如图5所示,蓝节点为原有关节点,紫节点为引入的虚拟节点。引入的虚拟节点不仅需要从各个关节点收集整合信息,还承担着将整合得到的全局信息分发给各关节点的作用,该虚拟节点被命名为空间中继节点。
[0176]
同时,该步骤在各节点(包括关节点和空间中继节点)之间建立了两种类型的连接,分别为空间固有连接和空间虚拟连接,以构造骨架的空间拓扑图。如图5所示,通过为人体骨架中所有由骨骼直接连接的关节点对建立空间固有连接,即蓝线段,以达到维护骨架中原有图拓扑结构的目的。空间固有连接包含大量先验知识,可以起到从相邻关节点收集局部信息的作用。同时,这种连接的存在,使得关节点能从邻居关节点获得比远距离关节点更丰富的信息。包含n个关节点的空间图结构共有n-1条空间固有连接。
[0177]
步骤3.2、设计空间相对transformer模块
[0178]
空间相对transformer模块本质上是一种基于transformer的空间特征提取算法,如图6所示。该模块包含空间关节点更新模块(sju)和空间中继节点更新模块(sru)两部分,通过交替更新sju模块和sru模块达到为空域中的远距离关节点建立联系的目的。由于该模块独立更新每一帧中的关节点和空间中继节点,本步骤将以单帧为例,描述该模型算法。模型输入为第t帧骨架中的关节点序列其中,n表示这一帧中关节点的数量,表示关节点的所有邻居关节点标签的集合。每个节点(包括关节点和空间中继节点r
t
)都有对应的query向量key向量value向量
[0179]
在空间关节点更新模块(spatial jointnodes update block,sju)中,针对任一关节点首先对该关节点相应的query向量q
it
和其邻居节点相应的key向量做点积操作,以获取各邻居节点对该关节点的影响力度,如公式如(3.12)所示:
[0180][0181]
其中,表示节点j对节点i的影响力度。邻居节点包括其相邻的关节点空间中继节点r
t
和它本身
[0182]
计算得到影响力度后,将其与邻居节点对应的value向量相乘,并对所有乘积进行求和,得到的值即为关节点的更新值,公式如(13)所示:
[0183][0184]
其中,是经过关节点更新子模块(sju)一次更新后得到的结果,该结果同时聚合了局部信息和全局信息,dk表示key向量的通道维度,起到归一化的作用。如图6中sju模块所示,红关节点为各待更新关节点,它们通过橙连接从邻居节点处收集信息。
[0185]
为了使空间中继节点合理充分地收集整合各关节点的信息,空间中继节点更新子模块(sru)中也采用了点积操作计算各关节点对此中继节点的影响力度。如图6中sru模块所示,待更新的空间中继节点(红节点)通过橙连接从各节点处收集信息,并通过影响力度将各关节点信息整合为全局信息。影响力度通过中继节点对应的query向量与各关节点对应的key向量相乘得到,公式如(14)所示:
[0186][0187]
空间中继节点的更新如公式(15)所示,表示关节点对空间中继节点r
t
的影响力度得分,为所有节点(包括骨架中的所有关节点和空间中继节点)的value向量。
[0188][0189]
交替更新关节点和空间中继节点实现了信息在各关节点之间的交换,最终实现每个关节点同时收集邻居关节点和远距离关节点的信息的目标。srt模块的整体更新算法为算法1,如表1所示,其中第一层循环遍历所有帧,第二层循环遍历该帧中的所有关节点(包括空间中继节点)。
[0190]
表1.算法1:srt模块更新算法说明
[0191][0192][0193]
步骤3.3、构造基于骨架序列的时间拓扑图
[0194]
该步骤在构造时间拓扑图时引入了一个时间中继节点,通过时间固有连接和时间虚拟连接,各关节得以相互连接,共同构成时间域中的图结构。
[0195]
沿着时间维度,连续帧中的同一关节点构成新序列,该步骤还为首尾关节点构建连接,组成环状结构,如图7所示。上述连接因保留各帧顺序被命名为时间固有连接(蓝线段),起到与相邻帧直接交换信息的作用。由n个关节点组成的序列包含n个时间固有连接。
[0196]
与步骤3.1中的构造类似,时间虚拟连接(紫线段)连接了时间中继节点(紫节点)和序列中的各关节点(蓝节点),各关节点通过此类连接完成远距离信息交换。因此,包含n个关节点的图有n个时间虚拟连接,如图7所示。
[0197]
步骤3.4、设计trt模块
[0198]
temporal relative transformer模块(trt)包含时间关节点更新模块(tju)和时间中继节点更新模块(tru)两部分,用于提取时域特征。该模块将骨架中每个关节点视为独立节点,分别以帧序列中同一关节点组成的序列为对象提取该关节点的时域特征。本步骤将以单个关节点为例,描述该模型算法。trt模块的输入为为所有帧的同一关节点组成的序列。每个关节点有其相对应的query向量key向量和value向量时间中继节点rv对应query向量key向量和value向量
[0199]
在tju子模块中,每个待更新关节点(红节点)通过虚拟连接(橙线段)收集邻居节点(时间中继节点rv,相邻帧的同一关节点以及节点本身)的信息进行自我更新,如图8中tju模块所示。邻居节点的影响力度计算公式如(16)所示:
[0200][0201]
其中,表示第j帧中同一关节点或时间中继节点rv对第i帧中某关节点的影响力度。关节点的更新如公式(17)所示:
[0202][0203]
将所有query向量组合成矩阵qv∈rc×1×
t
,所有key向量组合成矩阵kv∈rc×b×
t
,所有value向量组合成矩阵vv∈rc×b×
t
。影响力度的矩阵形式定义如公式(18)所示:
[0204][0205]
其中,b代表邻居节点个数,
°
表示哈德玛乘积。
[0206]
在tru模块中,如图8所示,时间中继节点rv(红节点)通过虚拟连接(橙线段)从其他各帧收集信息,从而完成自身节点更新。具体操作如以下所示:
[0207][0208]
[0209]
其中,表示第j帧中的关节点对中继节点rv的影响力度,为缩放因子。
[0210]
交替更新时间中继节点和所有帧中的同一节点,trt模块最终捕捉到帧之间的长短距离依赖。trt模块整体更新算法为算法2,如表2所示,其中第一层循环遍历骨架中的所有关节点,第二层循环遍历该关节点在所有帧中对应的关节点(包括时间中继节点)。
[0211]
表2.算法2:trt模块更新算法说明
[0212][0213]
步骤3.5、封装st-rt模块:
[0214]
st-rt模块由srt模块和trt模块连接组合得到,如图9所示,srt模块中包含空间关节点更新模块(spatial joint nodes update block,sju)和空间中继节点更新模块(spatial relay node update block,sru)。trt模块中包含时间关节点更新模块(temporal joint nodes update block,tju)和时间中继节点更新模块(temporal relay node update block,tru)。每个更新模块都向后连接前向反馈网络层(feedforward neural network,fnn),将特征映射到更大维度的空间以增强模型表达能力。l
×
表示循环l次。
[0215]
步骤3.6、封装msst-rt网络
[0216]
为了进一步提高模型准确率,该步骤通过多流框架对四个输入数据不同st-rt模型进行融合封装得到msst-rt模型(multi stream st-rt),如图10所示。除了通过骨架的一阶信息(关节点,joint)提取特征外,还可以通过二阶信息(骨骼,bone)提取特征。同时,不同的采样频率也可以为模型提供补充信息,如分别对关节序列和骨骼序列采样n1帧和n2帧。骨架数据通过msst-rt网络将获得最终的基于骨架数据的分类预测概率。
[0217]
综上所述,该模型msst-rt根据骨架图特点和序列特点对transformer模型进行改进,以较小计算代价为远距离关节点建立依赖,同时维护骨架结构和序列顺序的完整性,进而提高计算效率和识别准确率。
[0218]
(4)基于关节点的图片裁剪模块
[0219]
由于人体细微动作大多集中于手部或脚部,其对应的图像方块包括了骨架缺失的大部分细节信息。因此,本模块的创新点在于选择对人体手部、脚部关节点进行裁剪,大幅度减小了训练成本,如图11所示。
[0220]
具体来说,第t帧的图像i
t
通过矩阵p
t
表示,所需裁剪的关节点nj在图像中的坐标为(x,y),裁剪图片尺寸大小为l
×
l,则在图像i
t
中围绕手部、脚部关节点nj裁剪得到的图像方块集合如以下公式所示:
[0221][0222][0223]
除了以关节点坐标为中心对图片进行裁剪,本节还通过相邻两帧对应的图片方块提取光流,公式如(23)所示:
[0224][0225]
其中,tv-l1是一种经典的光流计算方法,表示x轴方向上的光流场,表示y轴方向上的光流场。
[0226]
(5)基于关键图像块的行为识别网络(kbn)
[0227]
为了提取裁剪得到的各关键图像块中的特征,本实施例设计了端到端训练的图像方块特征提取模型(image blocks convolution network,ibcn),并以时域分割网络(temporal segment network,tsn)为基础框架,将ibcn模型封装成kbn网络。具体步骤如下。
[0228]
步骤5.1、设计ibcn模型
[0229]
基于骨架关节点裁剪的图像方块之间存在既存在独立性又存在相关性,因此,如图12所示,ibcn模型首先将裁剪得到的每一个图像方块分别输入到卷积神经网络(cnn)中,得到各图像方块的特征计算公式如(24)所示:
[0230][0231]
其中,表示通过参数为w的卷积神经网络提取图像方块的特征,各卷积神经网络参数共享。
[0232]
然后将各图像方块的特征f
tj
进行拼接,得到新的特征向量如公式(25)所示
[0233][0234]
最后通过点乘的方式计算特征向量f
t
中任意空间位置xi与其他位置xj的相似度f(xi,xj),如公式(26)所示:
[0235]
f(xi,xj)=softmax(θ(xi)
t
·
φ(xj))#
ꢀꢀꢀ
(26)
[0236]
其中,θ(
·
)和φ(
·
)为1
×
1卷积函数。
[0237]
得到的相似度f(xi,xj)将作为权值与g(xj)进行加权求和,以实现xi从其他位置获取信息,yi即为xi进行全局信息交换后的结果,如公式(27)所示:
[0238][0239]
其中,g(
·
)为映射函数,本节采用1
×
1卷积函数进行映射。nl'2为选择特征图的尺寸,将其作为归一化系数可以避免因输入尺寸不同而产生的尺度伸缩。当输入为特征张量时,公式如(28)所示:
[0240][0241]
其中,θ(
·
)、φ(
·
)和g(
·
)均为1
×
1卷积函数,nl'2为归一化系数。
[0242]
步骤5.2、封装kbn网络
[0243]
该步骤以tsn网络为框架,将ibcn模型封装为kbn网络,该网络分为空间流和时间流,其中输入数据为图像块对应于空间流,输入数据为光流块对应于时间流。以空间流为例,首先通过稀疏采样从视频中采样若干帧,并通过基于关节点的图像裁剪模块对每一帧进行处理。然后将每一帧对应的关键图像块集合分别输入ibcn模型,根据采样帧初步预测类概率,各ibcn模型参数共享。接着通过共识函数(consensus)融合所有采样帧的预测分类结果,以得到视频级的分类预测,计算公式如(29)所示。
[0244][0245]
其中,kbn-s为kbn网络空间流的预测结果,时间流预测结果计算方法与空间流一致。
[0246]
最后,将空间流预测结果与时间流预测结果进行融合,得到最终的基于图像数据的分类预测概率。
[0247]
行为识别作为计算机视觉领域的热门研究方向,在公共安全、人机交互等方面均有广阔的应用前景,具有重要的研究意义。行为识别方法主要分为基于骨架数据和图像数据两类,本实施例提出融合骨架数据和图像数据的行为识别网络模型,对骨架运动信息进行充分挖掘、为远距离关节点建立依赖,增强了细节动作的识别能力。并进一步融合局部图像数据与骨架数据,从而补充了丰富的动作细节信息同时避免了高昂的计算成本。本实施例在数据集ntu60上达到了98.65%的识别水平。本实施例提出基于骨架数据和基于图像数据的行为识别网络模型,并对两种网络模型进行融合,构成完整系统:
[0248]
本实施例针对现有骨架行为识别方法未充分挖掘骨架运动信息的问题,本实施例提出运动信息指导采样模块和多尺度运动信息融合模块。在运动信息指导采样模块中,提出将相邻两帧各关节点坐标位移之和作为衡量骨架坐标运动信息的指标,并通过上述衡量指标指导采样,使采样得到的骨架具有更丰富的运动信息,进而提升识别准确率。在多尺度运动信息融合模块中,提出固化运动信息和自适应运动信息,将其与静态信息相融合,使模型输入具备丰富的运动信息,进而增强模型对不同变化速度、不同持续时间的动作的适应
能力,提高模型准确率。
[0249]
本实施例针对图卷积网络无法为骨架中距离较远的关节点建立长距离依赖的问题,本实施例提出基于transformer的骨架行为识别网络msst-rt。该网络模型在时空领域分别引入一个虚拟节点,通过该节点与各关节点建立直接联系(虚拟连接),收集并整合关节点信息实现该虚拟节点的自主更新;各关节点则通过骨骼(固有连接)从相邻节点处获取局部信息,通过虚拟连接从该虚拟节点处获取全局信息,完成关节点的更新。通过上述两次更新,每个关节点都将与其他任意关节点完成信息交换,建立长距离依赖,提取时空特征。
[0250]
本实施例针对图像数据具有骨架数据缺乏的细节信息但相关模型训练成本高的问题,本实施例提出基于关节点的图片裁剪模块和基于关键图像块的行为识别网络kbn。在基于关节点的图片裁剪模块中,为了减小图像数据规模,降低训练成本,本实施例根据关节点坐标对图像中人的手部、脚部位置进行裁剪,得到若干图像方块,该图像方块集合将代替该图像进行特征提取。在kbn模型中,本实施例通过non-local模块建立各空间位置间的信息交换通道,实现各图像方块之间的全局信息交换,兼顾了各图像方块间的独立性和关联性,进而提高人体局部细微动作识别能力。最后将基于骨架数据的行为识别网络模型与基于图像数据的行为识别网络模型融合,充分发挥骨架数据和图像数据的互补性。
[0251]
实施例二:
[0252]
本实施例与实施例一基本相同,特别之处在于:
[0253]
在本实施例中,用于公共安全的动作识别方法,将采用ntu60数据集中的骨架数据和图像数据进行实验,数据集根据c-subject规则划分训练集和测试集,通过top1准确率衡量模型性能。
[0254]
(1)基于骨架数据的行为识别网络模型
[0255]
多尺度运动信息融合模块中静态信息、自适应运动信息、短期运动信息和长期运动信息通过第一个1
×
1卷积从维度为3的空间映射到维度为64的空间,通过第二个1
×
1卷积再从维度为64的空间分别映射至维度为256、256、128和128的高维空间。
[0256]
msst-rt模型中的srt模块及trt模块循环次数设置为3次,多头注意力机制的头部数量设置为8个,归一化方式采用了批次归一化。所有实验均采用pytorch框架完成,模型训练采用adam优化器,参数设置为β=[0.9,0.98]和∈=10-9
。训练分为两个阶段:1)第一阶段中(前700次迭代),通过热启动方式将学习率从4
×
10-7
线性提高至5
×
10-4
;2)第二阶段中,通过衰减权重大小为0.9996的自然指数衰减策略逐步降低学习率。这种训练方式不仅可以加快模型收敛,还可以使训练更加稳定。在训练过程中,训练批次大小设置为64,训练次数为30次。同时,所有的实验都采用了∈
ls
=0.1的标签平滑策略。
[0257]
在数据处理方面,采用每一帧的关节点与第一帧相同关节点的坐标位移来代替各关节点原始坐标信息对各帧骨架进行描述。训练集中有些动作为双人交互动作,即同一帧中包含两副骨架,如拥抱、握手等。这种情况下,将包含两副骨架的帧拆分成两帧,使每一帧包含一副骨架。另外,通过随机旋转3d骨架获得更多不同的样本以实现数据增强,在一定程度上增强网络的泛化能力。
[0258]
(2)基于图像数据的行为识别网络模型
[0259]
本章节的实验均基于pytorch框架完成,采用动量(momentum)值为0.9的随机梯度下降算法学习网络参数。在kbn网络空间流的训练中,训练批次大小设置为24,训练次数设
置为80次,学习率初始值设置为0.001,且在第25,第45和第70次训练时更新学习率,每次更新将学习率减小为原来的1/2。实验将采用imagenet数据集上的预训练模型初始化网络参数。在kbn网络的时间流的训练中,训练批次大小设置为24,训练次数设置为300次,学习率初始值设置为0.001,在第50、100、150、200次训练时更新学习率,每次更新将学习率减为原来的1/2。当训练过程中梯度值大于20时,进行梯度裁剪操作,该操作可以有效避免梯度爆炸。为了加速模型收敛,实验将采用kbn网络空间流的模型参数对kbn时间流网络进行初始化。实验采用cuda版本的opencv提供的tv-l1算法提取图像方块的光流。
[0260]
表3.各方法在ntu60数据集上的表现
[0261][0262]
本实施例用于公共安全的动作识别方法,基于骨架和图像数据的行为识别网络模型,根据数据类型差异,该网络模型分为基于骨架数据的行为识别网络模型和基于图像数据的行为识别网络模型两个分支:前者通过轻量网络提取骨架特征,擅长识别幅度较大的动作,在动作识别任务中发挥主要作用;后者通过裁剪图片降低训练成本,并从关键图像块中提取图像特征,擅长识别集中于手部脚部的小幅度动作,在动作识别任务中起到补充细节信息的作用。
[0263]
上面对本发明实施例结合附图进行了说明,但本发明不限于上述实施例,还可以根据本发明的发明创造的目的做出多种变化,凡依据本发明技术方案的精神实质和原理下做的改变、修饰、替代、组合或简化,均应为等效的置换方式,只要符合本发明的发明目的,只要不背离本发明的技术原理和发明构思,都属于本发明的保护范围。

技术特征:


1.一种基于骨架和图像数据融合的动作识别方法,其特征在于:分别建立基于骨架数据的行为识别网络模型和基于图像数据的行为识别网络模型组成识别网络,基于骨架数据的行为识别网络模型利用轻量网络提取骨架特征,用于识别幅度较大的动作,完成主要动作识别任务,基于骨架数据的行为识别网络模型的模型输入数据为骨架序列,该输入数据依次经过坐标运动信息指导的采样模块、多尺度运动信息融合模块和多流时空相对transformer模型,得到动作类别预测概率;基于图像数据的行为识别网络模型通过裁剪图片方法,从图像块中提取图像特征,用于识别集中于手部脚部的小幅度动作,在动作识别任务中补充细节信息;基于图像数据的行为识别网络模型的模型输入数据息为图像序列,该输入数据将依次经过基于关节点的图片裁剪模块和基于关键图像块特征提取模型(kbn),得到补充的动作类别预测概率;将基于骨架数据的行为识别网络模型和基于图像数据的行为识别网络模型得到的各动作类别预测概率进行融合,进而得到整个模型的最终分类预测概率,从而完成用于公共安全的动作识别过程。2.根据权利要求1所述基于骨架和图像数据融合的动作识别方法,其特征在于:在基于骨架数据的行为识别网络模型中,坐标运动信息指导的帧采样模块根据坐标运动信息衡量指标,筛选出骨架序列中具有代表性的骨架序列;多尺度运动信息融合模块将骨架的静态信息与多尺度运动信息融合,还根据人体不同动作具有不同变化速度和持续时间的特点,设定两种不同类型的运动信息,分别为固化运动信息和自适应运动信息;其中,固化运动信息包括两种不同的尺度,使网络适应不同变化速度的动作;自适应运动信息则使识别网络具备识别不同持续时间动作的能力;多流时空相对transformer模型为各关节点在时空域上建立长距离联系,多流时空相对transformer模型如下:在空间域上,设定了基于骨架的空间拓扑图,构造空间相对transformer模块,用于建立空域中关节点远距离依赖;在时间域上,构造基于骨架序列的时间拓扑图,建立时域相对transformer模块,用于建立时域中关节点远距离依赖;然后,将空间和时域相对模块进行组合,得到时空相对transformer模型,进而提取骨架序列的时空特征;采用多时间尺度框架对至少4个输入数据不同时空相对模型进行融合,构建多流时空相对transformer模型。3.根据权利要求2所述基于骨架和图像数据融合的动作识别方法,其特征在于:坐标运动信息指导的帧采样模块包括:1.1设计衡量坐标运动信息的指标:在骨架数据中,关节点由3d坐标表示;将关节点在相邻两帧的位移距离将作为衡量该关节点蕴含运动信息量的指标,将骨架中所有关节点的位移距离之和将作为衡量该骨架整体包含的运动信息量的指标,进而判断该骨架是否具有代表性;假设第t帧的标签为i的关节点坐标为第t-1帧的标签为i的关节点坐标为则第t帧所蕴含的坐标运动信息m
t
如公式(1)所示:其中,n表示一帧中包含的关节点数量;为了消除因视频长度不同带来的尺度伸缩影响,对每一帧蕴含的坐标运动信息进行归一化处理,如公式(2)所示:
其中,t表示视频包含的帧数量;1.2、采用累积分布函数对视频进行采样:假设需从长度为t的视频中采样n帧,具体操作如下:首先对骨架坐标运动信息进行逐帧累加,得到累积坐标运动信息,第t帧的累积坐标运动信息c
t
计算公式如(3)所示:依据将序列分为n个片段,从上述n个片段中分别随机采样一帧,组成新序列,从而通过该衡量指标筛选出骨架序列中具有代表性的骨架系列。4.根据权利要求2所述基于骨架和图像数据融合的动作识别方法,其特征在于:多尺度运动信息融合模块包括:2.1设计不同尺度运动信息:通过采样从原骨架序列i
origin
=[i1,

,i
f
]选出t帧按原顺序组合成新的骨架序列i
new
=[i1,

,i
t
],f表示原骨架序列的总帧数,i表示每一帧中所有关节点的坐标;运动信息通过计算同一关节点在两帧中的坐标位移得到:表示原始骨架序列i
origin
中第t帧的标签为i的关节点,表示采样得到的骨架序列i
new
中第t帧的标签为i的关节点;自适应运动信息m
a
通过骨架序列i
new
中连续两帧关节点坐标相减得到,具有从不同长度的视频中获取到不同尺度的运动信息的特点,公式如以下所示:的视频中获取到不同尺度的运动信息的特点,公式如以下所示:其中,表示新骨架序列i
new
中第i帧的自适应运动信息;运动信息分为两种:短距离运动信息m
s
和长距离运动信息m
i
;短距离运动信息m
s
通过原骨架序列i
origin
中相隔2帧的骨架关节点坐标相减得到,用于捕捉变化快速的动作的运动信息;计算公式如以下所示:息;计算公式如以下所示:其中,表示新骨架序列中第i帧的短距离运动信息,f为新骨架序列i
new
中第i帧在原骨架序列i
origin
中的编号;表示原骨架序列i
origin
中第f帧的标签为n的关节点;长距离运动信息m
i
通过原骨架序列i
origin
中相隔5帧的骨架关节点坐标相减得到,用于捕捉变化较慢的动作的运动信息,计算公式表达如以下所示:捕捉变化较慢的动作的运动信息,计算公式表达如以下所示:其中,表示新骨架序列中第i帧的长距离运动信息,f表示新骨架序列i
new
中第t帧在原骨架序列i
origin
中的编号;
2.2、不同尺度运动信息的高维映射:骨架的静态信息i
new
、自适应运动信息m
a
、短期运动信息m
s
和长期运动信息m
l
的张量大小均为(t,n,c0),其中t表示视频帧数,n表示一副骨架的关节点数,c0表示关节点的坐标维数;如图将上述四种信息分别通过嵌入模块(embedding block)映射到高维空间得到高维特征f、f
ma
、f
ms
和f
ml
;嵌入模块由两个卷积层和两个激活层(relu)构成:第一次卷积将各类信息均映射至维度为c的空间,第二次卷积将各类信息分别映射至维度为c1、,c2、c3、c4的高维空间;不同运动信息对应的卷积核相互独立,参数不共享;以静态信息i
new
为例,嵌入模块二次映射公式如(10)所示:f=σ(w2(σ(w1i
new
+b1))+b2)
ꢀꢀꢀꢀ
(10)其中,σ表示激活函数,w1、b1表示第一次卷积函数中的参数,w2、b2表示第二次卷积函数中的参数,两次卷积函数中的参数均由学习得到,i
new
表示静态信息;2.3、多尺度运动信息融合:通过堆叠操作(concat)对各类信息进行融合得到骨架的动力学表示z,如公式(11)所示;该操作使骨架的动力学表示z包含了多尺度的运动信息,进而提高网络适应不同变化速度、不同持续时间动作的能力;z=concat(f,f
ma
,f
ms
,f
ml
)
ꢀꢀꢀꢀꢀꢀ
(11)将四种高维特征融合得到的z,作为多尺度运动信息融合模块输出。5.根据权利要求2所述基于骨架和图像数据融合的动作识别方法,其特征在于:多流时空相对transformer模型包括:3.1、构造基于骨架的空间拓扑图:除了骨架中原有的关节点外,该步骤引入一个虚拟节点,与所有关节点一起构成一个新的空间拓扑图作为模型输入,引入的虚拟节点不仅需要从各个关节点收集整合信息,还承担着将整合得到的全局信息分发给各关节点的作用,该虚拟节点被命名为空间中继节点;同时,在各节点之间建立了两种类型的连接,分别为空间固有连接和空间虚拟连接,以构造骨架的空间拓扑图;包含n个关节点的空间图结构共有n-1条空间固有连接;3.2、设计空间相对transformer模块:该模块包含空间关节点更新模块(sju)和空间中继节点更新模块(sru)两部分,通过交替更新sju模块和sru模块达到为空域中的远距离关节点建立联系;模型输入为第t帧骨架中的关节点序列其中,n表示这一帧中关节点的数量,表示关节点的所有邻居关节点标签的集合;每个节点都有对应的query向量key向量value向量空间关节点更新模块(spatial joint nodes update block,sju)中,针对任一关节点首先对该关节点相应的query向量和其邻居节点相应的key向量做点积操作,以获取各邻居节点对该关节点的影响力度,如公式如(12)所示:其中,表示节点j对节点i的影响力度;邻居节点包括其相邻的关节点空间中继节
点r
t
和它本身r表示空间中继节点的标签;计算得到影响力度后,将其与邻居节点对应的value向量相乘,并对所有乘积进行求和,得到的值即为关节点的更新值,公式如(13)所示:其中,是经过关节点更新子模块(sju)一次更新后得到的结果,该结果同时聚合了局部信息和全局信息,d
k
表示key向量的通道维度,起到归一化的作用,softmax
j
表示对所有相邻关节点的影响力度进行归一化处理;为了使空间中继节点合理充分地收集整合各关节点的信息,空间中继节点更新子模块(sru)中也采用了点积操作计算各关节点对此中继节点的影响力度;通过影响力度将各关节点信息整合为全局信息;影响力度通过中继节点对应的query向量与各关节点对应的key向量相乘得到,公式如(14)所示:空间中继节点的更新如公式(15)所示,表示关节点对空间中继节点r
t
的影响力度得分,为所有节点的value向量;交替更新关节点和空间中继节点实现了信息在各关节点之间的交换,最终实现每个关节点同时收集邻居关节点和远距离关节点的信息的目标;3.3、构造基于骨架序列的时间拓扑图:在构造时间拓扑图时引入了一个时间中继节点,通过时间固有连接和时间虚拟连接,各关节得以相互连接,共同构成时间域中的图结构;沿着时间维度,连续帧中的同一关节点构成新序列,该步骤还为首尾关节点构建连接,组成环状结构;由n个关节点组成的序列包含n个时间固有连接;3.4、设计trt模块:temporal relative transformer模块(trt)包含时间关节点更新模块(tju)和时间中继节点更新模块(tru)两部分,用于提取时域特征;该模块将骨架中每个关节点视为独立节点,分别以帧序列中同一关节点组成的序列为对象提取该关节点的时域特征;trt模块的输入为为所有帧的同一关节点组成的序列;每个关节点有其相对应的query向量key向量和value向量时间中继节点r
v
对应query向量key向量和value向量在tju子模块中,每个待更新关节点通过虚拟连接收集邻居节点的信息进行自我更新;邻居节点的影响力度计算公式如(16)所示:其中,表示第j帧中同一关节点或时间中继节点r
v
对第i帧中某关节点的影响力度,
表示对进行转置处理;关节点的更新如公式(17)所示:将所有query向量组合成矩阵q
v
∈r
c
×1×
t
,所有key向量组合成矩阵k
v
∈r
c
×
b
×
t
,所有value向量组合成矩阵v
v
∈r
c
×
b
×
t
;影响力度的矩阵形式定义如公式(18)所示:其中,b代表邻居节点个数,表示哈德玛乘积;在tru模块中,时间中继节点r
v
通过虚拟连接从其他各帧收集信息,从而完成自身节点更新;具体操作如以下所示:更新;具体操作如以下所示:其中,表示第j帧中的关节点对中继节点r
v
的影响力度,为缩放因子;3.5、封装st-rt模块:st-rt模块由srt模块和trt模块连接组合得到,srt模块中包含空间关节点更新模块和空间中继节点更新模块;trt模块中包含时间关节点更新模块和时间中继节点更新模块;每个更新模块都向后连接前向反馈网络层,将特征映射到更大维度的空间以增强模型表达能力;l
×
表示循环l次;3.6、封装msst-rt网络:通过多流框架对四个输入数据不同st-rt模型进行融合封装得到msst-rt模型;不同的采样频率也可以为模型提供补充信息,分别对关节序列和骨骼序列采样n1帧和n2帧;骨架数据通过msst-rt网络将获得最终的基于骨架数据的分类预测概率。6.根据权利要求1所述基于骨架和图像数据融合的动作识别方法,其特征在于:在基于图像数据的行为识别网络模型中,基于关节点的图片裁剪模块选择对人体手部、脚部关节点进行裁剪;采用端到端训练的图像方块特征提取模型,并以时域分割网络为基础框架,将端到端训练的图像方块特征提取模型封装成基于关键图像块特征提取模型。7.根据权利要求6所述基于骨架和图像数据融合的动作识别方法,其特征在于:基于关节点的图片裁剪模块包括:第t帧的图像i
t
通过矩阵p
t
表示,所需裁剪的关节点n
j
在图像中的坐标为(x,y),裁剪图片尺寸大小为1
×
1,则在图像i
t
中围绕手部、脚部关节点n
j
裁剪得到的图像方块集合如以下公式所示:下公式所示:除了以关节点坐标为中心对图片进行裁剪,还通过相邻两帧对应的图片方块提取光流,公式如(23)所示:
其中,tv-l1是一种经典的光流计算方法,表示x轴方向上的光流场,表示y轴方向上的光流场。8.根据权利要求6所述基于骨架和图像数据融合的动作识别方法,其特征在于:基于关节点的图片裁剪模块包括:基于关键图像块的行为识别网络包括:5.1、设计ibcn模型:基于骨架关节点裁剪的图像方块之间存在既存在独立性又存在相关性,ibcn模型首先将裁剪得到的每一个图像方块分别输入到卷积神经网络中,得到各图像方块的特征计算公式如(24)所示:其中,表示通过参数为w的卷积神经网络提取图像方块的特征,各卷积神经网络参数共享;然后将各图像方块的特征进行拼接,得到新的特征向量如公式(25)所示最后通过点乘的方式计算特征向量f
t
中任意空间位置x
i
与其他位置x
j
的相似度f(x
i
,x
j
),如公式(26)所示:f(x
i
,x
j
)=softmax(θ(x
i
)
t
·
φ(x
j
))
ꢀꢀꢀꢀ
(26)其中,θ(
·
)和φ(
·
)为1
×
1卷积函数;得到的相似度f(x
i
,x
j
)将作为权值与g(x
j
)进行加权求和,以实现x
i
从其他位置获取信息,y
i
即为x
i
进行全局信息交换后的结果,如公式(27)所示:其中,g(
·
)为映射函数,采用1
×
1卷积函数进行映射;nl
′2为选择特征图的尺寸,将其作为归一化系数避免因输入尺寸不同而产生的尺度伸缩;当输入为特征张量时,公式如(28)所示:其中,θ(
·
)、φ(
·
)和g(
·
)均为1
×
1卷积函数,nl
′2为归一化系数;5.2、封装kbn网络:以tsn网络为框架,将ibcn模型封装为kbn网络,该网络分为空间流和时间流,其中输入数据为图像块对应于空间流,输入数据为光流块对应于时间流;采用空间流,首先通过稀疏采样从视频中采样若干帧,并通过基于关节点的图像裁剪模块对每一帧进行处理;然后将每一帧对应的关键图像块集合分别输入ibcn模型,根据采样帧初步预测类概率,各ibcn模型参数共享;接着通过共识函数融合所有采样帧的预测分类结果,以得到视频级的分类预测,计算公式如(29)所示:其中,kbn-s为kbn网络空间流的预测结果,t
k
表示从视频分割后的第k个片段,表示第k个采样帧对应的图像方块集合,表示通过ibcn模块对图像方块集合进行处理,时间流预测结果计算方法与空间流一致。

技术总结


本发明公开了一种基于骨架和图像数据融合的动作识别方法,包括:基于骨架数据的行为识别网络模型包括坐标运动信息指导的采样模块、多尺度运动信息融合模块和多流时空相对Transformer模型;基于图像数据的行为识别网络模型包括基于关节点的图片裁剪模块和基于关键图像块特征提取模型;将于骨架数据的行为识别网络模型和基于图像数据的行为识别网络模型得到的各动作类别预测概率进行融合,进而得到整个模型的最终分类预测概率,从而完成用于公共安全的动作识别过程。本发明识别网络模型对骨架运动信息进行充分挖掘、为远距离关节点建立依赖,增强了细节动作的识别能力;并进一步融合局部图像数据与骨架数据,从而补充了丰富的动作细节信息同时避免了高昂的计算成本。本。本。


技术研发人员:

孙妍 沈亦馨

受保护的技术使用者:

上海大学

技术研发日:

2022.09.19

技术公布日:

2023/3/24

本文发布于:2024-09-22 19:24:47,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/79777.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:关节点   骨架   节点   信息
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议