一种在线跨通道交互式并行蒸馏架构姿态预估方法及装置与流程

1.本发明涉及人工智能计算机视觉技术领域，具体提供一种在线跨通道交互式并行蒸馏架构姿态预估方法及装置。

背景技术：

2.人体姿态预估是人工智能计算机视觉中一个重要的技术领域。通过对场景中人的行为进行估计，可以更好的实现人机交互。目前人体姿态预估常用于工人违规操作检测、安防领域以及vr穿戴设备中。人体姿态预估算法中目标检测模型提取人体检测框的准确性对人体关键点定位的准确性和稳定性至关重要。
3.现有注意力模型没有考虑通道特征信息和空间特征信息的关联性，导致准确性不高。

技术实现要素：

4.本发明是针对上述现有技术的不足，提供一种实用性强的在线跨通道交互式并行蒸馏架构姿态预估方法。
5.本发明进一步的技术任务是提供一种设计合理，安全适用的在线跨通道交互式并行蒸馏架构姿态预估装置。
6.本发明解决其技术问题所采用的技术方案是：
7.一种在线跨通道交互式并行蒸馏架构姿态预估方法，首先视频采集装置获取外界视频流，将视频流切分成帧输入到特征提取网络中进行特征提取；
8.将提取到的特征输送到yolov5目标检测模型中，检测每一帧图像中的目标人体所在位置并标记检测框，得到目标人体的特征数据；
9.将目标人体特征数据传递给姿态检测模型faster-pose,得到人体关键点特征信息；将得到的人体关键点特征信息通过线性变换映射到特征图中，得到带有人体关键点标注的特征图。
10.进一步的，所述特征提取网络设计成csp结构，并引入跨通道交互式注意力机制，跨通道交互式注意力机制联合通道注意力和空间注意力，使用协方差矩阵计算通道注意力模型中特征图每两个通道的相似性，相似度高的通道进行融合；
11.空间注意力中使用二阶有限差分法计算特征图像素值差和像素梯度方向。
12.进一步的，两个所述通道的协方差计算值为负数则表示负相关，值为0则表示两个通道之间相互独立互不相关，值为正数则表示两个通道正相关进行特征融合；
13.首先计算每个通道的均值如公式(1)所示：
[0014][0015]
所有通道的均值特征记为
[0016]
计算每个通道的方差如公式(2)所示：
[0017][0018]
所有通道的方差记为：
[0019]
计算通道c1,c2之间的协方差如公式(3)所示：
[0020][0021]
以此类推得到的所有通道相似性协方差值记为cov
i，k
,只在不同通道之间做协方差，根据协方差值将正相关性的通道进行逐像素融合。
[0022]
进一步的，将提取到的特征输送到yolov5目标检测模型中，检测每一帧图像中的目标人体所在位置并标记检测框，得到目标人体的特征数据；
[0023]
所述yolov5目标检测模型使用公开数据集mscoco 2017进行训练。mscoco 2017数据集按照预先设定的比例随机抽取，对样本数据做数据增强预处理操作。
[0024]
作为优选，所述数据增强的方式包括对图像进行多角度旋转，旋转角度划分间隔为30度，对图像按照概率p对图像随机掩膜处理，掩膜下的像素值置为0，对图像进行上、下、左、右翻转，对图像进行不同程度的扭曲变形处理以及对图像进行颜扰动。
[0025]
进一步的，所述通道注意力模型使用softmax函数得到通道特征概率矩阵，空间注意力模型使用softmax函数得到空间特征概率矩阵；
[0026]
概率矩阵与原特征图分别使用乘积的方式进行融合，为特征图增加权重信息。
[0027]
进一步的，使用depth-wise方法对特征图的每个通道进行特征提取，得到每个通道的特征值矩阵，进行跨通道特征融合。
[0028]
进一步的，姿态检测模型faster-pose中进行在线并行知识蒸馏方法，在线并行知识蒸馏方法在网络结构上继续沿用基于教师-学生(teacher-student)知识蒸馏框架，teacher网络由8个hourglass特征提取模块组成，student网络由4个hourglass特征提取模块组成；
[0029]
使用mscoco 2017数据集训练teacher网络，使用一部分带有标签的数据集训练student网络，训练过程中使用kl散度计算teacher网络特征图和student网络特征图损失,并将teacher特征图信息与student特征图信息按照通道相似度进行融合，训练过程中teacher与student网络并行训练；
[0030]
推理过程中去掉teacher网络直接推理student网络，在faster-pose姿态检测模型中引入跨通道交互式注意力机制，跨通道交互式注意力机制为teacher网络中的特征图赋予不同的权重信息，teacher网络特征图和student网络特征图计算过程如公式(4)所示：
[0031][0032]
其中，分别代表teacher网络第二个hourglass模块提取到的特征图和student网络第一个hourglass模块提取到的特征图；
[0033]
总的特征图损失如公式(5)所示：
[0034][0035]
faster-pose姿态预估模型的最终损失函数如公式(6)所示：
[0036][0037]
其中为student网络模型损失，α和λ为待学习的超参数。
[0038]
进一步的，faster-pose姿态检测模型输出的人体关键点heat map数据信息使用线性插值法映射到原特征图中，映射过程中出现的像素点偏移使用三线性插值进行纠正。
[0039]
一种在线跨通道交互式并行蒸馏架构姿态预估装置，包括：至少一个存储器和至少一个处理器；
[0040]
所述至少一个存储器，用于存储机器可读程序；
[0041]
所述至少一个处理器，用于调用所述机器可读程序，执行一种在线跨通道交互式并行蒸馏架构姿态预估方法。
[0042]
本发明的一种在线跨通道交互式并行蒸馏架构姿态预估方法及装置和现有技术相比，具有以下突出的有益效果：
[0043]
本发明提出了跨通道交互式注意力机制并提出了新的姿态检测模型faster-pose。在特征提取阶段，通道注意力用于检测特征图哪些通道上含有所需信息的特征表达，空间注意力检测特征图的哪个位置存在所需的特征信息。在本发明中将空间注意力提取到的特征信息和通道注意力提取到的特征信息进行融合，考虑到通道特征信息和空间特征信息的关联性，提升所需特征信息的表达能力。
附图说明
[0044]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0045]
附图1是一种在线跨通道交互式并行蒸馏架构姿态预估方法流程示意图；
[0046]
附图2是一种在线跨通道交互式并行蒸馏架构姿态预估方法中姿态预估算法模型框架示意图；
[0047]
附图3是一种在线跨通道交互式并行蒸馏架构姿态预估方法中mscoco 2017数据集预处理流程示意图；
[0048]
附图4是一种在线跨通道交互式并行蒸馏架构姿态预估方法中yolov5目标检测算法框架示意图；
[0049]
附图5是一种在线跨通道交互式并行蒸馏架构姿态预估方法中c-ciam注意力机制框架示意图；
[0050]
附图6是一种在线跨通道交互式并行蒸馏架构姿态预估方法中faster-pose姿态检测模型架构示意图。
具体实施方式
[0051]
为了使本技术领域的人员更好的理解本发明的方案，下面结合具体的实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下
所获得的所有其他实施例都属于本发明保护的范围。
[0052]
下面给出一个最佳实施例：
[0053]
如图1-6所示，本实施例中的一种在线跨通道交互式并行蒸馏架构姿态预估方法，首先视频采集装置获取外界视频流，将视频流切分成帧输入到特征提取网络中进行特征提取；
[0054]
将提取到的特征输送到yolov5目标检测模型中，检测每一帧图像中的目标人体所在位置并标记检测框，得到目标人体的特征数据；
[0055]
将目标人体特征数据传递给姿态检测模型faster-pose,得到人体关键点特征信息；将得到的人体关键点特征信息通过线性变换映射到特征图中，得到带有人体关键点标注的特征图。
[0056]
其中，本实施例中的视频采集装置为4路2d摄像机，视频流按照每秒60帧的速率切分成帧并输入到特征提取网络中进行特征提取。
[0057]
特征提取网络借鉴了cspnet网络设计了csp结构，并引入跨通道交互式注意力机制。跨通道交互式注意力机制联合通道注意力和空间注意力，使用协方差矩阵计算通道注意力模型中特征图每两个通道的相似性，相似度高的通道进行融合。空间注意力中使用二阶有限差分法计算特征图像素值差和像素梯度方向。
[0058]
两个通道的协方差计算值为负数则表示负相关，值为0则表示两个通道之间相互独立互不相关，值为正数则表示两个通道正相关进行特征融合。
[0059]
首先计算每个通道的均值如公式(1)所示：
[0060][0061]
所有通道的均值特征记为
[0062]
计算每个通道的方差如公式(2)所示：
[0063][0064]
所有通道的方差记为：计算通道c1,c2之间的协方差如公式(3)所示：
[0065][0066]
以此类推得到的所有通道相似性协方差值记为cov
i，k
,只在不同通道之间做协方差，根据协方差值将正相关性的通道进行逐像素融合。
[0067]
将提取到的特征输送到yolov5目标检测模型中，检测每一帧图像中的目标人体所在位置并标记检测框，得到目标人体的特征数据。所述yolov5目标检测模型使用公开数据集mscoco 2017进行训练。mscoco 2017数据集按照预先设定的比例随机抽取，对样本数据做数据增强预处理操作。
[0068]
通道注意力模型使用softmax函数得到通道特征概率矩阵，空间注意力模型使用softmax函数得到空间特征概率矩阵。概率矩阵与原特征图分别使用乘积的方式进行融合，为特征图增加权重信息。
[0069]
使用depth-wise方法对特征图的每个通道进行特征提取，得到每个通道的特征值
矩阵，根据概率矩阵与原特征图分别使用乘积的方式进行融合，为特征图增加权重信息。
[0070]
数据增强的方式包含对图像进行多角度旋转，旋转角度划分间隔为30度；对图像按照概率p对图像随机掩膜处理，掩膜下的像素值置为0；对图像进行上、下、左、右翻转；对图像进行不同程度的扭曲变形处理以及对图像进行颜扰动。
[0071]
faster-pose姿态检测模型对现有的fastpose姿态检测模型进行了改进，提出了一种新的蒸馏方法
‑‑
在线并行知识蒸馏方法(online parallel distillation)。在线并行知识蒸馏方法在网络结构上继续沿用基于教师-学生(teacher-student)知识蒸馏框架，teacher网络由8个hourglass特征提取模块组成，student网络由4个hourglass特征提取模块组成。使用mscoco 2017数据集训练teacher网络，使用一部分带有标签的数据集训练student网络。训练过程中使用kl(kullback-leibler divergence)散度计算teacher网络特征图和student网络特征图损失,并将teacher特征图信息与student特征图信息按照通道相似度进行融合，训练过程中teacher与student网络并行训练。推理过程中去掉teacher网络直接推理student网络。在faster-pose姿态检测模型中引入跨通道交互式注意力机制，跨通道交互式注意力机制为teacher网络中的特征图赋予不同的权重信息。teacher网络特征图和student网络特征图计算过程如公式(4)所示：
[0072][0073]
其中分别代表teacher网络第二个hourglass模块提取到的特征图和student网络第一个hourglass模块提取到的特征图。
[0074]
总的特征图损失如公式(5)所示：
[0075][0076]
faster-pose姿态预估模型的最终损失函数如公式(6)所示：
[0077][0078]
其中为student网络模型损失，α和λ为待学习的超参数。
[0079]
将faster-pose姿态检测模型输出的人体关键点heat map数据信息使用线性插值法映射到原特征图中，映射过程中出现的像素点偏移使用三线性插值进行纠正。
[0080]
基于上述方法，本实施例中的在线跨通道交互式并行蒸馏架构姿态预估装置，包括：至少一个存储器和至少一个处理器；
[0081]
所述至少一个存储器，用于存储机器可读程序；
[0082]
所述至少一个处理器，用于调用所述机器可读程序，执行一种在线跨通道交互式并行蒸馏架构姿态预估方法。
[0083]
其中，本实施例中的存储器为512gb，处理器选用8核cpu处理器，装置还需要一张型号为rtx2080ti及以上型号的英伟达(nvidia)显卡。
[0084]
本发明充分考虑了通道注意力和空间注意力之间的联系，根据设计的通道融合规则将两个特征进行融合，优势在于既能通过通道注意力模型确定特征的分布，又联合空间维度上目标特征的位置信息，可以进一步增强空间维度目标特征的表征能力。
[0085]
充分考虑了提取到的特征图通道少但空间特征大时，易导致通道特征概括性不足
且空间特征敏感难以学习，在空间注意力模型上使用二阶有限差分法计算特征图的像素值差和像素梯度方向，可以提升空间维度上目标位置的定位性能。
[0086]
对原有的fastpose姿态预估模型进行了改进，提出了新的姿态预估模型faster-pose。设计了新的teacher网络和student网络之间信息交互与融合方式，并提出了新的损失函数。
[0087]
上述具体的实施方式仅是本发明具体的个案，本发明的专利保护范围包括但不限于上述具体的实施方式，任何符合本发明的一种在线跨通道交互式并行蒸馏架构姿态预估方法及装置权利要求书的且任何所述技术领域普通技术人员对其做出的适当变化或者替换，皆应落入本发明的专利保护范围。
[0088]
尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

技术特征：

1.一种在线跨通道交互式并行蒸馏架构姿态预估方法，其特征在于，首先视频采集装置获取外界视频流，将视频流切分成帧输入到特征提取网络中进行特征提取；将提取到的特征输送到yolov5目标检测模型中，检测每一帧图像中的目标人体所在位置并标记检测框，得到目标人体的特征数据；将目标人体特征数据传递给姿态检测模型faster-pose,得到人体关键点特征信息；将得到的人体关键点特征信息通过线性变换映射到特征图中，得到带有人体关键点标注的特征图。2.根据权利要求1所述的一种在线跨通道交互式并行蒸馏架构姿态预估方法，其特征在于，所述特征提取网络设计成csp结构，并引入跨通道交互式注意力机制，跨通道交互式注意力机制联合通道注意力和空间注意力，使用协方差矩阵计算通道注意力模型中特征图每两个通道的相似性，相似度高的通道进行融合；空间注意力中使用二阶有限差分法计算特征图像素值差和像素梯度方向。3.根据权利要求2所述的一种在线跨通道交互式并行蒸馏架构姿态预估方法，其特征在于，两个所述通道的协方差计算值为负数则表示负相关，值为0则表示两个通道之间相互独立互不相关，值为正数则表示两个通道正相关进行特征融合；首先计算每个通道的均值如公式(1)所示：所有通道的均值特征记为计算每个通道的方差如公式(2)所示：所有通道的方差记为：计算通道c1,c2之间的协方差如公式(3)所示：以此类推得到的所有通道相似性协方差值记为cov
i，k
,只在不同通道之间做协方差，根据协方差值将正相关性的通道进行逐像素融合。4.根据权利要求3所述的一种在线跨通道交互式并行蒸馏架构姿态预估方法，其特征在于，将提取到的特征输送到yolov5目标检测模型中，检测每一帧图像中的目标人体所在位置并标记检测框，得到目标人体的特征数据；所述yolov5目标检测模型使用公开数据集mscoco 2017进行训练。mscoco 2017数据集按照预先设定的比例随机抽取，对样本数据做数据增强预处理操作。5.根据权利要求4所述的一种在线跨通道交互式并行蒸馏架构姿态预估方法，其特征在于，所述数据增强的方式包括对图像进行多角度旋转，旋转角度划分间隔为30度，对图像按照概率p对图像随机掩膜处理，掩膜下的像素值置为0，对图像进行上、下、左、右翻转，对图像进行不同程度的扭曲变形处理以及对图像进行颜扰动。6.根据权利要求5所述的一种在线跨通道交互式并行蒸馏架构姿态预估方法，其特征
在于，所述通道注意力模型使用softmax函数得到通道特征概率矩阵，空间注意力模型使用softmax函数得到空间特征概率矩阵；概率矩阵与原特征图分别使用乘积的方式进行融合，为特征图增加权重信息。7.根据权利要求6所述的一种在线跨通道交互式并行蒸馏架构姿态预估方法，其特征在于，使用depth-wise方法对特征图的每个通道进行特征提取，得到每个通道的特征值矩阵，进行跨通道特征融合。8.根据权利要求7所述的一种在线跨通道交互式并行蒸馏架构姿态预估方法，其特征在于，姿态检测模型faster-pose中进行在线并行知识蒸馏方法，在线并行知识蒸馏方法在网络结构上继续沿用基于教师-学生(teacher-student)知识蒸馏框架，teacher网络由8个hourglass特征提取模块组成，student网络由4个hourglass特征提取模块组成；使用mscoco 2017数据集训练teacher网络，使用一部分带有标签的数据集训练student网络，训练过程中使用kl散度计算teacher网络特征图和student网络特征图损失,并将teacher特征图信息与student特征图信息按照通道相似度进行融合，训练过程中teacher与student网络并行训练；推理过程中去掉teacher网络直接推理student网络，在faster-pose姿态检测模型中引入跨通道交互式注意力机制，跨通道交互式注意力机制为teacher网络中的特征图赋予不同的权重信息，teacher网络特征图和student网络特征图计算过程如公式(4)所示：其中，分别代表teacher网络第二个hourglass模块提取到的特征图和student网络第一个hourglass模块提取到的特征图；总的特征图损失如公式(5)所示：faster-pose姿态预估模型的最终损失函数如公式(6)所示：其中为student网络模型损失，α和λ为待学习的超参数。9.根据权利要求8所述的一种在线跨通道交互式并行蒸馏架构姿态预估方法，其特征在于，faster-pose姿态检测模型输出的人体关键点heat map数据信息使用线性插值法映射到原特征图中，映射过程中出现的像素点偏移使用三线性插值进行纠正。10.一种在线跨通道交互式并行蒸馏架构姿态预估装置，其特征在于，包括：至少一个存储器和至少一个处理器；所述至少一个存储器，用于存储机器可读程序；所述至少一个处理器，用于调用所述机器可读程序，执行权利要求1至9中任一所述的方法。

技术总结

本发明涉及人工智能计算机视觉技术领域，具体提供了一种在线跨通道交互式并行蒸馏架构姿态预估方法，首先视频采集装置获取外界视频流，将视频流切分成帧输入到特征提取网络中进行特征提取；将提取到的特征输送到YOLOV5目标检测模型中，检测每一帧图像中的目标人体所在位置并标记检测框，得到目标人体的特征数据；将目标人体特征数据传递给姿态检测模型Faster-Pose,得到人体关键点特征信息；将得到的人体关键点特征信息通过线性变换映射到特征图中，得到带有人体关键点标注的特征图。与现有技术相比，本发明考虑到通道特征信息和空间特征信息的关联性，提升所需特征信息的表达能力。能力。能力。