首页 > 学术百科

一种多视角情况下的3D人体动作识别算法[发明专利]

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 (43)申请公布日 (21)申请号 202110280476.5

(22)申请日 2021.03.16

(71)申请人上海大学

地址 201900 上海市宝山区上大路99号

(72)发明人石昕　邵慧杨　翟庆庆　

(74)专利代理机构南昌丰择知识产权代理事务

所(普通合伙) 36137

代理人张荣

(51)Int.Cl.

G06K 9/00(2006.01)

G06N 3/04(2006.01)

G06N 3/08(2006.01)

(54)发明名称一种多视角情况下的3D人体动作识别算法(57)摘要本发明公开了一种多视角情况下的3D人体动作识别算法，分为单视图3D姿势估计和多视图3D姿势估计；关于单视图3D姿势估计可以分为两个子类别，第一类使用高质量的2D姿态估计引擎，随后通过深度神经网络将2D坐标分别提升为3D；第二类使用卷积神经网络直接从图像推断3D 坐标；关于多视图3D姿势估计，旨在获得单眼3D 人体姿势估计的真实注释，将所有视图中的关节2D坐标串联为一个批次，作为对完全连接的网络的输入，该网络经过训练可以预测全局3D关节坐标。本发明的优点是：提出一种多视角情况下的3D人体动作识别算法，是通过采用计算机视觉识别算法对涉及人体的动作进行检测和识别并将

其转换为用户可理解的数据展示。权利要求书2页说明书7页附图1页CN 114036969 A 2022.02.11

C N 114036969

1.一种多视角情况下的3D人体动作识别算法，其特征在于：该人体动作识别算法分为单视图3D姿势估计和多视图3D姿势估计：

关于单视图3D姿势估计分为两个子类别，第一类使用高质量的2D姿态估计引擎，随后通过完全连接，卷积或递归的深度神经网络将2D坐标分别提升为3D；第二类使用深度卷积神经网络直接从图像推断3D

坐标；3D人体动作识别算法使用的是第一类方法作为主框架，使用深度卷积神经网络作为高质量的2D姿态估计引擎；

关于多视图3D姿势估计，旨在获得单眼3D人体姿势估计的真实注释，将所有视图中的关节2D坐标串联为一个批次，作为对完全连接的网络的输入，该网络经过训练能够预测全局3D关节坐标；其中将2D坐标串联到同一个坐标系下的方法称为多角度信息聚合方法。

2.根据权利要求1所述的一种多视角情况下的3D人体动作识别算法，其特征在于：

所述深度卷积神经网络是一类包含数学中的卷积计算且具有多层深度结构的前馈神经网络，多维数据可以作为深度卷积神经网络的输入层的输入，我们将一维数据或者二维数据作为输入传递给深度卷积神经网络的输入层，其中一维数组通常为时间序列数据；二维数组大多数为灰度图；本发明采用的卷积神经网络的输入层接收RGB图像的三维数组；

深度卷积神经网络的隐含层包含卷积层、池化层和全连接层3类结构；卷积层中的卷积核包含权重系数，池化层不包含权重系数，卷积层的功能是对输入数据进行特征提取，其内部包含多个卷积核，组成卷积核的每个元素都对应一个权重系数和一个偏差量，类似于一个前馈神经网络的神经元；其中卷积层的算法为：

在卷积层进行特征提取后，输出的特征图会被传递至池化层进行特征选择和信息过滤；池化层包含预设定的池化函数，其功能是将特征图中单个点的结果替换为其相邻区域的特征图统计量；池化层选取池化区域与卷积核扫描特征图步骤相同，由池化大小、步长和填充控制；其一般表示形式为：

卷积神经网络中输出层的上游通常是全连接层，其结构和工作原理与传统前馈神经网络中的输出层相同。

3.根据权利要求1所述的一种多视角情况下的3D人体动作识别算法，其特征在于：

多角度信息聚合方法是一种多视角人体坐标系转换方法，具体形式为代数三角变换；使用三角变换来单独处理每个关节j；是建立在2D坐标中的三角变换方法之上，其中人体关

节坐标的信息来自于动作识别框架中不同角度的热度图；H

c,j ＝h

)

为了估计2D关节位

置信息，首先计算空间轴上的softmax层：

其次计算各个节点的2D位置信息热度图的中心位置作为该节点为位置预估，叫做

soft ‑argmax；

Soft ‑argmax的一个重要特征就是不获取最大特征的索引，方便热度图H c 进行梯度反向传播；二维人体识别框架使用Loss进行预训练，通过把热度图和反转热度参数α相乘来调整图中关节热度，soft ‑argmax的训练过程的开始阶段就输出了最大可能的位置；

从2D关节位置信息x c ,j 推断三维关节位置信息，使用线性三角变换方法，该方法减少了对关节y j 的3D坐标的搜索量，解决了关节y的齐次3D坐标矢量上的超定方程组：

A j y j ＝0其中是x c ,j 的投射矩阵。

4.根据权利要求1所述的一种多视角情况下的3D人体动作识别算法，其特征在于：

所述线性三角变换方法为：假设每个视图的关节坐标彼此独立，因此都对三角变化做出了可比的贡献；不同角度下对应的系数矩阵的可学习权重w c ；

w j ＝(ω1,j ,ω2,j ,…,ωC ,j )；运算符表示Hadamard乘积，权重ωc ,j 是卷积神经网络所输出的结果：该方法的输入是一组具有已知相机参数的RGB图像；2D人体识别算法产生关节的热图和相机关节的置信度，通过应用soft ‑argmax，可从2D关节热图推断出关节的2D位置，2D位置和置信度一起传递到代数三角变换模块，该模块输出三角剖分的3D姿态，所有模块都允许反向传播梯度，因此可以端到端地训练模型。

一种多视角情况下的3D人体动作识别算法

技术领域

[0001]本发明涉及计算机视觉识别，实时数据可视化，大数据并行处理领域，具体来说，涉及一种多视角情况下的3D人体动作识别算法。

背景技术

[0002]随着社会的发展和进步，人体行为识别技术在社会中承担的角越来越重要，并具有广泛的应用

场景。三维人体模型重建和动作识别是目前计算机视觉领域研究中的一个热点，其目的是通过各种图像处理和识别分类技术对视频中的动作进行提取和分析，合理的构建完整的三维人体模型，以判断视频中的人物所进行的动作，从而得出有用的信息，具有十分广泛的用途。人体行为识别技术可被应用到视频监控(学校、食堂、公司等环境)、人机交互(火车站等场景)、足球或者篮球运动自动解说等领域。

[0003]此外，人体姿势识别在计算机视觉领域是一个非常重要的领域。根据最终目标和假设规则制定的不同，可以延伸出很多不同的方向；

[0004](1)预测人体的二维或者三维动作。

[0005](2)从视频中的单一序列或者帧中预测人体动作。

[0006](3)从单一或者多个摄像头中预测人体动作。

[0007]本发明中，我们只关注于多摄像头条件下，在固定帧的范围内三维空间下人体动作的识别。从更广泛的角度来看，本发明提出的动作检测框架可以作为一个统一的识别框架同时识别2D和3D中的人体动作。

[0008]3D人体动作识别是计算机视觉中的基础问题，平时应用于体育动作识别，计算机辅助直播，人机交互，特效制作等。目前大多数传统算法关注于单一视角的3D人体动作预测。尽管最近已经有学者做了

很多相关的工作，但是多摄像机条件下对人体动作的识别还远远没有被解决。因此，本发明提出一种多视角情况下的3D人体动作识别算法。

[0009]多视角条件下的人体动作识别有很高的研究价值，原因有二：第一首先，在户外复杂场景下，多视角的人体动作识别无可争论的是最好的动作识别方式。这是因为诸如基于标记的运动捕获和视觉惯性方法之类的竞争技术具有一定的局限性，例如无法捕获丰富的姿势表示形式(例如，估计手部姿势和面部姿势以及肢体姿势)以及各种其他限制。先前的方法的缺点是，该工作使用多视图三角剖分来构建数据集，数据集依赖于过多，几乎不切实际的视图数来获得足够质量的3D真实动作。这使得用于3D姿态识别的新的数据集的收集非常具有挑战性，目前急需减少精确三角剖分所需的视图数量。其次在某些情况下，此算法可以将其直接用于实时跟踪人体姿势，以达到对动作进行识别的最终目的。这是因为在诸如运动或计算机辅助生活之类的各种应用程序的背景下，多摄像机的配置逐渐变得可用。在这种情况下，现代多视图方法的准确性可与发达的单眼方法相媲美。因此，从很少的视图中提高多视图姿势估计的准确性是直接实际应用中的重要挑战。

发明内容

[0010]本发明的目的在于提供一种多视角情况下的3D人体动作识别算法，是通过采用计算机视觉识别算法对涉及人体的动作进行检测和识别并将其转换为用户可理解的数据展示。

[0011]本发明采用的技术方案如下：一种多视角情况下的3D人体动作识别算法，其特征在于：多视图下2D姿势估计后采用多角度信息聚合方法进行3D姿势估计。

[0012]关于单视图3D姿势估计分为两个子类别，第一类使用高质量的2D姿态估计引擎，随后通过深度神经网络(完全连接，卷积或递归)将2D坐标分别提升为3D；第二类使用深度卷积神经网络直接从图像推断3D坐标；3D人体动作识别算法使用的是第一类方法作为主框架，使用深度卷积神经网络作为高质量的2D姿态估计引擎；

[0013]关于多视图3D姿势估计，旨在获得单眼3D人体姿势估计的真实注释，将所有视图中的关节2D坐标串联为一个批次，作为对完全连接的网络的输入，该网络经过训练能够预测全局3D关节坐标；其中将2D坐标串联到同一个坐标系下的方法称为多角度信息聚合方法。

[0014]所述深度卷积神经网络是一类包含数学中的卷积计算且具有多层深度结构的前馈神经网络，深度卷积神经网络的输入层能够处理多维数据，一维卷积神经网络的输入层接收一维或二维数组甚至三维数据，其中一维数组通常为时间序列数据；二维数组大多数为灰度图；二维卷积神经网络的输入层接收RGB图像的三维数组；

[0015]深度卷积神经网络的隐含层包含卷积层、池化层和全连接层3类结构；卷积层中的卷积核包含权重系数，池化层不包含权重系数，卷积层的功能是对输入数据进行特征提取，其内部包含多个卷积核，组

成卷积核的每个元素都对应一个权重系数和一个偏差量，类似于一个前馈神经网络的神经元；其中卷积层的算法为：

[0016]

[0017]在卷积层进行特征提取后，输出的特征图会被传递至池化层进行特征选择和信息过滤；池化层包含预设定的池化函数，其功能是将特征图中单个点的结果替换为其相邻区域的特征图统计量；池化层选取池化区域与卷积核扫描特征图步骤相同，由池化大小、步长和填充控制；其一般表示形式为：

[0018]

[0019]卷积神经网络中输出层的上游通常是全连接层，其结构和工作原理与传统前馈神经网络中的输出

层相同。

[0020]多角度信息聚合方法是一种多视角人体坐标系转换方法，具体形式为代数三角变换；使用三角变换来单独处理每个关节j；是建立在2D坐标中的三角变换方法之上，其中人

体关节坐标的信息来自于动作识别框架中不同角度的热度图；H

c,j ＝h

)

为了估计2D关

节位置信息，首先计算空间轴上的softmax层：

本文发布于:2024-09-20 20:30:15，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/765791.html

上一篇：电力缓冲器控制系统[实用新型专利]

下一篇：包含公式的发明专利审查策略

标签：识别人体动作卷积神经网络

留言与评论（共有 0 条评论）