【计算视觉】人体姿态识别研究综述(详细归纳!)

【计算视觉】⼈体姿态识别研究综述(详细归纳!)
⼀,⼈体姿态识别数据
1,2D数据集:
LSP
样本数:2K
关节点个数:14
全⾝,单⼈
FLIC
样本数:2W
防水袋
关节点个数:9
全⾝,单⼈
MPII
样本数:25K
关节点个数:16
用电监控
全⾝,单⼈/多⼈,40K people,410 human activities
MSCOCO
样本数:>= 30W
关节点个数:18
全⾝,多⼈,keypoints on 10W people
AI Challenge
样本数:21W Training, 3W Validation, 3W Testing
关节点个数:14
全⾝,多⼈,38W people
2,3D数据集:
在数据处理阶段,3D⽐2D复杂很多。2D⼈体姿态识别在dataset和model⽅⾯都⽐3D成熟,2Dmodel也有很多户外,⾃然界的dataset,但是3D的dataset⼏乎都是indoor的。因为3D标注、识别的复杂,所以需要⼤量的传感器,摄像头去采集数据。收集了⼏个最近看到的数据集分享给⼤家。
Human3.6M数据集    Human3.6M数据集有360万个3D⼈体姿势和相应的图像,共有11个实验者(6男5⼥,论⽂⼀般选取
1,5,6,7,8作为train,9,11作为test),共有17个动作场景,诸如讨论、吃饭、运动、问候等动作。该数据由4个数字摄像机,1个时间传感器,10个运动摄像机捕获。
CMU Panoptic dataset        该数据集是CMU⼤学制作,由480个VGA摄像头,30+HD摄像头和10个Kinnect传感器采集。
3、MPI-INF-3DHP        该数据集由Max Planck Institute for Informatics制作,详情可见Monocular 3D Human Pose Estimation In The Wild Using Improved CNN Supervision论⽂。
⼆,⼈体姿态估计重要论⽂
1,单⼈姿态估计的重要论⽂
2014----Articulated Pose Estimation by a Graphical Model with ImageDependent Pairwise Relations
2014----DeepPose_Human Pose Estimation via Deep Neural Networks
2014----Joint Training of a Convolutional Network and a Graphical Model forHuman Pose Estimation
2014----Learning Human Pose Estimation Features with Convolutional Networks
2014----MoDeep_ A Deep Learning Framework Using Motion Features for HumanPose Estimation
2015----Efficient Object Localization Using Convolutional Networks
2015----Human Pose Estimation with Iterative Error
2015----Pose-based CNN Features for Action Recognition
2016----Advancing Hand Gesture Recognition with High Resolution ElectricalImpedance Tomography
2016----Chained Predictions Using Convolutional Neural Networks
2016----CPM----Convolutional Pose Machines
2016----CVPR-2016----End-to-End Learning of Deformable Mixture of Parts andDeep Convolutional Neural Networks for Human Pose Estimation
2016----Deep Learning of Local RGB-D Patches for 3D Object Detection and 6DPose Estimation
efactor
2016----PAFs----Realtime Multi-Person 2D Pose Estimation using PartAffinity Fields (openpose)
2016----Stacked hourglass----StackedHourglass Networks for Human Pose Estimation
2016----Structured Feature Learning for Pose Estimation
2017----Adversarial PoseNet_ A Structure-aware Convolutional Network forHuman pose estimation (alphapose)
2017----CVPR2017 oral----Realtime Multi-Person 2D Pose Estimation usingPart Affinity Fields
2017----Learning Feature Pyramids for Human Pose Estimation
药片制作
2017----Multi-Context_Attention_for_Human_Pose_Estimation
2017----Self Adversarial Training for Human Pose Estimation
2,多⼈姿态估计的重要论⽂
2016----AssociativeEmbedding_End-to-End Learning for Joint Detection and Grouping
2016----DeepCut----Joint Subset Partition and Labeling for Multi PersonPose Estimation
2016----DeepCut----Joint Subset Partition and Labeling for Multi PersonPose Estimation_poster
2016----DeeperCut----DeeperCut A Deeper, Stronger, and Faster Multi-PersonPose Estimation Model
2017----G-RMI----Towards Accurate Multi-person Pose Estimation in the Wild
2017----RMPE_ Regional Multi-PersonPose Estimation
2018----Cascaded Pyramid Network for Multi-Person Pose Estimation
“级联⾦字塔⽹络⽤于多⼈姿态估计”
2018----DensePose: Dense Human Pose Estimation in the Wild
”密集⼈体:野外⼈体姿势估计“(精读,DensePose有待于进⼀步研究)
2018---3D Human Pose Estimation in the Wild by Adversarial Learning
“对抗性学习在野外的⼈体姿态估计”
三,单⼈姿态估计
2015 年之前的⽅法都是回归出精确的关节点坐标( x,y ),采⽤这种⽅法不好的原因是⼈体运动灵活,模型可扩展性较差。本⽂主要是2015年之后⼈体姿态识别的发展综述。(1)遮挡问题,这个问题恐怕是最难的,也是必须要解决的(2)速度过慢。(3)仅仅有⼆位的姿态是不够的,⽬前也有这⼀类的研究,关于直接从2d到3d的姿态进⾏直接估计。这⼀点是未来发展的趋势。
单⼈姿态估计性能评价指标:MPII单⼈数据集,LSP数据集和FLIC数据集。通过对⽐这三个数据集的PCK值来评价模型好坏。评价指标为PCK(Percentage of Correct Keypoints)即关键点正确估计的⽐例,计算检测的关键点与其对应的groundtruth 间的归⼀化距离⼩于设定阈值的⽐例,FLIC中是以躯⼲直径作为归⼀化参考,MPII中是以头部长度作为归⼀化参考,即PCKh。⽬前MPII单⼈数据集的排名如下:
发展历程:
《Flowing ConvNets for Human Pose Estimation in Videos》ICCV 2015
2015 年 flow convnet 将姿态估计看作是检测问题,输出是 heatmap。⽤相对于AlexNet更深的CNN⽹络进⾏⼈体姿态估计,提⾼关节点定位的鲁棒性,利⽤temporal提⾼精度。其创新点在于从卷积神经⽹络的 3 和 7 层提取出来,再经过卷积操作,称之为空间融合模型,⽤来提取关节点之间的内在联系;
同时使⽤光流信息,⽤来对准相邻帧的 heatmap 预测。最后使⽤参数池化层,将对齐的heatmap 合并成⼀个scoremap(置信图)。
⽹络pipeline:对于当前帧t,输⼊它的相邻的前后n帧。利⽤全卷积神经⽹络(Spatial Net + Spatial Fusion Layers)对每⼀帧输出⼀个预测的heatmap。再利⽤光流信息将这些heatmap扭曲到当前帧t。之后将warped的heatmap合并到另⼀个卷积层中,该层学习如何权衡来⾃附近框架的扭曲的heatmap。最后使⽤集合热图的最⼤值作为⼈体的⾝体关节。
评测数据集:FLIC数据集,对于wrist(⼿腕)和elbow(肘部)的平均PCK可以达到92%,可以做到实时性,速度为5fps。但是该⽅法对于pose的估计范围有限,只是半⾝的关节点,并不是全⾝的⾝体⾻骼点。
《Convolutional Pose Machines》CVPR 2016[21]
2016 年提出的 CPM ⽅法具有很强的鲁棒性,之后的很多⽅法是基于此改进的。CPM 的贡献在于使⽤顺序化的卷积架构来表达空间信息和纹理信息。⽹络分为多个阶段,每⼀个阶段都有监督训练的部分。前⾯的阶段使⽤原始图⽚作为输⼊,后⾯阶段使⽤之前阶段的特征图作为输⼊,主要是为了融合空间信息,纹理信息和中⼼约束。另外,对同⼀个卷积架构同时使⽤多个尺度处理输⼊的特征和响应,既能保证精度,⼜考虑了各部件之间的远近距离关系。
⽹络输⼊彩⾊图像(绿⾊ori image)。以半⾝模型为例,分为四个阶段(stage)。每个阶段都能输出各个部件的响应图(蓝⾊score),使⽤时以最后⼀个阶段的响应图输出为准。center map(绿⾊)是⼀个提前⽣成的⾼斯函数模板,⽤来把响应归拢到图像中⼼。 第⼀阶段是⼀个基本的卷积⽹络1(⽩⾊convs),从彩⾊图像直接预测每个部件的响应。半⾝模型有9个部件,另外包含⼀个背景响应,共10层响应图。第⼆阶段也是从彩⾊图像预测各部件响应,但是在卷积层中段多了⼀个串联层(红⾊concat),把以下三个数据合⼀:
阶段性的卷积结果(46*46*32)→ →\to 纹理特征 , 前⼀阶段各部件响应(46*46*10)→ →\to 空间特征 ,中⼼约束(46*46*1),串联后的结果尺⼨不变,深度变为32+10+1 = 43。第三阶段不再使⽤原始图像为输⼊,⽽是从第⼆阶段的中途取出⼀个深度为128的特征图(feature image)作为输⼊。同样使⽤串联层综合三种因素:纹理特征+空间特征+中⼼约束。 第四阶段结构和第三阶段完全相同。在设计更复杂的⽹络时(例如全⾝模型),只需调整部件数量(从10变为15),并重复第三阶段结构即可。
该论⽂的主要训练细节有三:
1. 数据增强:对原始图⽚进⾏随机缩放,旋转,镜像
2. 标定:在每个关节点的位置放置⼀个⾼斯响应,来构造响应图的真值。对于含有多个⼈的图像,⽣
成两种真值响应,⼀是在每个⼈的相应关节位置,放置⾼斯响应。⼆是只在标定的⼈的相应关节位置,放置⾼斯响应。
3. 中继监督,多个loss:如果直接对整个⽹络进⾏梯度下降,则输出层在经过多层反向传播会⼤幅度的减⼩,解决⽅法就是在每个阶段都输出⼀个loss,可保证底层参数正常更新。
评测数据集:MPII,LSP,FLIC,在MPII数据集上的total PCKh是87.95%(如果加上LSP数据集作为训练,将达到88.52%),在LSP 数据集上的PCKh是84.32%(如果加上MPII数据集作为训练,将达到90.5%),在FLIC数据集上的PCK@0.2分别是
elbows(97.59%),wrist(95.03%)。速度不明,应该⽆法做到实时。
《Stacked Hourglass Networks for Human Pose Estimation》ECCV 2016[26]
本⽂使⽤全卷积⽹络解决⼈体姿态分析问题,截⾄2016年5⽉,在MPII姿态分析竞赛中暂列榜⾸,PCKh(误差⼩于⼀半头⾼的样本⽐例)达到89.4%。与排名第⼆的CPM(Convolutiona Pose Machine)1⽅法相⽐,思路更明晰,⽹络更简洁。该论⽂体现了从模块到⽹络再到完整⽹络的设计思想。
使⽤的初级模块称为Residual Module,得名于其中的旁路相加结构。参考⽂献[6]有详细介绍
羟基氧化钴
作⽤:Residual模块提取了较⾼层次的特征(卷积路),同时保留了原有层次的信息(跳级路)。不改变数据尺⼨,只改变数据深度。可以把它看做⼀个保尺⼨的⾼级“卷积”层。
上下两个半路都包含若⼲Residual模块(浅绿),逐步提取更深层次特征。但上半路在原尺度进⾏,下半路经历了先降采样(红⾊/2)再升采样(红⾊*2)的过程。
降采样使⽤max pooling,升采样使⽤最近邻插值。n阶Hourglass⼦⽹络提取了从原始尺度到1/2 n  1/2n1/2^n尺度的特征。不改变数据尺⼨,只改变数据深度。
以⼀个Hourglass(深绿⾊)为中⼼,可以从彩⾊图像预测K个⼈体部件的响应图。原始图像经过⼀次降采样(橙⾊),输⼊到Hourglass ⼦⽹络中。Hourglass的输出结果经过两个线性模块(灰⾊),得到最终响应图。期间使⽤Residual模块(浅绿)和卷积层(⽩⾊)逐步提取特征。⽽本⽂⽤的是以两个Hourglass(深绿⾊)为中⼼的⼆级⽹络。⼆级⽹络重复了⼀级⽹络的后半结构。第⼆个Hourglass的输⼊包含三路: 第⼀个Hourglass的输⼊数据 ,第⼀个Hourglass的输出数据 ,第⼀级预测结果 。这三路数据通过串接(concat)和相加进⾏融合,它们的尺度不同,体现了当下流⾏的跳级结构思想。如下图所⽰:
总结起来SHN的⽅法值得学习的地⽅有四点:使⽤模块进⾏⽹络设计 ,先降采样,再升采样的全卷积结构 , 跳级结构辅助升采样 ,中继监督训练。
评测数据集:在FLIC数据集上的PCK@0.2分别elbows(99%),elbows(97%); 不同的⽅法在MPII数据集的PCKh值,其中[1]为flow convnet,[5]为CPM。
Structured Feature Learning for Pose Estimation  CVPR 2016[32]
2017 年王晓刚组的 structured pose 也是在 CNN 的基础上进⾏微调,其创新点在于在卷积层使⽤⼏何变换核,能够对关节点之间的依赖关系进⾏建模,此外还提出了双向树模型,这样每个关节的 feature channel 都可以接收其他关节的信息,称之为信息传递,这种树状结构还能针对多⼈进⾏姿态估计。但是这种多⼈姿态估计的准确度不⾼,⽅法还是基于单⼈的⽐较好。
保安接线排评测数据集:FCIL,LSP,MPII,在 FCIL,LSP均⽐之前的⽅法有所提升,在MPII数据集上也曾暂列榜⾸,PCKh达到91.5%,准确率提升不⼤。
Adversarial PoseNet: A Structure-aware Convolutional Network for Human Pose Estimation [33]
采⽤的GAN的⽅法,效果⽐之前的state-of-the-art仅仅提升了零点⼏个百分点。基本上到hourglass之后的⽅法都是⼀些微调,虽然理论都不太⼀样,但是准确度提升不⼤。
Learning Feature Pyramids for Human Pose Estimation[27]
模式识别的⽅法,pictorial structures以及loopy 结构,这些⽅法都是基于HOG 特征。后来是神经⽹络,最早的是deepPose,是使⽤回归坐标点的⽅法。坐标点难以训练学习,后来的⽅法都是将点做了⾼斯转换得到score map。同时,还会⽤到多尺度获得丰富特征。
多尺度特征Hourglass⽆疑是最成功的。但后⾯的多种⽹络结构对这这⼀基础⽹络做了调整和优化,有更好的效果。⽐如这篇,将使⽤⾦字塔模型。不是普通的⾦字塔,⽽是组合了residual模型和Inception的⾦字塔,所以计算要求不⾼。
MPII单⼈数据集的PCK值

本文发布于:2024-09-22 22:35:39,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/329955.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   姿态   响应   卷积   特征   信息   估计
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议