基于部分亲和字段PAF的实时多人2D图像姿态估计(OpenPose)

基于部分亲和字段PAF的实时多⼈2D图像姿态估计
(OpenPose)
受电弓试验台参考论⽂:OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
主要⽅法:
使⽤⾮参数表⽰的⽅法,我们称之为部分亲和域【PAFs】,⽤它来学习怎么将⾝体部分和图像中的个体联系起来。
⾃下⽽上
算法流程:
整个检测过程如上图所⽰,输⼊⼀幅图像,然后经过7个stage,得到PCM和PAF。然后根据PAF⽣成⼀系列的偶匹配,由于PAF⾃⾝的⽮量性,使得⽣成的偶匹配很正确,最终合并为⼀个⼈的整体⾻架。
⽹络结构:
a.经过VGG-19的前10层⽹络得到⼀个特征度F
b.⽹络分成两个循环分⽀,⼀个分⽀⽤于预测置信图S:关键点(⼈体关节),⼀个分⽀⽤于预测L:像素点在⾻架中的⾛向(肢体),第⼀个循环分⽀以特征图F作为输⼊,得到⼀组S1,L1(S1=ρ1(F)
,L1=φ1(F))
c.之后的分⽀分别以上⼀个分⽀的输出St-1,Lt-1和特征图F作为输⼊,最终输出S,L
PAFs是⽤来描述像素点在⾻架中的⾛向,⽤L(p)表⽰;关键点的响应⽤S(p)表⽰。先看主体⽹络结构,图像⾸先被⼀个卷积神经⽹络处理后⽣成特征图集F(通过VGG-19的前10层进⾏初始化并微调)⽹络采⽤VGG pre-train network作为⾻架,有两个分⽀分别回归L(p)和
S(p)。每⼀个stage算⼀次loss,之后把L和S以及原始输⼊concatenate,继续下⼀个stage的训练。随着迭代次数的增加,S能够⼀定程度上区分结构的左右。loss⽤的L2范数,S和L的ground-truth需要从标注的关键点⽣成,如果某个关键点在标注中有缺失则不计算该点。记为F,经过如图所⽰的⽹络,该⽹络分上下两个分⽀,每个分⽀都有t个阶段(表⽰越来越精细),每个阶段都会将feature maps进⾏融合。其中ρ φ 表⽰⽹络。
收获时间到d.损失函数计算S,L的预测值与groundtruth(S*,L*)之间的L2范数
S和L的groundtruth根据标注的2D点计算,如果某个关键点标注缺失则不计算该点
铍铜
损失函数为每⼀层循环⽹络的损失函数之和:
置信图⽣成Confidence Maps for Part Detection:
理想情况下,如果图像中有⼀个⼈,那么在对应的 部分可见的情况下,在每个置信图中都应该存在⼀个 单峰;如果图中有多个⼈,那么对于每个⼈ k 的每个可见部分 j 都应该有⼀个峰。⾸先给出每⼀个⼈k的单个confidence maps, xj,k∈R2xj,k∈R2表⽰图像中⼈k对应的位置j对应的groundtruth position:
其中σ⽤来控制峰值在confidence map中的传播范围。
车库翻板门对应多个⼈的confidence map:
部分亲和字段Part Affinity Fields for Part Association:
我们需要为每⼀对⼈体部分探测的相关性进⾏置信测量,即他们是否属于同⼀个⼈。因此提出了⼀个 新的特征表⽰【即部分亲和域字段,它保存了 肢体的⽀持区域中的位置和⽅向信息。部分亲和是每⼀个肢体的⼆维向量域:对于属于 每个肢体(指⼿臂,或腿,或躯⼲)的区域中的每个像素,⼆维向量编码了从肢体上的⼀个 部分指向另⼀个 部分的⽅向。每⼀种肢体都有对应的亲和域来联系起它们⾝体部分。
考虑下图中给出的⼀个躯⼲(⼿臂),令Xj1,kXj1,k和xj2,kxj2,k表⽰图中的某个⼈k的两个关键点j1j1和j2j2对应的真实像素点,如果⼀个像素点p位于这个躯⼲上,值L∗c,k(p)Lc,k∗(p)表⽰⼀个从关键点j1j1到关键点j2j2的单位向量,对于不在躯⼲上的像素点对应的向量则是零向量。下⾯这个公式给出了the groundtruth part affinity vector,对于图像中的⼀个点p其值L∗c,k(p)Lc,k∗(p)的值如下:
其中像素P是否落在肢体上需要满⾜两个条件:
每张图像中第c中肢体的Lc*,为k个⼈在位置p的向量平均值:
测试阶段,我们⽤候选关键点对之间的PAF来衡量这个关键点对是不是属于同⼀个⼈。具体地,对于两个候选关键点对应的像素点dj1dj1和dj2dj2,我们去计算这个PAF,:
其中,p(u)表⽰两个像素点dj1dj1和dj2dj2之间的像素点:
PAFs 多⼈分析Multi-Person Parsing using PAFs:
植物细胞培养作者提出了⼀种贪婪的简化⽅法,能够始终产⽣⾼质量的匹配。推测原因是成对关联分数隐含地编码了全局上下⽂,这是由于PAFPAFPAF ⽹络的感受野很⼤
⼆部图中的匹配是以没有两条边共享⼀个结点的⽅式选择的边的⼦集。优化的⽬标是为选定的边到最⼤权重的匹配:
后视镜套
通过 HungarianHungarianHungarian 算法获取最优匹配。
当涉及到寻多⼈的全⾝姿态时,确定 Z是⼀个 K 维匹配问题。这个问题是 NP难并且有许多松弛存在。作者为优化添加两个松弛。选择最⼩数量的边来获得⼈体姿态的⽣成树⾻架,⽽不是使⽤完整的图。进⼀步将匹配问题分解成⼀组⼆部匹配⼦问题,并独⽴地确定相邻树节点中的匹配。优化可以被简化为:
Results:
测试了本⽂提出的⽅法在⼏种数据集上的性能。

本文发布于:2024-09-21 19:30:35,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/205299.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:匹配   关键点   对应   部分
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议