首页 > 专利信息

基于深度学习的三维人体姿态估计技术

I前沿技术

M I A卜VIEW 2021 年第 1

基于深度学习的三维人体姿态估计技术

口文/崔家浩，何欣雪，李帅

(北京航空航天大学计算机学院，北京100191)

崔家i告北京航空航天大学计算机学院博士研究生在读。

北京航空航天大学计算机学院硕士研究生在读。彳可欣雪

北京航空航天大学计算机学院教授、博士生导师、青年长江

学者；中国仿真学会医疗仿真专委会副主任。主要从事虚拟

现实、医疗仿真、物理建模、可视计算等方面的研究。相关

研究成果已在I J C V、I E E E T I P、I E E E T V C G、I E E E T M M、

P R、C G F、E C C V等领域顶级学术期刊和国际会议上发表论

文80余篇。获授杈国家发明专利12项、美国专利1项；获

国家科技进步一等奖、中国电子学会一等奖、山东省科技进

步二等奖、国际虚拟现实技术与应用大赛一等奖。

摘要：基于视觉的人机交互技术通过捕捉i只別身体语言为人们提供更加灵活便捷的交互方

式，是人工智能与自然人机交互领域极具价值的研究内容。基于深度学习的三维人体姿态

估计技术作为底层基础技术，对基于视觉的人机交互技术的快速发展与广泛应用起到了重

要的推动作用。本文首先概述三维人体姿态估计技术的基本概念与主要挑战，并対不同方

法进行分类，随后分别介绍使用R G B图像以及R G B-D图像进行三维姿态估计的深度学习

技术，最后介绍这些技术的典型应用及未来的发展趋势展望。

折流板除雾器

关键词：三维人体姿态估计；计算机视觉；人机交互

中图分类号：T P18文献标志码：A文章编号：2096-5036(2021)01-0060-14

D O I：10.16453/j.c n k i.lS S N2096-5036.2021.01.006

桉树专用肥

基于深度学习的三维人体姿态估计技术

0引言

随着计算机技术的发展，人机交互技术正在不断更新换代。从传统的使用键盘、

鼠标到使用可触控屏幕，再到使用可穿戴交互设备，以及语音交互技术，更快捷、更自

然、更舒适的人机交互模式始终是信息技术的追求目标。基于视觉的人机交互技术通过

捕捉识别身体语言，为人们提供更加灵活便捷的人机交互方式，是人工智能与自然人机

交互领域的研究热点。

三维人体姿态估计技术的目标，是以传感器采集的数据为输入，获取三维空间中

人体的形状与动作。近年来，随着机器视觉与深度学习的发展，使用相机作为传感器并

结合基于深度学习的三维人体姿态估计技术，我们可以高效、精确地捕捉识别人体动作

与肢体语言，目前已在多个领域获得了广泛的应用，如图1所示。在虚拟现实领域，

采用人体姿态估计技术可以降低系统对穿戴传感器的依赖，同时可以对虚拟化身进行快

速建模仿真，提升用户的交互体验与沉浸感。在医疗康复领域，人体姿态估计技术可用

于评价康复患者的运动能力，并为医生提供大量的病例数据。在自动驾驶领域，人体姿

态估计技术可以帮助汽车掌握周边环境中人的位置、动作、操作，使得汽车更加智能。

此外，在影视娱乐、竞技体育、机器人等领域，人体姿态估计技术也都发挥着至关重要

的作用。

www.621mm输入输出应用场景

RGB-D n m r a t s s i行为监测医疔健康

图1基于深度学习的三维人体姿态估计技术以R G B/R G B-D图像、视频为输入，输出单人/多人的三

维骨架模型或及网格模型[1]，可应用于虚拟现实[2]、自动驾驶[3]、行为监测[4]、医疗健康[5]等领域本文首先概述三维人体姿态估计技术的基本概念及其面临的主要挑战，并依据现

有方法在输入数据类型、目标任务类型、基本原理等方面的特征对不同方法进行分类，

介绍各类方法的优势特点；随后分别介绍使用R G B图像及R G B-D图像进行三维姿态

估计的深度学习技术进展；最后介绍这些技术的典型应用及未来的发展趋势展望。与现

有的三维人体姿态估计综述文章不同之处在于，本文聚焦于基于深度学习的方法，综合

考虑技术的多种输入数据类型及应用场景，分析总结了近年来具有代表性的方法。本文

I前沿技术

M X^L.b1R C I A卜VIEW 2021

中介绍的方法主要发表于2016年后。

1三维人体姿态估计

1.1三维人体姿态的描述方法

对人体进行合理的描述与表示是三维人体姿态估计问题的基础。对于计算机视觉而言，人体是一种特征以及属性复杂的非刚性对象。典型的特征或属性包括：外观形状、

肢体与关节位置、运动结构等。繁多的特征与属性一方面给姿态估计任务带来挑战，同

时也提供了有助于解决问题的先验知识。三维人体姿态估计中常用的人体模型可分为两

类：骨架模型与表面模型。

1.1.1骨架麵

由一组关节点以及关节点之间的连线构成，用于描述人体关节的位置与肢体之间的相对角度，继而形成对人体姿态的描述。骨架模型可以简洁灵活地描述人体的拓扑结构，

是目前主要的人体姿态描述方式，被广泛应用于在三维人体姿态估计方法与人体姿态数

据集中。

三维人体扫描

1丄2表面觀

使用网格、曲面、体素等几何图元描述人体外观与姿态。表面模型弥补了骨架模型在几何细节与表现能力等方面的不足。但表面模型需要通过三维扫描采集，采集成本高、

效率低。因此，表面模型目前主要应用于基于姿态估计的人体三维重建、动画制作等混

合任务中。

1.2关键N题与挑战

给定骨架模型作为人体姿态的表示，三维人体姿态估计的目标是根据输入的图像求解各个关节点在三维空间中的坐标(x,y,z)。这一求解过程主要面临如下三方面的挑战。

拉纸笔

首先，众多的人体关节与肢体意味着人体姿态是一个高自由度的求解对象。复杂、极端的人体姿态是求解的难点。特别是在只有单一视角的R G B图像作为输入的情况下，

缺乏三维空间的信息使得一些具有相同二维投影的人体姿态难以被区分。有助于解决该

问题的一个研究方向是通过引入其他维度的信息消除二维投影的多义性，比如利用具有

深度信息的R G B-D图像，利用多视角图像，以及利用包含时间信息的视频图像。

其次，肢体自遮挡、不同人体之间的遮挡、环境物体对人体的遮挡，以及部分肢体在相机视野之外等情况考验人体姿态估计方法的鲁棒性。真实生活中的人体经常与周围的

人体、周围环境产生交互，在相机视野范围内常常会产生肢体之间的重叠，造成肢体与肢体、

肢体与环境之间难以区分。将目标检测与目标追踪技术相结合可以帮助解决该问题。•62

基于深度学习的三维人体姿态估计技术

最后，三维人体姿态估计方法在真实生活场景中的泛化能力亟待提升。现有的三维

人体姿态估计方法大多使用在室内采集的三维人体姿态数据对神经网络进行训练。受设

备与环境的限制，数据集中往往只含有有限的人体动作，以及室内环境变化。由此训练

得到的模型虽然可以在与数据集相似条件下取得较好的效果，但在场景内容、环境光线、

燃煤机人体行为动作发生较大的变化的应用情景下难以取得理想的结果。对室外人体姿态数据

集的构建方法的研究和研究如何有效地迁移训练模型将是三维人体姿态估计领域长期的

探索目标。

1.3基于深度学习的三维人体姿态估计方法分类

基于深度学习的三维人体姿态估计方法依据方法的特征具有多种分类形式，且不同

分类形式之间存在相互耦合包含的关系。根据输入数据的类型，基于深度学习的三维人

体姿态估计方法可分为以单目R G B图像为输入的方法、以单目R G B-D图像为输入的

方法、以多张图像为输入的方法。根据任务与输出类型，可分为单人人体姿态估计方法、

多人人体姿态估计方法。根据方法的基本原理，又可分为基于回归的方法与基于检测的

方法、基于人体模型的方法与无模型方法、自顶向下的方法与自底向上的方法、多阶段

方法与端到端方法。

1.3.1基于回归的方法与基于检测的方法

两种方法的区别在于描述人体姿态估计问题的方式。基于回归的方法直接建立输入

图像到人体关节坐标的映射关系。基于检测的方法通常使用热度图或区域图像对人体进

行描述并对人体进行目标检测。由于输入图像和人体关节坐标之间存在非线性的关系，

直接建立映射的难度较大。区域图像蕴含的丰富像素有助于更鲁棒地提取人体关节特征，

但是区域图像与输入图像存在的尺度差异往往导致最终估计得到的关节坐标不够精确。

1.3.2基于人的旅与无鄕摊

基于人体模型的方法使用人体结构作为先验知识帮助参数化、回归等过程。无模型

方法在训练的过程中不使用相关的先验知识，而是直接学习图像与关节坐标之间的映射

关系。与基于人体模型的方法相比，无模型的方法在算法的实现与运行方面均更为高效,

但是鲁棒性较低。

1.3.3自上而下财法与自T M上财法

对于多人人体姿态估计，自上而下的方法先对图像中的单个人体进行检测与定位，

再对每个人体分别进行姿态估计。自下而上的方法先对图像中的关节点与肢体进行检测

与定位，再利用其他算法将各个关节点与肢体组合成完整的骨架模型。自上而下的方法

在图像中的人数较多时计算代价较大。自下而上的方法的问题在于当不同的人体之间存

在相互遮挡等情况，关节点与肢体的组合过程将受到干扰，继而影响到姿态估计的精度。

丨前沿技术M X ^L i ^S l M C 丨 A 卜VIEW 2021

1.3.4多阶段方法与端到端方法多阶段的方法将人体姿态估计分成不同的过程，在各个训练步骤中使用相应的网络结构与监督策略。多人人体姿态估计常常采用这种方法，而很多单人人体姿态估计方法亦采用这种思路，先根据输入图像估计出二维的人体姿态，再根据二维的人体姿态估计三维人体姿态。

端到端方法旨在使用端到端网络将输入图像映射到人体关节坐标。端到端的方法训练过程更为容易，但缺点在于缺乏中间的监督策略。1.3.5对比分析本文采用输入数据类型作为基于深度学习的三维人体姿态估计技术的主要分类依据，同时结合上述基于方法原理的分类依据对近年来具有代表性的研究工作进行分类与介绍，如图2所示。根据采集设备以及输入数据的类型，基于深度学习的三维人体姿态估计技术可以分为基于R G B 图像的方法与基于R G B -D 图像的方法。其中，基于单目 R G B 图像的方法得益于单目R G B 相机的数据采集性能与广泛应用，发展较早。相较而言，基于图像序列的方法、基于深度信息的方法，以及基于彩与深度融合的方法的优势与特点在于，其使用更多维度的信息，提升三维人体姿态估计的效果。上述方法均可应用于单人、多人人体姿态估计任务中，并可根据方法的基本原理、网络结构等特征被更细致地划分。与现有的三维人体姿态估计技术综述中依据方法基本原理的分类方式相基于深度学习的三维人体姿态估计技术SH 1 RGB 圖像的方法)B *的方法比，本文的分类方式更侧重不同方法的应用场景，以及在技术发展的过程中各个方法之间的关联与关系，有助于使用现有技术进行应用研究的未来工作。此外，基于深度学习的方法日新月异。近年来，许多优秀的代表性方法融合了多种方法的核心思想，各取所长，从而实现整体效果的提升。因此，传统的依据方法基本原理的分类方式已难以满足分类需求。基于单目图像P 基于图像序列基于深度信息基于彩与深度的方法的方法的方法融合的方法|单人人体姿态估计方法丄多人人体姿态估计方法多阶段的方法端到端的方法自上而下的方法自下而上的方法图2基于深度学习的三维人体姿态估计技术分类2基于R G B 图像的三维人体姿态估计R G B 相机具有釆集速度快、对工作环境要求不严苛等优势，是

目前最主要的视觉传感器，被应用于各个领域。在此背景下，基于R G B 图像的三维人体姿态估计方法作64

本文发布于:2024-09-21 16:33:19，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/2/342618.html

上一篇：采用CT电影模式扫描的人体4D肺部模型构建

下一篇：CT精确引导三维立体全身穿刺定位装置的临床应用研究

标签：人体姿态方法估计技术图像

留言与评论（共有 0 条评论）