一种基于RGB图像的三维重建方法

著录项
  • CN202111030947.3
  • 20210903
  • CN113763536A
  • 20211207
  • 济南大学
  • 王海玲;张菁;张天驰
  • G06T17/00
  • G06T17/00 G06N3/04 G06N3/08

  • 山东省济南市市中区南辛庄西路336号
  • 山东(37)
摘要
本发明公开了一种手部三维建模的方法,具体包括手部检测;特征生成;手部三维重建三个步骤。该方法通过RGB图像实现手部三维重建,不需要使用手部的多视图图像,并利用深度学习技术实现从二维图像到三维手部模型的映射,替代了传统的几何方法和复杂的专业软件构建手部,通过深度学习的方法来提取特征,而不是利用几何线条去构建,采用目前公开的数据和一些合成的数据来进行训练,利用深度学习实现三维重建能达到建模快,精度高。
权利要求

1.基于RGB图像的手部三维重建方法,其特征在于,具体包括下列步骤:

(1)数据集选择的探索研究:本发明选择的是利用RGB图像实现手部三维重建,通过对RGB图像进行训练,以便更好的获取手部特征,数据集是真实的数据集,还会有一些合成的数据集,以便达到精确的训练结果;

(2)手部检测:输入RGB图像,利用深度学习的手部检测算法去检测出图片中手部的位置,还会进行检测出单手、双手的操作,同时进行左右手的区分;

(3)特征生成:在完成手部检测的步骤时,本发明利用2.5D-Net神经网络生成2.5D热图,并提取低级特征,让二维关键点检测更加准确,以便生成更加精确的二维手部姿态估计,其次,把提取的低级特征放入到ResNet-50网络里来产生高级特征;

(4)手部三维重建:本发明利用图卷积神经网络实现手部三维重建,将生成的高级特征放入图卷积神经网络,在图卷积神经网络里估计手部网格的每个顶点坐标,将其以树的形式来存放,顶点坐标在图卷积神经网络里进行由粗糙到细化的图卷积操作,最后生成精确的手部三维网格来实现手部三维重建,本发明还可以利用生成的手部三维网格生成三维手部姿态估计。

2.根据权利要求1所述的基于RGB图像的手部三维重建方法,其特征在于,数据集的选择有真实的数据集,也有合成的数据集,数据集是RGB图像,而非RGB-D图像。

3.根据权利要求1所述的基于RGB图像的手部三维重建方法,其特征在于,利用深度学习的算法来完成手部检测。

4.根据权利要求1所述的基于RGB图像的手部三维重建方法,其特征在于,利用神经网络来完成手部特征提取,而非通过深度图像或关键点检测来完成手部特征提取。

5.根据权利要求1所述的基于RGB图像的手部三维重建方法,其特征在于,利用图卷积神经网络实现手部三维重建,而非二维姿态估计或三维姿态估计生成手部三维重建。

说明书
技术领域

本发明涉及计算机视觉和计算机仿真领域,具体是指基于RGB图像的手部三维重建方法。

随着虚拟现实、增强现实等三维技术的出现,人机交互的应用场景的要求在不断变化,它要求场景更加生动、人物角也更加逼真,一切朝着复杂、逼真和高精度的要求在发展。与此同时,听觉交互和视觉交互等人机交互的方式已经不能够满足业界的需求。手是人类与环境互动的最自然的方式之一,这使得手在三维场景的人机交互中也起到同样重要的作用,而手部三维重建是实现手在三维场景下的人机交互这一应用下的基础。手部三维重建是指利用获取的手部空间信息,还原出手在三维场景下的三维模型。手部三维重建的目的是通过获取到的数据,恢复在三维场景下手的形状、姿态和精细的表面,以此来完成手的重建。

随着深度摄像机的出现,基于RGB-D图像的手部三维重建相继发展,但因为设备的价格昂贵,深度图像数据难以获得。由于RGB相机比深度摄像机应用广泛,RGB图像数据容易获得,所以采用RGB图像进行手部三维重建更方便。目前的人机交互的方式在一些领域已经取得了研究成果,比如语音识别、人脸识别、指纹识别、人体姿态识别等,这些人机交互的方式已经发展的比较成熟了。面部表情和言语在交流中起着重要的作用,重要的非言语信息也通过身体动作进行交流,特别是手和手指的动作,以强调我们的言语,阐明我们的思想,传达情感。手作为非语言的交流方式,手在人机交互中也起到了不可或缺的作用。当人们在无法用言语表达的情况下,通过手部动作就可以理解对方意图,从而完成交流。在人与物体进行接触的时候,手与物体的交互就能够达到交流。然而,随着虚拟现实、增强现实等技术的出现,也需要我们建模手,尤其在三维场景下,手的建模需要达到逼真的效果,以实现与虚拟环境的直观和身临其境的交互。一直以来,有关手的重建一直也在研究当中,但由于手空间的高维度、姿势和形状的变化、遮挡和自我封闭等的多样性和复杂性,手部三维重建一直是计算机图形学和计算机视觉的重要研究方向。

随着商业相机的出现,RGB-D图像也被用于手部三维重建的研究。RGB-D图像是深度图像和RGB图像组成的。借助深度照相机,一个简单的想法是将一个三维手形拟合到其相应的深度图中,并迭代优化它。近年来也有许多方法用于RGB-D图像完成手部三维重建:(1)利用一种基于二维CNN的方法,可以直接从二维深度图估算形状。

(2)使用深度图的三维体像素化网格来估计三维关节热图的作品,从而避免了透视失真。然而,通过直接回归网格顶点的三维热图来扩展形状估计的工作在实践中是不可行的。

(3)将手部深度图像编码为三维体,使用三维CNN来推断手部的三维姿态。该方法将稀疏点云转换为密集的体积表示,以实现有效的三维卷积。但这种转换改变了数据的性质,使数据变得不必要的庞,而且分辨率处于一个低分辨率的状态,还可能会丢失手的细节。

除了以上基于CNN的方法在深度图像上的研究,也可以直接从深度图像中估算出三维关节位置。然而,这些方法的主要弱点是预测是粗糙的,没有明确考虑运动学和几何约束。再者RGB-D图像不易获取,因此RGB图像成为了研究的对象。

由于RGB图像容易获取,因此目前都开始往RGB图像进行转变。但由于RGB图像缺乏深度信息,会造成透视的模糊性。目前研究提出了一种基于弱监督回归的方法,从单个RGB图像中直接估计手的形状和姿势。此外,他们的方法还可以直接从估计的手形估计三维姿态。然而,在训练数据集中,它需要构造具有相应手形的手关键点,这在很大程度上取决于热图估计的质量。除了透视的模糊性以外,另一个挑战是缺乏高质量的带注释的3D手姿数据。为了解决这一问题,目前研究开始使用合成数据来进行研究,但基于合成数据训练的网络不能很好地推广到真实世界的图像。虽然目前有很多方法在对于RGB图像缺乏深度信息而带来的模糊性的问题作出了很多工作,但效果依然不是很理想。由于手的灵巧性、对称性和自相似性,以及由于闭塞、不同的照明条件和缺乏准确的比例估计而造成的困难,仅从单目RGB图像估计出完整的3D手姿势是一项更具挑战性的任务。因此,对于数据集选择探究的方向来看,从RGB图像进行手部三维重建的研究具有广阔的发展空间。

手部检测算法目前也出来了一些研究,有的是基于CNN的,基于R-CNN的,还有基于Mask-CNN的等手部检测算法实现在简单的环境下完成检测。在受限制的环境中(通常只有单手和图像中的简单背景),手部也可以很容易地被检测到或假设已经被裁剪。由于在彩图像中灵巧的人类手(例如,不同的手形、肤、照明、方向和比例等)的复杂外观多样性,在无限制的环境下(多手和复杂的背景)下检测手仍然是一项具有挑战性的任务。

近年来的手部三维重建技术不仅有手部关键点检测、手部姿态估计,还有最近出现的三维手部网格重建,这是研究的新的突破。现有的基于RGB图像的手部三维分析方法大多集中在手部关键点或姿态的估计上,无法捕捉手部三维形状的几何细节。传统的手部三维重建是基于几何线条和3Dmax等专业软件完成建模,这些传统的方法计算量大,复杂度高且需要高超的专业知识,速度慢。因此,利用深度学习的方法进行研究成为了发展趋势。与此同时,相比手部姿态估计,三维手部网格重建极少有人在研究,三维手部网格重建是一个最新的研究领域,因此三维手部网格重建值得进行深入的研究。

综上所述,手部三维重建目前主要是基于RGB-D图像和基于RGB图像的研究。其中,以RGB-D图像为基础的研究精确度高但成本昂贵且受环境约束,实用性不强。而以RGB图像为基础的研究数据容易获取,实用价值高。因此,采用RGB图像进行手部三维重建是具有一定的可行性的价值。

针对上述情况,为克服现有技术的缺陷,本发明提供了一种以RGB图像作为数据集基础,仅采用单张RGB照片就可实现三维手部重建的基于RGB图像的手部三维重建方法。

本发明的目的在于提供一种对手部三维重建的仿真方法。本发明具体实现如下所示:(1)数据集的使用。利用高保真三维手数据集和FreiHand数据集进行手部重建,该数据集可以重建高保真的手和提高单目手部姿态估计任务的泛化性能,大规模的纹理数据也为获得高精度孔尺度的手表面提供了更多的可能性。后期按照需求还将创建一个新的合成数据集,让本研究达到更高的准确。

(2) 对输入的一张RGB图像进行手部检测,定位出图像中的手并裁剪出手部区域。提出了一种新型的手部检测算法,将在Faster R-CNN和VAE的基础上引入了GAN,通过共享区域建议层中提取的特征,检测手部区域并并行重建手部外观,并以端到端的方式训练所提出的模型。因为引入GAN可以进一步提高检测精度,生成更加真实的手。还提出一种并行神经网络网络,通过手部检测和人体姿态估计位置的融合来区别左手和右手。

(3)将裁剪出的手作为二维姿态估计网络的输入,将提出2.5DNet网络来预测二维高斯类热图,每个关键点都有对应的热图,热图上的每个像素值表示关键点在该二维位置的置信度。热图上输出是21个关键点,对应于20个手关键点(每根手指四个)和一个手腕点的估计,从而完成二维姿态估计。对于网络结构,对CNN网络进行改进形成了2.5DNet网络,并做了一些细微的修改,以便完成二维姿态估计。将利用2.5DNet网络提取到的特征和2.5D热图放入到ResNet-50网络中,在ResNet-50网络中生成高阶特征。

(4) 将高阶特征输入到图卷积网络(Graph CNN)中,通过学习数据集中的注释数据,直接重建手部网格顶点的坐标,从而实现三维手部网格重建,还可以利用重建的手部网格估计三维手部姿态。

采用上述方案本发明取得的有益效果如下:

(1)本方案基于RGB图像的手部三维重建方法通过单张RGB照片即可实现手部三维重建,不需再使用多视图图片,数据集容易获取且处理方便。

(2)本方案利用深度学习技术实现从二维图片到三维手部重建的映射,替代了传统的简单几何方法构建手部轮廓和专业软件绘制手部形状,避免了高强度处理和低精准度。

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

图1为手部三维重建的方法的简要架构图;

图2为手部三维重建的方法的总体架构图;

图3为手部检测架构图;

图4为手部检测算法的模型;

图5为并行神经网络的架构图;

图6为二维手部姿态估计的架构图;

图7为手部三维重建效果图。

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明提出一种基于RGB图像的手部三维重建方法。首先,使用选择好的数据集进行训练网络形成模型。之后,输入一张RGB图像进行手部检测,通过提出的新型手部检测算法,将在Faster R-CNN和VAE的基础上引入了GAN,通过共享区域建议层中提取的特征,检测手部区域并并行重建手部外观,并以端到端的方式训练所提出的模型。然后,根据裁剪出的手部图片放入到改进的2.5D网络里生成2.5D热图,同时生成低级特征。再利用2.5DNet网络提取到的特征和2.5D热图放入到ResNet-50网络中,在ResNet-50网络中生成高阶特征。最后用将高阶特征输入到图卷积网络(Graph CNN)中,通过学习数据集中的注释数据,直接重建手部网格顶点的坐标,从而实现三维手部网格重建,还可以利用重建的手部网格估计三维手部姿态。

如图1~7所示,本发明基于RGB图像的手部三维重建方法,具体包括下列步骤:

(1)手部三维重建的方法的总体架构

针对现有技术的情况,本发明提出了基于RGB图像的手部三维重建方法。本研究的方法由三个模块组成,分别是手部检测模块、特征生成模块和三维手部重建模块。手部检测模块为了完成手部区域检测;特征生成模块是为了生成高阶特征;三维手部重建模块是利用图卷积网络生成三维手部网格。同时还可以利用三维手部网格预测三维手部姿态。本发明基于RGB图像的手部三维重建方法的简要架构图和总体架构图见图1和图2。

(2)数据集的使用

通过对STB、RHD、Dexter+Object、SHP等公共数据集上进行手部三维重建的研究,发现这些数据集是仍然缺乏一些信息,比如二维注释信息,手部形状信息等,这些因素造成了手部三维重建仍然达不到准确的效果。高保真三维手数据集和FreiHAND数据集是一种新型的数据集且未应用到手部三维重建中,故本研究利用这两种数据集来完成手部三维重建。后期会按照需求自己创建一个数据集,弥补这两个数据集完成的效果。

高保真三维手数据集是一种新型的多模手数据集,包括多视图彩图像、二维手部关键点、三维手部骨骼关节和注册的手部网格模型并进行了注释。

Freihand数据集具有迄今为止可用的真实图像的手部姿势和形状标签。该数据集能够从单个图像中提高三维手部姿势估计任务的泛化性能,以及单目手部形状估计的监督学习。

(3)手部检测算法

对于手部检测算法,通过研究和对比,提出新型的手部检测算法,即将在FasterR-CNN和VAE的基础上加上GAN进行手部检测。通过共享区域建议层中提取的特征,检测手部区域并并行重建手部外观,并以端到端的方式训练所提出的模型。还提出一种并行神经网络网络,通过手部检测和人体姿态估计位置的融合来区别左手和右手。

I.本模块提出的第一个网络-在Faster R-CNN和VAE的基础上加上GAN进行手部检测

Faster R-CNN可以快速的进行检测,VAE 是分布显式建模,是在编码器上进行训练,在解码器上生成,可以提高速度,但是生成的图片会模糊。而GAN是分布式隐式建模,使用了对抗网络,可以提高检测精度。则在Faster R-CNN和VAE的基础上加入GAN会检测出精准的手部,经改进的网络也可以进行多手检测。手部检测架构图如图3所示和手部检测算法的模型如图4所示。

a. 手部检测架构

首先,计算共享特征来提取整个输入图像的特征图;然后,它们被送入区域建议网络(RPN),以生成可能的区域建议,即感兴趣的区域(ROI)。最后,利用ROI的特征图对相应的标签(手/背景)进行分类,细化检测手的位置,同时重建手的外观。

b. 手部检测算法模型

该模型由检测分支和重构分支两部分组成。在检测模块,利用Faster R-CNN作为主干进行是检测。首先,将输入图像送入共享卷积神经网络(CNN)层,计算共享特征。然后,应用由3×3个卷积核组成的RPN来生成区域建议区域,并将区域建议网络(RPN)生成的区域提案送入到ROIing poling池里形成ROI特征,并将区域建议的特征汇聚成相同的形状。由于区域建议生成的大小不一样,充分利用连接层(ROI特性映射到两个向量。一个向量是背景和手的最大概率(二维),另一个向量是边界框回归偏移(四维)。在重构模块,首先,计算出感兴趣区域(ROI)特征的向量来产生高斯分布噪声,然后进行编码,其次在解码器中利用去卷积层和sigmoid层进行工作。以上操作完成检测手部并重建手部外观。此外,还将引入一个鉴别器来改善重建图像。将鉴别器引入到重构分支中,使其学习到更多的手形相似特征。通过使用GAN,重建的手的局部细节往往更精细和尖锐,相比VAE,GAN生成的手更加清晰。

II.本模块提出的第二个网络-并行神经网络

本发明提出一种将手的特性与人体的特性相结合的并行深层神经网络。该方法能有效地提高手部检测的准确性和左右手的区分能力。并行神经网络的架构图如图5所示。

该并行神经网络分为两个子网,一个是手部检测子网,另一个是人体姿态估计子网。本研究将利用上述提出的手部检测算法作为手部检测子网,然后提出人体姿态估计子网。利用姿态估计方法和人体FK树对左右手的位置进行估计。最后,设计一种有效的融合方法。该方法能有效地融合两个子网络的输出,实现对人双手的识别和定位。

(4)2.5DNet网络设计

本发明提出了一种新颖的2.5D姿态表示方法,并给出了一种由2.5D重构二维姿态的解决方案。2.5D表示由输入图像中手部关键点的二维坐标和每个关键点相对于根(手掌)的比例标准化深度组成。由于2.5D姿态表示需要预测二维姿态和深度值,本研究提出一种新的热图表示,该热图表示称之为2.5D热图。它包括用于二维关键点定位的二维热图和用于深度预测的每个关键点的深度图。本研究设计改进的CNN架构,使2.5D热图不必手工设计,而是以一种潜在的方式学习。本发明通过一个softargmax操作来实现这一点,该操作以可微的方式将2.5d热图转换为2.5d坐标。由此得到的2.5D热图结构紧凑,尺度和平移不变,具有像素精度定位关键点的潜力。对于改进的CNN架构,称为2.5DNet。二维姿态估计的架构图如图6所示。

输入一张图像,根据提出的一个CNN架构产生了包含潜在的二维热图和潜在的深度图。潜在二维热图通过Softmax归一化转换为概率图。然后,通过一个softargmax操作以可微的方式将2.5d热图转换为2.5d坐标。在L2损失函数的辅助下,从而估计出二维手部姿态。对于CNN网络架构,该CNN架构包含了卷积层和编码器-解码器网络。

(5)重建三维手部网格

在完成上面各部分模块的设计后,将2.5DNet网络提取的特征送入到ResNet-50中,以生成高阶特征。然后,把生成的高阶特征放入到图神经网络,通过学习数据集中的注释数据,直接重建手部网格顶点的坐标,从而实现三维手部网格重建,还可以利用重建的手部网格估计三维手部姿态。最终实现的手部三维重建的效果图将和以下的效果图类似见图7所示。

本文发布于:2024-09-24 21:19:04,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/74420.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议