人体模型的重建方法、人体重建模型的训练方法及装置与流程



1.本公开涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于三维(3d)视觉等场景,尤其涉及一种人体模型的重建方法、人体重建模型的训练方法及装置。


背景技术:



2.随着科学技术和互联网技术地迅猛发展,交互场景越来越多,如小视频、直播、在线教育等交互场景,而在各交互场景中,基于人体重建构建人体模型,以基于人体模型进行互动的功能需求越来越多。
3.在一些实施例中,可以预先训练人体重建模型,以基于人体重建模型确定待重建人体图像对应的人体模型。


技术实现要素:



4.本公开提供了一种用于提高人体模型重建的可靠性的人体模型的重建方法、人体重建模型的训练方法及装置。
5.根据本公开的第一方面,提供了一种人体模型的重建方法,包括:
6.获取待重建人体图像;
7.提取所述待重建人体图像的目标图像特征和目标逆运动学特征,其中,所述目标逆运动学特征表征所述待重建人体图像的各三维关键点之间的目标位置关联信息;
8.根据所述目标图像特征和所述目标逆运动学特征,生成所述待重建人体图像的人体模型。
9.根据本公开的第二方面,提供了一种人体重建模型的训练方法,包括:
10.根据第一样本人体图像对待训练主干网络进行训练,得到用于预测人体图像的图像特征和三维关键点的主干网络;
11.根据第二样本人体图像和训练得到的主干网络,对待训练逆向运动学网络进行训练,得到用于预测人体图像的smpl参数的逆向运动学网络;
12.其中,人体重建模型包括训练得到的主干网络和训练得到的逆向运动学网络,所述人体重建模型用于生成待重建人体图像的人体模型。
13.根据本公开的第三方面,提供了一种人体模型的重建装置,包括:
14.获取单元,用于获取待重建人体图像;
15.提取单元,用于提取所述待重建人体图像的目标图像特征和目标逆运动学特征,其中,所述目标逆运动学特征表征所述待重建人体图像的各三维关键点之间的目标位置关联信息;
16.生成单元,用于根据所述目标图像特征和所述目标逆运动学特征,生成所述待重建人体图像的人体模型。
17.根据本公开的第三方面,提供了一种人体重建模型的训练装置,包括:
18.第一训练单元,用于根据第一样本人体图像对待训练主干网络进行训练,得到用于预测人体图像的图像特征和三维关键点的主干网络;
19.第二训练单元,用于根据第二样本人体图像和训练得到的主干网络,对待训练逆向运动学网络进行训练,得到用于预测人体图像的smpl参数的逆向运动学网络;
20.其中,人体重建模型包括训练得到的主干网络和训练得到的逆向运动学网络,所述人体重建模型用于生成待重建人体图像的人体模型。
21.根据本公开的第五方面,提供了一种电子设备,包括:
22.至少一个处理器;以及
23.与所述至少一个处理器通信连接的存储器;其中,
24.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面或第二方面所述的方法。
25.根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据第一方面或第二方面所述的方法。
26.根据本公开的第七方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面或第二方面所述的方法。
27.本公开提供的人体模型的重建方法、人体重建模型的训练方法及装置,包括:获取待重建人体图像,提取待重建人体图像的目标图像特征和目标逆运动学特征,其中,目标逆运动学特征表征待重建人体图像的各三维关键点之间的目标位置关联信息,根据目标图像特征和目标逆运动学特征,生成待重建人体图像的人体模型,通过提取待重建人体图像的目标图像特征和目标逆运动学特征,以基于目标图像特征和目标逆运动学特征,生成人体模型的技术特征,实现了从图像特征、以及关键点之间的位置关系两个维度确定人体模型,从而使得生成的人体模型可以相对高度还原待重建人体图像中人体的特征,从而提高了人体模型的准确性、有效性、以及可靠性。
28.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
29.附图用于更好地理解本方案,不构成对本公开的限定。其中:
30.图1是根据本公开第一实施例的示意图;
31.图2是根据本公开第二实施例的示意图;
32.图3是本实施例的人体模型的重建方法的待重建人体图像的三维关键点的示意图;
33.图4是根据本公开第三实施例的示意图;
34.图5是根据本公开第四实施例的示意图;
35.图6是根据本公开第五实施例的示意图;
36.图7是本公开实施例的人体重建模型的训练方法的原理示意图;
37.图8是根据本公开第六实施例的示意图;
38.图9是根据本公开第七实施例的示意图;
39.图10是根据本公开第八实施例的示意图;
40.图11是根据本公开第九实施例的示意图;
41.图12是根据本公开第十实施例的示意图;
42.图13是用来实现本公开实施例的人体模型的重建方法、人体重建模型的训练方法的电子设备的框图。
具体实施方式
43.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
44.为便于读者理解本公开的实现原理,现对本公开涉及的至少部分技术术语解释如下:
45.人工智能(artificial intelligence,ai)技术,是指研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的技术。
46.深度学习(deep learning,dl)是机器学习(machine learning,ml)领域中一个子领域,是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。
47.计算机视觉,是指使用计算机及相关设备对生物视觉的一种模拟,以通过对采集的图片或视频进行处理以获得相应场景的三维信息。
48.增强现实(augmented reality,ar)技术,是指将虚拟信息与真实世界巧妙融合的技术,广泛运用了多媒体、三维建模、实时跟踪及注册、智能交互、传感等多种技术手段,将计算机生成的文字、图像、三维模型、音乐、视频等虚拟信息模拟仿真后,应用到真实世界中,两种信息互为补充,从而实现对真实世界的“增强”。
49.虚拟现实(virtual reality,vr)技术,又称虚拟实境或灵境技术,其中,虚拟现实技术囊括计算机、电子信息、仿真技术,其基本实现方式是以计算机技术为主,利用并综合三维图形技术、多媒体技术、仿真技术、显示技术、伺服技术等多种高科技的最新发展成果,借助计算机等设备产生一个逼真的三维视觉、触觉、嗅觉等多种感官体验的虚拟世界,从而使处于虚拟世界中的人产生一种身临其境的感觉。
50.元宇宙(metaverse),是指运用数字技术构建的,由现实世界映射或超越现实世界,可与现实世界交互的虚拟世界的数字生活空间。
51.蒙皮多人线性(skinned multi-person linear,smpl)模型是一种基于顶点的蒙皮模型,能够准确地表现人体自然姿势中的各种体形。
52.相应的,smpl参数是指smpl模型的参数,如smpl模型中的顶点的参数。
53.人体重建,是指基于图像或视频重建出人体模型,其在动作捕捉、影视特效制作、虚拟现实等场景中具有广泛的应用。
54.随着科学技术和互联网技术地迅猛发展,交互场景越来越多,如行为识别、人体特效生成、娱乐游戏等交互场景,且小视频、直播、在线教育等交互场景不断地兴起也使得交
互场景越发广泛,而在各交互场景中,基于人体重建构建人体模型,以基于人体模型进行互动的功能需求越来越多。
55.在一些实施例中,可以训练重建模型,以基于人体重建模型重建得到人体模型。示例性的,在训练阶段,可以包括如下步骤:
56.步骤1:获取样本人体图像。
57.其中,本实施例对样本人体图像的数量不做限定,可以基于需求、历史记录、以及试验等方式确定。
58.例如,针对精度需求较高的应用场景,样本人体图像的数量可以相对较多;反之,针对精度需求较低的应用场景,样本人体图像的数量可以相对较少。
59.步骤2:将样本人体图像输入至基础网络,以基于基础网络对样本人体图像进行特征提取,得到图像特征。
60.其中,本实施例对基础网络模型的框架和参数等不做限定。例如,基础网络可以为卷积神经网络(convolutional neural networks,cnn)。
61.图像特征可以理解为,样本人体图像在颜、纹理、以及棱角等维度中的至少一种的特征。
62.步骤3:根据图像特征预测得到蒙皮多人线性smpl参数,并根据smpl参数确定样本人体图像的预测三维(3d)关键点。
63.其中,smpl参数可以包括姿态参数和/或形态参数。关键点可以为人体的关节点,相应的,预测三维关键点可以为基于smpl参数预测得到的样本人体图像中的人体的三维的关节点。
64.步骤4:基于预测三维关键点、以及预先标注的样本人体图像的三维关键点真值,对基础网络模型进行迭代优化,得到人体重建模型。
65.示例性的,可以构建预测三维关键点、以及三维关键点真值之间的损失函数,并基于损失函数对基础网络模型的参数(如卷积核参数等)进行调整,以得到人体重建模型。
66.在训练阶段,可以包括如下步骤:
67.步骤1:获取待重建人体图像。
68.其中,待重建人体图像可以理解为,需要重建与之相对应的人体模型的人体图像。
69.步骤2:将待重建人体图像输入至人体重建模型,输出smpl参数。
70.其中,人体重建模型是基于如上步骤1至步骤4所述的方法训练得到的。
71.步骤3:根据smpl参数生成人体模型。
72.其中,smpl参数可以包括姿态参数和/或形态参数。
73.然而,在训练阶段,由于样本人体图像可能存在遮挡问题,导致样本人体图像中的人体并不完整,从而导致训练人体重建模型的准确性和可靠性相对较低的弊端。
74.相应的,在应用阶段,由于人体重建模型的准确性和可靠性相对较低,因此,基于人体重建模型预测得到的smpl参数的准确性和可靠性也相对较低,从而造成人体模型的有效性和可靠性相对较低,无法还原待重建人体图像中的人体的形象。
75.为了提高人体模型的重建的有效性和可靠性,本公开提供了经创造性劳动的技术构思:获取待重建人体图像的图像特征和逆运动学特征,其中,逆运动学特征表征待重建人体图像的各三维关键点之间的目标位置关联信息,以结合图像特征和逆运动学特征确定待
重建人体图像中的人体对应的人体模型。
76.基于上述技术构思,本公开提供一种人体模型的重建方法,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术、元宇宙等技术领域,可应用于三维视觉等场景,以达到提高人体模型重建的可靠性和有效性。
77.图1是根据本公开第一实施例的示意图,如图1所示,本公开实施例的人体模型的重建方法包括:
78.s101:获取待重建人体图像。
79.示例性的,本实施例的执行主体可以为人体模型的重建装置(下文简称为重建装置),重建装置可以为服务器,也可以为计算机,也可以为终端设备,也可以为处理器,也可以为芯片,等等,此处不再一一列举。
80.例如,若重建装置为服务器,则重建装置可以为独立的服务器,也可以为服务器集,可以为本地的服务器,也可以为云端服务器,本实施例不做限定。
81.针对不同的应用场景,重建装置的表现形式可能不一样,例如,针对直播的应用场景,重建装置可以为用于直播的用户设备,如手机等。又如,针对增强现实和虚拟现实场景,重建装置可以为头戴设备等。
82.关于获取待重建人体图像可以采用下述示例实现:
83.一个示例中,重建装置可以与图像采集装置连接,并接收由图像采集装置发送的待重建人体图像。
84.另一个示例中,重建装置可以提供载入图像的工具,用户可以通过该载入图像的工具将待重建人体图像传输至重建装置。
85.其中,载入图像的工具可以为用于与外接设备连接的接口,如用于与其他存储设备连接的接口,通过该接口获取外接设备传输的待重建人体图像;载入图像的工具也可以为显示装置,如重建装置可以在显示装置上输入载入图像功能的界面,用户可以通过该界面将待重建人体图像导入至重建装置。
86.应该理解的是,上述示例只是用于示范性的说明,本实施例可能采用的获取待重建人体图像的方式,而不能理解为对获取待重建人体图像的方式的限定。
87.s102:提取待重建人体图像的目标图像特征和目标逆运动学特征。
88.其中,目标逆运动学特征表征待重建人体图像的各三维关键点之间的目标位置关联信息。
89.三维关键点可以为三维关节点,如三维手肘节点、三维手腕节点、以及三维膝盖节点,等等,此处不再一一列举。
90.在一些实施例中,三维关键点为smpl参数中定义的六千多个密集三维关键点。
91.应该理解的是,目标图像特征中的“目标”用于与其他的图像特征进行区分,如用于与后文中的第一预测图像特征等进行区分,而不能理解为对目标图像特征的限定。目标图像特征可以理解为,表征待重建人体图像在颜、纹理、棱角等维度的特征。
92.同理,目标逆运动学特征中的“目标”用于与其他的逆运动学特征进行区分,如用于与后文中的预测逆运动学特征进行区分,而不能理解为对目标逆运动学特征的限定。
93.目标位置关联信息中的“目标”用于与其他的位置关联信息进行区分,如用于与后文中的预测位置关联信息进行区分,而不能理解为对目标位置关联信息的限定。目标位置
关联信息可以理解为,位置上的关联关系,如旋转和平移等。
94.s103:根据目标图像特征和目标逆运动学特征,生成待重建人体图像的人体模型。其中,人体模型为三维人体模型(3dshape)。
95.结合上述分析可知,目标图像特征可以表征,待重建人体图像在颜、纹理、棱角等维度的特征,目标逆运动学特征可以表征,待重建人体图像的各三维关键点之间的目标位置关联信息。因此,该步骤可以理解为:基于待重建人体图像在颜、纹理、棱角等维度的特征,以及待重建人体图像的各三维关键点之间的目标位置关联信息,对待重建人体图像中的人体进行重建,得到人体模型。
96.也就是说,重建得到的人体模型,既考虑了图像特征(即待重建人体图像在颜、纹理、棱角等维度的特征)的维度,又考虑了待重建图像中的人体的关键点之间的位置关系(即待重建人体图像的各三维关键点之间的目标位置关联信息)的维度,因此,人体模型可以相对高度还原待重建人体图像中人体的特征,从而提高了人体模型的准确性、有效性、以及可靠性。
97.基于上述分析可知,本公开提供了一种人体模型的重建方法,包括:获取待重建人体图像,提取待重建人体图像的目标图像特征和目标逆运动学特征,其中,目标逆运动学特征表征待重建人体图像的各三维关键点之间的目标位置关联信息,根据目标图像特征和目标逆运动学特征,生成待重建人体图像的人体模型,在本实施例中,通过提取待重建人体图像的目标图像特征和目标逆运动学特征,以基于目标图像特征和目标逆运动学特征,生成人体模型的技术特征,实现了从图像特征、以及关键点之间的位置关系两个维度确定人体模型,从而使得生成的人体模型可以相对高度还原待重建人体图像中人体的特征,从而提高了人体模型的准确性、有效性、以及可靠性。
98.为使读者更加深刻地理解本公开的实现原理,现结合图2对本公开的实现原理进行详细阐述。其中,图2是根据本公开第二实施例的示意图,如图2所示,本公开实施例的人体模型的重建方法包括:
99.s201:获取待重建人体图像。
100.应该理解的是,为了避免繁琐地陈述,关于本实施例与上述实施例中相同的技术特征,本实施例不再赘述。
101.示例性的,关于s201的实现原理,可以参见s101的描述,此处不再赘述。
102.s202:提取待重建人体图像的目标图像特征。
103.示例性的,关于s202的实现原理,可以参见s102中关于提取目标图像特征的描述,此处不再赘述。
104.s203:提取待重建人体图像的各三维关键点。
105.其中,各三维关键点具有各自对应的三维坐标信息。
106.示例性的,可以从待重建人体图像中,提取待重建人体图像中的人体的各三维关键点,如smpl参数中定义的六千多个密集三维关键点,每一密集三维关键点具有三维坐标信息。
107.s204:根据各三维关键点具有各自对应的三维坐标信息,计算得到各三维关键点之间的目标位置关联信息。
108.示例性的,三维关键点具有三维坐标信息,三维坐标信息包括:三维关键点的横坐
标、三维关键点的纵坐标、三维关键点的深度。其中,深度可以理解为图像采集装置(如相机)拍摄待重建人体图像时,相机与三维关键点之间的距离。
109.例如,如图3所示,待重建人体图像具有多个三维关键点,每一三维关键点具有相应的三维坐标信息。基于图3所示的待重建人体图像的前视图(front view)可知,每一三维关键点具有横坐标和纵坐标(即深度)。基于图3所示的待重建人体图像的侧视图(side view)可知,每一三维关键点具有纵坐标和竖坐标。且如图3所示,横坐标可以通过x表示,纵坐标可以通过y表示,竖坐标可以通过z表示。
110.相应的,目标位置关联信息可以理解为,各三维关键点在横坐标之间的关联、在纵坐标之间的关联、以及在深度之间的关联。
111.例如,各三维关键点中包括三维左手肘关节点和三维左手腕关节点。其中,三维左手肘关节点具有三维坐标信息(为便于区分,将该三维坐标信息称为左手肘三维坐标信息),且左手肘三维坐标信息包括:左手肘横坐标、左手肘纵坐标、左手肘深度。
112.三维右手肘关节点具有三维坐标信息(为便于区分,将该三维坐标信息称为右手肘三维坐标信息),且右手肘三维坐标信息包括:右手肘横坐标、右手肘纵坐标、右手肘深度。
113.相应的,三维左手腕关节点与三维右手腕关节点之间的目标位置关联信息可以包括:左手肘横坐标与右手肘横坐标之间的横坐标差值、左手肘纵坐标与右手肘纵坐标之间的纵坐标差值、以及左手肘深度与右手肘深度之间的深度差值。
114.在本实施例中,通过提取各三维关键点,以基于各三维关键点各自对应的三维坐标信息,计算得到目标位置关联信息,可以提高目标位置关联信息的可靠性和有效性。
115.在一些实施例中,目标位置关联信息包括目标旋转关系。
116.同理,目标旋转关系中的“目标”用于与其他的旋转关系进行区分,如用于与后文中的预测旋转关系进行区分。目标旋转关系可以理解为,各三维关键点之间的旋转关系。
117.例如,结合上述示例,目标旋转关系可以理解为,三维左手肘关节点和三维左手腕关节点之间的旋转关系。
118.s205:对目标图像特征和目标逆运动学特征,进行特征融合处理,得到目标人体形态特征。
119.同理,目标人体形态特征中的“目标”用于与其他的人体形态特征进行区分,如用于与后文中的预测人体形态特征进行区分。目标人体形态特征可以理解为,待重构人体图像中的人体的三维的形态的特征。
120.其中,特征融合处理可以为拼接处理,如将目标图像特征和目标逆运动学特征进行拼接处理,从而得到目标人体形态特征,以使得目标人体形态特征既具有目标图像特征的维度的内容,既具有目标逆运动学特征的维度内容,从而使得目标人体形态特征可以较为贴切地表征待重建人体图像中人体的形态。
121.若特征融合处理为拼接处理,本实施例对拼接处理的方式不做限定,示例性的,可以在目标图像特征的基础上拼接目标逆运动学特征,从而得到目标人体形态特征;也可以在目标逆运动学特征的基础上拼接目标图像特征,从而得到目标人体形态特征。
122.例如,可以在目标图像特征的末尾拼接目标逆运动学特征,从而得到目标人体形态特征;也可以在目标逆运动学特征的末尾拼接目标图像特征,从而得到目标人体形态特
征;也可以在目标图像特征中插入目标逆运动学特征,从而得到目标人体形态特征;也可以在目标逆运动学特征中插入目标图像特征,从而得到目标人体形态特征。
123.s206:根据目标人体形态特征生成人体模型。
124.在本实施例中,通过特征融合处理,得到既具有目标图像特征维度的内容、又具有目标逆运动学特征维度的内容的目标人体形态特征,以基于目标人体形态特征生成人体模型,可以使得人体模型高度贴合待重建人体图像中的人体,从而提高人体模型的有效性和可靠性。
125.在一些实施例中,s206可以包括如下步骤:
126.第一步骤:根据目标人体形态特征生成目标蒙皮多人线性smpl参数。
127.同理,目标smpl参数中的“目标”用于与其他的smpl参数进行区分,如用于与后文中的预测smpl参数进行区分。目标smpl参数可以理解为,用于构建待重构人体图像中的人体对应的人体模型smpl参数的。
128.第二步骤:根据目标smpl参数,构建人体模型。
129.示例性的,可以基于目标smpl参数,确定smpl模型中的顶点的参数,从而得到人体模型。其中,smpl模型中的顶点相当于人体模型中的骨骼的关键点(如关节点)。
130.结合上述分析可知,目标人体形态特征既具有目标图像特征维度的内容、又具有目标逆运动学特征维度的内容,因此,基于目标人体形态特征确定的目标smpl参数具有较高的有效性和可靠性,进而使得基于目标smpl参数构建得到的人体模型高度还原待重建人体图像中的人体的特征,提高了人体模型的有效性和可靠性。
131.在一些实施例中,可以基于需求等转换人体模型的文件格式,如可以将人体模型转换为obj格式的人体模型,等等,此处不再一一列举。
132.结合上述分析可知,在一些实施例中,可以训练人体重建模型,以基于人体重建模型确定待重建人体图像中的人体对应的人体模型。现结合图4对基于人体重建模型确定人体模型进行详细阐述。其中,图4是根据本公开第三实施例的示意图,如图4所示,本公开实施例的人体模型的重建方法包括:
133.s401:获取待重建人体图像。
134.同理,为了避免繁琐地陈述,关于本实施例与上述实施例中相同的技术特征,本实施例不再赘述。
135.示例性的,关于s401的实现原理,可以参见s101的描述,此处不再赘述。
136.s402:将待重建人体图像输入至预先训练的人体重建模型中的主干网络,输出待重建人体图像的目标图像特征和各三维关键点。
137.s403:将目标图像特征和各三维关键点输入至人体重建模型中的逆向运动学网络,以基于逆向运动学网络,根据各三维关键点确定目标逆运动学特征,并对目标图像特征和目标逆运动学特征进行特征融合处理,得到人体形态特征,并根据人体形态特征确定目标smpl参数。
138.其中,目标逆运动学特征表征待重建人体图像的各三维关键点之间的目标位置关联信息。
139.示例性的,人体重建模型包括主干网络和逆向运动学网络。同理,本实施例对主干网络和逆向运动学网络各自对应的类型和参数等不做限定。
140.其中,主干网络可以为残差网络(resnet),也可以为cnn。逆向运动学网络可以为点云网络(pointnet)。
141.相应的,将待重建人体图像输入至残差网络,由残差网络对待重建人体图像进行特征提取处理,得到待重建人体图像的目标图像特征,并由残差网络对待重建人体图像中的人体的三维关键点进行提取处理,得到待重建人体图像中的人体的各三维关键点。
142.残差网络的输出端与点云网络的输入端连接,以将目标图像特征和各三维关键点输入至点云网络。
143.由点云网络根据各三维关键点确定目标逆运动学特征,并由点云网络根据对目标图像特征和目标逆运动学特征进行特征融合处理,得到人体形态特征,且由点云网络根据人体形态特征确定目标smpl参数。
144.在本实施例中,通过结合人体重建模型确定目标smpl参数,可以实现确定目标smpl参数的智能化,提高目标smpl参数的效率和可靠性。
145.关于人体重建模型训练过程,本实施例不做限定。示例性的,在一些实施例中,可以对人体重建模型中的两部分网络(即主干网络和逆向运动学网络)分别进行训练,如先训练得到主干网络,在训练得到的主干网络的基础上,训练得到逆向运动学网络。
146.在另一些实施例中,可以对人体重建模型中的两部分网络(即主干网络和逆向运动学网络)进行整体训练,如将主干网络和逆向运动学网络作为一个整体网络,以对该整体网络进行训练。
147.关于人体重建模型的训练原理,本实施例不做限定,且下述示例中示范性地阐述了几种关于人体重建模型的实施例,此处不再赘述。
148.s404:根据目标smpl参数,生成待重建人体图像的人体模型。
149.应该理解的是,上述实施例只是用于示范性的说明,本公开实施例的人体模型的重建方法可能的实现原理,而不能理解为对人体模型的重建方法的限定。例如,可以将上述多个实施例中的至少部分技术特征组合,得到新的实施例;也可以在任意实施例的基础上增加技术特征,得到新的实施例;也可以在任意实施例的基础上提取部分技术特征,得到新的实施例,等等,此处不再一一列举。
150.结合上述分析可知,可以训练得到人体重建模型,以基于人体重建模型,实现人体模型的重建方法。为便于读者理解人体重建模型的训练原理,现结合图5对本公开的人体重建模型的训练方法进行阐述如下。其中,图5是根据本公开第四实施例的示意图,如图5所示,本公开实施例的人体重建模型的训练方法包括:
151.s501:根据第一样本人体图像对待训练主干网络进行训练,得到用于预测人体图像的图像特征和三维关键点的主干网络。
152.本实施例的执行主体可以为人体重建模型的训练装置(下文简称为训练装置),训练装置可以为与重建装置相同的装置,也可以为与重建装置不同的装置,本实施例不做限定。
153.若训练装置与重建装置为不同的装置,则训练装置与重建装置之间具有通信链路,相应的,训练装置在训练得到人体重建模型之后,可以基于该通信链路将人体重建模型传输给重建装置。
154.同理,关于本实施例与上述实施例中相同的技术特征,本实施例不再赘述。例如,
关于主干网络、图像特征、以及三维关键点等技术特征的描述,可以参见上述实施例中的描述。
155.第一样本人体图像中的“第一”,用于与其他的样本人体图像进行区分,如用于与后文中的第二样本人体图像进行区分,而不能理解为对第一样本人体图像的限定。第一样本人体图像可以理解为,用于训练主干网络的样本人体图像。
156.第一样本人体图像的数量可以基于需求、历史记录、以及试验等方式确定,本实施例不做限定。
157.该实施例可以理解为,可以获取第一样本人体图像,以基于第一样本人体图像对待训练的主干网络进行训练,以使得训练得到的主干网络具有预测样本人体图像的图像特征和三维关键点的能力。
158.s502:根据第二样本人体图像和训练得到的主干网络,对待训练逆向运动学网络进行训练,得到用于预测人体图像的smpl参数的逆向运动学网络。
159.其中,人体重建模型包括训练得到的主干网络和训练得到的逆向运动学网络,人体重建模型用于生成待重建人体图像的人体模型。
160.同理,第二样本人体图像的数量可以基于需求、历史记录、以及试验等方式确定,本实施例不做限定。
161.在一些实施例中,第一样本人体图像和第二样本人体图像可以为相同的人体样本图像,如第一样本人体图像为第二样本人体图像。
162.在另一些实施例中,第一样本人体图像和第二样本人体图像可以为不相同的人体样本图像。
163.该实施例可以理解为,可以获取第二样本人体图像,以基于第二样本人体图像、以及训练得到的主干网络,对待训练逆向运动学网络进行训练,以使得训练得到的逆向运动学网络具有预测人体图像的smpl参数的能力。
164.在本实施例中,通过训练包括主干网络和逆向运动学网络的人体重建模型,以使得人体重建模型具有预测图像特征、三维关键点、smpl参数的能力,从而提高训练的有效性和可靠性。
165.为使读者更加深刻地理解,本公开的人体重建模型的训练方法的实现原理,现结合图6进行详细阐述。其中,图6是根据本公开第五实施例的示意图,如图6所示,本公开实施例的人体重建模型的训练方法包括:
166.s601:基于待训练主干网络提取第一样本人体图像的第一预测三维关键点。
167.同理,第一预测三维关键点中的“第一”用于与其他的三维关键点进行区分,如用于与后文中的第二预测三维关键点进行区分。第一预测三维关键点可以理解为,基于待训练主干网络从第一样本人体图像中提取到的三维关键点。
168.在一些实施例中,第一样本人体图像为经过扰动增强处理后的人体图像。其中,扰动增强处理包括:缩放、旋转、反转、平移、以及彩调整中的至少一种。
169.示例性的,在获取到第一样本人体图像后,可以对第一样本人体图像进行缩放、旋转、反转、平移、以及彩调整中的至少一种操作,从而得到扰动增强处理后的人体图像。
170.在本实施例中,通过对第一样本人体图像进行扰动增强处理,以基于扰动增强处理后的第一样本人体图像对待训练主干网络进行训练,可以提高训练的有效性和可靠性,
提高训练得到的主干网络的预测能力。
171.在一些实施例中,s601可以包括:基于待训练主干网络提取第一样本人体图像的第一预测图像特征,并根据第一预测图像特征确定第一预测三维关键点。
172.同理,第一预测图像特征中的“第一”用于与其他的图像特征进行区分,如用于与后文中的第二预测图像特征进行区分。第一预测图像特征可以理解为,基于待训练主干网络从第一样本人体图像中提取到,第一样本人体图像在颜、纹理、以及棱角等维度中的至少一种的特征。
173.在本实施例中,通过先确定第一预测图像特征,以基于第一预测图像特征确定第一预测三维关键点,第一预测图像特征可以表征第一样本人体图像在颜、纹理、以及棱角等维度中的至少一种的特征,因此,通过结合第一预测三维关键点特征确定出的第一预测三维关键点,可以使得第一预测三维关键点具有较高的可靠性和有效性。
174.示例性的,结合图7可知,将第一样本图像输入至待训练主干网络,输出第一预测图像特征和第一预测三维关键点。
175.s602:根据第一预测三维关键点、预设的第一样本人体图像的第一三维关键真值,对待训练主干网络进行迭代优化,得到用于预测人体图像的图像特征和三维关键点的主干网络。
176.同理,第一三维关键真值中的“第一”,用于与其他的三维关键真值进行区分,如用于与后文中的第二三维关键真值进行区分,而不能理解为对第一三维关键真值的限定。第一三维关键真值可以理解为,预先对第一样本人体图像中的三维关键点进行标注而得到的。
177.示例性的,在得到第一预测三维关键点之后,可以构建第一预测三维关键点、以及第一三维关键点真值之间损失函数,以基于该损失函数对待训练主干网络的参数进行调整,从而得到调整后的主干网络,调整后的主干网络为具有预测人体图像的图像特征、以及三维关键点的能力的网络,以提高调整后的主干网络的预测能力。
178.结合上述示例性,第一样本人体图像可以为经过扰动增强处理后的人体图像,相应的,若第一样本人体图像为经过扰动增强处理后的人体图像,
179.则第一三维关键点真值对经过扰动增强处理后的第一样本人体图像的真5值。
180.其中,第一三维关键点真值为对经过扰动增强处理后的第一样本人体图像中的三维关键点进行标注得到的,也可以为在第一样本人体图像的三维关键点真值的基础上,进行相应的扰动增强处理得到的。
181.s603:将第二样本人体图像输入至训练得到的主干网络,基于训练得0到的主干网络提取第二样本人体图像的第二预测图像特征和第二预测三
182.维关键点。
183.其中,第二预测图像特征可以表征第二样本人体图像在颜、纹理、以及棱角等维度中的至少一种的特征。第二预测三维关键点为基于训练得到的主干网络,从第二样本人体图像中提取到的三维关键点。
184.5同理,在一些实施例中,第二样本人体图像为经过扰动增强处理后的人体图像。其中,扰动增强处理包括:缩放、旋转、反转、平移、以及彩调整中的至少一种。
185.示例性的,在获取到第二样本人体图像后,可以对第二样本人体图像
186.进行缩放、旋转、反转、平移、以及彩调整中的至少一种操作,从而得0到扰动增强处理后的人体图像。
187.在本实施例中,通过对第二样本人体图像进行扰动增强处理,以基于扰动增强处理后的第二样本人体图像对待训练逆向运动学网络进行训练,可以提高训练的有效性和可靠性,提高训练得到的练逆向运动学网络的预测能力。
188.5s604:将第二预测三维关键点输入至待训练逆向运动学网络,输出预
189.测逆运动学特征。其中,预测逆运动学特征表征第二预测三维关键点之间的预测位置关联信息。
190.在一些实施例中,预测位置关联信息包括预测旋转关系。
191.示例性的,将第二预测三维关键点输入至待训练逆向运动学网络,以便由待训练逆向运动学网络根据第二预测三维关键点确定预测逆运动学特征。
192.s605:根据第二预测图像特征和预测逆运动学特征对待训练逆向运动学网络进行训练,得到用于预测人体图像的smpl参数的逆向运动学网络。
193.示例性的,可以将第二预测图像特征也输入至待训练逆向运动学网络,以基于第二预测图像特征和预测逆运动学特征共同对待训练逆向运动学网络进行训练,从而得到具有预测人体图像的smpl参数的能力的逆向运动学网络。
194.在本实施例中,第二预测图像特征可以表征第二样本人体图像在颜、纹理、以及棱角等维度中的至少一种的特征,预测逆运动学特征表征第二预测三维关键点之间的预测位置关联信息,因此,通过结合第二预测图像特征和预测逆运动学特征共同对待训练逆向运动学网络进行训练,可以提高训练得到的逆向运动学网络的预测性能。
195.在一些实施例中,s605可以包括如下步骤:
196.第一步骤:基于待训练逆向运动学网络,对第二预测图像特征和预测逆运动学特征进行特征融合处理,得到预测人体形态特征。
197.示例性的,关于s605的实现原理,可以参见s205的描述,此处不再赘述。
198.预测人体形态特征可以理解为,第二样本人体图像中的人体的三维的形态的特征。
199.例如,若第二样本人体图像为第一样本人体图像,结合上述示例和图7可知,待训练主干网络的输出端与待训练逆向运动学网络的输入端连接,因此,待训练逆向运动学网络获取由待训练主干网络输出的第一预测图像特征和第一预测三维关键点。
200.其中,第一预测图像特征可以为被池化处理后的特征。
201.如图7所示,待训练主干网络对第一预测图像特征和第一预测三维关键点进行特征融合处理,得到预测人体形态特征。
202.第二步骤:根据预测人体形态特征对待训练逆向运动学网络进行训练,得到用于预测人体图像的smpl参数的逆向运动学网络。
203.在本实施例中,通过特征融合处理,使得预测人体形态特征既具有第二预测图像特征维度、又具有预测运动学特征维度的内容,以使得基于预测运动学特征对待训练逆向运动学网络的训练的全面性和可靠性。
204.在一些实施例中,第二步骤可以包括如下子步骤:
205.第一子步骤:根据预测人体形态特征确定预测smpl参数,并根据预测smpl参数确
定第二样本人体图像的第三预测三维关键点、预测二维关键点。
206.同理,第三预测三维关键点可以理解为,基于预测smpl参数确定的第二样本人体图像的三维关键点。预测二维关键点可以理解为,基于预测smpl参数确定的第二样本人体图像的二维关键点。
207.第二子步骤:根据预测smpl参数、第三预测三维关键点、以及预测二维关键点,对待训练逆向运动学网络进行训练,得到用于预测人体图像的smpl参数的逆向运动学网络。
208.在本实施例中,通过结合预测smpl参数、第三预测三维关键点、以及预测二维关键点三个维度的内容,对待训练逆向运动学网络进行训练,可以提高训练的丰富程度和可靠性。
209.在一些实施例中,第二子步骤可以包括如下细化步骤:
210.第一细化步骤:计算预测smpl参数、以及预设的第二样本人体图像的smpl参数真值之间的第一损失值。
211.其中,smpl参数真值可以理解为,预先对第二样本人体图像中的smpl参数进行标注得到的。
212.第二细化步骤:计算第三预测三维关键点、以及预设的第二样本人体图像的第二三维关键点真值之间的第二损失值。
213.其中,第二三维关键点真值可以理解为,预先对第二样本人体图像中的三维关键点进行标注而得到的。
214.结合上述分析可知,第二样本人体图像可以为第一样本人体图像,相应的,若第二样本人体图像为第一样本人体图像,则第二三维关键点真值为第一三维关键点真值。
215.结合上述示例性,第二样本人体图像可以为经过扰动增强处理后的人体图像,相应的,若第二样本人体图像为经过扰动增强处理后的人体图像,则第二三维关键点真值对经过扰动增强处理后的第二样本人体图像的真值。
216.其中,第二三维关键点真值为对经过扰动增强处理后的第二样本人体图像中的三维关键点进行标注得到的,也可以为在第二样本人体图像的三维关键点真值的基础上,进行相应的扰动增强处理得到的。
217.第三细化步骤:计算预测二维关键点、以及预设的第二样本人体图像的二维关键点真值之间的第三损失值。
218.其中,二维关键点真值可以理解为,预先对第二样本人体图像中的二维关键点进行标注而得到的。
219.第四细化步骤:根据第一损失值、第二损失值、以及第三损失值,对待训练逆向运动学网络进行训练,得到用于预测人体图像的smpl参数的逆向运动学网络。
220.关于第一损失值、第二损失值、以及第三损失值的具体计算原理,本实施例不做限定,如可以通过构建相同类型的损失函数确定第一损失值、第二损失值、以及第三损失值,也可以构建不同类型的损失函数确定第一损失值、第二损失值、以及第三损失值。
221.例如,损失函数可以为最小绝对值偏差(lad)损失函数,最小绝对值偏差损失函数也可以称为绝对值损失函数(lae),也可以称为l1损失函数;又如,损失函数也可以为最小平方差(lse)损失函数,也可以称为l2范数损失函数,等等,此处不再一一列举。
222.示例性的,结合上述分析和图7可知,根据预测人体形态特征可以确定第一损失
值、第二损失值、以及第三损失值,以基于第一损失值、第二损失值、以及第三损失值对待训练逆向运动学网络进行训练。
223.第二步骤:根据预测人体形态特征对待训练逆向运动学网络进行训练,得到用于预测人体图像的smpl参数的逆向运动学网络。
224.在实施例中,通过确定smpl参数、三维关键点、以及二维关键点三个维度的损失值,以结合三个维度的损失值对待训练逆向运动学网络进行训练,以使得待训练逆向运动学网络不断学习减小三个维度的损失值的能力,从而提高训练得到的逆向运动学网络的有效性和可靠性。
225.图8是根据本公开第六实施例的示意图,如图8所示,本公开实施例的人体模型的重建装置800,包括:
226.获取单元801,用于获取待重建人体图像。
227.提取单元802,用于提取待重建人体图像的目标图像特征和目标逆运动学特征,其中,目标逆运动学特征表征待重建人体图像的各三维关键点之间的目标位置关联信息。
228.生成单元803,用于根据目标图像特征和目标逆运动学特征,生成待重建人体图像的人体模型。
229.图9是根据本公开第七实施例的示意图,如图9所示,本公开实施例的人体模型的重建装置900,包括:
230.获取单元901,用于获取待重建人体图像。
231.提取单元902,用于提取待重建人体图像的目标图像特征和目标逆运动学特征,其中,目标逆运动学特征表征待重建人体图像的各三维关键点之间的目标位置关联信息。
232.在一些实施例中,结合图9可知,提取单元902,包括:
233.第一提取子单元9021,用于提取待重建人体图像的各三维关键点,其中,各三维关键点具有各自对应的三维坐标信息。
234.计算子单元9022,用于根据各三维关键点各自对应的三维坐标信息,计算得到各三维关键点之间的目标位置关联信息。
235.生成单元903,用于根据目标图像特征和目标逆运动学特征,生成待重建人体图像的人体模型。
236.在一些实施例中,结合图9可知,生成单元903,包括:
237.融合子单元9031,用于对目标图像特征和目标逆运动学特征,进行特征融合处理,得到目标人体形态特征。
238.生成子单元9032,用于根据目标人体形态特征生成人体模型。
239.在一些实施例中,生成子单元9032,包括:
240.生成模块,用于根据目标人体形态特征生成目标蒙皮多人线性smpl参数。
241.构建模块,用于根据目标smpl参数,构建人体模型。
242.在一些实施例中,目标位置关联信息包括目标旋转关系。
243.在一些实施例中,目标图像特征是基于预先训练的人体重建模型中的主干网络提取的;目标逆运动学特征是基于人体重建模型中的逆向运动学网络提取的。
244.图10是根据本公开第八实施例的示意图,如图10所示,本公开实施例的人体重建模型的训练装置1000,包括:
245.第一训练单元1001,用于根据第一样本人体图像对待训练主干网络进行训练,得到用于预测人体图像的图像特征和三维关键点的主干网络。
246.第二训练单元1002,用于根据第二样本人体图像和训练得到的主干网络,对待训练逆向运动学网络进行训练,得到用于预测人体图像的smpl参数的逆向运动学网络。
247.其中,人体重建模型包括训练得到的主干网络和训练得到的逆向运动学网络,人体重建模型用于生成待重建人体图像的人体模型。
248.图11是根据本公开第九实施例的示意图,如图11所示,本公开实施例的人体重建模型的训练装置1100,包括:
249.第一训练单元1101,用于根据第一样本人体图像对待训练主干网络进行训练,得到用于预测人体图像的图像特征和三维关键点的主干网络。
250.在一些实施例中,如图11所示,第一训练单元1101,包括:
251.第二提取子单元11011,用于基于待训练主干网络提取第一样本人体图像的第一预测三维关键点。
252.在一些实施例中,第二提取子单元11011,包括:
253.提取模块,用于基于待训练主干网络提取第一样本人体图像的第一预测图像特征。
254.确定模块,用于根据第一预测图像特征确定第一预测三维关键点。
255.优化子单元11012,用于根据第一预测三维关键点、预设的第一样本人体图像的第一三维关键真值,对待训练主干网络进行迭代优化,得到用于预测人体图像的图像特征和三维关键点的主干网络。
256.第二训练单元1102,用于根据第二样本人体图像和训练得到的主干网络,对待训练逆向运动学网络进行训练,得到用于预测人体图像的smpl参数的逆向运动学网络。
257.其中,人体重建模型包括训练得到的主干网络和训练得到的逆向运动学网络,人体重建模型用于生成待重建人体图像的人体模型。
258.在一些实施例中,结合图11可知,第二训练单元1102,包括:
259.第三提取子单元11021,用于将第二样本人体图像输入至训练得到的主干网络,基于训练得到的主干网络提取第二样本人体图像的第二预测图像特征和第二预测三维关键点。
260.输入子单元11022,用于将第二预测三维关键点输入至待训练的逆向运动学网络,输出预测逆运动学特征,其中,预测逆运动学特征表征第二预测三维关键点之间的预测位置关联信息。
261.训练子单元11023,用于根据第二预测图像特征和预测逆运动学特征对待训练逆向运动学网络进行训练,得到用于预测人体图像的smpl参数的逆向运动学网络。
262.在一些实施例中,预测位置关联信息包括预测旋转关系。
263.在一些实施例中,训练子单元11023,包括:
264.融合模块,用于基于待训练逆向运动学网络,对第二预测图像特征和预测逆运动学特征进行特征融合处理,得到预测人体形态特征。
265.训练模块,用于根据预测人体形态特征对待训练逆向运动学网络进行训练,得到用于预测人体图像的smpl参数的逆向运动学网络。
266.在一些实施例中,训练模块,包括:
267.第一确定子模块,用于根据预测人体形态特征确定预测smpl参数。
268.第二确定子模块,用于根据预测smpl参数确定第二样本人体图像的第三预测三维关键点、预测二维关键点。
269.训练子模块,用于根据预测smpl参数、第三预测三维关键点、以及预测二维关键点,对待训练逆向运动学网络进行训练,得到用于预测人体图像的smpl参数的逆向运动学网络。
270.在一些实施例中,训练子模块用于,计算预测smpl参数、以及预设的第二样本人体图像的smpl参数真值之间的第一损失值,并计算第三预测三维关键点、以及预设的第二样本人体图像的第二三维关键点真值之间的第二损失值,并计算预测二维关键点、以及预设的第二样本人体图像的二维关键点真值之间的第三损失值,并根据第一损失值、第二损失值、以及第三损失值,对待训练逆向运动学网络进行训练,得到用于预测人体图像的smpl参数的逆向运动学网络。
271.在一些实施例中,第一样本人体图像和/或第二样本人体图像为经扰动增强处理后的人体图像;
272.扰动增强处理包括:缩放、旋转、反转、平移、以及彩调整中的至少一种。
273.图12是根据本公开第十实施例的示意图,如图12所示,本公开中的电子设备1200可以包括:处理器1201和存储器1202。
274.存储器1202,用于存储程序;存储器1202,可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:ram),如静态随机存取存储器(英文:static random-access memory,缩写:sram),双倍数据率同步动态随机存取存储器(英文:double data rate synchronous dynamic random access memory,缩写:ddr sdram)等;存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory)。存储器1202用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等,上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器1202中。并且上述的计算机程序、计算机指令、数据等可以被处理器1201调用。
275.上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器1202中。并且上述的计算机程序、计算机指据等可以被处理器1201调用。
276.处理器1201,用于执行存储器1202存储的计算机程序,以实现上述实施例涉及的方法中的各个步骤。
277.具体可以参见前面方法实施例中的相关描述。
278.处理器1201和存储器1202可以是独立结构,也可以是集成在一起的集成结构。当处理器1201和存储器1202是独立结构时,存储器1202、处理器1201可以通过总线1203耦合连接。
279.本实施例的电子设备可以执行上述方法中的技术方案,其具体实现过程和技术原理相同,此处不再赘述。
280.需要说明的是,本实施例中的人体重建模型并不是针对某一特定用户的人体重建模型,并不能反映出某一特定用户的个人信息。需要说明的是,本实施例中的各人体图像
(如待重建人体图像、第一样本人体图像、第二样本人体图像)来自于公开数据集。
281.本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
282.根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
283.根据本公开的实施例,本公开还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
284.图13示出了可以用来实施本公开的实施例的示例电子设备1300的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
285.如图13所示,设备1300包括计算单元1301,其可以根据存储在只读存储器(rom)1302中的计算机程序或者从存储单元1308加载到随机访问存储器(ram)1303中的计算机程序,来执行各种适当的动作和处理。在ram 1303中,还可存储设备1300操作所需的各种程序和数据。计算单元1301、rom 1302以及ram 1303通过总线1304彼此相连。输入/输出(i/o)接口1305也连接至总线1304。
286.设备1300中的多个部件连接至i/o接口1305,包括:输入单元1306,例如键盘、鼠标等;输出单元1307,例如各种类型的显示器、扬声器等;存储单元1308,例如磁盘、光盘等;以及通信单元1309,例如网卡、调制解调器、无线通信收发机等。通信单元1309允许设备1300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
287.计算单元1301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1301的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元1301执行上文所描述的各个方法和处理,例如人体模型的重建方法、人体重建模型的训练方法。例如,在一些实施例中,人体模型的重建方法、人体重建模型的训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1308。在一些实施例中,计算机程序的部分或者全部可以经由rom 1302和/或通信单元1309而被载入和/或安装到设备1300上。当计算机程序加载到ram 1303并由计算单元1301执行时,可以执行上文描述的人体模型的重建方法、人体重建模型的训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元1301可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行人体模型的重建方法、人体重建模型的训练方法。
288.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、复杂可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实
现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
289.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
290.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
291.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
292.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
293.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务("virtual private server",或简称"vps")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
294.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,
只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
295.上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

技术特征:


1.一种人体模型的重建方法,包括:获取待重建人体图像;提取所述待重建人体图像的目标图像特征和目标逆运动学特征,其中,所述目标逆运动学特征表征所述待重建人体图像的各三维关键点之间的目标位置关联信息;根据所述目标图像特征和所述目标逆运动学特征,生成所述待重建人体图像的人体模型。2.根据权利要求1所述的方法,其中,提取目标逆运动学特征,包括:提取所述待重建人体图像的各三维关键点,其中,所述各三维关键点具有各自对应的三维坐标信息;根据所述各三维关键点各自对应的三维坐标信息,计算得到所述各三维关键点之间的所述目标位置关联信息。3.根据权利要求1或2所述的方法,其中,根据所述目标图像特征和所述目标逆运动学特征,生成所述待重建人体图像的人体模型,包括:对所述目标图像特征和所述目标逆运动学特征,进行特征融合处理,得到目标人体形态特征;根据所述目标人体形态特征生成所述人体模型。4.根据权利要求3所述的方法,其中,根据所述目标人体形态特征生成所述人体模型,包括:根据所述目标人体形态特征生成目标蒙皮多人线性smpl参数;根据所述目标smpl参数,构建所述人体模型。5.根据权利要求1-4中任一项所述的方法,其中,所述目标位置关联信息包括目标旋转关系。6.根据权利要求1-5中任一项所述的方法,其中,所述目标图像特征是基于预先训练的人体重建模型中的主干网络提取的;所述目标逆运动学特征是基于人体重建模型中的逆向运动学网络提取的。7.一种人体重建模型的训练方法,包括:根据第一样本人体图像对待训练主干网络进行训练,得到用于预测人体图像的图像特征和三维关键点的主干网络;根据第二样本人体图像和训练得到的主干网络,对待训练逆向运动学网络进行训练,得到用于预测人体图像的smpl参数的逆向运动学网络;其中,人体重建模型包括训练得到的主干网络和训练得到的逆向运动学网络,所述人体重建模型用于生成待重建人体图像的人体模型。8.根据权利要求7所述的方法,其中,根据第一样本人体图像对待训练主干网络进行训练,得到用于预测人体图像的图像特征和三维关键点的主干网络,包括:基于所述待训练主干网络提取所述第一样本人体图像的第一预测三维关键点;根据所述第一预测三维关键点、预设的所述第一样本人体图像的第一三维关键真值,对所述待训练主干网络进行迭代优化,得到用于预测人体图像的图像特征和三维关键点的主干网络。9.根据权利要求8所述的方法,其中,基于所述待训练主干网络提取所述第一样本人体
图像的第一预测三维关键点,包括:基于所述待训练主干网络提取所述第一样本人体图像的第一预测图像特征,并根据所述第一预测图像特征确定所述第一预测三维关键点。10.根据权利要求7-9中任一项所述的方法,其中,根据第二样本人体图像和训练得到的主干网络,对待训练逆向运动学网络进行训练,得到用于预测人体图像的smpl参数的逆向运动学网络,包括:将所述第二样本人体图像输入至训练得到的主干网络,基于训练得到的主干网络提取所述第二样本人体图像的第二预测图像特征和第二预测三维关键点;将所述第二预测三维关键点输入至所述待训练的逆向运动学网络,输出预测逆运动学特征,其中,所述预测逆运动学特征表征所述第二预测三维关键点之间的预测位置关联信息;根据所述第二预测图像特征和所述预测逆运动学特征对所述待训练逆向运动学网络进行训练,得到用于预测人体图像的smpl参数的逆向运动学网络。11.根据权利要求10所述的方法,其中,所述预测位置关联信息包括预测旋转关系。12.根据权利要求10或11所述的方法,其中,根据所述第二预测图像特征和所述预测逆运动学特征对所述待训练逆向运动学网络进行训练,得到用于预测人体图像的smpl参数的逆向运动学网络,包括:基于所述待训练逆向运动学网络,对所述第二预测图像特征和所述预测逆运动学特征进行特征融合处理,得到预测人体形态特征;根据所述预测人体形态特征对所述待训练逆向运动学网络进行训练,得到用于预测人体图像的smpl参数的逆向运动学网络。13.根据权利要求12所述的方法,其中,根据所述预测人体形态特征对所述待训练逆向运动学网络进行训练,得到用于预测人体图像的smpl参数的逆向运动学网络,包括:根据所述预测人体形态特征确定预测smpl参数,并根据所述预测smpl参数确定所述第二样本人体图像的第三预测三维关键点、预测二维关键点;根据所述预测smpl参数、所述第三预测三维关键点、以及所述预测二维关键点,对所述待训练逆向运动学网络进行训练,得到用于预测人体图像的smpl参数的逆向运动学网络。14.根据权利要求13所述的方法,其中,根据所述预测smpl参数、所述第三预测三维关键点、以及所述预测二维关键点,对所述待训练逆向运动学网络进行训练,得到用于预测人体图像的smpl参数的逆向运动学网络,包括:计算所述预测smpl参数、以及预设的所述第二样本人体图像的smpl参数真值之间的第一损失值;计算所述第三预测三维关键点、以及预设的所述第二样本人体图像的第二三维关键点真值之间的第二损失值;计算所述预测二维关键点、以及预设的所述第二样本人体图像的二维关键点真值之间的第三损失值;根据所述第一损失值、所述第二损失值、以及第三损失值,对所述待训练逆向运动学网络进行训练,得到用于预测人体图像的smpl参数的逆向运动学网络。15.根据权利要求7-14中任一项所述的方法,其中,所述第一样本人体图像和/或所述
第二样本人体图像为经扰动增强处理后的人体图像;所述扰动增强处理包括:缩放、旋转、反转、平移、以及彩调整中的至少一种。16.一种人体模型的重建装置,包括:获取单元,用于获取待重建人体图像;提取单元,用于提取所述待重建人体图像的目标图像特征和目标逆运动学特征,其中,所述目标逆运动学特征表征所述待重建人体图像的各三维关键点之间的目标位置关联信息;生成单元,用于根据所述目标图像特征和所述目标逆运动学特征,生成所述待重建人体图像的人体模型。17.根据权利要求16所述的装置,其中,所述提取单元,包括:第一提取子单元,用于提取所述待重建人体图像的各三维关键点,其中,所述各三维关键点具有各自对应的三维坐标信息;计算子单元,用于根据所述各三维关键点各自对应的三维坐标信息,计算得到所述各三维关键点之间的所述目标位置关联信息。18.根据权利要求16或17所述的装置,其中,所述生成单元,包括:融合子单元,用于对所述目标图像特征和所述目标逆运动学特征,进行特征融合处理,得到目标人体形态特征;生成子单元,用于根据所述目标人体形态特征生成所述人体模型。19.根据权利要求18所述的装置,其中,所述生成子单元,包括:生成模块,用于根据所述目标人体形态特征生成目标蒙皮多人线性smpl参数;构建模块,用于根据所述目标smpl参数,构建所述人体模型。20.根据权利要求16-19中任一项所述的装置,其中,所述目标位置关联信息包括目标旋转关系。21.根据权利要求16-20中任一项所述的装置,其中,所述目标图像特征是基于预先训练的人体重建模型中的主干网络提取的;所述目标逆运动学特征是基于人体重建模型中的逆向运动学网络提取的。22.一种人体重建模型的训练装置,包括:第一训练单元,用于根据第一样本人体图像对待训练主干网络进行训练,得到用于预测人体图像的图像特征和三维关键点的主干网络;第二训练单元,用于根据第二样本人体图像和训练得到的主干网络,对待训练逆向运动学网络进行训练,得到用于预测人体图像的smpl参数的逆向运动学网络;其中,人体重建模型包括训练得到的主干网络和训练得到的逆向运动学网络,所述人体重建模型用于生成待重建人体图像的人体模型。23.根据权利要求22所述的装置,其中,所述第一训练单元,包括:第二提取子单元,用于基于所述待训练主干网络提取所述第一样本人体图像的第一预测三维关键点;优化子单元,用于根据所述第一预测三维关键点、预设的所述第一样本人体图像的第一三维关键真值,对所述待训练主干网络进行迭代优化,得到用于预测人体图像的图像特征和三维关键点的主干网络。
24.根据权利要求23所述的装置,其中,所述第二提取子单元,包括:提取模块,用于基于所述待训练主干网络提取所述第一样本人体图像的第一预测图像特征;确定模块,用于根据所述第一预测图像特征确定所述第一预测三维关键点。25.根据权利要求22-24中任一项所述的装置,其中,所述第二训练单元,包括:第三提取子单元,用于将所述第二样本人体图像输入至训练得到的主干网络,基于训练得到的主干网络提取所述第二样本人体图像的第二预测图像特征和第二预测三维关键点;输入子单元,用于将所述第二预测三维关键点输入至所述待训练的逆向运动学网络,输出预测逆运动学特征,其中,所述预测逆运动学特征表征所述第二预测三维关键点之间的预测位置关联信息;训练子单元,用于根据所述第二预测图像特征和所述预测逆运动学特征对所述待训练逆向运动学网络进行训练,得到用于预测人体图像的smpl参数的逆向运动学网络。26.根据权利要求25所述的装置,其中,所述预测位置关联信息包括预测旋转关系。27.根据权利要求25或26所述的装置,其中,所述训练子单元,包括:融合模块,用于基于所述待训练逆向运动学网络,对所述第二预测图像特征和所述预测逆运动学特征进行特征融合处理,得到预测人体形态特征;训练模块,用于根据所述预测人体形态特征对所述待训练逆向运动学网络进行训练,得到用于预测人体图像的smpl参数的逆向运动学网络。28.根据权利要求27所述的装置,其中,所述训练模块,包括:第一确定子模块,用于根据所述预测人体形态特征确定预测smpl参数;第二确定子模块,用于根据所述预测smpl参数确定所述第二样本人体图像的第三预测三维关键点、预测二维关键点;训练子模块,用于根据所述预测smpl参数、所述第三预测三维关键点、以及所述预测二维关键点,对所述待训练逆向运动学网络进行训练,得到用于预测人体图像的smpl参数的逆向运动学网络。29.根据权利要求28所述的装置,其中,所述训练子模块用于,计算所述预测smpl参数、以及预设的所述第二样本人体图像的smpl参数真值之间的第一损失值,并计算所述第三预测三维关键点、以及预设的所述第二样本人体图像的第二三维关键点真值之间的第二损失值,并计算所述预测二维关键点、以及预设的所述第二样本人体图像的二维关键点真值之间的第三损失值,并根据所述第一损失值、所述第二损失值、以及第三损失值,对所述待训练逆向运动学网络进行训练,得到用于预测人体图像的smpl参数的逆向运动学网络。30.根据权利要求22-29中任一项所述的装置,其中,所述第一样本人体图像和/或所述第二样本人体图像为经扰动增强处理后的人体图像;所述扰动增强处理包括:缩放、旋转、反转、平移、以及彩调整中的至少一种。31.一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处
理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法;或者,以使所述至少一个处理器能够执行权利要求7-15中任一项所述的方法。32.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法;或者,所述计算机指令用于使所述计算机执行根据权利要求7-15中任一项所述的方法。33.一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤;或者,该计算机程序被处理器执行时实现权利要求7-15中任一项所述方法的步骤。

技术总结


本公开提供了一种人体模型的重建方法、人体重建模型的训练方法及装置,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于3D视觉等场景。具体实现方案为:获取待重建人体图像,提取待重建人体图像的目标图像特征和目标逆运动学特征,其中,目标逆运动学特征表征待重建人体图像的各三维关键点之间的目标位置关联信息,根据目标图像特征和目标逆运动学特征,生成待重建人体图像的人体模型,使得生成的人体模型可以相对高度还原待重建人体图像中人体的特征,从而提高了人体模型的准确性、有效性、以及可靠性。以及可靠性。以及可靠性。


技术研发人员:

杨黔生

受保护的技术使用者:

北京百度网讯科技有限公司

技术研发日:

2022.12.23

技术公布日:

2023/3/10

本文发布于:2024-09-24 11:31:42,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/69858.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:人体   图像   运动学   特征
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议