虚拟形象的生成方法、装置、电子设备和存储介质与流程

1.本技术涉及虚拟形象技术领域，尤其涉及一种虚拟形象的生成方法、装置、电子设备和存储介质。

背景技术：

2.将用户的面部表情捕捉下来同步到三维虚拟形象的面部，能够实现三维虚拟形象的面部表情与用户的面部表情同步的目的。现有技术中，常使用手机前置相机，或者使用相机拍摄面部表情，由于其拍摄的数据仅仅是二维视频，缺乏精确的三维信息，无法还原用户真实人脸的三维动作，导致生成的虚拟形象通常存在精度低的问题。

技术实现要素：

3.基于上述需求，本技术提出一种虚拟形象的生成方法、装置、电子设备和存储介质，以解决现有技术中虚拟形象的精度低的问题。
4.本技术提出的技术方案具体如下：一方面，本技术提供了一种虚拟形象的生成方法，包括：从目标用户的音频数据中提取得到音素特征，以及从与所述音频数据同步的视频数据中提取得到面部表情特征；基于所述音素特征和所述面部表情特征，解算得到所述目标用户的面部表情参数序列；利用所述面部表情参数序列驱动所述目标用户对应的三维虚拟形象模型，生成所述目标用户对应的虚拟形象。
5.作为一种可选的实现方式，以上所述的方法中，从目标用户的音频数据中提取得到音素特征，包括：从所述音频数据中提取得到语音数据段和静音数据段；对所述语音数据段和所述静音数据段进行音素编码，得到所述语音数据段的音素编码和所述静音数据段的音素编码；拼接所述语音数据段的音素编码和所述静音数据段的音素编码，得到音素特征。
6.作为一种可选的实现方式，以上所述的方法中，从与所述音频数据同步的视频数据中提取得到面部表情特征，包括：将与所述音频数据同步的视频数据输入预先训练的面部表情特征提取模型，得到面部表情特征；其中，所述面部表情特征提取模型是以样本视频数据为第一训练样本，以样本视频数据对应的面部特征点和面部表情类别为第一标签训练得到的。
7.作为一种可选的实现方式，以上所述的方法中，基于所述音素特征和所述面部表情特征，解算得到所述目标用户的面部表情参数序列，包括：将所述音素特征和所述面部表情特征进行拼接，得到拼接特征；
将所述拼接特征输入预先训练的面部表情参数解算模型，得到所述目标用户的面部表情参数序列；其中，所述面部表情参数解算模型是以样本音视频数据中提取的音素特征和面部表情特征的拼接特征为第二训练样本，以所述样本音视频数据对应的面部表情参数序列为第二标签训练得到的。
8.作为一种可选的实现方式，以上所述的方法中，所述样本音视频数据为设定人员讲话的音视频数据；其中，所述设定人员讲话的内容覆盖所有音素。
9.作为一种可选的实现方式，以上所述的方法中，从与所述音频数据同步的视频数据中提取得到面部表情特征之后，还包括：对所述面部表情特征进行特征降维处理。
10.作为一种可选的实现方式，以上所述的方法中，对所述面部表情特征进行特征降维处理，包括：利用主成分分析方法对所述面部表情特征进行降维，得到面部表情主成分编码；利用多项式核函数对所述面部表情主成分编码进行非线性映射，得到处理后的面部表情特征。
11.另一方面，本技术还提供了一种虚拟形象的生成装置，包括：提取模块，用于从目标用户的音频数据中提取得到音素特征，以及从与所述音频数据同步的视频数据中提取得到面部表情特征；结算模块，用于基于所述音素特征和所述面部表情特征，解算得到所述目标用户的面部表情参数序列；生成模块，用于利用所述面部表情参数序列驱动所述目标用户对应的三维虚拟形象模型，生成所述目标用户对应的虚拟形象。
12.另一方面，本技术还提供了一种电子设备，包括：存储器和处理器；其中，所述存储器用于存储程序；所述处理器，用于通过运行所述存储器中的程序，实现以上任意一项所述的虚拟形象的生成方法。
13.另一方面，本技术还提供了一种存储介质，包括：所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现以上任意一项所述的虚拟形象的生成方法。
14.本技术提出的虚拟形象的生成方法，能够从目标用户的音频数据中提取得到音素特征，以及从与音频数据同步的视频数据中提取得到面部表情特征。基于上述音素特征和面部表情特征，解算得到目标用户的面部表情参数序列。其中，面部动作较为复杂的部分集中在下半张脸的口唇区域，而用户说话的语音音素与口唇动作有较强的相关性，因此，本技术引入音素特征，根据音素特征和面部表情特征解算面部表情参数序列，利用面部表情参数序列驱动目标用户对应的三维虚拟形象模型生成的虚拟形象，能够精确还原目标用户面部的动作。
附图说明
15.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本
申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
16.图1是本技术实施例提供的一种虚拟形象的生成方法的流程示意图；图2是本技术实施例提供的一种生成面部表情参数序列的流程示意图；图3是本技术实施例提供的生成音素特征的流程示意图；图4是本技术实施例提供的另一种生成面部表情参数序列的流程示意图；图5是本技术实施例提供的另一种生成面部表情参数序列的流程示意图；图6是本技术实施例提供的一种虚拟形象的生成装置的结构示意图；图7是本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
17.申请概述本技术实施例技术方案适用于制作虚拟形象的应用场景，采用本技术实施例技术方案生成的虚拟形象，能够精确还原目标用户面部的动作。
18.近年来，随着游戏、影视、动漫等产业的发展，以及元宇宙概念的普及，虚拟形象生成技术得到了越来越多的关注和应用。虚拟形象生成技术是借助面部动作捕捉设备，将用户的面部表情特征捕捉下来并映射到虚拟形象上，使虚拟形象的面部表情与该用户的面部表情一致。
19.现有技术中的面部动作捕捉设备分为低精度的消费级设备以及高精度的影视工业级设备。低精度的消费级设备包括摄像机或者具备摄像功能的智能电子产品等，具备摄像功能的智能电子产品包括智能手机、智能平板电脑等。使用低精度的消费级设备拍摄用户的面部表情图像，再通过相应的算法从用户的面部表情图像中提取面部表情特征，最后将面部表情特征映射到虚拟形象上。高精度的影视工业级设备，通常使用相机矩阵拍摄真实的三维数据，同时在用户脸上打上标记点以提高面部表情捕捉精度，从三维数据中提取用户的面部表情特征并映射到虚拟形象上，最后利用人工对虚拟形象进行精修，以满足影视级精度和效果。
20.由于成本高昂，高精度的影视工业级设备通常只应用在影视行业中。而低精度的消费级设备，由于其拍摄的数据仅仅是二维视频，无法捕捉深度方向动作，无法还原用户真实人脸的三维动作，导致虚拟形象的精度低。
21.基于此，本技术提出一种虚拟形象的生成方法、装置、电子设备和存储介质，该技术方案能够根据从二维视频中提取得到的音素特征和面部表情特征解算面部表情参数序列，利用面部表情参数序列生成的虚拟形象能够精确还原目标用户面部的动作，从而解决现有技术中虚拟形象的精度低的问题。
22.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
23.示例性方法本技术实施例提出一种虚拟形象的生成方法，该方法可以由电子设备执行，该电
子设备可以是任意的具有数据及指令处理功能的设备，例如可以是计算机、智能终端、服务器等。参见图1所示，该方法包括：s101、从目标用户的音频数据中提取得到音素特征，以及从与音频数据同步的视频数据中提取得到面部表情特征。
24.上述目标用户指的是进行表情重定向的主体。本实施例中，针对目标用户的面部表情进行重定向，以使目标用户对应的虚拟形象的表情能够与目标用户的表情一致。
25.上述视频数据指的是包含目标用户面部影像的视频；音频数据指的是包括目标用户语音的音频。示例性的，为了避免噪声干扰，视频数据可以仅包含目标用户面部影像，音频数据可以仅包括目标用户的语音。若获取到的视频中包含非目标用户的面部图像，可以基于目标用户的面部特征将目标用户的面部图像提取出来作为视频数据，同理，若获取到的音频中包含非目标用户的音频，可以基于目标用户的声音特征，将目标用户的音轨提取出来作为音频数据。
26.可以利用能够同时采集音视频的设备采集目标用户的音视频数据，从音视频数据中提取上述音频数据和视频数据。能够同时采集音视频的设备可以采用智能手机、智能平板电脑和摄像机等，本实施例不做限定。需要说明的是，从音视频数据中提取上述音频数据和视频数据时，应保留音频数据和视频数据的时间戳，以确保音频数据和视频数据之间能够同步对齐。
27.还可以利用能够采集视频的视频采集设备采集上述视频数据，利用能够采集音频的音频数据采集设备采集上述音频数据。能够采集视频的视频采集设备可以采用智能手机、智能平板电脑和摄像机等，本实施例不做限定。能够采集音频的音频数据采集设备可以采用智能手机、智能平板电脑、录音机等，本实施例不做限定。需要说明的是，采集的音频数据和视频数据应保留时间戳，并且相同时刻采集的音频帧与视频帧的时间戳应一致，以确保音频数据和视频数据之间能够同步对齐。
28.从音频数据中提取音素特征。音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看，音素是从音质角度划分出来的最小语音单位。从生理性质来看，一个发音动作形成一个音素。如“ma”包含“m”“a”两个发音动作，是两个音素。相同发音动作发出的音就是同一音素，不同发音动作发出的音就是不同音素。如“ma-mi”中，两个“m”发音动作相同，是相同音素，“a”“i”发音动作不同，是不同音素。对音素的分析，一般是根据发音动作来描写的。如“m”的发音动作是：上唇和下唇闭拢，声带振动，气流从鼻腔流出发音。其中，面部动作较为复杂的部分集中在下半张脸的口唇区域，而用户说话的语音音素与口唇动作有较强的相关性，因此，本技术在生成目标用户对应的虚拟形象时引入音素特征的影响，以提高下半张脸的口唇区域的重定向精度。
29.音素特征指的是能够表征音素内容的数据，本实施例中并不限定音素特征的格式，可以是编码格式，也可以是向量格式等。
30.示例性的，可以利用音素特征提取模型从音频数据中提取音素特征。具体的，可以将音频数据输入到音素特征提取模型中，得到音素特征提取模型输出的音素特征。其中，上述音素特征提取模型可以采用现有技术中成熟的声学模型、语言模型，本领域的技术人员参照现有技术即可，此处不作赘述。
31.从与音频数据同步的视频数据中提取得到面部表情特征。面部表情特征指的是能
够表征目标用户的面部表情的数据，本实施例中并不限定面部表情特征的格式，可以是编码格式，也可以是向量格式等。
32.可以从视频数据中提取目标用户的面部特征点，将目标用户的面部特征点确定为面部表情特征。还可以从视频数据中提取目标用户的面部特征点和面部表情类别，将目标用户的面部特征点和面部表情类别进行拼接处理，得到面部表情特征。
33.提取面部特征点可以采用现有技术中成熟的面部特征点提取技术，本实施例不做限定。
34.而面部表情类别可以采用面部表情类别提取模型提取，其中，面部表情类别提取模型的训练样本为样本视频数据，标签为样本视频数据对应的面部表情类别。在对面部表情类别提取模型训练时，将训练样本输入到该模型中，得到该模型的输出结果，根据输出结果和训练标签，确定该模型的损失值，按照减小该模型的损失值的方向，对该模型的参数进行调整。重复执行上述训练过程，直至该模型的损失值小于设定值，模型训练完成。需要说明的是，上述设定值可以根据实际情况进行设定，本实施方式不做限定。
35.其中，面部表情类别包括中性表情、厌恶表情、愤怒表情、害怕表情、高兴表情、悲伤表情和惊奇表情等。
36.本实施例中，可以按照时间戳的顺序从目标用户的音频数据中提取音素特征，从与音频数据同步的视频数据中提取得到面部表情特征。
37.s102、基于音素特征和面部表情特征，解算得到目标用户的面部表情参数序列。
38.上述面部表情参数序列用于驱动目标用户对应的三维虚拟形象模型，以使三维虚拟形象模型生成目标用户对应的虚拟形象。其中，三维虚拟形象模型是预先构建好的，用于生成目标用户对应的虚拟形象的模型。
39.基于上述实施例确定的音素特征和面部表情特征，解算出上述目标用户的面部表情参数序列。
40.具体的，可以对相同时刻的音素特征和面部表情特征进行融合处理，得到融合特征。其中，可以采用拼接的方式进行融合，本实施例不做限定。按顺序对融合特征进行解算处理，得到面部表情参数序列。
41.可以利用预先训练的网络模型进行解算处理。例如，预先训练面部表情参数解算模型，按顺序将融合特征输入到面部表情参数解算模型中，得到该面部表情参数解算模型输出的面部表情参数序列。其中，可以从样本音视频数据中提取音素特征和面部表情特征，将音素特征和面部表情特征融合后得到样本融合特征，将样本融合特征作为面部表情参数解算模型的训练样本，将样本音视频数据对应的面部表情参数序列作为标签。
42.可以采用lasso回归模型或者循环神经网络（recurrent neural network，rnn）模型，作为面部表情参数解算模型的基础模型。在对面部表情参数解算模型进行训练时，将训练样本输入到该模型中，得到该模型的输出结果，根据输出结果和训练标签，确定该模型的损失值，按照减小该模型的损失值的方向，对该模型的参数进行调整。重复执行上述训练过程，直至该模型的损失值小于设定值，模型训练完成。需要说明的是，上述设定值可以根据实际情况进行设定，本实施方式不做限定。
43.此外，还需要说明的是，目标用户可能并不是持续处于讲话的状态，也就是说目标用户并不是持续有语音输出。因此，音频数据则可能包含两部分，一部分是目标用户有语音
输出的语音数据段和目标用户没有语音输出的静音数据段。
44.在目标用户有语音输出的部分，针对音素特征和面部表情特征进行解算时，可以适当提高音素特征的权重，提高音素特征对生成的虚拟形象的面部表情的影响，以便于生成的虚拟形象能够精确地还原目标用户的面部的动作。
45.在目标用户没有语音输出的部分，此时音素特征为空，则可以基于音频数据确认目标用户没有讲话、目标用户的口唇没有动作。然而实际上，目标用户没有讲话，但是口唇可能存在动作。例如，在目标用户没有说话，仅仅是存在口唇动作的情况下，基于音素特征确定的是目标用户口唇没有动作，基于与音频数据同步的面部表情特征可以确定的是目标用户存在口唇动作，显然基于音素特征确定的目标用户口唇没有动作与实际情况不符，在这样的情况下，音素特征成为了噪声，降低了虚拟形象的还原精度。
46.基于此，在目标用户没有语音输出的部分，针对音素特征和面部表情特征进行解算时，可以适当减小音素特征的权重，降低噪声对生成的虚拟形象的面部表情的影响，以便于生成的虚拟形象能够精确的还原目标用户的面部的动作。
47.如图2所示，在一个具体的实施例中，从音频数据中提取音素特征，音素特征包括语音数据段的音素特征和静音数据段的音素特征；从视频数据中提取面部表情特征。将音素特征和面部表情特征进行融合以后，得到融合特征。然后对融合特征进行解算，得到上述面部表情参数序列。
48.s103、利用面部表情参数序列驱动目标用户对应的三维虚拟形象模型，生成目标用户对应的虚拟形象。
49.本实施例中，对目标用户进行建模得到目标用户的三维虚拟形象模型。将面部表情参数序列输入目标用户的三维虚拟形象模型后，面部表情参数序列能够驱动目标用户对应的三维虚拟形象模型，生成目标用户对应的虚拟形象。
50.对目标用户进行建模得到目标用户的三维虚拟形象模型是本领域非常成熟的现有技术，例如通过maya等三维软件进行建模，本领域的技术人员参照现有技术即可，此处不做赘述。
51.具体的，三维虚拟形象模型的是可驱动的，面部表情参数序列输入到三维虚拟形象模型后，三维虚拟形象模型生成视频帧序列，加入音频数据后便可得到完整的三维虚拟形象视频。其中，三维虚拟形象可通过三维渲染引擎进行自由视角的渲染，以二维平面或三维ar/vr形式展示，可以用于虚拟直播、新闻播报、节目互动等实时场景。
52.以上实施例中，能够从目标用户的音频数据中提取得到音素特征，以及从与音频数据同步的视频数据中提取得到面部表情特征。基于上述音素特征和面部表情特征，解算得到目标用户的面部表情参数序列。其中，面部动作较为复杂的部分集中在下半张脸的口唇区域，而用户说话的语音音素与口唇动作有较强的相关性，因此，本技术引入音素特征，根据音素特征和面部表情特征解算面部表情参数序列，利用面部表情参数序列驱动目标用户对应的三维虚拟形象模型生成的虚拟形象，能够精确还原目标用户面部的动作。
53.作为一种可选的实现方式，如图3所示，在本技术另一实施例中公开了，以上实施例的步骤从目标用户的音频数据中提取得到音素特征，具体可以包括如下步骤：s301、从音频数据中提取得到语音数据段和静音数据段。
54.语音数据段指的是音频数据中的目标用户有语音输出的数据段。静音数据段指的
是音频数据中的目标用户没有语音输出的数据段。本实施例中，按照目标用户是否输出语音对音频数据进行切分，从音频数据中提取得到语音数据段和静音数据段。
55.可以利用现有技术中的语音端点检测（voice activity detection，vad）算法对音频数据进行检测，从音频数据中提取得到语音数据段和静音数据段，本实施例不做限定。
56.s302、对语音数据段和静音数据段进行音素编码，得到语音数据段的音素编码和静音数据段的音素编码。
57.得到语音数据段和静音数据段后，可以分别对语音数据段和静音数据段进行编码。其中，对语音数据段进行编码时，可以利用现有技术中声学模型、语音模型进行编码即可，本实施例不做限定。对静音数据段进行编码时，可以按照设定的规则对静音数据段进行编码，以便于针对音素特征和面部表情特征进行解算时，能够区分音素特征是属于静音数据段还是语音数据段，实现在静音数据段降低音素特征的权重，在语音数据段升高音素特征的权重的目的。示例性的，为了降低静音数据段音素特征所带来的噪声，可以将降低静音数据段音素特征的权重降为0。
58.上述静音数据段的编码规则可以根据实际情况确定，本实施例不做限定。示例性的，可以通过静音数据段统一编码为空，例如用0或者null表示，实现将静音数据段的音素特征的权重降为0的目的，以规避静音数据段音素特征所带来的噪声。
59.需要说明的是，为了确保音频特征和面部表情特征能够对齐，也就是说，为了确定相同时刻的音频特征和面部表情特征能够拼接到一起，在生成音频特征和面部表情特征时，可以保留时间戳，将相同时间戳的音频特征和面部表情特征拼接；也可以规定音频特征的时间长度与对应的音频数据时间长度相同，即静音数据段的音素特征时间长度与静音数据段的时间长度相同，语音数据段的音素特征时间长度与语音数据段的时间长度相同，同时，面部表情特征的时间长度与对应的视频数据时间长度相同。
60.s303、拼接语音数据段的音素编码和静音数据段的音素编码，得到音素特征。
61.将语音数据段的音素编码和静音数据段的音素编码拼接在一起，则得到上述音素特征。
62.以上实施例中，能够通过对语音数据段和静音数据段分别编码的方式，减小静音数据段带来的噪声影响，提高三维虚拟形象的表情精度。
63.作为一种可选的实现方式，在本技术另一实施例中公开了，以上实施例的步骤从与音频数据同步的视频数据中提取得到面部表情特征，具体可以包括如下步骤：将与音频数据同步的视频数据输入预先训练的面部表情特征提取模型，得到面部表情特征。
64.其中，面部表情特征提取模型是以样本视频数据为第一训练样本，以样本视频数据对应的面部特征点和面部表情类别为第一标签训练得到的。
65.目前市面上常见的面部动作捕捉方法中，面部表情特征直接使用人脸关键点。它的缺点在于，人脸关键点的信息比较稀疏，不能完全表示丰富的面部表情，导致利用人脸关键点重定向得到的虚拟形象无法精确还原目标用户面部的动作。
66.基于此，本实施例将面部特征点和面部表情类别共同作为影响面部表情特征的因素。具体的，本实施例中的面部表情特征提取模型使用人脸特征点和人脸表情类别作为第一标签，将样本视频数据为第一训练样本。具体的训练过程与以上实施例的模型训练过程
相同，此处不作赘述。需要说明的是，本实施例将面部表情特征提取模型中分类层之前的特征作为面部表情特征输出。
67.具体的，将与音频数据同步的视频数据输入面部表情特征提取模型，将面部表情特征提取模型中分类层之前的特征作为面部表情特征提取模型的输出，得到面部表情特征。
68.本实施例中，将面部特征点和面部表情类别共同作为影响面部表情特征的因素，能够提供丰富的面部表情特征，提高虚拟形象的精度。
69.作为一种可选的实现方式，如图4所示，在本技术另一实施例中公开了，以上实施例的步骤基于音素特征和面部表情特征，解算得到目标用户的面部表情参数序列，具体可以包括如下步骤：s401、将音素特征和面部表情特征进行拼接，得到拼接特征。
70.本实施例中采用拼接融合的方式，将音素特征和面部表情特征进行拼接，得到拼接特征。
71.s402、将拼接特征输入预先训练的面部表情参数解算模型，得到目标用户的面部表情参数序列。
72.上述面部表情参数解算模型是以样本音视频数据中提取的音素特征和面部表情特征的拼接特征为第二训练样本，以样本音视频数据对应的面部表情参数序列为第二标签训练得到的。
73.上述样本音视频数据为设定人员讲话的音视频数据，设定人员讲话的内容应覆盖所有音素。设定人员讲话的语种以及方言可以根据目标用户的需求确定。例如，若目标用户为普通话体，那么设定人员讲话的语种为普通话，讲话的内容覆盖所有汉语音素；若目标用户为粤语体，那么设定人员讲话的语种为粤语，讲话的内容覆盖所有粤语音素；若目标用户为英文体，那么设定人员讲话的语种为英语，讲话的内容覆盖所有英语音素。得到第二训练样本以后，可以从第二训练样本中手动提取面部表情参数序列作为第二训练标签。
74.可以采用lasso回归模型作为面部表情参数解算模型的基础模型。在对面部表情参数解算模型进行训练时，将第二训练样本输入到该模型中，得到该模型的输出结果，根据输出结果和第二标签，确定该模型的损失值，按照减小该模型的损失值的方向，对该模型的参数进行调整优化。若面部表情参数解算模型的参数为，对该模型的参数进行调整优化的表达式为：其中，表示第二标签，表示输入面部表情参数解算模型的第二训练样本，表示面部表情参数解算模型的输出，表示正则项。为该模型的损失值，按照减小该模型的损失值的方向，对该模型的参数进行调整。
75.重复执行上述训练过程，直至面部表情参数解算模型的损失值小于设定值，模型训练完成。需要说明的是，上述设定值可以根据实际情况进行设定，本实施方式不做限定。
76.如图5所示，在一个具体的实施例中，从音频数据中提取音素特征，音素特征包括语音数据段的音素特征和静音数据段的音素特征，静音数据段的音素特征的编码为空，为0表示；从视频数据中提取面部表情特征。将音素特征和面部表情特征进行拼接融合以后，得到拼接特征。然后利用lasso回归模型对拼接特征进行解算，得到上述面部表情参数序列。
77.以上实施例中，基于面部表情参数解算模型解算目标用户的面部表情参数序列，利用面部表情参数序列驱动目标用户对应的三维虚拟形象模型生成的虚拟形象，能够精确还原目标用户面部的动作。
78.作为一种可选的实现方式，在本技术另一实施例中公开了，以上实施例的步骤从与音频数据同步的视频数据中提取得到面部表情特征之后，具体可以包括如下步骤：对面部表情特征进行特征降维处理。
79.具体的，由于神经网络提取的视频特征的数据维度通常比较高，为了提高处理速度，可以对面部表情特征进行特征降维处理。
80.进一步的，对面部表情特征进行特征降维处理的步骤如下：利用主成分分析方法对面部表情特征进行降维，得到面部表情主成分编码；利用多项式核函数对面部表情主成分编码进行非线性映射，得到处理后的面部表情特征。
81.具体的，可以利用主成分分析方法（principal component analysis，pca）对面部表情特征进行降维处理，得到面部表情主成分编码，然后使用多项式核函数对面部表情主成分编码进行非线性映射，得到处理后的面部表情特征。将处理后的面部表情特征与音素特征进行拼接，然后再进行解算处理，以得到面部表情参数序列。
82.以上实施例中，对面部表情特征进行特征降维处理，能够提高处理速度。
83.示例性装置与上述虚拟形象的生成方法相对应的，本技术实施例还公开了一种虚拟形象的生成装置，参见图6所示，该装置包括：提取模块100，用于从目标用户的音频数据中提取得到音素特征，以及从与音频数据同步的视频数据中提取得到面部表情特征；结算模块110，用于基于音素特征和面部表情特征，解算得到目标用户的面部表情参数序列；生成模块120，用于利用面部表情参数序列驱动目标用户对应的三维虚拟形象模型，生成目标用户对应的虚拟形象。
84.作为一种可选的实现方式，在本技术另一实施例中公开了，以上实施例的提取模块100，包括：提取单元，用于从音频数据中提取得到语音数据段和静音数据段；编码单元，用于对语音数据段和静音数据段进行音素编码，得到语音数据段的音素编码和静音数据段的音素编码；第一拼接单元，用于拼接语音数据段的音素编码和静音数据段的音素编码，得到
音素特征。
85.作为一种可选的实现方式，在本技术另一实施例中公开了，以上实施例的提取模块100，包括：第一输入单元，用于将与音频数据同步的视频数据输入预先训练的面部表情特征提取模型，得到面部表情特征；其中，面部表情特征提取模型是以样本视频数据为第一训练样本，以样本视频数据对应的面部特征点和面部表情类别为第一标签训练得到的。
86.作为一种可选的实现方式，在本技术另一实施例中公开了，以上实施例的结算模块110，包括：第二拼接单元，用于将音素特征和面部表情特征进行拼接，得到拼接特征；第二输入单元，用于将拼接特征输入预先训练的面部表情参数解算模型，得到目标用户的面部表情参数序列；其中，面部表情参数解算模型是以样本音视频数据中提取的音素特征和面部表情特征的拼接特征为第二训练样本，以样本音视频数据对应的面部表情参数序列为第二标签训练得到的。
87.作为一种可选的实现方式，在本技术另一实施例中公开了，样本音视频数据为设定人员讲话的音视频数据；其中，设定人员讲话的内容覆盖所有音素。
88.作为一种可选的实现方式，在本技术另一实施例中公开了，以上实施例的虚拟形象的生成装置，包括：降维模块，用于对面部表情特征进行特征降维处理。
89.作为一种可选的实现方式，在本技术另一实施例中公开了，以上实施例的降维模块，包括：降维单元，用于利用主成分分析方法对面部表情特征进行降维，得到面部表情主成分编码；映射单元，用于利用多项式核函数对面部表情主成分编码进行非线性映射，得到处理后的面部表情特征。
90.具体的，上述的虚拟形象的生成装置的各个单元的具体工作内容，请参见上述方法实施例的内容，此处不再赘述。
91.示例性电子设备、存储介质和计算产品本技术另一实施例还提出一种电子设备，参见图7所示，该电子设备包括：存储器200和处理器210；其中，存储器200与处理器210连接，用于存储程序；处理器210，用于通过运行存储器200中存储的程序，实现上述任一实施例公开的虚拟形象的生成方法。
92.具体的，上述电子设备还可以包括：总线、通信接口220、输入设备230和输出设备240。
93.处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中：总线可包括一通路，在计算机系统各个部件之间传送信息。
94.处理器210可以是通用处理器，例如通用中央处理器（cpu）、微处理器等，也可以是特定应用集成电路（application-specific integrated circuit，asic），或一个或多个用于控制本技术方案程序执行的集成电路。还可以是数字信号处理器（dsp）、专用集成电路（asic）、现成可编程门阵列（fpga）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
95.处理器210可包括主处理器，还可包括基带芯片、调制解调器等。
96.存储器200中保存有执行本技术技术方案的程序，还可以保存有操作系统和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器200可以包括只读存储器（read-only memory，rom）、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器（random access memory，ram）、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。
97.输入设备230可包括接收用户输入的数据和信息的装置，例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。
98.输出设备240可包括允许输出信息给用户的装置，例如显示屏、打印机、扬声器等。
99.通信接口220可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网（ran），无线局域网(wlan)等。
100.处理器210执行存储器200中所存放的程序，以及调用其他设备，可用于实现本技术上述实施例所提供的虚拟形象的生成方法的各个步骤。
101.除了上述方法和设备以外，本技术的实施例还可以是计算机程序产品，其包括计算机程序指令，计算机程序指令在被处理器210运行时使得处理器210执行上述实施例所提供的虚拟形象的生成方法的各个步骤。
102.计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本技术实施例操作的程序代码，程序设计语言包括面向对象的程序设计语言，诸如java、c++等，还包括常规的过程式程序设计语言，诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
103.此外，本技术的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，计算机程序指令在被处理器运行时使得处理器210执行上述实施例所提供的虚拟形象的生成方法的各个步骤。
104.所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（ram）、只读存储器（rom）、可擦式可编程只读存储器（eprom或闪存）、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
105.具体的，上述的电子设备、存储介质和计算机程序的各个部分的具体工作内容，以及计算机程序产品或者上述的存储介质上的计算机程序被处理器运行时的具体处理内容，均可以参见上述的虚拟形象的生成方法的各个实施例的内容，此处不再赘述。
106.对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本技术并不受所描述的动作顺序的限制，因为依据本技术，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本技术所必须的。
107.需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
108.本技术各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减，各实施例中记载的技术特征可以进行替换或者组合。
109.本技术各实施例中装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。
110.本技术所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，模块或子模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个子模块或模块可以结合或者可以集成到另一个模块，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。
111.作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的，作为模块或子模块的部件可以是或者也可以不是物理模块或子模块，即可以位于一个地方，或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。
112.另外，在本技术各个实施例中的各功能模块或子模块可以集成在一个处理模块中，也可以是各个模块或子模块单独物理存在，也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现，也可以采用软件功能模块或子模块的形式实现。
113.专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
114.结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元，或者二者的结合来实施。软件单元可以置于随机存储器（ram）、内存、只读存储器（rom）、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
115.最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意
在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
116.对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术特征：

1.一种虚拟形象的生成方法，其特征在于，包括：从目标用户的音频数据中提取得到音素特征，以及从与所述音频数据同步的视频数据中提取得到面部表情特征；基于所述音素特征和所述面部表情特征，解算得到所述目标用户的面部表情参数序列；利用所述面部表情参数序列驱动所述目标用户对应的三维虚拟形象模型，生成所述目标用户对应的虚拟形象。2.根据权利要求1所述的方法，其特征在于，从目标用户的音频数据中提取得到音素特征，包括：从所述音频数据中提取得到语音数据段和静音数据段；对所述语音数据段和所述静音数据段进行音素编码，得到所述语音数据段的音素编码和所述静音数据段的音素编码；拼接所述语音数据段的音素编码和所述静音数据段的音素编码，得到音素特征。3.根据权利要求1所述的方法，其特征在于，从与所述音频数据同步的视频数据中提取得到面部表情特征，包括：将与所述音频数据同步的视频数据输入预先训练的面部表情特征提取模型，得到面部表情特征；其中，所述面部表情特征提取模型是以样本视频数据为第一训练样本，以样本视频数据对应的面部特征点和面部表情类别为第一标签训练得到的。4.根据权利要求1所述的方法，其特征在于，基于所述音素特征和所述面部表情特征，解算得到所述目标用户的面部表情参数序列，包括：将所述音素特征和所述面部表情特征进行拼接，得到拼接特征；将所述拼接特征输入预先训练的面部表情参数解算模型，得到所述目标用户的面部表情参数序列；其中，所述面部表情参数解算模型是以样本音视频数据中提取的音素特征和面部表情特征的拼接特征为第二训练样本，以所述样本音视频数据对应的面部表情参数序列为第二标签训练得到的。5.根据权利要求4所述的方法，其特征在于，所述样本音视频数据为设定人员讲话的音视频数据；其中，所述设定人员讲话的内容覆盖所有音素。6.根据权利要求1所述的方法，其特征在于，从与所述音频数据同步的视频数据中提取得到面部表情特征之后，还包括：对所述面部表情特征进行特征降维处理。7.根据权利要求6所述的方法，其特征在于，对所述面部表情特征进行特征降维处理，包括：利用主成分分析方法对所述面部表情特征进行降维，得到面部表情主成分编码；利用多项式核函数对所述面部表情主成分编码进行非线性映射，得到处理后的面部表情特征。8.一种虚拟形象的生成装置，其特征在于，包括：提取模块，用于从目标用户的音频数据中提取得到音素特征，以及从与所述音频数据同步的视频数据中提取得到面部表情特征；
结算模块，用于基于所述音素特征和所述面部表情特征，解算得到所述目标用户的面部表情参数序列；生成模块，用于利用所述面部表情参数序列驱动所述目标用户对应的三维虚拟形象模型，生成所述目标用户对应的虚拟形象。9.一种电子设备，其特征在于，包括：存储器和处理器；其中，所述存储器用于存储程序；所述处理器，用于通过运行所述存储器中的程序，实现如权利要求1至7中任意一项所述的虚拟形象的生成方法。10.一种存储介质，其特征在于，包括：所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1至7中任意一项所述的虚拟形象的生成方法。

技术总结

本申请提出一种虚拟形象的生成方法、装置、电子设备和存储介质，能够从目标用户的音频数据中提取得到音素特征，以及从与音频数据同步的视频数据中提取得到面部表情特征。基于上述音素特征和面部表情特征，解算得到目标用户的面部表情参数序列。其中，面部动作较为复杂的部分集中在下半张脸的口唇区域，而用户说话的语音音素与口唇动作有较强的相关性，因此，本申请引入音素特征，根据音素特征和面部表情特征解算面部表情参数序列，利用面部表情参数序列驱动目标用户对应的三维虚拟形象模型生成的虚拟形象，能够精确还原目标用户面部的动作。的动作。的动作。