数字人驱动方法、装置及计算机程序产品与流程

1.本公开涉及人工智能领域，具体涉及深度学习、数字人、增强现实、虚拟现实、混合现实、扩展现实、元宇宙等技术领域，尤其涉及数字人驱动方法、装置及唇动信息确定模型的训练方法、装置、电子设备、存储介质以及计算机程序产品。

背景技术：

2.三维数字人的生成一直是学术界的研究热点，并有着广泛的工业应用。其最为常见的应用领域有虚拟主播、虚拟客服、虚拟助理、虚拟教师、虚拟偶像等。三维数字人的驱动过程中需要确定其唇动信息。
3.相关技术中，一般通过歌声音频确定数字人的唇动系数，以驱动数字人的运行，驱动方式较为单一，缺乏趣味性。

技术实现要素：

4.本公开提供了一种数字人驱动方法、装置以及唇动信息确定模型的训练方法、装置、电子设备、存储介质以及计算机程序产品。
5.根据第一方面，提供了一种数字人驱动方法，包括：基于所获取的目标旋律音频的节奏点信息，从表征旋律音频和歌词文本之间的对应关系的k维树中进行搜索，确定目标旋律音频对应的目标歌词文本；根据目标歌词文本生成初始音频；根据节奏点信息，调整初始音频，得到目标音频，并确定目标音频的音频特征；根据音频特征确定唇动信息；以目标音频为数字人的语音，以唇动信息为数字人的唇动驱动信息，驱动数字人运行。
6.根据第二方面，提供了一种唇动信息确定模型的训练方法，包括：基于所获取的旋律音频的节奏点信息，从表征旋律音频和歌词文本之间的对应关系的k维树中进行搜索，确定旋律音频对应的目标歌词文本；根据目标歌词文本生成初始音频；根据节奏点信息，调整初始音频，得到样本音频，并确定样本音频的音频特征；基于同一样本音频对应的音频特征和唇动信息，生成训练样本，以得到训练样本集，其中，唇动信息基于与旋律音频匹配的初始视频得到；采用机器学习算法，将音频特征作为输入，将所输入的音频特征对应的唇动信息标签作为期望输出，训练初始唇动信息确定模型，得到训练后的唇动信息确定模型。
7.根据第三方面，提供了一种数字人驱动装置，包括：第一确定单元，被配置成基于所获取的目标旋律音频的节奏点信息，从表征旋律音频和歌词文本之间的对应关系的k维树中进行搜索，确定目标旋律音频对应的目标歌词文本；第一生成单元，被配置成根据目标歌词文本生成初始音频；第二确定单元，被配置成根据节奏点信息，调整初始音频，得到目标音频，并确定目标音频的音频特征；第三确定单元，被配置成根据音频特征确定唇动信息；驱动单元，被配置成以目标音频为数字人的语音，以唇动信息为数字人的唇动驱动信息，驱动数字人运行。
8.根据第四方面，提供了一种唇动信息确定模型的训练装置，包括：第四确定单元，被配置成基于所获取的旋律音频的节奏点信息，从表征旋律音频和歌词文本之间的对应关
系的k维树中进行搜索，确定旋律音频对应的目标歌词文本；第二生成单元，被配置成根据目标歌词文本生成初始音频；第五确定单元，被配置成根据节奏点信息，调整初始音频，得到样本音频，并确定样本音频的音频特征；第三生成单元，被配置成基于同一样本音频对应的音频特征和唇动信息，生成训练样本，以得到训练样本集，其中，唇动信息基于与旋律音频匹配的初始视频得到；训练单元，被配置成采用机器学习算法，将音频特征作为输入，将所输入的音频特征对应的唇动信息标签作为期望输出，训练初始唇动信息确定模型，得到训练后的唇动信息确定模型。
9.根据第五方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面、第二方面任一实现方式描述的方法。
10.根据第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如第一方面、第二方面任一实现方式描述的方法。
11.根据第七方面，提供了一种计算机程序产品，包括：计算机程序，计算机程序在被处理器执行时实现如第一方面、第二方面任一实现方式描述的方法。
12.根据本公开的技术，提供了一种数字人驱动方法，基于获取的旋律音频的节奏点信息进行k维树搜索以确定旋律音频对应的歌词文本，提高了所确定的歌词文本的准确度；并根据节奏点信息调整基于歌词文本生成的初始音频，使得调整初始音频所得到的目标音频更加贴合旋律音频对应的原歌声音频；进而，得到调整后的目标音频的音频特征，以根据音频特征确定唇动信息，根据唇动信息和目标音频驱动数字人运行，从而提高了基于旋律音频驱动数字人唱歌的展示效果。
13.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
14.附图用于更好地理解本方案，不构成对本公开的限定。其中：
15.图1是根据本公开的一个实施例可以应用于其中的示例性系统架构图；
16.图2是根据本公开的数字人驱动方法的一个实施例的流程图；
17.图3是根据本公开的目标旋律音频中的节奏点的示意图；
18.图4是根据本实施例的数字人驱动方法的应用场景的示意图；
19.图5是根据本公开的将初始音频参照目标旋律音频进行适配的示意图；
20.图6是根据本公开的根据目标旋律音频的音频风格信息调整初始音频的示意图；
21.图7是根据本公开的数字人驱动方法的又一个实施例的流程图；
22.图8是根据本公开的数字人驱动方法的数据流向示意图；
23.图9是根据本公开的唇动信息确定模型的训练方法的一个实施例的流程图；
24.图10是根据本公开的数字人驱动装置的一个实施例的结构图；
25.图11是根据本公开的唇动信息确定模型的训练装置的一个实施例的结构图；
26.图12是适于用来实现本公开实施例的计算机系统的结构示意图。
具体实施方式
27.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
28.本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。
29.图1示出了可以应用本公开的数字人驱动方法及装置、唇动信息确定模型的训练方法及装置的示例性架构100。
30.如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。终端设备101、102、103之间通信连接构成拓扑网络，网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。
31.终端设备101、102、103可以是支持网络连接从而进行数据交互和数据处理的硬件设备或软件。当终端设备101、102、103为硬件时，其可以是支持网络连接，信息获取、交互、显示、处理等功能的各种电子设备，包括但不限于图像采集设备、智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。
32.服务器105可以是提供各种服务的服务器，例如，根据终端设备101、102、103提供的目标旋律音频，即可确定目标音频和唇动信息以驱动数字人唱歌的后台处理服务器。又例如，基于终端设备101、102、103提供的旋律音频，生成训练样本集，训练得到唇动信息确定模型的后台处理服务器。作为示例，服务器105可以是云端服务器。
33.需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。
34.还需要说明的是，本公开的实施例所提供的数字人驱动方法、唇动信息确定模型的训练方法可以由服务器执行，也可以由终端设备执行，还可以由服务器和终端设备彼此配合执行。相应地，数字人驱动装置、唇动信息确定模型的训练装置包括的各个部分(例如各个单元)可以全部设置于服务器中，也可以全部设置于终端设备中，还可以分别设置于服务器和终端设备中。
35.应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。当数字人驱动方法、唇动信息确定模型的训练方法运行于其上的电子设备不需要与其他电子设备进行数据传输时，该系统架构可以仅包括数字人驱动方法、唇动信息确定模型的训练方法运行于其上的电子设备(例如服务器或终端设备)。
36.请参考图2，图2为本公开实施例提供的一种数字人驱动方法的流程图，其中，流程200包括以下步骤：
37.步骤201，基于所获取的目标旋律音频的节奏点信息，从表征旋律音频和歌词文本之间的对应关系的k维树中进行搜索，确定目标旋律音频对应的目标歌词文本。
38.本实施例中，数字人驱动方法的执行主体(例如，图1中的终端设备或服务器)可以基于有线网络连接方式或无线网络连接方式从远程，或从本地获取目标旋律音频，并基于所获取的目标旋律音频的节奏点信息，从表征旋律音频和歌词文本之间的对应关系的k维树中进行搜索，确定目标旋律音频对应的目标歌词文本。
39.目标旋律音频为只包括旋律数据而不包括歌声数据的音频。在音乐领域，目标旋律音频可以是任意歌手发行的歌曲音频中的旋律数据。
40.通过旋律音频自动打点技术，可以确定目标旋律音频中所有的节奏点位置，确定目标旋律音频的节奏点信息。如图3所示，示出了目标旋律音频中的节奏点信息的示意图300。
41.在得到目标旋律的节奏点信息之后，上述执行主体可以从表征旋律音频和歌词文本之间的对应关系的k维树中进行搜索，确定目标旋律音频对应的目标歌词文本。k维树是用k维超平面分割k维空间中点集的二叉树数据结构。
42.本实现方式中，上述执行主体可以基于相对应的歌词文本的特征向量与旋律音频的特征向量，构建向量对，进而根据多个向量对建立kd-tree(k维树)。
43.步骤202，根据目标歌词文本生成初始音频。
44.本实施例中，上述执行主体可以根据目标歌词文本生成初始音频。
45.作为示例，上述执行主体可以通过tts(text to speech，从文本到语音)技术，得到歌词文本对应的机器音频，作为初始音频。
46.步骤203，根据节奏点信息，调整初始音频，得到目标音频，并确定目标音频的音频特征。
47.本实施例中，上述执行主体可以根据节奏点信息，调整初始音频，得到目标音频，并确定目标音频的音频特征。
48.作为示例，上述执行主体可以根据目标旋律音频的节奏点信息所表征的节奏调整初始音频，使得初始音频的节奏与目标旋律音频的节奏相适配；进而，上述执行主体可以通过特征提取网络对目标音频进行特征提取，得到目标音频的音频特征。作为示例，特征提取网络可以是卷积神经网络、循环神经网络等网络模型。
49.步骤204，根据音频特征确定唇动信息。
50.本实施例中，上述执行主体可以根据音频特征确定唇动信息。
51.作为示例，上述执行主体可以通过预训练的唇动信息确定模型，根据音频特征确定唇动信息。其中，唇动信息确定模型表征音频特征与唇动信息之间的对应关系。
52.在一些可选的实现方式中，上述执行主体还可以从预设编码集合中确定所选择的发音人的目标编码信息。其中，预设编码集合中的编码信息表征不同的旋律音频对应的不同发音人。
53.旋律数据对应的发音人为发出旋律数据对应的歌声数据所表征的歌声的发音人，具体可以是不同的歌手、歌唱家。预设编码集合中包括多个不同的发音人对应的编码信息。每个编码信息用于唯一标识对应的发音人。本实施例中，可以采用图像、字符等任意形式的信息对发音人进行编码。
54.作为示例，通过one hot(独热)编码方式对不同的发音人进行编码。对于每一个发音人，其编码信息使用长度为32的one hot编码来表示。
55.本实现方式中，上述执行主体或与上述执行主体通信连接的电子设备可以接收用户的选择指令，以通过选择指令从预设编码集合中确定所选择的发音人的目标编码信息。作为示例，上述执行主体可以向用户展示可供用户选择目标发音人的发音人列表，用户可以通过指示动作、语音等命令发出方式发出选择指令。
56.上述执行主体可以根据音频特征和目标编码信息，通过预训练的唇动信息确定模型得到唇动信息。其中，唇动信息确定模型用于表征音频特征、目标编码信息和唇动信息之间的对应关系。作为示例，上述执行主体可以将音频特征和目标编码信息作为唇动信息确定模型的输入，得到输出的唇动信息。
57.唇动信息确定模型可以采用具有唇动信息生成的任意神经网络模型，包括但限于是卷积神经网络、卷积神经网络等现有的神经网络模型，或者基于现有的神经网络模型改进的网络模型。
58.作为示例，唇动信息确定模型的网络结构包括formant analysis network(共振峰分析网络)、articulation network(发音网络)、aware attention network(意识注意网络)、fully connected layer(全连接层)和output layer(输出层)。
59.具体的，唇动信息确定模型可以通过后续实施例900所示的训练方法训练得到。
60.步骤204，以目标音频为数字人的语音，以唇动信息为数字人的唇动驱动信息，驱动数字人运行。
61.本实施例中，上述执行主体可以以目标音频为数字人的语音，以唇动信息为数字人的唇动驱动信息，驱动数字人运行。
62.作为示例，上述执行主体可以将每一帧目标音频以及基于每一帧目标音频得到的唇动信息进行匹配。对于每一帧目标音频，将该目标音频作为数字人的语音，将该帧目标音频对应的唇动信息为数字人的唇动驱动信息，驱动数字人运行。
63.继续参见图4，图4是根据本实施例的数字人驱动方法的应用场景的一个示意图400。在图4的应用场景中，终端设备401实时获取用户402选择的目标旋律音频，并将目标旋律音频403发送至服务器404。服务器404首先基于所获取的目标旋律音频403的节奏点信息405，从表征旋律音频和歌词文本之间的对应关系的k维树406中进行搜索，确定目标旋律音频对应的目标歌词文本407；根据目标歌词文本407生成初始音频408；根据节奏点信息405，调整初始音频408，得到目标音频409，并确定目标音频409的音频特征；根据音频特征确定唇动信息410；以目标音频409为数字人411的语音，以唇动信息410为数字人411的唇动驱动信息，驱动数字人411运行。
64.本实施例中，提供了一种数字人驱动方法，基于获取的旋律音频的节奏点信息进行k维树搜索确定旋律音频对应的歌词文本，提高了所确定的歌词文本的准确度；并根据节奏点信息调整基于歌词文本生成的初始音频，使得调整初始音频所得到的目标音频更加贴合旋律音频对应的原歌声音频；进而，得到调整后的目标音频的音频特征，以根据音频特征确定唇动信息，根据唇动信息和目标音频驱动数字人运行，从而提高了基于旋律音频驱动数字人唱歌的展示效果。
65.在本实施例的一些可选的实现方式中，上述执行主体可以通过执行如下方式执行
上述步骤201：
66.第一，基于所获取的目标旋律音频的节奏点信息，从目标旋律音频中确定出待匹配歌词文本的音频片段，得到音频片段集合。
67.作为示例，上述执行主体可以根据节奏点信息确定目标旋律音频的节奏点特征，通过计算旋律音频中速度变化最剧烈的位置做打点操作。基于打点操作，可以将旋律音频分成多个音频片段，每个音频片段待进行匹配文本，旋律音频中所有的音频片段组合为音频片段集合。
68.第二，确定音频片段集合中音频片段的目标音频帧的音频帧特征。
69.其中，音频帧特征包括目标音频帧的音频特征、目标音频帧所属的目标音频片段的音频特征和目标音频片段相邻的音频片段的音频特征。
70.作为示例，对于所得到的音频片段集合中的每个音频片段，每隔预设数量的音频帧，确定当前音频帧(目标音频帧)数值的大小、速度等音频特征，以及目标音频帧所属的目标音频片段的开始位置、结束位置处的音频帧的数值大小、速度等音频特征，以及目标音频片段的下一个音频片段的开始位置、结束位置处的音频帧的数值大小、速度等音频特征。所得到的目标音频帧的音频特征、目标音频帧所属的目标音频片段的音频特征和目标音频片段相邻的音频片段的音频特征，可以作为一组向量表征当前音频帧的音频帧特征，用于在k维树中的匹配操作。
71.第三，基于音频帧特征，从k维树中进行搜索，确定目标旋律音频对应的目标歌词文本。
72.本实现方式中，首先确定目标旋律音频待进行歌词文本匹配的音频片段，进而确定音频片段的目标音频帧的音频帧特征，以在k维树中搜索确定目标歌词文本，提高了所确定的歌词文本的准确度。
73.在本实施例的一些可选的实现方式中，对于每个种类的旋律音频，上述执行主体或与上述执行主体通信连接的电子设备中设置有对应于该种类的旋律音频的一个k维树。本实现方式中，上述执行主体可以通过如下方式执行上述第三步骤：
74.首先，确定目标旋律音频所属的目标种类；然后，基于音频帧特征，从目标种类对应的k维树中进行搜索，确定目标旋律音频对应的目标歌词文本。
75.作为示例，上述执行主体可以通过预训练的旋律分类模型确定目标旋律音频所属的目标种类。其中，旋律分类模型用于确定目标旋律音频所属的目标种类，可以基于卷积神经网络、残差神经网络等神经网络训练得到。
76.作为又一示例，上述执行主体可以将目标旋律音频以预设时长(例如，2秒)进行音频片段分割，将音频片段输入到wav2vec模型，该模型可以输出一个特征向量以指代当前输入的音频片段的特征。进而，使用该特征向量与预先设置的多种类别向量进行距离度量，将距离最近的类别向量所表征的类别确定为目标旋律音频所属的目标种类。
77.本实现方式中，每个种类的旋律音频对应一个k维树，以使得上述执行主体可以根据目标旋律音频所属的种类对应的k维树进行搜索，提高了歌词文本搜素过程的针对性和准确度。
78.在本实施例的一些可选的实现方式中，上述执行主体可以通过如下方式以根据节奏点信息，调整初始音频：
79.首先，确定目标歌词文本中的各文本单元在初始音频中的发音时间范围；根据节奏点信息和发音时间范围，将初始音频参照目标旋律音频进行适配。
80.具体的，上述执行主体可以使用vosk(一种开源的自动语音识别工具)检测歌词文本中的各文本单元在初始音频中的发音时间范围。发音时间范围表征文本单元在音频中的发音持续时间。
81.作为示例，上述执行主体可以首先确定歌词文本中的每个单字在初始音频中的发音时间范围；然后，对歌词文本进行分词，得到歌词文本中包括的、分词后的文本单元；最后，对于每个文本单元，将该文本单元中包括的单字的发音时间范围组合得到该文本单元对应的发音时间范围。
82.旋律音频中的节奏点信息往往与歌词中的文本单元息息相关。上述执行主体可以确定节奏点信息与文本单元之间的匹配关系；进而，通过拉伸、压缩初始音频中的发音时间范围的方式去匹配目标旋律音频中的节奏点时长。
83.继续参考图5，示出了将初始音频参照目标旋律音频进行适配的示意图500。对于初始音频501中的每个文本单元对应的发音时间范围，将该文本单元对应的发音时间范围与目标旋律音频502中对应的节奏点信息的时长进行对齐。
84.本实现方式中，提供了一种根据目标旋律音频的节奏点信息和初始音频的发音时间范围，调整初始音频的方式，使得调整后的初始音频更加与目标旋律音频相符，从而提高了基于目标旋律音频所得到的唇动信息的准确度。
85.在本实施例的一些可选的实现方式中，上述执行主体还可以通过如下方式调整初始音频：
86.首先，根据节奏点信息，确定目标旋律音频的音频风格信息。
87.音频风格信息具体可以表现为目标旋律音频的音调、频率等音频属性信息。
88.然后，根据音频风格信息调整适配后的初始音频，得到目标音频。
89.本实现方式中，上述执行主体可以参照目标旋律音频的音频风格信息，调整初始音频的音调、频率等信息，使得目标音频的音频风格信息与目标旋律音频的音频风格信息相匹配。
90.请继续参考图6，示出了根据目标旋律音频的音频风格信息调整适配后的初始音频601得到目标音频602的示意图600。
91.本实现方式中，在调整初始音频中的每个文本单元的发音时间范围的基础上，进一步参照目标旋律音频的音频风格信息调整初始音频，使得得到的目标音频更加与目标旋律音频相适配，进一步贴进目标旋律音频对应的歌曲音频中的人声音频，从而可以进一步提高基于目标旋律音频所得到的唇动信息的准确度。
92.在本实施例的一些可选的实现方式中，上述执行主体通过如下方式调整初始音频的音频风格：对于节奏点信息中的每个节奏点，通过该节奏点对应的音频风格信息，调整适配后的初始音频中与该节奏点适配的音频片段，得到目标音频。
93.节奏点表征目标旋律音频中的相邻节奏点构成的集。对于相对应的节奏点和初始音频中的音频片段，通过该节奏点对应的音频风格信息调整该音频片段。
94.本实现方式中，在音频风格调整的过程中，逐部分进行风格调整，使得得到的目标音频更加与目标旋律音频相适配，进一步贴进目标旋律音频对应的歌曲音频。
95.在本实施例的一些可选的实现方式中，上述执行主体可以通过如下方式确定目标音频的音频特征：
96.第一，从预设编码集合中确定所选择的发音人的目标编码信息。
97.其中，预设编码集合中的编码信息表征不同的旋律音频对应的不同发音人。
98.第二，根据目标编码信息对应的目标发音人的语音属性信息和目标音频的音频属性信息，对目标音频进行归一化。
99.目标发音人的语音属性信息可以是表征发音人的发音特征的信息。作为示例，语音属性信息可以是音高、音高均值等语音属性信息。目标音频的音频属性信息可以是表征目标音频的音频特征的信息。作为示例，音频属性信息可以是音高、音高均值等音频属性信息。
100.第二，提取归一化后的目标音频的自相关特征，作为音频特征。
101.自相关特征，也叫序列相关特征，是一个语音信号与其自身在不同时间点的互相关。
102.作为示例，对于目标音频中每一个大小为385毫秒的音频窗口，把音频分成64个音频片段，对每个音频片段提取长度为32个分量的自相关系数，组成64
×
32维的自相关特征作为目标音频的音频特征。选择自相关特征的原因是其与语音音素强相关，音素与嘴型强相关，可以提高信息确定模型的泛化效果。
103.基于64
×
32维的自相关特征和32长度的目标编码信息，可以得到65
×
32维的信息作为唇动信息确定模型的输入。
104.本实现方式中，基于目标发音人的语音属性信息和目标音频的音频属性信息，对目标音频进行归一化，进而提取归一化后的目标音频的自相关特征，进一步提高了得到的唇动信息的准确度。
105.在本实施例的一些可选的实现方式中，上述执行主体可以通过如下方式执行上述第二步骤：
106.首先，根据目标发音人的音高最大值和目标音频的音高最大值，确定目标最大值；然后，根据目标发音人的音高均值和目标音频的音高均值，确定目标均值；最后，根据目标最大值和目标均值，对目标音频进行归一化。
107.作为示例，根据目标发音人的音高最大值和目标音频的音高最大值，确定两者的均值、加权平均值作为目标最大值；类似的，根据目标发音人的音高均值和目标音频的音高均值，确定两者的均值、加权平均值作为目标均值。
108.进而，上述执行护体可以通过如下公式对目标音频进行归一化：
[0109][0110]
其中，xn、x分别表示归一化后的音频和归一化前的音频，xmean、xmax分别表示目标均值和目标最大值。
[0111]
本实现方式中，提供了对目标音频进行归一化的具体实现方式，提高了归一化过程的可行性和准确度。
[0112]
继续参考图7，示出了根据本公开的数字人驱动方法的又一个实施例的示意性流程700，包括以下步骤：
[0113]
步骤701，基于所获取的目标旋律音频的节奏点信息，从目标旋律音频中确定出待匹配歌词文本的音频片段，得到音频片段集合。
[0114]
步骤702，确定音频片段集合中音频片段的目标音频帧的音频帧特征。
[0115]
其中，音频帧特征包括目标音频帧的音频特征、目标音频帧所属的目标音频片段的音频特征和目标音频片段相邻的音频片段的音频特征。
[0116]
步骤703，基于音频帧特征，从k维树中进行搜索，确定目标旋律音频对应的目标歌词文本。
[0117]
步骤704，根据目标歌词文本生成初始音频。
[0118]
步骤705，确定目标歌词文本中的各文本单元在初始音频中的发音时间范围。
[0119]
步骤706，根据节奏点信息和发音时间范围，将初始音频参照目标旋律音频进行适配。
[0120]
步骤707，根据节奏点信息，确定目标旋律音频的音频风格信息。
[0121]
步骤708，根据音频风格信息调整适配后的初始音频，得到目标音频。
[0122]
步骤709，从预设编码集合中确定所选择的发音人的目标编码信息。
[0123]
其中，预设编码集合中的编码信息表征不同的旋律音频对应的不同发音人。
[0124]
步骤710，根据目标编码信息对应的目标发音人的语音属性信息和目标音频的音频属性信息，对目标音频进行归一化。
[0125]
步骤711，提取归一化后的目标音频的自相关特征，作为音频特征。
[0126]
步骤712，根据音频特征和目标编码信息，通过预训练的唇动信息确定模型得到唇动信息。
[0127]
其中，唇动信息确定模型用于表征音频特征、目标编码信息和唇动信息之间的对应关系。
[0128]
步骤713，以目标音频为数字人的语音，以唇动信息为数字人的唇动驱动信息，驱动数字人运行。
[0129]
请继续参考图8，示出了图7对应的实施例的信息流向示意图800。
[0130]
从本实施例中可以看出，与图2对应的实施例相比，本实施例中的数字人驱动方法的流程700具体说明了目标音频的得到过程、目标音频的音频特征的得到过程，以及通过唇动信息和目标歌曲驱动数字人运行的过程，提高了唇动信息的准确度和数字人的唇动展示效果，基于旋律音频实现了数字人唱歌的效果。
[0131]
继续参考图9，示出了根据本公开的唇动信息确定模型的训练方法的一个实施例的示意性流程900，包括以下步骤：
[0132]
步骤901，基于所获取的旋律音频的节奏点信息，从表征旋律音频和歌词文本之间的对应关系的k维树中进行搜索，确定旋律音频对应的目标歌词文本。
[0133]
本实施例中，唇动信息确定模型的训练方法的执行主体(例如，图1中的终端设备或服务器)可以基于有线网络连接方式或无线网络连接方式从远程，或从本地获取旋律音频，并基于所获取的旋律音频的节奏点信息，从表征旋律音频和歌词文本之间的对应关系的k维树中进行搜索，确定旋律音频对应的目标歌词文本。
[0134]
旋律音频为只包括旋律数据而不包括歌声数据的音频。在音乐领域，旋律音频可以是任意歌手发行的歌曲音频中的旋律数据。
[0135]
通过旋律音频自动打点技术，可以确定旋律音频中所有的节奏点位置，以确定旋律音频的节奏点信息。
[0136]
在得到旋律的节奏点信息之后，上述执行主体可以从表征旋律音频和歌词文本之间的对应关系的k维树中进行搜索，确定旋律音频对应的目标歌词文本。k维树是用k维超平面分割k维空间中点集的二叉树数据结构。
[0137]
本实现方式中，上述执行主体可以基于相对应的歌词文本的特征向量与旋律音频的特征向量，构建向量对，进而根据多个向量对建立kd-tree(k维树)。
[0138]
步骤902，根据目标歌词文本生成初始音频。
[0139]
本实施例中，上述执行主体可以根据目标歌词文本生成初始音频。
[0140]
作为示例，上述执行主体可以通过tts技术，得到歌词文本对应的机器音频，作为初始音频。
[0141]
步骤903，根据节奏点信息，调整初始音频，得到样本音频，并确定样本音频的音频特征。
[0142]
本实施例中，上述执行主体可以根据节奏点信息，调整初始音频，得到样本音频，并确定样本音频的音频特征。
[0143]
作为示例，上述执行主体可以根据目标旋律音频的节奏点信息所表征的节奏调整初始音频，使得初始音频的节奏与旋律音频的节奏相适配；进而，上述执行主体可以通过特征提取网络对样本音频进行特征提取，得到样本音频的音频特征。作为示例，特征提取网络可以是卷积神经网络、循环神经网络等网络模型。
[0144]
需要说明的是，对于一个或多个旋律音频，上述执行主体可以得到多个样本音频。
[0145]
步骤904，基于同一样本音频对应的音频特征和唇动信息，生成训练样本，以得到训练样本集。
[0146]
本实施例中，上述执行主体可以基于同一样本音频对应的音频特征和唇动信息，生成训练样本，以得到训练样本集。其中，唇动信息基于与旋律音频匹配的初始视频得到。
[0147]
作为示例，将同一样本音频对应的音频特征和唇动信息分别作为训练样本的样本特征数据和标签，以组合多个训练样本，得到训练样本集。
[0148]
需要说明的是，相适配的旋律音频和视频可以是不同的发音人对应的数据。同一发音人对应的旋律音频和视频相匹配。旋律音频存在匹配的人声音频，旋律音频和视频相匹配表征对于旋律音频中的每一旋律音频帧，视频中包括表征发出该旋律音频帧对应的人声音频帧的语音时的面部动作的视频帧。
[0149]
作为示例，初始旋律音频是一个歌曲的旋律音频，初始视频为歌手演唱该歌曲的视频。
[0150]
上述执行主体可以首先对视频中的发音人对象进行逐帧的人脸位置检测，然后使用三维参数化人脸模型对人脸部分进行面部表情重建，得到唇动信息。
[0151]
步骤905，采用机器学习算法，将音频特征作为输入，将所输入的音频特征对应的唇动信息标签作为期望输出，训练初始唇动信息确定模型，得到训练后的唇动信息确定模型。
[0152]
本实施例中，上述执行主体可以采用机器学习算法，将音频特征作为输入，将所输入的音频特征对应的唇动信息标签作为期望输出，训练初始唇动信息确定模型，得到训练
后的唇动信息确定模型。
[0153]
在训练过程中，上述执行主体可以从训练样本集中选取未经过训练的训练样本，将该训练样本中的音频特征作为初始唇动信息确定模型的输入，得到实际唇动信息；进而确定实际唇动信息与唇动信息标签之间的损失，进而根据损失信息确定梯度信息，采用梯度下降法更新初始唇动信息确定模型的参数。
[0154]
通过循环执行上述训练操作，响应于达到预设结束条件，得到训练后的唇动信息确定模型。其中，预设结束条件例如可以是训练时间超过预设时间阈值，训练次数超过预设次数阈值，训练损失收敛。
[0155]
在一些可选的实现方式中，训练样本中还包括样本音频对应的发音人的编码信息。本实现方式中，上述执行主体可以采用机器学习算法，将音频特征、编码信息作为输入，将所输入的音频特征、编码信息对应的唇动信息标签作为期望输出，训练得到唇动信息确定模型。
[0156]
训练后的唇动信息确定模型用于实现上述实施例200中的数字人驱动方法，不同的训练样本对应的发音人的编码信息构成预设编码集合。
[0157]
本实现方式中，通过对不同的发音人进行编码识别，使得唇动信息确定模型在训练过程中兼容了不同的发音人，提高了唇动信息确定模型对于输入的语音的泛化效果和得到的唇动信息的准确度。
[0158]
在本实施例的一些可选的实现方式中，上述执行主体可以通过如下方式执行上述步骤901：
[0159]
第一，基于所获取的旋律音频的节奏点信息，从旋律音频中确定出待匹配歌词文本的音频片段，得到音频片段集合。
[0160]
作为示例，上述执行主体可以根据节奏点信息确定旋律音频的节奏点特征，通过计算旋律音频中速度变化最剧烈的位置做打点操作。基于打点操作，可以将旋律音频分成多个音频片段，每个音频片段待进行匹配文本，旋律音频中所有的音频片段组合为音频片段集合。
[0161]
第二，确定音频片段集合中音频片段的目标音频帧的音频帧特征。
[0162]
其中，音频帧特征包括目标音频帧的音频特征、目标音频帧所属的目标音频片段的音频特征和目标音频片段相邻的音频片段的音频特征。
[0163]
作为示例，对于所得到的音频片段集合中的每个音频片段，每隔预设数量的音频帧，确定当前音频帧(目标音频帧)数值的大小、速度等音频特征，以及目标音频帧所属的目标音频片段的开始位置、结束位置处的音频帧的数值大小、速度等音频特征，以及目标音频片段的下一个音频片段的开始位置、结束位置处的音频帧的数值大小、速度等音频特征。所得到的目标音频帧的音频特征、目标音频帧所属的目标音频片段的音频特征和目标音频片段相邻的音频片段的音频特征，可以作为一组向量表征当前音频帧的音频帧特征，用于在k维树中的匹配操作。
[0164]
第三，基于音频帧特征，从k维树中进行搜索，确定旋律音频对应的目标歌词文本。
[0165]
本实现方式中，首先确定旋律音频待进行歌词文本匹配的音频片段，进而确定音频片段的目标音频帧的音频帧特征，以在k维树中搜索确定目标歌词文本，提高了所确定的歌词文本的准确度。
[0166]
在本实施例的一些可选的实现方式中，对于每个种类的旋律音频，上述执行主体或与上述执行主体通信连接的电子设备中设置有对应于该种类的旋律音频的一个k维树。本实现方式中，上述执行主体可以通过如下方式执行上述第三步骤：
[0167]
首先，确定旋律音频所属的目标种类；然后，基于音频帧特征，从目标种类对应的k维树中进行搜索，确定旋律音频对应的目标歌词文本。
[0168]
作为示例，上述执行主体可以通过预训练的旋律分类模型确定旋律音频所属的目标种类。其中，旋律分类模型用于确定旋律音频所属的目标种类，可以基于卷积神经网络、残差神经网络等神经网络训练得到。
[0169]
作为又一示例，上述执行主体可以将旋律音频以预设时长(例如，2秒)进行音频片段分割，将音频片段输入到wav2vec模型，该模型可以输出一个特征向量以指代当前输入的音频片段的特征。进而，使用该特征向量与预先设置的多种类别向量进行距离度量，将距离最近的类别向量所表征的类别确定为目标旋律音频所属的目标种类。
[0170]
本实现方式中，每个种类的旋律音频对应一个k维树，以使得上述执行主体可以根据旋律音频所属的种类对应的k维树进行搜索，提高了歌词文本搜素过程的针对性和准确度。
[0171]
在本实施例的一些可选的实现方式中，上述执行主体可以通过如下方式以根据节奏点信息，调整初始音频：
[0172]
首先，确定目标歌词文本中的各文本单元在初始音频中的发音时间范围；根据节奏点信息和发音时间范围，将初始音频参照旋律音频进行适配。
[0173]
具体的，上述执行主体可以使用vosk(一种开源的自动语音识别工具)检测歌词文本中的各文本单元在初始音频中的发音时间范围。发音时间范围表征文本单元在音频中的发音持续时间。
[0174]
作为示例，上述执行主体可以首先确定歌词文本中的每个单字在初始音频中的发音时间范围；然后，对歌词文本进行分词，得到歌词文本中包括的、分词后的文本单元；最后，对于每个文本单元，将该文本单元中包括的单字的发音时间范围组合得到该文本单元对应的发音时间范围。
[0175]
旋律音频中的节奏点信息往往与歌词中的文本单元息息相关。上述执行主体可以确定节奏点信息与文本单元之间的匹配关系；进而，通过拉伸、压缩初始音频中的发音时间范围的方式去匹配旋律音频中的节奏点时长。
[0176]
本实现方式中，提供了一种根据旋律音频的节奏点信息和初始音频的发音时间范围，调整初始音频的方式，使得调整后的初始音频更加与旋律音频相符，从而提高了基于旋律音频所得到的唇动信息的准确度。
[0177]
在本实施例的一些可选的实现方式中，上述执行主体还可以通过如下方式调整初始音频：
[0178]
首先，根据节奏点信息，确定旋律音频的音频风格信息。
[0179]
音频风格信息具体可以表现为旋律音频的音调、频率等音频属性信息。
[0180]
然后，根据音频风格信息调整适配后的初始音频，得到目标音频。
[0181]
本实现方式中，上述执行主体可以参照旋律音频的音频风格信息，调整初始音频的音调、频率等信息，使得目标音频的音频风格信息与旋律音频的音频风格信息相匹配。
[0182]
本实现方式中，在调整初始音频中的每个文本单元的发音时间范围的基础上，进一步参照旋律音频的音频风格信息调整初始音频，使得得到的目标音频更加与旋律音频相适配，进一步贴进旋律音频对应的歌曲音频中的人声音频，从而可以进一步提高基于旋律音频所得到的唇动信息的准确度。
[0183]
在本实施例的一些可选的实现方式中，上述执行主体通过如下方式调整初始音频的音频风格：对于节奏点信息中的每个节奏点，通过该节奏点对应的音频风格信息，调整适配后的初始音频中与该节奏点适配的音频片段，得到目标音频。
[0184]
节奏点表征旋律音频中的相邻节奏点构成的集。对于相对应的节奏点和初始音频中的部分音频，通过该节奏点对应的音频风格信息调整该部分音频。
[0185]
本实现方式中，在音频风格调整的过程中，逐部分进行风格调整，使得得到的目标音频更加与旋律音频相适配，进一步贴进旋律音频对应的歌曲音频。
[0186]
在本实施例的一些可选的实现方式中，上述执行主体可以通过如下方式确定目标音频的音频特征：
[0187]
第一，从预设编码集合中确定所选择的发音人的目标编码信息。
[0188]
其中，预设编码集合中的编码信息表征不同的旋律音频对应的不同发音人。
[0189]
第二，根据目标编码信息对应的目标发音人的语音属性信息和目标音频的音频属性信息，对目标音频进行归一化。
[0190]
目标发音人的语音属性信息可以是表征发音人的发音特征的信息。作为示例，语音属性信息可以是音高、音高均值等语音属性信息。目标音频的音频属性信息可以是表征目标音频的音频特征的信息。作为示例，音频属性信息可以是音高、音高均值等音频属性信息。
[0191]
第二，提取归一化后的目标音频的自相关特征，作为音频特征。
[0192]
自相关特征，也叫序列相关特征，是一个语音信号与其自身在不同时间点的互相关。
[0193]
作为示例，对于目标音频中每一个大小为385毫秒的音频窗口，把音频分成64个音频片段，对每个音频片段提取长度为32个分量的自相关系数，组成64
×
32维的自相关特征作为目标音频的音频特征。选择自相关特征的原因是其与语音音素强相关，音素与嘴型强相关，可以提高信息确定模型的泛化效果。
[0194]
基于64
×
32维的自相关特征和32长度的目标编码信息，可以得到65
×
32维的信息作为唇动信息确定模型的输入。
[0195]
本实现方式中，基于目标发音人的语音属性信息和目标音频的音频属性信息，对目标音频进行归一化，进而提取归一化后的目标音频的自相关特征，进一步提高了得到的唇动信息的准确度。
[0196]
在本实施例的一些可选的实现方式中，上述执行主体可以通过如下方式执行上述第二步骤：
[0197]
首先，根据目标发音人的音高最大值和目标音频的音高最大值，确定目标最大值；然后，根据目标发音人的音高均值和目标音频的音高均值，确定目标均值；最后，根据目标最大值和目标均值，对目标音频进行归一化。
[0198]
作为示例，根据目标发音人的音高最大值和目标音频的音高最大值，确定两者的
均值、加权平均值作为目标最大值；类似的，根据目标发音人的音高均值和目标音频的音高均值，确定两者的均值、加权平均值作为目标均值。
[0199]
进而，上述执行护体可以通过如下公式对目标音频进行归一化：
[0200][0201]
其中，xn、x分别表示归一化后的音频和归一化前的音频，x
mean
、x
max
分别表示目标均值和目标最大值。
[0202]
本实现方式中，提供了对目标音频进行归一化的具体实现方式，提高了归一化过程的可行性和准确度。
[0203]
继续参考图10，作为对上述各图所示方法的实现，本公开提供了一种数字人驱动装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。
[0204]
如图10所示，数字人驱动装置包括：第一确定单元1001，被配置成基于所获取的目标旋律音频的节奏点信息，从表征旋律音频和歌词文本之间的对应关系的k维树中进行搜索，确定目标旋律音频对应的目标歌词文本；第一生成单元1002，被配置成根据目标歌词文本生成初始音频；第二确定单元1003，被配置成根据节奏点信息，调整初始音频，得到目标音频，并确定目标音频的音频特征；第三确定单元1004，被配置成根据音频特征确定唇动信息；驱动单元，被配置成以目标音频为数字人的语音，以唇动信息为数字人的唇动驱动信息，驱动数字人运行。
[0205]
在本实施例的一些可选的实现方式中，第一确定单元1001，进一步被配置成：基于所获取的目标旋律音频的节奏点信息，从目标旋律音频中确定出待匹配歌词文本的音频片段，得到音频片段集合；确定音频片段集合中音频片段的目标音频帧的音频帧特征，其中，音频帧特征包括目标音频帧的音频特征、目标音频帧所属的目标音频片段的音频特征和目标音频片段相邻的音频片段的音频特征；基于音频帧特征，从k维树中进行搜索，确定目标旋律音频对应的目标歌词文本。
[0206]
在本实施例的一些可选的实现方式中，不同种类的旋律音频对应设有不同的k维树，以及第一确定单元1001，进一步被配置成：确定目标旋律音频所属的目标种类；基于音频帧特征，从目标种类对应的k维树中进行搜索，确定目标旋律音频对应的目标歌词文本。
[0207]
在本实施例的一些可选的实现方式中，第二确定单元1003，进一步被配置成：确定目标歌词文本中的各文本单元在初始音频中的发音时间范围；根据节奏点信息和发音时间范围，将初始音频参照目标旋律音频进行适配。
[0208]
在本实施例的一些可选的实现方式中，第二确定单元1003，进一步被配置成：根据节奏点信息，确定目标旋律音频的音频风格信息；根据音频风格信息调整适配后的初始音频，得到目标音频。
[0209]
在本实施例的一些可选的实现方式中，第二确定单元1003，进一步被配置成：对于节奏点信息中的每个节奏点，通过该节奏点对应的音频风格信息，调整适配后的初始音频中与该节奏点适配的音频片段，得到目标音频。
[0210]
在本实施例的一些可选的实现方式中，第二确定单元1003，进一步被配置成：从预设编码集合中确定所选择的发音人的目标编码信息，其中，预设编码集合中的编码信息表
征不同的旋律音频对应的不同发音人；根据目标编码信息对应的目标发音人的语音属性信息和目标音频的音频属性信息，对目标音频进行归一化；提取归一化后的目标音频的自相关特征，作为音频特征。
[0211]
在本实施例的一些可选的实现方式中，第二确定单元1003，进一步被配置成：根据目标发音人的音高最大值和目标音频的音高最大值，确定目标最大值；根据目标发音人的音高均值和目标音频的音高均值，确定目标均值；根据目标最大值和目标均值，对目标音频进行归一化。
[0212]
本实施例中，提供了一种数字人驱动装置，基于获取的旋律音频的节奏点信息进行k维树搜索确定旋律音频对应的歌词文本，提高了所确定的歌词文本的准确度；并根据节奏点信息调整基于歌词文本生成的初始音频，使得调整初始音频所得到的目标音频更加贴合旋律音频对应的原歌声音频；进而，得到调整后的目标音频的音频特征，以根据音频特征确定唇动信息，根据唇动信息和目标音频驱动数字人运行，从而提高了基于旋律音频驱动数字人唱歌的展示效果。
[0213]
继续参考图11，作为对上述各图所示方法的实现，本公开提供了一种唇动信息确定模型的训练装置的一个实施例，该装置实施例与图9所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。
[0214]
如图11所示，唇动信息确定模型的训练装置包括：第四确定单元1101，被配置成基于所获取的旋律音频的节奏点信息，从表征旋律音频和歌词文本之间的对应关系的k维树中进行搜索，确定旋律音频对应的目标歌词文本；第二生成单元1102，被配置成根据目标歌词文本生成初始音频；第五确定单元1103，被配置成根据节奏点信息，调整初始音频，得到样本音频，并确定样本音频的音频特征；第三生成单元1104，被配置成基于同一样本音频对应的音频特征和唇动信息，生成训练样本，以得到训练样本集，其中，唇动信息基于与旋律音频匹配的初始视频得到；训练单元1105，被配置成采用机器学习算法，将音频特征作为输入，将所输入的音频特征对应的唇动信息标签作为期望输出，训练初始唇动信息确定模型，得到训练后的唇动信息确定模型。
[0215]
在本实施例的一些可选的实现方式中，第四确定单元1101，进一步被配置成：基于所获取的旋律音频的节奏点信息，从旋律音频中确定出待匹配歌词文本的音频片段，得到音频片段集合；确定音频片段集合中音频片段的目标音频帧的音频帧特征，其中，音频帧特征包括目标音频帧的音频特征、目标音频帧所属的目标音频片段的音频特征和目标音频片段相邻的音频片段的音频特征；基于音频帧特征，从k维树中进行搜索，确定旋律音频对应的目标歌词文本。
[0216]
在本实施例的一些可选的实现方式中，不同种类的旋律音频对应设有不同的k维树，以及第四确定单元1101，进一步被配置成：确定旋律音频所属的目标种类；基于音频帧特征，从目标种类对应的k维树中进行搜索，确定旋律音频对应的目标歌词文本。
[0217]
在本实施例的一些可选的实现方式中，第五确定单元1103，进一步被配置成：确定目标歌词文本中的各文本单元在初始音频中的发音时间范围；根据节奏点信息和发音时间范围，将初始音频参照旋律音频进行适配。
[0218]
在本实施例的一些可选的实现方式中，第五确定单元1103，根据节奏点信息，确定旋律音频的音频风格信息；根据音频风格信息调整适配后的初始音频，得到样本音频。
[0219]
在本实施例的一些可选的实现方式中，第五确定单元1103，进一步被配置成：对于节奏点信息中的每个节奏点，通过该节奏点对应的音频风格信息，调整适配后的初始音频中与该节奏点适配的音频片段，得到样本音频。
[0220]
在本实施例的一些可选的实现方式中，第五确定单元1103，进一步被配置成：从预设编码集合中确定所选择的发音人的目标编码信息，其中，预设编码集合中的编码信息表征不同的旋律音频对应的不同发音人；根据目标编码信息对应的目标发音人的语音属性信息和样本音频的音频属性信息，对样本音频进行归一化；提取归一化后的样本音频的自相关特征，作为音频特征。
[0221]
在本实施例的一些可选的实现方式中，第五确定单元1103，进一步被配置成：根据目标发音人的音高最大值和样本音频的音高最大值，确定目标最大值；根据目标发音人的音高均值和样本音频的音高均值，确定目标均值；根据目标最大值和目标均值，对样本音频进行归一化。
[0222]
本实施例中，提供了唇动信息确定模型的训练装置，提高了唇动信息确定模型对于输入的语音的泛化效果和得到的唇动信息的准确度。
[0223]
根据本公开的实施例，本公开还提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器执行时能够实现上述任意实施例所描述的数字人驱动方法、唇动信息确定模型的训练方法。
[0224]
根据本公开的实施例，本公开还提供了一种可读存储介质，该可读存储介质存储有计算机指令，该计算机指令用于使计算机执行时能够实现上述任意实施例所描述的数字人驱动方法、唇动信息确定模型的训练方法。
[0225]
本公开实施例提供了一种计算机程序产品，该计算机程序在被处理器执行时能够实现上述任意实施例所描述的数字人驱动方法、唇动信息确定模型的训练方法。
[0226]
图12示出了可以用来实施本公开的实施例的示例电子设备1200的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0227]
如图12所示，设备1200包括计算单元1201，其可以根据存储在只读存储器(rom)1202中的计算机程序或者从存储单元1208加载到随机访问存储器(ram)1203中的计算机程序，来执行各种适当的动作和处理。在ram 1203中，还可存储设备1200操作所需的各种程序和数据。计算单元1201、rom 1202以及ram 1203通过总线1204彼此相连。输入/输出(i/o)接口1205也连接至总线1204。
[0228]
设备1200中的多个部件连接至i/o接口1205，包括：输入单元1206，例如键盘、鼠标等；输出单元1207，例如各种类型的显示器、扬声器等；存储单元1208，例如磁盘、光盘等；以及通信单元1209，例如网卡、调制解调器、无线通信收发机等。通信单元1209允许设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0229]
计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算
单元1201的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理，例如数字人驱动方法。例如，在一些实施例中，数字人驱动方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1208。在一些实施例中，计算机程序的部分或者全部可以经由rom 1202和/或通信单元1209而被载入和/或安装到设备1200上。当计算机程序加载到ram 1203并由计算单元1201执行时，可以执行上文描述的数字人驱动方法的一个或多个步骤。备选地，在其他实施例中，计算单元1201可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行数字人驱动方法。
[0230]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0231]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0232]
在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0233]
为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0234]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界
面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
[0235]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(vps，virtual private server)服务中存在的管理难度大，业务扩展性弱的缺陷；也可以为分布式系统的服务器，或者是结合了区块链的服务器。
[0236]
根据本公开实施例的技术方案，提供了一种数字人驱动方法，基于获取的旋律音频的节奏点信息进行k维树搜索以确定旋律音频对应的歌词文本，提高了所确定的歌词文本的准确度；并根据节奏点信息调整基于歌词文本生成的初始音频，使得调整初始音频所得到的目标音频更加贴合旋律音频对应的原歌声音频；进而，得到调整后的目标音频的音频特征，以根据音频特征确定唇动信息，根据唇动信息和目标音频驱动数字人运行，从而提高了基于旋律音频驱动数字人唱歌的展示效果。
[0237]
应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提供的技术方案所期望的结果，本文在此不进行限制。
[0238]
上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

技术特征：

1.一种数字人驱动方法，包括：基于所获取的目标旋律音频的节奏点信息，从表征旋律音频和歌词文本之间的对应关系的k维树中进行搜索，确定所述目标旋律音频对应的目标歌词文本；根据所述目标歌词文本生成初始音频；根据所述节奏点信息，调整所述初始音频，得到目标音频，并确定所述目标音频的音频特征；根据所述音频特征确定唇动信息；以所述目标音频为数字人的语音，以所述唇动信息为所述数字人的唇动驱动信息，驱动所述数字人运行。2.根据权利要求1所述的方法，其中，所述基于所获取的目标旋律音频的节奏点信息，从表征旋律音频和歌词文本之间的对应关系的k维树中进行搜索，确定所述目标旋律音频对应的目标歌词文本，包括：基于所获取的目标旋律音频的节奏点信息，从所述目标旋律音频中确定出待匹配歌词文本的音频片段，得到音频片段集合；确定所述音频片段集合中音频片段的目标音频帧的音频帧特征，其中，所述音频帧特征包括所述目标音频帧的音频特征、所述目标音频帧所属的目标音频片段的音频特征和所述目标音频片段相邻的音频片段的音频特征；基于所述音频帧特征，从所述k维树中进行搜索，确定所述目标旋律音频对应的目标歌词文本。3.根据权利要求2所述的方法，其中，不同种类的旋律音频对应设有不同的k维树，以及所述基于所述音频帧特征，从所述k维树中进行搜索，确定所述目标旋律音频对应的目标歌词文本，包括：确定所述目标旋律音频所属的目标种类；基于所述音频帧特征，从所述目标种类对应的k维树中进行搜索，确定所述目标旋律音频对应的目标歌词文本。4.根据权利要求1所述的方法，其中，所述根据所述节奏点信息，调整所述初始音频，包括：确定所述目标歌词文本中的各文本单元在所述初始音频中的发音时间范围；根据所述节奏点信息和所述发音时间范围，将所述初始音频参照所述目标旋律音频进行适配。5.根据权利要求4所述的方法，其中，所述根据所述节奏点信息，调整所述初始音频，得到目标音频，还包括：根据所述节奏点信息，确定所述目标旋律音频的音频风格信息；根据所述音频风格信息调整适配后的初始音频，得到所述目标音频。6.根据权利要求5所述的方法，其中，所述根据所述音频风格信息调整适配后的初始音频，得到所述目标音频，包括：对于所述节奏点信息中的每个节奏点，通过该节奏点对应的音频风格信息，调整适配后的初始音频中与该节奏点适配的音频片段，得到所述目标音频。7.根据权利要求1所述的方法，其中，所述确定所述目标音频的音频特征，包括：
从预设编码集合中确定所选择的发音人的目标编码信息，其中，所述预设编码集合中的编码信息表征不同的旋律音频对应的不同发音人；根据所述目标编码信息对应的目标发音人的语音属性信息和所述目标音频的音频属性信息，对所述目标音频进行归一化；提取归一化后的目标音频的自相关特征，作为所述音频特征。8.根据权利要求7所述的方法，其中，所述根据所述目标编码信息对应的目标发音人的语音属性信息和所述目标音频的音频属性信息，对所述目标音频进行归一化，包括：根据所述目标发音人的音高最大值和所述目标音频的音高最大值，确定目标最大值；根据所述目标发音人的音高均值和所述目标音频的音高均值，确定目标均值；根据所述目标最大值和所述目标均值，对所述目标音频进行归一化。9.一种唇动信息确定模型的训练方法，包括：基于所获取的旋律音频的节奏点信息，从表征旋律音频和歌词文本之间的对应关系的k维树中进行搜索，确定所述旋律音频对应的目标歌词文本；根据所述目标歌词文本生成初始音频；根据所述节奏点信息，调整所述初始音频，得到样本音频，并确定所述样本音频的音频特征；基于同一样本音频对应的音频特征和唇动信息，生成训练样本，以得到训练样本集，其中，所述唇动信息基于与所述旋律音频匹配的初始视频得到；采用机器学习算法，将音频特征作为输入，将所输入的音频特征对应的唇动信息标签作为期望输出，训练初始唇动信息确定模型，得到训练后的唇动信息确定模型。10.根据权利要求9所述的方法，其中，所述基于所获取的旋律音频的节奏点信息，从表征旋律音频和歌词文本之间的对应关系的k维树中进行搜索，确定所述旋律音频对应的目标歌词文本，包括：基于所获取的旋律音频的节奏点信息，从所述旋律音频中确定出待匹配歌词文本的音频片段，得到音频片段集合；确定所述音频片段集合中音频片段的目标音频帧的音频帧特征，其中，所述音频帧特征包括所述目标音频帧的音频特征、所述目标音频帧所属的目标音频片段的音频特征和所述目标音频片段相邻的音频片段的音频特征；基于所述音频帧特征，从所述k维树中进行搜索，确定所述旋律音频对应的目标歌词文本。11.根据权利要求10所述的方法，其中，不同种类的旋律音频对应设有不同的k维树，以及所述基于所述音频帧特征，从所述k维树中进行搜索，确定所述旋律音频对应的目标歌词文本，包括：确定所述旋律音频所属的目标种类；基于所述音频帧特征，从所述目标种类对应的k维树中进行搜索，确定所述旋律音频对应的目标歌词文本。12.根据权利要求9所述的方法，其中，所述根据所述节奏点信息，调整所述初始音频，包括：
确定所述目标歌词文本中的各文本单元在所述初始音频中的发音时间范围；根据所述节奏点信息和所述发音时间范围，将所述初始音频参照所述旋律音频进行适配。13.根据权利要求12所述的方法，其中，所述根据所述节奏点信息，调整所述初始音频，得到样本音频，还包括：根据所述节奏点信息，确定所述旋律音频的音频风格信息；根据所述音频风格信息调整适配后的初始音频，得到所述样本音频。14.根据权利要求13所述的方法，其中，所述根据所述音频风格信息调整适配后的初始音频，得到所述样本音频，包括：对于所述节奏点信息中的每个节奏点，通过该节奏点对应的音频风格信息，调整适配后的初始音频中与该节奏点适配的音频片段，得到所述样本音频。15.根据权利要求9所述的方法，其中，所述确定所述样本音频的音频特征，包括：从预设编码集合中确定所选择的发音人的目标编码信息，其中，所述预设编码集合中的编码信息表征不同的旋律音频对应的不同发音人；根据所述目标编码信息对应的目标发音人的语音属性信息和所述样本音频的音频属性信息，对所述样本音频进行归一化；提取归一化后的样本音频的自相关特征，作为所述音频特征。16.根据权利要求15所述的方法，其中，所述根据所述目标编码信息对应的目标发音人的语音属性信息和所述样本音频的音频属性信息，对所述样本音频进行归一化，包括：根据所述目标发音人的音高最大值和所述样本音频的音高最大值，确定目标最大值；根据所述目标发音人的音高均值和所述样本音频的音高均值，确定目标均值；根据所述目标最大值和所述目标均值，对所述样本音频进行归一化。17.一种数字人驱动装置，包括：第一确定单元，被配置成基于所获取的目标旋律音频的节奏点信息，从表征旋律音频和歌词文本之间的对应关系的k维树中进行搜索，确定所述目标旋律音频对应的目标歌词文本；第一生成单元，被配置成根据所述目标歌词文本生成初始音频；第二确定单元，被配置成根据所述节奏点信息，调整所述初始音频，得到目标音频，并确定所述目标音频的音频特征；第三确定单元，被配置成根据所述音频特征确定唇动信息；驱动单元，被配置成以所述目标音频为数字人的语音，以所述唇动信息为所述数字人的唇动驱动信息，驱动所述数字人运行。18.一种唇动信息确定模型的训练装置，包括：第四确定单元，被配置成基于所获取的旋律音频的节奏点信息，从表征旋律音频和歌词文本之间的对应关系的k维树中进行搜索，确定所述旋律音频对应的目标歌词文本；第二生成单元，被配置成根据所述目标歌词文本生成初始音频；第五确定单元，被配置成根据所述节奏点信息，调整所述初始音频，得到样本音频，并确定所述样本音频的音频特征；第三生成单元，被配置成基于同一样本音频对应的音频特征和唇动信息，生成训练样
本，以得到训练样本集，其中，所述唇动信息基于与所述旋律音频匹配的初始视频得到；训练单元，被配置成采用机器学习算法，将音频特征作为输入，将所输入的音频特征对应的唇动信息标签作为期望输出，训练初始唇动信息确定模型，得到训练后的唇动信息确定模型。19.一种电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-16中任一项所述的方法。20.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-16中任一项所述的方法。21.一种计算机程序产品，包括：计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-16中任一项所述的方法。

技术总结

本公开提供了一种数字人驱动方法、装置、电子设备、存储介质及计算机程序产品，涉及人工智能领域，具体涉及深度学习、数字人、增强现实、虚拟现实、混合现实、扩展现实、元宇宙等技术。具体实现方案为：基于所获取的目标旋律音频的节奏点信息，从表征旋律音频和歌词文本之间的对应关系的K维树中进行搜索，确定目标旋律音频对应的目标歌词文本；根据目标歌词文本生成初始音频；根据节奏点信息，调整初始音频，得到目标音频，并确定目标音频的音频特征；根据音频特征确定唇动信息；以目标音频为数字人的语音，以唇动信息为数字人的唇动驱动信息，驱动数字人运行。本公开提高了基于旋律音频驱动数字人唱歌的展示效果。动数字人唱歌的展示效果。动数字人唱歌的展示效果。