音频生成方法、装置、电子设备及计算机可读存储介质与流程



1.本发明实施例涉及音源定位技术领域,具体涉及一种音频生成方法、装置、电子设备及计算机可读存储介质。


背景技术:



2.目前,“元宇宙”通常被称为下一代互联网,元宇宙趋势意味着互联网的下一次发展即将到来。在元宇宙中可以将用户真实的外形以及画像映射至虚拟空间中,数字分身可以通过更切实的方式感知现实世界的各个方面,包括社交、娱乐和电子商务。
3.然而,发明人在实施本发明实施例的过程中发现,元宇宙做为新兴技术方向,现有技术中提出了较多的交互方案,同时提出了较多的视觉展示方案,但是却忽视了音频在元宇宙的重要作用。现阶段没有较为成熟的元宇宙音频生成方案,而是和传统游戏制作方案相似,只通过简单音频处理后的音源不能很好的贴合元宇宙的使用场景,音效较差。


技术实现要素:



4.鉴于上述问题,本发明实施例提供了一种音频生成方法,用于解决现有技术中存在的元宇宙场景中音效较差的技术问题。
5.根据本发明实施例的一个方面,提供了一种音频生成方法,所述方法包括:
6.根据虚拟音源的位置及数字分身的位置,得到带有位置效果的第一音频;
7.根据所述数字分身所处的虚拟声学环境,对所述第一音频进行渲染,得到目标音频。
8.在一种可选的方式中,所述根据虚拟音源的位置及数字分身的位置,得到带有位置效果的第一音频,包括:根据虚拟音源的位置及数字分身的位置,确定所述虚拟音源相对于所述数字分身的方位信息;根据所述数字分身的身体特征及所述方位信息,进行听觉模型渲染,得到带有位置效果的第一音频。
9.在一种可选的方式中,所述根据所述数字分身的身体特征及所述方位信息,进行听觉模型渲染,得到带有位置效果的第一音频,包括:获取所述数字分身的听觉模型;根据所述数字分身的身体特征及所述方位信息,以及所述听觉模型,确定所述数字分身对应的目标参数;将所述目标参数与原始音频进行卷积,得到带有位置效果的第一音频。在一种可选的方式中,所述根据所述数字分身的身体特征及所述虚拟音源相对于所述数字分身的方位信息,进行听觉模型渲染,得到带有位置效果的第一音频,包括:获取所述数字分身的听觉模型;所述听觉模型包括所述身体特征及头相关变换函数hrtf参数;所述头相关变换函数参数包括以所述数字分身为中心的多组不同角度下的参数;根据所述数字分身的身体特征及所述方位信息,从所述头相关变换函数参数中确定一组最相似的目标参数;将所述目标参数与原始音频进行卷积,得到带有位置效果的第一音频。
10.在一种可选的方式中,所述方位信息为初始方位向量;所述根据所述数字分身的身体特征及所述方位信息,从所述头相关变换函数参数中确定一组最相似的目标参数,包
括:根据所述听觉模型,确定所述数字分身从地面到耳朵中心的高度;根据所述高度及所述初始方位向量,确定所述虚拟音源到所述数字分身的耳朵的实际方位向量;根据所述实际方位向量从所述听觉模型的头相关变换函数参数中确定一组最相似的目标参数。
11.在一种可选的方式中,所述获取所述数字分身的听觉模型之前,所述方法还包括:提取用户的身体特征点;将所述用户的身体特征点映射至数字分身中,得到所述数字分身的身体特征;根据所述身体特征点在所述用户360
°
方向音频模拟,计算所述虚拟音源传递到所述数字分身各个方向的实际声音,得到所述数字分身对应的头相关变换函数参数;根据所述数字分身的身体特征和所述头相关变换函数参数,构建所述数字分身的听觉模型。
12.在一种可选的方式中,所述听觉模型包括所述身体特征及头相关变换函数参数;所述方位信息为初始方位向量,包括所述音源相对于所述数字分身的方向及距离;所述根据所述数字分身的身体特征及所述方位信息,以及所述听觉模型,确定所述数字分身对应的目标参数,包括:根据所述听觉模型的所述身体特征,确定所述数字分身从地面到耳朵中心的高度;根据所述高度及所述初始方位向量,确定所述虚拟音源到所述数字分身的耳朵的实际方位向量;根据所述实际方位向量从所述听觉模型的头相关变换函数参数中确定一组最相似的参数作为目标参数。
13.在一种可选的方式中,所述根据所述数字分身所处的虚拟声学环境,对所述第一音频进行渲染,得到目标音频,包括:根据所述数字分身所处的虚拟声学环境,进行声学环境模拟,得到虚拟声学环境的目标声音反射模式;根据所述目标声音反射模式对所述第一音频进行二次渲染,得到目标音频。
14.在一种可选的方式中,所述根据所述数字分身所处的虚拟声学环境,进行声学环境模拟,得到虚拟声学环境的目标声音反射模式,包括:通过终端设备扫描用户周边的声学环境,获取所述虚拟声学环境的特征值;根据所述虚拟声学环境的特征值及所述数字分身的位置,计算环境距离;根据所述环境距离进行声学环境模拟,确定目标声音反射模式。
15.在一种可选的方式中,所述目标声音反射模式为所述虚拟声学环境的多个反射模式中的任一个;所示根据所述数字分身所处的虚拟声学环境,进行声学环境模拟,得到虚拟声学环境的目标声音反射模式之前,所述方法还包括:获取与用户不同距离的各个声学环境的各个声学参数;根据各个声学环境与用户的距离以及对应的声学参数,确定所述多个反射模式。
16.在一种可选的方式中,所述根据所述目标声音反射模式对所述第一音频进行二次渲染,得到目标音频之后,所述方法还包括:确定所述数字分身和/或所述虚拟音源是否发生移动;当所述数字分身移动和/或所述虚拟音源发生移动时,重新执行所述根据虚拟音源的位置及数字分身的位置,进行听觉模型渲染,得到带有位置效果的第一音频,根据所述数字分身所处的虚拟声学环境,对所述第一音频进行二次渲染,得到目标音频的步骤。
17.根据本发明实施例的另一方面,提供了一种元宇宙沉浸式音源定位装置,包括:
18.第一渲染模块,用于根据虚拟音源的位置及数字分身的位置,得到带有位置效果的第一音频;
19.二次渲染模块,用于根据所述数字分身所处的虚拟声学环境,对所述第一音频进行渲染,得到目标音频。
20.根据本发明实施例的另一方面,提供了一种电子设备,包括:处理器、存储器、通信
接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
21.所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如所述的音频生成方法的操作。
22.根据本发明实施例的又一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令在电子设备上运行时,使得电子设备执行所述的音频生成方法的操作。
23.本发明实施例根据虚拟音源的位置及数字分身的位置,得到带有位置效果的第一音频;根据所述数字分身所处的虚拟声学环境,对所述第一音频进行渲染,得到目标音频,能够有效提升元宇宙场景中音频定位的准确性及音频效果的沉浸感。
24.上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
25.附图仅用于示出实施方式,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
26.图1示出了本发明实施例提供的音频生成方法的流程示意图;
27.图2示出了本发明另一实施例提供的音频生成方法的流程示意图;
28.图3示出了本发明实施例提供的音频生成方法中听觉模型渲染的流程示意图;
29.图4示出了本发明实施例提供的音频生成方法中反射模式选择的流程示意图;
30.图5示出了本发明实施例提供的音频生成装置的结构示意图;
31.图6示出了本发明实施例提供的电子设备的结构示意图。
具体实施方式
32.下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。
33.图1示出了本发明实施例提供的音频生成方法的流程图,该方法由电子设备执行。该电子设备可以是计算机设备,如个人计算机、平板电脑、智能终端等,还可以是穿戴式设备,如ar设备等,本发明实施例不做具体限制。如图1所示,该方法包括以下步骤:
34.步骤110:根据虚拟音源的位置及数字分身的位置,得到带有位置效果的第一音频。
35.本发明实施例中,预先对用户及用户所处的场景进行虚拟化,得到元宇宙中用户对应的数字分身以及数字分身所处的虚拟场景,其中虚拟场景中包括虚拟音源,该虚拟音源可以是产生声音的虚拟物体,该虚拟物体可以是虚拟音响设备、虚拟喇叭、虚拟人物、虚拟动物等,本发明实施不做具体限制。
36.为了使得元宇宙能够做到真正的虚实结合,使得用户能在物理世界中感受元宇宙的便利,而不会对物理世界与虚拟世界产生分离感,就需要提高音频的沉浸感,音源定位技
术以及基于音源定位的交互式感知对于提升用户提高音频沉浸感起着关键作用。本发明实施例中,根据虚拟音源的位置及数字分身的位置,进行听觉模型渲染,得到带有位置效果的第一音频,具体包括:
37.步骤1011:根据虚拟音源的位置及数字分身的位置,确定所述虚拟音源相对于所述数字分身的方位信息。
38.其中,首先获取虚拟音源的位置及数字分身的位置,根据虚拟音源的位置ps=(xs,ys,zs)及数字分身的位置p
t
=(x
t
,y
t
,z
t
),确定虚拟音源相对于所述数字分身的方位信息。其中,该方位信息包括虚拟音源相对于所述数字分身的距离及方向。本发明实施例中,可以通过向量来进行计算,该方位信息通过向量表示,因此进行向量运算得到初始方位向量为:这样就可以获取得到音源相对于数字分身的方向及距离。
39.步骤1012:根据所述数字分身的身体特征及所述方位信息,进行听觉模型渲染,得到带有位置效果的第一音频。
40.其中,包括以下步骤:通过获取所述数字分身的听觉模型;根据所述数字分身的身体特征及所述方位信息,以及所述听觉模型,确定所述数字分身对应的目标参数;将所述目标参数与原始音频进行卷积,得到带有位置效果的第一音频。
41.其中,为了提升音源定位的准确性,每个数字分身都会生成一个独有的听觉模型d
base
,该听觉模型中存储了该数字分身根据3d建模生成的身体特征xi及对应的头相关变换函数参数hrtfi。其中,该数字分身的身体特征xi包括头部、耳廓、颈部及身体相关特征,如身高、头围和耳廓大小等。该头相关变换函数参数hrtfi包括以所述数字分身为中心的多组不同角度下的参数,其中,hrtf(head related transfer function)表示头相关变换函数,为一种音效定位算法。请参考图3,如图3所示确定听觉模型的具体过程包括:通过终端设备为用户进行3d扫描,以提取所述用户的身体特征点;将所述用户的身体特征点映射至所述用户对应的数字分身中,得到所述数字分身的身体特征。之后,根据所述身体特征点在所述用户360
°
方向音频模拟,以得到用户360
°
方向的实际声音,进而根据实际音源位置及距离与用户360
°
的实际声音,以及虚拟音源位置及距离与虚拟数字分身的对应关系,计算所述虚拟音源传递到所述数字分身的实际声音,将各个方向的实际声音的参数记录为该数字分身的hrtfi参数,得到所述数字分身对应的各个头相关变换函数参数hrtfi;根据所述数字分身的身体特征和所述头相关变换函数参数hrtfi,构建所述数字分身的听觉模型。其中,头相关变换函数参数hrtfi中的参数包括itd、iad和耳廓频率振动等,其与虚拟音源与数字分身之间的位置和距离关系对应。也即,根据该数字分身的身体特征,可以确定虚拟音源与数字分身在不同距离及方位下所对应的头相关变换函数参数hrtfi。
42.本发明实施例中,在预先处理得到该数字分身的听觉模型后,获取所述数字分身的听觉模型,根据所述数字分身的身体特征及所述方位信息,从所述头相关变换函数参数中确定一组最相似的目标参数,将所述目标参数与原始音频进行卷积,得到带有位置效果的第一音频。其中,可以根据所述听觉模型,确定所述数字分身从地面到耳朵中心的高度;根据所述高度及所述初始方位向量,确定所述虚拟音源到所述数字分身的耳朵的实际方位向量;根据所述实际方位向量从所述听觉模型的头相关变换函数参数中确定一组最相似的目标参数。具体地,如图3所示,提取听觉模型d
base
中数字分身从地面到耳朵中心的高度hh,
通过高度hh及该初始方位向量计算数字分身更加准确的实际方位向量也即虚拟音源到耳朵中心的实际方位向量在得到该实际方位向量后,根据听觉模型d
base
中的头相关变换函数参数hrtfi,确定与该实际方位向量最匹配的一组目标参数hrtf,将该目标参数与虚拟音源对应的原始音频进行卷积,即可得到带有位置效果的第一音频,也即生成了该数字分身在当前位置渲染后的第一音频。
43.步骤120:根据所述数字分身所处的虚拟声学环境,对所述第一音频进行渲染,得到目标音频。
44.其中,所述数字分身在所述虚拟声学环境的不同位置时存在声音反射。
45.本发明实施例中,通过声学环境模拟,得到数字分身在所述虚拟声学环境的不同位置时存在声音反射。
46.具体包括以下步骤:
47.步骤1201:根据所述数字分身所处的虚拟声学环境,进行声学环境模拟,得到虚拟声学环境的目标声音反射模式。
48.其中,所述目标声音反射模式为所述虚拟声学环境的多个反射模式中的任一个。当数字分身所处的虚拟声学环境不同时,声波的反射也会有所不同,会导致数字分身的音源定位不准确,并且不同的声波反射也会导致空间感下降,从而整体降低元宇宙的沉浸感。例如,当数字分身所处的虚拟声学环境为空旷的剧院时,此时音源发出的声音如果不能模拟剧院的回声,就会降低音源真实性随之降低沉浸感。本发明实施例,为了提高沉浸感,预设了多个反射模式,并存储。例如,可以设置为m
1-m
100
的反射模式,其中m1指反射空间离用户无限近,而m
100
是指反射空间离用户无限远,这种设定可以保证数字分身在何种情况下都能有最相似的反射模式可供匹配。具体地,通过获取与用户不同距离的各个声学环境的各个声学参数,根据各个声学环境与用户的距离以及对应的声学参数,确定所述多个反射模式。
49.如图4所示,为了提高沉浸感,本发明实施例还通过终端设备扫描用户周边的声学环境,获取所述虚拟声学环境的特征值;根据所述虚拟声学环境及所述数字分身的位置,计算环境距离;根据所述环境距离进行声学环境模拟,确定目标声音反射模式。其中,为了避免单个值li对整体声学环境判断的影响,本发明实施例设定预设时间t(s),所述环境距离可以是所述虚拟声学环境与所述数字分身之间在预设时间t(s)内的平均环境距离,可以根据所述虚拟声学环境及所述数字分身的位置,计算所述虚拟声学环境与所述数字分身之间在预设时间内的平均环境距离。具体地,首先提取周边声学环境的环境特征点,在一定时间t(s)内收集多个环境距离li,并计算这些环境特征点到数字分身的平均距离l
avg
。然后根据该距离l
avg
从预设的多个反射模式中选择目标声音反射模式mi,从而通过对音频的二次渲染,可以提高音源定位的准确性以及真实性。
50.步骤1202:根据所述目标声音反射模式对所述第一音频进行二次渲染,得到目标音频。
51.其中,在得到目标声音反射模式之后,根据目标声音反射模式对第一音频进行修正,二次渲染,从而得到具有听觉沉浸感的目标音频。在得到目标音频之后,输出该目标音频,以使得在元宇宙场景中播放该目标音频。
52.本发明实施例中,在数字分身所处的当前位置得到目标音频后,进一步确定所述
数字分身和/或所述虚拟音源是否发生移动,当所述数字分身移动和/或所述虚拟音源发生移动时,重新执行所述根据虚拟音源的位置及数字分身的位置,确定所述虚拟音源相对于所述数字分身的方位信息,根据所述数字分身的身体特征及所述方位信息,进行听觉模型渲染,得到带有位置效果的第一音频,根据所述数字分身所处的虚拟声学环境,进行声学环境模拟,得到虚拟声学环境的目标声音反射模式,根据所述目标声音反射模式对所述第一音频进行二次渲染,得到目标音频的步骤,从而得到新的目标音频。当所述数字分身保持静止时,将保持现有的渲染效果不改变,从而节省资源消耗,以及保持听觉的一致性。
53.本发明实施例通过根据虚拟音源的位置及数字分身的位置,确定所述虚拟音源相对于所述数字分身的方位信息,然后根据所述数字分身的身体特征及所述方位信息,进行听觉模型渲染,得到带有位置效果的第一音频,之后再根据所述数字分身所处的虚拟声学环境,进行声学环境模拟,得到虚拟声学环境的目标声音反射模式,最后根据所述目标声音反射模式对所述第一音频进行二次渲染,得到目标音频,能够有效提升元宇宙场景中音频定位的准确性及音频效果的沉浸感,提升了用户体验。
54.图2示出了本发明另一实施例提供的音频生成方法的流程图,该方法由电子设备执行。该电子设备可以是计算机设备,如个人计算机、平板电脑、智能终端等,还可以是穿戴式设备,如ar设备等,本发明实施例不做具体限制。如图2所示,该方法包括以下步骤:
55.步骤210:获取元宇宙的虚拟音源。
56.步骤220:计算虚拟音源与数字分身的相对位置,也即初始方位信息。
57.步骤230:根据数字分身的个性化听觉模型,以及虚拟音源与数字分身的初始方位信息,进行听觉模型渲染。其中,听觉模型渲染是基于预先设置的数字分身的个性化听觉模型进行的,该听觉模型通过对用户进行特征提取,并映射至数字分身,进行数字分身听觉模拟,最终得到该听觉模型。
58.步骤240:根据数字分身所处的声学环境进行声学环境模拟,得到目标音频。其中,包括对声学环境特征提取,进行声学环境特征计算,并进行误差校正,从而实时渲染得到。
59.步骤250:确定分身是否移动,若没有发生移动,则执行步骤260,若发生移动,则返回执行步骤220。
60.步骤260:确定虚拟音源是否移动,若没有发生移动,则执行步骤270;若发生移动,则返回执行步骤220。
61.步骤270:输出目标音频。本发明实施例通过根据虚拟音源的位置及数字分身的位置,确定所述虚拟音源相对于所述数字分身的方位信息,然后根据所述数字分身的身体特征及所述方位信息,进行听觉模型渲染,得到带有位置效果的第一音频,之后再根据所述数字分身所处的虚拟声学环境,进行声学环境模拟,得到虚拟声学环境的目标声音反射模式,最后根据所述目标声音反射模式对所述第一音频进行二次渲染,得到目标音频,能够有效提升元宇宙场景中音频定位的准确性及音频效果的沉浸感,提升了用户体验。
62.图5示出了本发明实施例提供的音频生成装置的结构示意图。如图5所示,该装置300包括:
63.第一渲染模块310,用于根据虚拟音源的位置及数字分身的位置,得到带有位置效果的第一音频;
64.二次渲染模块320,用于根据所述数字分身所处的虚拟声学环境,对所述第一音频
进行渲染,得到目标音频。
65.其中,第一渲染模块310包括第一确定模块及听觉渲染模块。第一确定模块用于根据虚拟音源的位置及数字分身的位置,确定所述虚拟音源相对于所述数字分身的方位信息。听觉渲染模块,用于根据所述数字分身的身体特征及所述方位信息,进行听觉模型渲染,得到带有位置效果的第一音频;
66.二次渲染模块320包括反射模式模块及音频渲染模块。其中,反射模式模块,用于根据所述数字分身所处的虚拟声学环境,进行声学环境模拟,得到虚拟声学环境的目标声音反射模式;第二渲染模块,用于根据所述目标声音反射模式对所述第一音频进行二次渲染,得到目标音频。
67.在一种可选的方式中,所述根据所述数字分身的身体特征及所述虚拟音源相对于所述数字分身的方位信息,得到带有位置效果的第一音频,包括:获取所述数字分身的听觉模型;所述听觉模型包括所述身体特征及头相关变换函数hrtf参数;所述头相关变换函数参数包括以所述数字分身为中心的多组不同角度下的参数;根据所述数字分身的身体特征及所述方位信息,从所述头相关变换函数参数中确定一组最相似的目标参数;将所述目标参数与原始音频进行卷积,得到带有位置效果的第一音频。
68.在一种可选的方式中,所述方位信息为初始方位向量;所述根据所述数字分身的身体特征及所述方位信息,从所述头相关变换函数参数中确定一组最相似的目标参数,包括:根据所述听觉模型,确定所述数字分身从地面到耳朵中心的高度;根据所述高度及所述初始方位向量,确定所述虚拟音源到所述数字分身的耳朵的实际方位向量;根据所述实际方位向量从所述听觉模型的头相关变换函数参数中确定一组最相似的目标参数。
69.在一种可选的方式中,所述获取所述数字分身的听觉模型之前,所述方法还包括:提取所述用户的身体特征点;将所述用户的身体特征点映射至数字分身中,得到所述数字分身的身体特征;根据所述身体特征点在所述用户360
°
方向音频模拟,计算所述虚拟音源传递到所述数字分身各个方向的实际声音,得到所述数字分身对应的头相关变换函数参数;根据所述数字分身的身体特征和所述头相关变换函数参数,构建所述数字分身的听觉模型。
70.在一种可选的方式中,所述听觉模型包括所述身体特征及头相关变换函数参数;所述方位信息为初始方位向量,包括所述音源相对于所述数字分身的方向及距离;所述根据所述数字分身的身体特征及所述方位信息,以及所述听觉模型,确定所述数字分身对应的目标参数,包括:根据所述听觉模型的所述身体特征,确定所述数字分身从地面到耳朵中心的高度;根据所述高度及所述初始方位向量,确定所述虚拟音源到所述数字分身的耳朵的实际方位向量;根据所述实际方位向量从所述听觉模型的头相关变换函数参数中确定一组最相似的参数作为目标参数。
71.在一种可选的方式中,所述根据所述数字分身所处的虚拟声学环境,进行声学环境模拟,得到虚拟声学环境的目标声音反射模式,包括:通过终端设备扫描用户周边的声学环境,获取所述虚拟声学环境的特征值;根据所述虚拟声学环境及所述数字分身的位置,计算环境距离;根据所述环境距离,确定目标声音反射模式。
72.在一种可选的方式中,所述目标声音反射模式为所述虚拟声学环境的多个反射模式中的任一个;所示根据所述数字分身所处的虚拟声学环境,进行声学环境模拟,得到虚拟
声学环境的目标声音反射模式之前,所述方法还包括:获取与用户不同距离的各个声学环境的各个声学参数;根据各个声学环境与用户的距离以及对应的声学参数,确定所述多个反射模式。
73.在一种可选的方式中,所述将所述目标参数与原始音频进行卷积,得到带有位置效果的第一音频之后,所述方法还包括:确定所述数字分身和/或所述虚拟音源是否发生移动;当所述数字分身移动和/或所述虚拟音源发生移动时,重新执行所述根据虚拟音源的位置及数字分身的位置,确定所述虚拟音源相对于所述数字分身的方位信息,根据所述数字分身的身体特征及所述方位信息,进行听觉模型渲染,得到带有位置效果的第一音频,根据所述数字分身所处的虚拟声学环境,进行声学环境模拟,得到虚拟声学环境的目标声音反射模式,根据所述目标声音反射模式对所述第一音频进行二次渲染,得到目标音频的步骤。
74.本发明实施例的元宇宙沉浸式音源定位装置的具体工作过程与上述方法实施例的方法步骤大体一致,此处不再赘述。
75.本发明实施例通过根据虚拟音源的位置及数字分身的位置,确定所述虚拟音源相对于所述数字分身的方位信息,然后根据所述数字分身的身体特征及所述方位信息,进行听觉模型渲染,得到带有位置效果的第一音频,之后再根据所述数字分身所处的虚拟声学环境,进行声学环境模拟,得到虚拟声学环境的目标声音反射模式,最后根据所述目标声音反射模式对所述第一音频进行二次渲染,得到目标音频,能够有效提升元宇宙场景中音频定位的准确性及音频效果的沉浸感,提升了用户体验。
76.图6示出了本发明实施例提供的电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
77.如图6所示,该电子设备可以包括:处理器(processor)402、通信接口(communications interface)404、存储器(memory)406、以及通信总线408。
78.其中:处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。通信接口404,用于与其它设备比如客户端或其它服务器等的网元通信。处理器402,用于执行程序410,具体可以执行上述用于音频生成方法实施例中的相关步骤。
79.具体地,程序410可以包括程序代码,该程序代码包括计算机可执行指令。
80.处理器402可能是中央处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个cpu;也可以是不同类型的处理器,如一个或多个cpu以及一个或多个asic。
81.存储器406,用于存放程序410。存储器406可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
82.程序410具体可以被处理器402调用使电子设备执行以下操作:
83.根据虚拟音源的位置及数字分身的位置,得到带有位置效果的第一音频;
84.根据所述数字分身所处的虚拟声学环境,对所述第一音频进行渲染,得到目标音频。
85.在一种可选的方式中,所述根据虚拟音源的位置及数字分身的位置,得到带有位置效果的第一音频,包括:根据虚拟音源的位置及数字分身的位置,确定所述虚拟音源相对于所述数字分身的方位信息;根据所述数字分身的身体特征及所述方位信息,进行听觉模
型渲染,得到带有位置效果的第一音频。
86.在一种可选的方式中,所述根据所述数字分身的身体特征及所述方位信息,进行听觉模型渲染,得到带有位置效果的第一音频,包括:获取所述数字分身的听觉模型;根据所述数字分身的身体特征及所述方位信息,以及所述听觉模型,确定所述数字分身对应的目标参数;将所述目标参数与原始音频进行卷积,得到带有位置效果的第一音频。在一种可选的方式中,所述根据所述数字分身的身体特征及所述虚拟音源相对于所述数字分身的方位信息,进行听觉模型渲染,得到带有位置效果的第一音频,包括:获取所述数字分身的听觉模型;所述听觉模型包括所述身体特征及头相关变换函数hrtf参数;所述头相关变换函数参数包括以所述数字分身为中心的多组不同角度下的参数;根据所述数字分身的身体特征及所述方位信息,从所述头相关变换函数参数中确定一组最相似的目标参数;将所述目标参数与原始音频进行卷积,得到带有位置效果的第一音频。
87.在一种可选的方式中,所述方位信息为初始方位向量;所述根据所述数字分身的身体特征及所述方位信息,从所述头相关变换函数参数中确定一组最相似的目标参数,包括:根据所述听觉模型,确定所述数字分身从地面到耳朵中心的高度;根据所述高度及所述初始方位向量,确定所述虚拟音源到所述数字分身的耳朵的实际方位向量;根据所述实际方位向量从所述听觉模型的头相关变换函数参数中确定一组最相似的目标参数。
88.在一种可选的方式中,所述获取所述数字分身的听觉模型之前,所述方法还包括:提取所述用户的身体特征点;将所述用户的身体特征点映射至数字分身中,得到所述数字分身的身体特征;根据所述身体特征点在所述用户360
°
方向音频模拟,计算所述虚拟音源传递到所述数字分身各个方向的实际声音,得到所述数字分身对应的头相关变换函数参数;根据所述数字分身的身体特征和所述头相关变换函数参数,构建所述数字分身的听觉模型。
89.在一种可选的方式中,所述听觉模型包括所述身体特征及头相关变换函数参数;所述方位信息为初始方位向量,包括所述音源相对于所述数字分身的方向及距离;所述根据所述数字分身的身体特征及所述方位信息,以及所述听觉模型,确定所述数字分身对应的目标参数,包括:根据所述听觉模型的所述身体特征,确定所述数字分身从地面到耳朵中心的高度;根据所述高度及所述初始方位向量,确定所述虚拟音源到所述数字分身的耳朵的实际方位向量;根据所述实际方位向量从所述听觉模型的头相关变换函数参数中确定一组最相似的参数作为目标参数。
90.在一种可选的方式中,根据所述数字分身所处的虚拟声学环境,对所述第一音频进行渲染,得到目标音频,包括:根据所述数字分身所处的虚拟声学环境,进行声学环境模拟,得到虚拟声学环境的目标声音反射模式;根据所述目标声音反射模式对所述第一音频进行二次渲染,得到目标音频。
91.在一种可选的方式中,所述根据所述数字分身所处的虚拟声学环境,进行声学环境模拟,得到虚拟声学环境的目标声音反射模式,包括:通过终端设备扫描用户周边的声学环境,获取所述虚拟声学环境的特征值;根据所述虚拟声学环境的特征值及所述数字分身的位置,计算环境距离;根据所述环境距离进行声学环境模拟,确定目标声音反射模式。
92.在一种可选的方式中,所述目标声音反射模式为所述虚拟声学环境的多个反射模式中的任一个;所示根据所述数字分身所处的虚拟声学环境,进行声学环境模拟,得到虚拟
声学环境的目标声音反射模式之前,所述方法还包括:获取与用户不同距离的各个声学环境的各个声学参数;根据各个声学环境与用户的距离以及对应的声学参数,确定所述多个反射模式。
93.在一种可选的方式中,所述根据所述目标声音反射模式对所述第一音频进行二次渲染,得到目标音频之后,所述方法还包括:确定所述数字分身和/或所述虚拟音源是否发生移动;当所述数字分身移动和/或所述虚拟音源发生移动时,重新执行所述根据虚拟音源的位置及数字分身的位置,进行听觉模型渲染,得到带有位置效果的第一音频,根据所述数字分身所处的虚拟声学环境,对所述第一音频进行二次渲染,得到目标音频的步骤。
94.本发明实施例根据虚拟音源的位置及数字分身的位置,进行听觉模型渲染,得到带有位置效果的第一音频;根据所述数字分身所处的虚拟声学环境,对所述第一音频进行二次渲染,得到目标音频,其中,所述数字分身在所述虚拟声学环境的不同位置时存在声音反射目标声音反射模式目标声音反射模式,能够有效提升元宇宙场景中音频定位的准确性及音频效果的沉浸感。
95.本发明实施例提供了一种计算机可读存储介质,所述存储介质存储有至少一可执行指令,该可执行指令在电子设备上运行时,使得所述电子设备执行上述任意方法实施例中的音频生成方法。
96.可执行指令具体可以用于使得电子设备执行以下操作:
97.根据虚拟音源的位置及数字分身的位置,得到带有位置效果的第一音频;
98.根据所述数字分身所处的虚拟声学环境,对所述第一音频进行渲染,得到目标音频。
99.在一种可选的方式中,所述根据虚拟音源的位置及数字分身的位置,得到带有位置效果的第一音频,包括:根据虚拟音源的位置及数字分身的位置,确定所述虚拟音源相对于所述数字分身的方位信息;根据所述数字分身的身体特征及所述方位信息,进行听觉模型渲染,得到带有位置效果的第一音频。
100.在一种可选的方式中,所述根据所述数字分身的身体特征及所述方位信息,进行听觉模型渲染,得到带有位置效果的第一音频,包括:获取所述数字分身的听觉模型;根据所述数字分身的身体特征及所述方位信息,以及所述听觉模型,确定所述数字分身对应的目标参数;将所述目标参数与原始音频进行卷积,得到带有位置效果的第一音频。
101.在一种可选的方式中,所述根据所述数字分身的身体特征及所述虚拟音源相对于所述数字分身的方位信息,得到带有位置效果的第一音频,包括:获取所述数字分身的听觉模型;所述听觉模型包括所述身体特征及头相关变换函数hrtf参数;所述头相关变换函数参数包括以所述数字分身为中心的多组不同角度下的参数;根据所述数字分身的身体特征及所述方位信息,从所述头相关变换函数参数中确定一组最相似的目标参数;将所述目标参数与原始音频进行卷积,得到带有位置效果的第一音频。
102.在一种可选的方式中,所述方位信息为初始方位向量;所述根据所述数字分身的身体特征及所述方位信息,从所述头相关变换函数参数中确定一组最相似的目标参数,包括:根据所述听觉模型,确定所述数字分身从地面到耳朵中心的高度;根据所述高度及所述初始方位向量,确定所述虚拟音源到所述数字分身的耳朵的实际方位向量;根据所述实际方位向量从所述听觉模型的头相关变换函数参数中确定一组最相似的目标参数。
103.在一种可选的方式中,所述获取所述数字分身的听觉模型之前,所述方法还包括:提取所述用户的身体特征点;将所述用户的身体特征点映射至数字分身中,得到所述数字分身的身体特征;根据所述身体特征点在所述用户360
°
方向模拟,以计算所述虚拟音源传递到所述数字分身各个方向的实际声音,得到所述数字分身对应的头相关变换函数参数;根据所述数字分身的身体特征和所述头相关变换函数参数,构建所述数字分身的听觉模型。
104.在一种可选的方式中,所述听觉模型包括所述身体特征及头相关变换函数参数;所述方位信息为初始方位向量,包括所述音源相对于所述数字分身的方向及距离;所述根据所述数字分身的身体特征及所述方位信息,以及所述听觉模型,确定所述数字分身对应的目标参数,包括:根据所述听觉模型的所述身体特征,确定所述数字分身从地面到耳朵中心的高度;根据所述高度及所述初始方位向量,确定所述虚拟音源到所述数字分身的耳朵的实际方位向量;根据所述实际方位向量从所述听觉模型的头相关变换函数参数中确定一组最相似的参数作为目标参数。
105.在一种可选的方式中,根据所述数字分身所处的虚拟声学环境,对所述第一音频进行渲染,得到目标音频,包括:根据所述数字分身所处的虚拟声学环境,进行声学环境模拟,得到虚拟声学环境的目标声音反射模式;根据所述目标声音反射模式对所述第一音频进行二次渲染,得到目标音频。
106.在一种可选的方式中,所述根据所述数字分身所处的虚拟声学环境,进行声学环境模拟,得到虚拟声学环境的目标声音反射模式,包括:通过终端设备扫描用户周边的声学环境,获取所述虚拟声学环境的特征值;根据所述虚拟声学环境及所述数字分身的位置,计算环境距离;根据所述环境距离进行声学环境模拟,确定目标声音反射模式。
107.在一种可选的方式中,所述目标声音反射模式为所述虚拟声学环境的多个反射模式中的任一个;所示根据所述数字分身所处的虚拟声学环境,进行声学环境模拟,得到虚拟声学环境的目标声音反射模式之前,所述方法还包括:获取与用户不同距离的各个声学环境的各个声学参数;根据各个声学环境与用户的距离以及对应的声学参数,确定所述多个反射模式。
108.在一种可选的方式中,所述根据所述目标声音反射模式对所述第一音频进行二次渲染,得到目标音频之后,所述方法还包括:确定所述数字分身和/或所述虚拟音源是否发生移动;当所述数字分身移动和/或所述虚拟音源发生移动时,重新执行所述根据虚拟音源的位置及数字分身的位置,进行听觉模型渲染,得到带有位置效果的第一音频,根据所述数字分身所处的虚拟声学环境,对所述第一音频进行二次渲染,得到目标音频的步骤。
109.本发明实施例根据虚拟音源的位置及数字分身的位置,进行听觉模型渲染,得到带有位置效果的第一音频;根据所述数字分身所处的虚拟声学环境,对所述第一音频进行二次渲染,得到目标音频,其中,所述数字分身在所述虚拟声学环境的不同位置时存在声音反射目标声音反射模式目标声音反射模式,能够有效提升元宇宙场景中音频定位的准确性及音频效果的沉浸感。
110.本发明实施例提供一种音频生成装置,用于执行上述音频生成方法。
111.本发明实施例提供了一种计算机程序,所述计算机程序可被处理器调用使电子设备执行上述任意方法实施例中的音频生成方法。
112.本发明实施例提供了一种计算机程序产品,计算机程序产品包括存储在计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令在计算机上运行时,使得所述计算机执行上述任意方法实施例中的音频生成方法。
113.在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
114.在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
115.类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。
116.本领域技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
117.应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

技术特征:


1.一种音频生成方法,其特征在于,所述方法包括:根据虚拟音源的位置及数字分身的位置,得到带有位置效果的第一音频;根据所述数字分身所处的虚拟声学环境,对所述第一音频进行渲染,得到目标音频。2.根据权利要求1所述的方法,其特征在于,所述根据虚拟音源的位置及数字分身的位置,得到带有位置效果的第一音频,包括:根据虚拟音源的位置及数字分身的位置,确定所述虚拟音源相对于所述数字分身的方位信息;根据所述数字分身的身体特征及所述方位信息,进行听觉模型渲染,得到带有位置效果的第一音频。3.根据权利要求2所述的方法,其特征在于,所述根据所述数字分身的身体特征及所述方位信息,进行听觉模型渲染,得到带有位置效果的第一音频,包括:获取所述数字分身的听觉模型;根据所述数字分身的身体特征及所述方位信息,以及所述听觉模型,确定所述数字分身对应的目标参数;将所述目标参数与原始音频进行卷积,得到带有位置效果的第一音频。4.根据权利要求3所述的方法,其特征在于,所述获取所述数字分身的听觉模型之前,所述方法还包括:提取用户的身体特征点;将所述用户的身体特征点映射至数字分身中,得到所述数字分身的身体特征点;根据所述身体特征点在所述用户360
°
方向音频模拟,计算所述虚拟音源传递到所述数字分身各个方向的实际声音,得到所述数字分身对应的头相关变换函数参数;根据所述数字分身的身体特征和所述头相关变换函数参数,构建所述数字分身的听觉模型。5.根据权利要求3所述的方法,其特征在于,所述听觉模型包括所述身体特征及头相关变换函数参数;所述方位信息为初始方位向量;所述根据所述数字分身的身体特征及所述方位信息,以及所述听觉模型,确定所述数字分身对应的目标参数,包括:根据所述听觉模型的所述身体特征,确定所述数字分身从地面到耳朵中心的高度;根据所述高度及所述初始方位向量,确定所述虚拟音源到所述数字分身的耳朵的实际方位向量;根据所述实际方位向量从所述听觉模型的头相关变换函数参数中确定一组最相似的参数作为目标参数。6.根据权利要求1所述的方法,其特征在于,所述根据所述数字分身所处的虚拟声学环境,对所述第一音频进行渲染,得到目标音频,包括:根据所述数字分身所处的虚拟声学环境,进行声学环境模拟,得到虚拟声学环境的目标声音反射模式;根据所述目标声音反射模式对所述第一音频进行二次渲染,得到目标音频。7.根据权利要求6所述的方法,其特征在于,所述根据所述数字分身所处的虚拟声学环境,进行声学环境模拟,得到虚拟声学环境的目标声音反射模式,包括:扫描用户周边的声学环境,获取所述虚拟声学环境的特征值;
根据所述虚拟声学环境的特征值及所述数字分身的位置,计算环境距离;根据所述环境距离进行声学环境模拟,确定目标声音反射模式。8.一种音频生成装置,其特征在于,所述装置包括:第一渲染模块,用于根据虚拟音源的位置及数字分身的位置,得到带有位置效果的第一音频;二次渲染模块,用于根据所述数字分身所处的虚拟声学环境,对所述第一音频进行渲染,得到目标音频。9.一种电子设备,其特征在于,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7任意一项所述的音频生成方法的操作。10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一可执行指令,所述可执行指令在电子设备上运行时,使得电子设备执行如权利要求1-7任意一项所述的音频生成方法的操作。

技术总结


本发明实施例涉及音源定位技术领域,公开了一种音频生成方法,该方法包括:根据虚拟音源的位置及数字分身的位置,得到带有位置效果的第一音频;根据所述数字分身所处的虚拟声学环境,对所述第一音频进行渲染,得到目标音频。通过上述方式,本发明实施例实现了提升了音源定位的准确性,使用户易产生沉浸感。使用户易产生沉浸感。使用户易产生沉浸感。


技术研发人员:

雷岳甡 李琳 郑彬戈 桂祖宏 齐松

受保护的技术使用者:

中国移动通信集团有限公司

技术研发日:

2022.08.23

技术公布日:

2022/12/5

本文发布于:2024-09-23 18:30:03,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/29059.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   数字   声学   音频
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议