一种音频处理方法、装置、电子设备及存储介质与流程

1.本技术涉及计算机技术领域，尤其涉及一种音频处理方法、装置、电子设备及存储介质。

背景技术：

2.随着我国文化出海的脚步越来越快，每年有大量国产影视剧走向海外，同时也有大量外语影视剧引入国内，本地化影视剧配音成为国潮剧在海外落地或者海外剧在国内落地的重要制约因素。
3.然而，一方面在海外寻足够角数量，且质量符合的配音演员的困难程度则远远超过了寻中文配音演员，且寻配音资源的时间成本和费用成本更加高昂。在当前疫情制约下，在某些地区则几乎不可能；另一方面，目前使用专业人员进行中文配音的是极少数，而存量的外语影视剧数量更是巨大且单部配音费用很高，完全使用人工配音则更加难以承受，而且，待配音影视剧中角的音种类一般都有一定要求，而配音员的档期以及匹配度等都是制约人工配音难以大规模使用的主要因素。

技术实现要素：

4.为了解决上述技术问题或者至少部分地解决上述技术问题，本技术提供了一种音频处理方法、装置、电子设备及存储介质。
5.第一方面，本技术提供了一种音频处理方法，包括：
6.获取目标视频对应的第一音频文件，提取所述第一音频文件中第一配音对象的配音内容对应的配音特征，所述第一音频文件中的第一语种与所述目标视频的原声音频文件中的第二语种不同；
7.获取第二配音对象对应的音特征，所述第一配音对象和所述第二配音对象具有不同的音；
8.将所述配音特征和所述音特征合并，得到音频频谱；
9.基于所述音频频谱进行音频重建，得到与所述目标视频对应的第二音频文件。
10.可选地，获取目标视频对应的第一音频文件，包括：
11.获取目标视频对应的原声音频文件、配音音频文件、第一台词文本及第二台词文本，所述第一台词文本是对所述配音音频文件进行语音识别得到的，其中不包含角信息，所述配音音频文件是利用与所述目标视频的原声音频文件的第二语种不同的第一语种配音得到的，所述第二台词文本与所述原声音频文件对应，其中包含角信息；
12.根据所述目标视频、所述第一台词文本和所述原声音频文件确定属于同一角的人脸发言的发言时间段及与所述发言时间段对应的台词内容；
13.根据所述发言时间段、与所述发言时间段对应的台词内容和所述第二台词文本对所述配音音频文件进行音频分轨，得到每个角发言的时间段及与所述时间段对应的音频文件；
14.将任一角发言的时间段所对应的音频文件确定为所述目标视频对应的第一音频文件。
15.可选地，根据所述目标视频、所述第一台词文本和所述原声音频文件确定属于同一角的人脸发言的发言时间段及与所述发言时间段对应的台词内容，包括：
16.在所述目标视频中提取人脸出现时间戳；
17.在原声音频文件中提取声纹出现片段时间戳；
18.在所述第一台词文本中提取第一语种台词片段出现时间戳；
19.将所述声纹出现片段时间戳和所述人脸出现时间戳进行匹配，得到属于同一角的人脸发言的发言时间段；
20.将属于同一角的人脸发言的时间段和第一语种台词片段出现时间戳进行匹配，得到与所述发言时间段对应的台词内容。
21.可选地，根据所述发言时间段、与所述发言时间段对应的台词内容和所述第二台词文本对所述配音音频文件进行音频分轨，得到每个角发言的时间段及与所述时间段对应的音频文件，包括：
22.将所述发言时间段、与所述发言时间段对应的台词内容和所述第二台词文本进行匹配，得到每个角发言的时间段；
23.按照所述每个角发言的时间段对所述配音音频文件进行音频分轨，得到与所述时间段对应的音频文件。
24.可选地，所述配音特征包括：内容特征，提取所述第一音频文件中第一配音对象的配音内容对应的配音特征，包括：
25.将所述第一音频文件输入预设的语音识别编码器，得到识别内容；
26.将所述识别内容输入预设的内容编码器，得到所述内容特征。
27.可选地，所述配音特征包括：韵律特征，提取所述第一音频文件中第一配音对象的配音内容对应的配音特征，包括：
28.将所述第一音频文件输入预设的语音自监督学习预训练模型，得到输出数据；
29.将所述输出数据输入预设的韵律编码器，得到所述韵律特征。
30.可选地，获取第二配音对象对应的第二音特征，包括：
31.获取所述目标视频的原声音频文件；
32.在所述原声音频文件中提取原声配音对象的原声声纹特征；
33.在预设声纹库中查与所述原声声纹特征对应的声纹标识；
34.将与所述声纹标识对应的配音对象的音特征确定为所述第二配音对象的第二音特征。
35.可选地，在基于所述音频频谱进行音频重建，得到与所述目标视频对应的第二音频文件之后，所述方法还包括：
36.获取所述目标视频的原声音频文件；
37.对所述原声音频文件进行音量检测，得到多个第一时间戳对应的第一音量值；
38.在所述第二音频文件中查与每个所述第一时间戳对应的第二音量值；
39.若所述第一音量值与所述第二音量值之间的差值大于预设阈值，将所述第二音量值调整为所述第一音量值，得到调整后的第二音频文件。
40.可选地，在基于所述音频频谱进行音频重建，得到与所述目标视频对应的第二音频文件之后，所述方法还包括：
41.对所述原声音频文件进行音效检测，得到多个第二时间戳对应的音效类型；
42.按照多个第二时间戳对应的音效类型在所述第二音频文件中添加音效，得到调整后的第二音频文件。
43.第二方面，本技术提供了一种音频处理装置，包括：
44.第一获取模块，用于获取目标视频对应的第一音频文件，提取所述第一音频文件中第一配音对象的配音内容的内容特征及韵律特征，所述第一音频文件中的第一语种与所述目标视频的原声音频文件中的第二语种不同；
45.第二获取模块，用于获取第二配音对象对应的音特征，所述第一配音对象和所述第二配音对象具有不同的音；
46.合并模块，用于将所述内容特征、韵律特征和所述音特征合并，得到音频频谱；
47.重建模块，用于基于所述音频频谱进行音频重建，得到与所述目标视频对应的第二音频文件。
48.可选地，所述第一获取模块包括：
49.第一获取单元，用于获取目标视频对应的原声音频文件、配音音频文件、第一台词文本及第二台词文本，所述第一台词文本是对所述配音音频文件进行语音识别得到的，其中不包含角信息，所述配音音频文件是利用与所述目标视频的原声音频文件的第二语种不同的第一语种配音得到的，所述第二台词文本与所述原声音频文件对应，其中包含角信息；
50.第一确定单元，用于根据所述目标视频、所述第一台词文本和所述原声音频文件确定属于同一角的人脸发言的发言时间段及与所述发言时间段对应的台词内容；
51.分轨单元，用于根据所述发言时间段、与所述发言时间段对应的台词内容和所述第二台词文本对所述配音音频文件进行音频分轨，得到每个角发言的时间段及与所述时间段对应的音频文件；
52.第二确定单元，用于将任一角发言的时间段所对应的音频文件确定为所述目标视频对应的第一音频文件。
53.可选地，所述第一确定单元包括：
54.第一提取子单元，用于在所述目标视频中提取人脸出现时间戳；
55.第二提取子单元，用于在原声音频文件中提取声纹出现片段时间戳；
56.第三提取子单元，用于在所述第一台词文本中提取第一语种台词片段出现时间戳；
57.第一匹配子单元，用于将所述声纹出现片段时间戳和所述人脸出现时间戳进行匹配，得到属于同一角的人脸发言的发言时间段；
58.第二匹配子单元，用于将属于同一角的人脸发言的时间段和第一语种台词片段出现时间戳进行匹配，得到与所述发言时间段对应的台词内容。
59.可选地，所述分轨单元包括：
60.第三匹配子单元，用于将所述发言时间段、与所述发言时间段对应的台词内容和所述第二台词文本进行匹配，得到每个角发言的时间段；
61.分轨子单元，用于按照所述每个角发言的时间段对所述配音音频文件进行音频分轨，得到与所述时间段对应的音频文件。
62.可选地，所述配音特征包括：内容特征，所述第一获取模块包括：
63.第一输入单元，用于将所述第一音频文件输入预设的语音识别编码器，得到识别内容；
64.第二输入单元，用于将所述识别内容输入预设的内容编码器，得到所述内容特征。
65.可选地，所述配音特征包括：韵律特征，所述第一获取模块包括：
66.第三输入单元，用于将所述第一音频文件输入预设的语音自监督学习预训练模型，得到输出数据；
67.第四输入单元，用于将所述输出数据输入预设的韵律编码器，得到所述韵律特征。
68.可选地，所述第二获取模块包括：
69.第二获取单元，用于获取所述目标视频的原声音频文件；
70.提取单元，用于在所述原声音频文件中提取原声配音对象的原声声纹特征；
71.第一查单元，用于在预设声纹库中查与所述原声声纹特征对应的声纹标识；
72.第三确定单元，用于将与所述声纹标识对应的配音对象的音特征确定为所述第二配音对象的第二音特征。
73.可选地，在重建单元之后，所述装置还包括：
74.第三获取模块，用于获取所述目标视频的原声音频文件；
75.音量检测模块，用于对所述原声音频文件进行音量检测，得到多个第一时间戳对应的第一音量值；
76.第一查模块，用于在所述第二音频文件中查与每个所述第一时间戳对应的第二音量值；
77.音量调整模块，用于若所述第一音量值与所述第二音量值之间的差值大于预设阈值，将所述第二音量值调整为所述第一音量值，得到调整后的第二音频文件。
78.可选地，在冲减单元之后，所述装置还包括：
79.音效检测模块，用于对所述原声音频文件进行音效检测，得到多个第二时间戳对应的音效类型；
80.音效调整模块，用于按照多个第二时间戳对应的音效类型在所述第二音频文件中添加音效，得到调整后的第二音频文件。
81.第三方面，本技术提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；
82.存储器，用于存放计算机程序；
83.处理器，用于执行存储器上所存放的程序时，实现第一方面任一所述的音频处理方法。
84.第四方面，本技术提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有音频处理方法的程序，所述音频处理方法的程序被处理器执行时实现第一方面任一所述的音频处理方法的步骤。
85.本技术实施例提供的上述技术方案与现有技术相比具有如下优点：
86.本技术通过仅保留第一音频文件中第一配音对象的配音特征，不使用第一配音对
象的音特征，将第一配音对象的配音特征与第二配音对象的音特征合并，使基于合并得到的音频频谱重建的第二音频文件中能够具有第二配音对象的音并保留配音特征，实现自动将第一配音对象的音转换第二配音对象的音的同时，保留第一配音对象配音的内容及情感，进而，可以便于将目标视频文件对应的所有第一音频文件中第一配音对象的音分别转化为相应的第二配音对象的音，无需其他配音演员，即可达到由一个第一配音对象配出多个第二配音对象的音的效果，同时可以保留第一配音对象发言丰富的情感，从而满足影视剧场景对对白的要求。
附图说明
87.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。
88.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
89.图1为本技术实施例提供的一种音频处理方法的流程图；
90.图2为本技术实施例提供的图1中步骤s101的一种流程图；
91.图3为本技术实施例提供的图1中步骤s102的一种流程图；
92.图4为本技术实施例提供的一种音频处理方法的另一种流程图；
93.图5为本技术实施例提供的一种音频处理方法的另一种流程图；
94.图6为本技术实施例提供的一种实际应用中的音频处理方法的原理示意图；
95.图7为本技术实施例提供的一种实际应用中的声音转换模型的原理示意图；
96.图8为本技术实施例提供的另一种实际应用中的音频处理方法的原理示意图；
97.图9为本技术实施例提供的另一种实际应用中的声音转换模型的原理示意图；
98.图10为本技术实施例提供的一种音频处理装置的结构图；
99.图11为本技术实施例提供的一种电子设备的结构图。
具体实施方式
100.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术的一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本技术保护的范围。
101.由于目前一方面在海外寻足够角数量，且质量符合的配音演员的困难程度则远远超过了寻中文配音演员，且寻配音资源的时间成本和费用成本更加高昂。在当前疫情制约下，在某些地区则几乎不可能；另一方面，目前使用专业人员进行中文配音的是极少数，而存量的外语影视剧数量更是巨大且单部配音费用很高，完全使用人工配音则更加难以承受，而且，待配音影视剧中角的音种类一般都有一定要求，而配音员的档期以及匹配度等都是制约人工配音难以大规模使用的主要因素。
102.为此，本技术实施例提供一种音频处理方法、装置、电子设备及存储及介质，以能够在视频出口的场景，即将原来使用中文配音的视频出口至海外或者将原来使用非中文配
音的视频进口至国内时，自动通过仅保留第一音频文件中第一配音对象的配音特征，不使用第一配音对象的音特征，将第一配音对象的配音特征与第二配音对象的音特征合并，使基于合并得到的音频频谱重建的第二音频文件中能够具有第二配音对象的音并保留配音特征，实现自动将第一配音对象的音转换第二配音对象的音的同时，保留第一配音对象配音的内容及情感，进而，可以便于将目标视频文件对应的所有第一音频文件中第一配音对象的音分别转化为相应的第二配音对象的音，无需其他配音演员，即可达到由一个第一配音对象配出多个第二配音对象的音的效果，同时可以保留第一配音对象发言丰富的情感，从而满足影视剧场景对对白的要求。
103.如图1所示，本技术实施例提供了一种音频处理方法，可以包括以下步骤：
104.步骤s101，获取目标视频对应的第一音频文件，提取所述第一音频文件中第一配音对象的配音内容对应的配音特征。
105.在本技术的一种实施方式中，目标视频指待出口海外的视频，目标视频可以对应有原声音频文件和配音音频文件，原声音频文件指使用中文配音的音频文件，也即第二语种示例性的可以指中文语种，在实际应用中，为了将目标视频出口海外，使海外人不看字幕即可听懂，需要对目标视频配音成相应的语种，所以，配音音频文件指对目标视频使用非中文之外的语言配音的音频文件，也即第一语种示例性的可以指非中文语种，实际应用中，配音音频文件一般由一个第一配音对象配音完成，为了快速完成配音，也可以由两个或两个以上的第一配音对象完成，第一配音对象指可以将目标视频配音成除中文之外的其他语种的配音人员，其他语种示例性的，可以为东南亚地区的小语种等等。
106.在本技术的另一种实施方式中，目标视频指待进口国内的视频，目标视频可以对应有原声音频文件和配音音频文件，原声音频文件指使用非中文配音的音频文件，也即第二语种示例性的可以指非中文语种，在实际应用中，为了将目标视频进口国内，使国内人不看字幕即可听懂，需要对目标视频由其他语种配音成中文，其他语种示例性的，可以为东南亚地区的小语种等等，所以，配音音频文件指对目标视频使用中文配音的音频文件，也即第一语种示例性的可以指中文语种，实际应用中，配音音频文件一般由一个第一配音对象配音完成，为了快速完成配音，也可以由两个或两个以上的第一配音对象完成，第一配音对象指可以将目标视频配音成中文的配音人员。
107.第一音频文件与目标视频中有台词的人物角对应，每个人物角可以对应至少一个音频文件，第一音频文件可以是配音音频文件的一部分，所以，所述第一音频文件中的第一语种与所述目标视频的原声音频文件中的第二语种不同。
108.配音特征用于表征第一配音对象的台词内容、情感状态及韵律等，示例性的，配音特征可以包括：内容特征和韵律特征等。
109.在该步骤中，可以按照预设顺序逐个获取目标视频对应的第一音频文件，再在第一音频文件中提取第一配音对象的配音内容的配音特征，实际应用中，可以利用预先训练好的编码器提取配音特征。
110.步骤s102，获取第二配音对象对应的音特征。
111.由于目标视频中一般具有多个有台词的角，这些角的音一般不相同，每个角一般对应一种音，为了将目标视频中不同角的声音分别使用不同音配音，需要选用与第一配音对象具有不同的音的配音人员，即第二配音对象。
112.本技术实施例中，可以预先构建音特征库，音特征库中存储有多个第二配音对象的音特征，在该步骤中，可以在音特征库中获取第二配音对象对应的音特征。
113.步骤s103，将所述配音特征和所述音特征合并，得到音频频谱；
114.在该步骤中，可以利用解码器将配音特征和音特征进行合并解码，得到音频频谱，示例性的，音频频谱可以指梅尔(mel)频谱。
115.步骤s104，基于所述音频频谱进行音频重建，得到与所述目标视频对应的第二音频文件。
116.可以利用声码器对音频频谱进行音频重建，重建成可以播放的波形文件，得到第二音频文件。
117.基于以上步骤，由于仅保留了第一音频文件中的配音特征，将配音特征与第二配音对象的音特征合并，所以相当于将第一音频文件中第一配音对象的音特征替换为第二配音对象的音特征，得到第二音频文件，实际应用中，可以按照此方式对配音音频文件中的每个第一音频文件重复此过程，将不同的第一音频文件中第一配音对象的音特征替换为相应不同的第二配音对象的音特征，在将多个第二音频文件组合得到完整的目标配音文件，实现将由一个第一配音对象配音得到的配音音频文件转换成由多个第二配音对象配音的目标音频文件。
118.实际应用中，音频重建生成的第二音频文件可能会有一定的机械音、电流音以及一定程度的噪声，所以本技术使用dsp技术对声音进行去噪以及修复，以保证第二音频文件的播放效果。
119.本技术通过仅保留第一音频文件中第一配音对象的配音特征，不使用第一配音对象的音特征，将第一配音对象的配音特征与第二配音对象的音特征合并，使基于合并得到的音频频谱重建的第二音频文件中能够具有第二配音对象的音并保留配音特征，实现自动将第一配音对象的音转换第二配音对象的音的同时，保留第一配音对象配音的内容及情感，进而，可以便于将目标视频文件对应的所有第一音频文件中第一配音对象的音分别转化为相应的第二配音对象的音，无需其他配音演员，即可达到由一个第一配音对象配出多个第二配音对象的音的效果，同时可以保留第一配音对象发言丰富的情感，从而满足影视剧场景对对白的要求。
120.在本技术的又一实施例中，步骤s101中的获取目标视频对应的第一音频文件，如图2所示，包括：
121.步骤s201，获取目标视频对应的原声音频文件、配音音频文件、第一台词文本及第二台词文本。
122.本技术实施例中，所述第一台词文本是对所述配音音频文件进行语音识别得到的，其中不包含角信息，所述配音音频文件是利用与所述目标视频的原声音频文件的第二语种不同的第一语种配音得到的，所述第二台词文本与所述原声音频文件对应，其中包含角信息，示例性的，第二台词文本可以是将第二语种台词本翻译成第一语种得到的，第二语种台词本中包含角信息，所以第二台词文本中包含角信息；
123.步骤s202，根据所述目标视频、所述第一台词文本和所述原声音频文件确定属于同一角的人脸发言的发言时间段及与所述发言时间段对应的台词内容；
124.在该步骤中，可以首先在所述目标视频中提取人脸出现时间戳，具体地，可以对目
标视频的每个图像帧进行人脸识别，在识别到人脸时记录当前图像帧的时刻，得到人脸出现时间戳；
125.然后，在原声音频文件中提取声纹出现片段时间戳，具体地，在原声音频文件中进行声纹识别，在识别到声纹时，记录识别到声纹的时刻，得到声纹出现片段时间戳；
126.再在所述第一台词文本中提取第一语种台词片段出现时间戳，具体地，可以在第一台词文本中进行文字识别，在识别到台词片段时，记录当前时刻，得到第一语种台词片段出现时间戳；
127.然后将所述声纹出现片段时间戳和所述人脸出现时间戳进行匹配，并确定属于同一角的人脸，得到属于同一角的人脸发言的发言时间段，也即每个属于同一角的人脸说话的时间段；
128.最后可以将属于同一角的人脸发言的时间段和第一语种台词片段出现时间戳进行匹配，得到与所述发言时间段对应的台词内容，也即每个属于同一角的人脸在其说话的时间段说了什么台词。
129.步骤s203，根据所述发言时间段、与所述发言时间段对应的台词内容和所述第二台词文本对所述配音音频文件进行音频分轨，得到每个角发言的时间段及与所述时间段对应的音频文件；
130.在该步骤中，将所述发言时间段、与所述发言时间段对应的台词内容和所述第二台词文本进行匹配，得到每个角发言的时间段；按照所述每个角发言的时间段对所述配音音频文件进行音频分轨，得到与所述时间段对应的音频文件。
131.例如：某个人脸在一段时间内对应的第一语种台词内容为：
[0132]“人脸3号01:10:01妈妈”；
[0133]“人脸3号01:10:02我去”；
[0134]“人脸3号01:10:03上学”；
[0135]“人脸2号01:10:06好”；
[0136]“人脸2号01:10:10路上”；
[0137]“人脸2号01:10:11小心”；
[0138]
第二台词文本中相应的第二语种台词内容为：
[0139]“小红01:10:01妈妈”；
[0140]“小红01:10:02我去”；
[0141]“小红01:10:03上学”；
[0142]“妈妈01:10:06好”；
[0143]“妈妈01:10:10路上”；
[0144]“妈妈01:10:11小心”；
[0145]
二者匹配，可以得到人脸3号对应的角为小红，小红说“妈妈我去上学”一段台词的时间段为01:10:01至01:10:03，妈妈说“路上小心”一段台词的时间段为01:10:06至01:10:11，所以，可以将配音音频文件在01:10:01至01:10:03和01:10:06至01:10:11分轨成不同的音轨，得到小红在时间段对应的a音频文件，以及，妈妈在01:10:06至01:10:11时间段对应的b音频文件。
[0146]
在实际应用中，在进行分轨之前，可以使用语音识别算法，对比台词文本和识别后
的文本，检测漏轨等错误，在检测到漏轨时，通过人工手动纠错，以便于提高分轨后的音频文件的准确度。
[0147]
步骤s204，将任一角发言的时间段所对应的音频文件确定为所述目标视频对应的第一音频文件。
[0148]
在该步骤中，可以按照一定顺序，逐个将各个音频文件确定为目标视频对应的第一音频文件，例如：将a音频文件确定为第一音频文件，在基于该第一音频文件进行音频重建，得到第二音频文件后，再将b音频文件确定为第一音频文件，以此类推。
[0149]
本技术实施例能够自动将完整的配音音频文件分成多个第一音频文件，以便于分别针对每个角对应的第一音频文件中的第一配音对象的音替换为第二配音对象的音，得到第二音频文件。
[0150]
在本技术的又一实施例中，所述配音特征包括：内容特征和韵律特征，步骤s101提取所述第一音频文件中第一配音对象的配音内容对应的内容特征和韵律特征，包括：
[0151]
将所述第一音频文件输入预设的语音识别编码器，得到识别内容，将所述识别内容输入预设的内容编码器，得到所述内容特征。
[0152]
例如，可以将第一音频文件(source audio)输入端到端自动语音识别编码器(e2e asr encoder)，得到识别内容(bn)，将识别内容(bn)输入内容编码器(content encoder)，得到内容特征(content vector)。
[0153]
将所述第一音频文件输入预设的语音自监督学习预训练模型，得到输出数据，将所述输出数据输入预设的韵律编码器，得到所述韵律特征。
[0154]
例如，可以将第一音频(source audio)输入语音自监督学习预训练模型(vq-wav2vec pre-trained model)，得到输出数据(vqw2v)，再将输出数据(vqw2v)输入韵律编码器(prosody encoder)，得到韵律特征(prosody vector)。
[0155]
本技术实施例能够自动模型分别提取内容特征和韵律特征，以便于只保留第一音频文件中的内容特征和韵律特征，进而便于将其与第二配音对象的音特征合并，得到音频重建后的第二音频文件。
[0156]
在本技术的又一实施例中，步骤s102获取第二配音对象对应的第二音特征，如图3所示，包括：
[0157]
步骤s301，获取所述目标视频的原声音频文件；
[0158]
步骤s302，在所述原声音频文件中提取原声配音对象的原声声纹特征；
[0159]
本技术实施例中，原声配音对象与该第一音频文件对应，也就是说，原声配音对象指用于对该第一音频文件对应的角进行配音的配音演员。
[0160]
原声音频文件中，对于不同角会由不同的配音演员完成配音，为了便于体现角的声音特点且更贴近原声音频文件，在进行音替换时，可以选用声纹与原声配音对象更接近的配音对象，所以，在该步骤中，可以提取原声配音对象的原声声纹特征。
[0161]
步骤s303，在预设声纹库中查与所述原声声纹特征对应的声纹标识；
[0162]
为了便于存储不同的声纹及声纹对应的音特征，可以预先构建声纹库，声纹库中存储有多组声纹标识、声纹特征及音特征之间的对应关系，实际应用中，可以采集多个第二配音对象的语音音频，将语音音频进行声纹计算(voiceprint database calculate)，将计算得到的声纹特征存入声纹库，并将语音音频输入发言者编码器(speaker encoder)，
提取指定说话人的短语音的特征向量，得到第二配音对象的音特征。
[0163]
在该步骤中，可以利用步骤s302中提取的原声声纹特征与声纹库中的各声纹特征进行查询(voiceprint query)，获取匹配成功的声纹特征对应的声纹标识。
[0164]
步骤s304，将与所述声纹标识对应的配音对象的音特征确定为所述第二配音对象的第二音特征。
[0165]
本技术实施例能够自动获取与原声音频文件中原声配音对象的音特征，实现进行音特征替换时，使替换后的音特征更加贴近原声音频文件中配音演员的音特征，更加贴合剧情。
[0166]
在本技术的又一实施例中，在步骤s104基于所述音频频谱进行音频重建，得到与所述目标视频对应的第二音频文件之后，如图4所示，所述方法还包括：
[0167]
步骤s401，获取所述目标视频的原声音频文件；
[0168]
步骤s402，对所述原声音频文件进行音量检测，得到多个第一时间戳对应的第一音量值；
[0169]
本技术实施例中的原声音频文件可以与第一音频文件对应相同的时间段，如：第一音频文件在整个配音音频文件中对应的时间段为00:05:20-00:05:30，则该原声音频文件也应选取00:05:20-00:05:30的音频片段。
[0170]
在该步骤中，可以使用滑窗机制对原声音频文件进行音量检测，滑窗的时间分片(timeslide)长度可以根据实际需要选取，如：0.5秒，得到多组带第一时间戳的音量值，即多个第一时间戳对应的第一音量值。
[0171]
步骤s403，在所述第二音频文件中查与每个所述第一时间戳对应的第二音量值；
[0172]
在该步骤中，可以逐个按照第一时间戳在第二音频文件中查对应的第二音量值，得到多个第一时间戳对应的第二音量值。
[0173]
步骤s404，若所述第一音量值与所述第二音量值之间的差值大于预设阈值，将所述第二音量值调整为所述第一音量值，得到调整后的第二音频文件。
[0174]
可以计算第一音量值和第二音量值的差值，将该差值与预设阈值比较，若差值大于预设阈值，表明二者差异过大，需对第二音量值进行调整，以使第二音量值更加接近或者等于第一音量值。
[0175]
本技术实施例可以保证第二音频文件中各个时间点对应的音量值与原声音频文件中相应时间点对应的音量值相同或相近，保持音量大小稳定，避免第二音频文件的音量时大时小。
[0176]
在本技术的又一实施例中，在步骤s104基于所述音频频谱进行音频重建，得到与所述目标视频对应的第二音频文件之后，如图5所示，所述方法还包括：
[0177]
步骤s501，对所述原声音频文件进行音效检测，得到多个第二时间戳对应的音效类型；
[0178]
本技术实施例中，音效就是指由声音所制造的效果，是指为增进一场面之真实感、气氛或戏剧讯息，而加于声带上的特殊效果等，如：人声在电话中的效果、人声在山洞中的效果等等。
[0179]
实际应用中，可以采用端到端模型(end to end)对原声音频文件进行音效检测采
样，得到带有时间戳的音效类型，本技术实施例的端到端模型可以支持9种音效类型：低通音效类型、高通音效类型、带通音效类型、带通(带增益)音效类型、全通音效类型、peak音效类型、lowshelf音效类型、highshelf音效类型和notch音效类型等。
[0180]
步骤s502，按照多个第二时间戳对应的音效类型在所述第二音频文件中添加音效，得到调整后的第二音频文件。
[0181]
由于原声配音文件中为了贴合剧情需要，添加了不同音效类型，为了便于第二音频文件更加还原原声配音文件，具有同样的音效类型，所以按照在第二时间戳处检测出来的音效类型可以在第二音频文件中第二时间戳的位置添加同样的音效，以实现更加贴合原声配音文件。
[0182]
本技术实施例可以保证第二音频文件中各个时间点对应的音效类型与原声音频文件中相应时间点对应的音效类型相同，避免第二音频文件未添加相应的音效，导致用户难以理解剧情，提高用户观看视频的带入感。
[0183]
为了便于理解，本技术还提供一种实际应用场景中的音频处理方法的实施例，如下：
[0184]
如图6所示，原声音频文件为中文的目标视频在翻译成非中文后，由业余非中文配音员a进行整体的配音，得到配音音频文件。
[0185]
人工配音素材经常有漏轨等错误产生，所以可以对该配音音频文件进行检测漏轨及纠错，得到纠错后的配音音频文件。
[0186]
由中文翻译成非中文后的字幕文件没有角信息，而角信息是用来挑选角的声音转换模型(voice conversion，vc)，以及第二配音对象必须的信息，所以，需要进行字幕角拆分，以为字幕文件添加角信息，具体地：在目标视频中提取人脸出现时间戳，在原声音频文件中提取声纹出现片段时间戳，在第一台词文本中提取非中文台词片段出现时间戳，将声纹出现片段时间戳、人脸出现时间戳和非中文台词片段出现时间戳进行合并，得到每个人脸在不同时间段的对应的台词内容，将每个人脸在不同时间段的对应的台词内容与第二台词文本进行匹配，得到每个角对应的音频时间段，基于每个角对应的音频时间段进行智能分轨，得到每个角在不同时间段对应的音频文件，即：角分轨1、角分轨2
……
角分轨n，每个角分轨即相当于前述实施例中的任一第一音频文件。
[0187]
将每个角分轨分别输入声音转换模型，声音转换模型的作用是将业余非中文配音员a的情感、韵律及内容等保留，仅将其音特征替换为非中文配音员b、非中文配音员c或者非中文配音员d的音特征，具体地，如图7所示，将由业余非中文配音员a的任一角分轨(即第一音频文件)输入编码器，编码器在该角分轨中提取内容a及韵律a，其中的音a实际应用中可以不提取。根据实际需要，可以进行声纹选角，即在非中文音、c和d等中挑选任一适合影视剧配音场景的配音音，在实际操作过程中选择合适的音id(即前述实施例中的声纹标识)，获取音id对应的音特征，将内容a、韵律a及获取的音特征输入解码器，解码器对三者进行合并，得到音频频谱，对音频频谱进行音频重建，得到由非中文配音员的音、c或d配音的第二音频文件。
[0188]
基于声音转换模型生成的音频频谱重建的语音可能会有一定的机械音、电流音以及一定程度的噪声，所以可以使用dsp技术对第二音频文件中的声音进行音质修复，以去除噪声及修复音质。
[0189]
由于不同时刻的重建语音音量可能不同，所以，可以检测原声音频文件的音量及对应的时间戳，并据此对第二音频文件中语音的音量进行音量修复，而且，可以检测原声音频文件的音效及对应的时间戳，并据此为第二音频文件中添加相应的音效。
[0190]
为了便于理解，本技术还提供一种实际应用场景中的音频处理方法的实施例，如下：
[0191]
如图8所示，原声音频文件为非中文的目标视频在翻译成中文后，由业余中文配音员a进行整体的配音，得到配音音频文件。
[0192]
人工配音素材经常有漏轨等错误产生，所以可以对该配音音频文件进行检测漏轨及纠错，得到纠错后的配音音频文件。
[0193]
由非中文翻译成中文后的字幕文件没有角信息，而角信息是用来挑选角的声音转换模型(voice conversion，vc)，以及第二配音对象必须的信息，所以，需要进行字幕角拆分，以为字幕文件添加角信息，具体地：在目标视频中提取人脸出现时间戳，在原声音频文件中提取声纹出现片段时间戳，在第一台词文本中提取中文台词片段出现时间戳，将声纹出现片段时间戳、人脸出现时间戳和中文台词片段出现时间戳进行合并，得到每个人脸在不同时间段的对应的台词内容，将每个人脸在不同时间段的对应的台词内容与第二台词文本进行匹配，得到每个角对应的音频时间段，基于每个角对应的音频时间段进行智能分轨，得到每个角在不同时间段对应的音频文件，即：角分轨1、角分轨2
……
角分轨n，每个角分轨即相当于前述实施例中的任一第一音频文件。
[0194]
将每个角分轨分别输入声音转换模型，声音转换模型的作用是将业余中文配音员a的情感、韵律及内容等保留，仅将其音特征替换为中文配音员b、中文配音员c或者中文配音员d的音特征，具体地，如图9所示，将由业余中文配音员a的任一角分轨(即第一音频文件)输入编码器，编码器在该角分轨中提取内容a及韵律a，其中的音a实际应用中可以不提取。根据实际需要，可以进行声纹选角，即在中文音、c和d等中挑选任一适合影视剧配音场景的配音音，在实际操作过程中选择合适的音id(即前述实施例中的声纹标识)，获取音id对应的音特征，将内容a、韵律a及获取的音特征输入解码器，解码器对三者进行合并，得到音频频谱，对音频频谱进行音频重建，得到由中文配音员的音、c或d配音的第二音频文件。
[0195]
基于声音转换模型生成的音频频谱重建的语音可能会有一定的机械音、电流音以及一定程度的噪声，所以可以使用dsp技术对第二音频文件中的声音进行音质修复，以去除噪声及修复音质。
[0196]
由于不同时刻的重建语音音量可能不同，所以，可以检测原声音频文件的音量及对应的时间戳，并据此对第二音频文件中语音的音量进行音量修复，而且，可以检测原声音频文件的音效及对应的时间戳，并据此为第二音频文件中添加相应的音效。
[0197]
在本技术的又一实施例中，还提供一种音频处理装置，如图10所示，该音频处理装置包括：
[0198]
第一获取模块11，用于获取目标视频对应的第一音频文件，提取所述第一音频文件中第一配音对象的配音内容的内容特征及韵律特征，所述第一音频文件中的语种是与所述目标视频的原声音频文件的第二语种不同的第一语种；
[0199]
第二获取模块12，用于获取第二配音对象对应的音特征，所述第一配音对象和
所述第二配音对象具有不同的音；
[0200]
合并模块13，用于将所述内容特征、韵律特征和所述音特征合并，得到音频频谱；
[0201]
重建模块14，用于基于所述音频频谱进行音频重建，得到与所述目标视频对应的第二音频文件。
[0202]
可选地，所述第一获取模块包括：
[0203]
第一获取单元，用于获取目标视频对应的原声音频文件、配音音频文件、第一台词文本及第二台词文本，所述第一台词文本是对所述配音音频文件进行语音识别得到的，其中不包含角信息，所述配音音频文件是利用与所述目标视频的原声音频文件的第二语种不同的第一语种配音得到的，所述第二台词文本与所述原声音频文件对应，其中包含角信息；
[0204]
第一确定单元，用于根据所述目标视频、所述第一台词文本和所述原声音频文件确定属于同一角的人脸发言的发言时间段及与所述发言时间段对应的台词内容属于同一角的人脸发言的发言时间段及与所述发言时间段对应的台词内容；
[0205]
分轨单元，用于根据所述发言时间段、与所述发言时间段对应的台词内容和所述第二台词文本对所述配音音频文件进行音频分轨，得到每个角发言的时间段及与所述时间段对应的音频文件；
[0206]
第二确定单元，用于将任一角发言的时间段所对应的音频文件确定为所述目标视频对应的第一音频文件。
[0207]
可选地，所述第一确定单元包括：
[0208]
第一提取子单元，用于在所述目标视频中提取人脸出现时间戳；
[0209]
第二提取子单元，用于在原声音频文件中提取声纹出现片段时间戳；
[0210]
第三提取子单元，用于在所述第一台词文本中提取第一语种台词片段出现时间戳；
[0211]
第一匹配子单元，用于将所述声纹出现片段时间戳和所述人脸出现时间戳进行匹配，得到属于同一角的人脸发言的发言时间段；
[0212]
第二匹配子单元，用于将属于同一角的人脸发言的时间段和第一语种台词片段出现时间戳进行匹配，得到与所述发言时间段对应的台词内容。
[0213]
可选地，所述分轨单元包括：
[0214]
第三匹配子单元，用于将所述发言时间段、与所述发言时间段对应的台词内容和所述第二台词文本进行匹配，得到每个角发言的时间段；
[0215]
分轨子单元，用于按照所述每个角发言的时间段对所述配音音频文件进行音频分轨，得到与所述时间段对应的音频文件。
[0216]
可选地，所述配音特征包括：内容特征，所述第一获取模块包括：
[0217]
第一输入单元，用于将所述第一音频文件输入预设的语音识别编码器，得到识别内容；
[0218]
第二输入单元，用于将所述识别内容输入预设的内容编码器，得到所述内容特征。
[0219]
可选地，所述配音特征包括：韵律特征，所述第一获取模块包括：
[0220]
第三输入单元，用于将所述第一音频文件输入预设的语音自监督学习预训练模
型，得到输出数据；
[0221]
第四输入单元，用于将所述输出数据输入预设的韵律编码器，得到所述韵律特征。
[0222]
可选地，所述第二获取模块包括：
[0223]
第二获取单元，用于获取所述目标视频的原声音频文件；
[0224]
提取单元，用于在所述原声音频文件中提取原声配音对象的原声声纹特征；
[0225]
第一查单元，用于在预设声纹库中查与所述原声声纹特征对应的声纹标识；
[0226]
第三确定单元，用于将与所述声纹标识对应的配音对象的音特征确定为所述第二配音对象的第二音特征。
[0227]
可选地，在重建单元之后，所述装置还包括：
[0228]
第三获取模块，用于获取所述目标视频的原声音频文件；
[0229]
音量检测模块，用于对所述原声音频文件进行音量检测，得到多个第一时间戳对应的第一音量值；
[0230]
第一查模块，用于在所述第二音频文件中查与每个所述第一时间戳对应的第二音量值；
[0231]
音量调整模块，用于若所述第一音量值与所述第二音量值之间的差值大于预设阈值，将所述第二音量值调整为所述第一音量值，得到调整后的第二音频文件。
[0232]
可选地，在冲减单元之后，所述装置还包括：
[0233]
音效检测模块，用于对所述原声音频文件进行音效检测，得到多个第二时间戳对应的音效类型；
[0234]
音效调整模块，用于按照多个第二时间戳对应的音效类型在所述第二音频文件中添加音效，得到调整后的第二音频文件。
[0235]
在本技术的又一实施例中，还提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；
[0236]
存储器，用于存放计算机程序；
[0237]
处理器，用于执行存储器上所存放的程序时，实现前述任一方法实施例所述的音频处理方法。
[0238]
本发明实施例提供的电子设备，处理器通过执行存储器上所存放的程序实现了通过仅保留第一音频文件中第一配音对象的配音特征，不使用第一配音对象的音特征，将第一配音对象的配音特征与第二配音对象的音特征合并，使基于合并得到的音频频谱重建的第二音频文件中能够具有第二配音对象的音并保留配音特征，实现自动将第一配音对象的音转换第二配音对象的音的同时，保留第一配音对象配音的内容及情感，进而，可以便于将目标视频文件对应的所有第一音频文件中第一配音对象的音分别转化为相应的第二配音对象的音，无需其他配音演员，即可达到由一个第一配音对象配出多个第二配音对象的音的效果，同时可以保留第一配音对象发言丰富的情感，从而满足影视剧场景对对白的要求。
[0239]
上述电子设备提到的通信总线1140可以是外设部件互连标准(peripheralcomponentinterconnect，简称pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture，简称eisa)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示，图11中仅用一条粗线表示，但并不表示仅有一根总线或一
种类型的总线。
[0240]
通信接口1120用于上述电子设备与其他设备之间的通信。
[0241]
存储器1130可以包括随机存取存储器(randomaccessmemory，简称ram)，也可以包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。
[0242]
上述的处理器1110可以是通用处理器，包括中央处理器(centralprocessingunit，简称cpu)、网络处理器(networkprocessor，简称np)等；还可以是数字信号处理器(digitalsignalprocessing，简称dsp)、专用集成电路(applicationspecificintegratedcircuit，简称asic)、现场可编程门阵列(field-programmablegatearray，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0243]
在本技术的又一实施例中，还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有音频处理方法的程序，所述音频处理方法的程序被处理器执行时实现前述任一方法实施例所述的音频处理方法的步骤。
[0244]
需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0245]
以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

技术特征：

1.一种音频处理方法，其特征在于，包括：获取目标视频对应的第一音频文件，提取所述第一音频文件中第一配音对象的配音内容对应的配音特征，所述第一音频文件中的第一语种与所述目标视频的原声音频文件中的第二语种不同；获取第二配音对象对应的音特征，所述第一配音对象和所述第二配音对象具有不同的音；将所述配音特征和所述音特征合并，得到音频频谱；基于所述音频频谱进行音频重建，得到与所述目标视频对应的第二音频文件。2.根据权利要求1所述的音频处理方法，其特征在于，获取目标视频对应的第一音频文件，包括：获取目标视频对应的原声音频文件、配音音频文件、第一台词文本及第二台词文本，所述第一台词文本是对所述配音音频文件进行语音识别得到的，其中不包含角信息，所述配音音频文件是利用与所述目标视频的原声音频文件的第二语种不同的第一语种配音得到的，所述第二台词文本与所述原声音频文件对应，其中包含角信息；根据所述目标视频、所述第一台词文本和所述原声音频文件确定属于同一角的人脸发言的发言时间段及与所述发言时间段对应的台词内容；根据所述发言时间段、与所述发言时间段对应的台词内容和所述第二台词文本对所述配音音频文件进行音频分轨，得到每个角发言的时间段及与所述时间段对应的音频文件；将任一角发言的时间段所对应的音频文件确定为所述目标视频对应的第一音频文件。3.根据权利要求2所述的音频处理方法，其特征在于，根据所述目标视频、所述第一台词文本和所述原声音频文件确定属于同一角的人脸发言的发言时间段及与所述发言时间段对应的台词内容，包括：在所述目标视频中提取人脸出现时间戳；在原声音频文件中提取声纹出现片段时间戳；在所述第一台词文本中提取第一语种台词片段出现时间戳；将所述声纹出现片段时间戳和所述人脸出现时间戳进行匹配，得到属于同一角的人脸发言的发言时间段；将属于同一角的人脸发言的时间段和第一语种台词片段出现时间戳进行匹配，得到与所述发言时间段对应的台词内容。4.根据权利要求2所述的音频处理方法，其特征在于，根据所述发言时间段、与所述发言时间段对应的台词内容和所述第二台词文本对所述配音音频文件进行音频分轨，得到每个角发言的时间段及与所述时间段对应的音频文件，包括：将所述发言时间段、与所述发言时间段对应的台词内容和所述第二台词文本进行匹配，得到每个角发言的时间段；按照所述每个角发言的时间段对所述配音音频文件进行音频分轨，得到与所述时间段对应的音频文件。5.根据权利要求1所述的音频处理方法，其特征在于，获取第二配音对象对应的第二音
特征，包括：获取所述目标视频的原声音频文件；在所述原声音频文件中提取原声配音对象的原声声纹特征；在预设声纹库中查与所述原声声纹特征对应的声纹标识；将与所述声纹标识对应的配音对象的音特征确定为所述第二配音对象的第二音特征。6.根据权利要求1所述的音频处理方法，其特征在于，在基于所述音频频谱进行音频重建，得到与所述目标视频对应的第二音频文件之后，所述方法还包括：获取所述目标视频的原声音频文件；对所述原声音频文件进行音量检测，得到多个第一时间戳对应的第一音量值；在所述第二音频文件中查与每个所述第一时间戳对应的第二音量值；若所述第一音量值与所述第二音量值之间的差值大于预设阈值，将所述第二音量值调整为所述第一音量值，得到调整后的第二音频文件。7.根据权利要求1所述的音频处理方法，其特征在于，在基于所述音频频谱进行音频重建，得到与所述目标视频对应的第二音频文件之后，所述方法还包括：对所述原声音频文件进行音效检测，得到多个第二时间戳对应的音效类型；按照多个第二时间戳对应的音效类型在所述第二音频文件中添加音效，得到调整后的第二音频文件。8.一种音频处理装置，其特征在于，包括：第一获取模块，用于获取目标视频对应的第一音频文件，提取所述第一音频文件中第一配音对象的配音内容的内容特征及韵律特征，所述第一音频文件中的第一语种与所述目标视频的原声音频文件中的第二语种不同；第二获取模块，用于获取第二配音对象对应的音特征，所述第一配音对象和所述第二配音对象具有不同的音；合并模块，用于将所述内容特征、韵律特征和所述音特征合并，得到音频频谱；重建模块，用于基于所述音频频谱进行音频重建，得到与所述目标视频对应的第二音频文件。9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现权利要求1～7任一所述的音频处理方法。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有音频处理方法的程序，所述音频处理方法的程序被处理器执行时实现权利要求1-7任一所述的音频处理方法的步骤。

技术总结

本发明涉及一种音频处理方法、装置、电子设备及存储介质，其中，音频处理方法包括：获取目标视频对应的第一音频文件，提取所述第一音频文件中第一配音对象的配音内容对应的配音特征，所述第一音频文件中的第一语种与所述目标视频的原声音频文件中的第二语种不同；获取第二配音对象对应的音特征，所述第一配音对象和所述第二配音对象具有不同的音；将所述配音特征和所述音特征合并，得到音频频谱；基于所述音频频谱进行音频重建，得到与所述目标视频对应的第二音频文件。本申请实施例能够实现自动将第一配音对象的音转换第二配音对象的音的同时，保留第一配音对象配音的内容及情感。容及情感。容及情感。