样本音频数据的生成方法、装置、电子设备及存储介质与流程



1.本公开涉及人工智能技术领域,特别涉及一种样本音频数据的生成方法、装置、电子设备及存储介质。


背景技术:



2.近年来,神经网络广泛地应用在语音领域中,尤其是降噪、去混响等语音增强方向。基于神经网络所训练的高精度的语音增强模型,能够在海量样本音频数据的驱动下,充分地学习带噪语音数据到干净语音数据之间复杂的非线性映射关系,从而获得较佳的语音增强效果。然而,样本音频数据与实际场景的贴合度直接影响了语音增强模型的性能,因此,如何生成更加合理、有效的样本音频数据,成为模型训练过程中非常重要的一环。
3.相关技术中在生成样本音频数据时,主要采用如下方法:将纯净的语音信号与模拟房间冲激响应进行卷积操作,得到混合后的混响音频信号;如果模拟房间冲激响应的混响时间小于或等于设定的阈值,则将混合后的混响音频信号作为样本音频数据;如果模拟房间冲激响应的混响时间大于设定的阈值,则将混合后的混响音频信号的前n毫秒的前期反射信号与纯净的语音信号进行叠加,得到样本音频数据。
4.然而,相关技术的样本音频数据生成方法没有考虑到实际使用中硬件设备、环境等带来的影响,导致生成的样本音频数据与实际场景下采集的样本音频数据贴合度较低。


技术实现要素:



5.本公开实施例提供了一种样本音频数据的生成方法、装置、电子设备及存储介质,能够生成与实际场景下采集的样本音频数据贴合度较高的样本音频数据。所述技术方案如下:
6.第一方面,提供了一种样本音频数据的生成方法,所述方法包括:
7.获取干净语音数据和多通道房间冲激响应,所述干净语音数据为噪声能量值小于预设能量值的语音数据,所述多通道房间冲激响应为增加了实际场景中麦克风阵列误差、通道幅值误差中至少一项的仿真混响效果数据;
8.基于所述干净语音数据和所述多通道房间冲激响应,生成多通道全混响干净语音数据和前期混响干净语音数据;
9.基于所述多通道房间冲激响应和单通道噪声数据,生成多通道噪声数据;
10.基于所述多通道全混响干净语音数据、前期混响干净语音数据及所述多通道噪声数据,生成样本音频数据。
11.在本公开的另一个实施例中,所述获取干净语音数据,包括:
12.获取语音数据库,所述语音数据库中存储有在实际语音场景下录制的语音数据;
13.采用vad(voice activity detection,语音活动检测),识别所述语音数据库中任一条语音数据的噪声部分;
14.当所述语音数据的噪声部分的平均能量值小于所述预设能量值,将所述语音数据
作为所述干净语音数据。
15.在本公开的另一个实施例中,所述获取多通道房间冲激响应,包括:
16.根据预设的混响效果,确定麦克风阵列中每个麦克风的理论位置坐标;
17.为所述麦克风阵列中至少一个麦克风的理论位置坐标增加随机扰动;
18.基于位置坐标调整后的麦克风阵列中的每个麦克风仿真音频信号的采集过程,得到多通道音频信号;
19.对所述多通道音频信号中每个通道音频信号的幅值进行随机调整,得到所述多通道房间冲激响应。
20.在本公开的另一个实施例中,所述基于所述干净语音数据和所述多通道房间冲激响应,生成多通道全混响干净语音数据和前期混响干净语音数据,包括:
21.将所述干净语音数据和所述多通道房间冲激响应进行卷积操作,得到所述多通道全混响干净语音数据;
22.将所述干净语音数据中前预设时长的语音数据与所述多通道房间冲激响应进行卷积操作,得到所述前期混响干净语音数据。
23.在本公开的另一个实施例中,所述基于所述多通道房间冲激响应和单通道噪声数据,生成多通道噪声数据,包括:
24.将所述多通道房间冲激响应与所述单通道噪声数据进行卷积操作,得到所述多通道噪声数据。
25.在本公开的另一个实施例中,所述基于所述多通道全混响干净语音数据、前期混响干净语音数据及所述多通道噪声数据,生成样本音频数据,包括:
26.按照预设信噪比,对所述多通道全混响干净语音数据和所述多通道噪声数据进行混合,得到带噪声混响语音数据;
27.对所述带噪声混响语音数据和所述前期混响干净语音数据的频响进行处理,得到样本音频数据。
28.第二方面,提供了一种样本音频数据的获取装置,所述装置包括:
29.获取模块,用于获取干净语音数据和多通道房间冲激响应,所述干净语音数据为噪声能量值小于预设能量值的语音数据,所述多通道房间冲激响应为增加了实际场景中麦克风阵列误差、通道幅值误差中至少一项的仿真混响效果数据;
30.第一生成模块,用于基于所述干净语音数据和所述多通道房间冲激响应,生成多通道全混响干净语音数据和前期混响干净语音数据;
31.第二生成模块,用于基于所述多通道房间冲激响应和单通道噪声数据,生成多通道噪声数据;
32.第三生成模块,用于基于所述多通道全混响干净语音数据、前期混响干净语音数据及所述多通道噪声数据,生成样本音频数据。
33.在本公开的另一个实施例中,所述获取模块,用于获取语音数据库,所述语音数据库中存储有在实际语音场景下录制的语音数据;采用vad,识别所述语音数据库中任一条语音数据的噪声部分;当所述语音数据的噪声部分的平均能量值小于所述预设能量值,将所述语音数据作为所述干净语音数据。
34.在本公开的另一个实施例中,所述获取模块,用于根据预设的混响效果,确定麦克
风阵列中每个麦克风的理论位置坐标;为所述麦克风阵列中至少一个麦克风的理论位置坐标增加随机扰动;基于位置坐标调整后的麦克风阵列中的每个麦克风仿真音频信号的采集过程,得到多通道音频信号;对所述多通道音频信号中每个通道音频信号的幅值进行随机调整,得到所述多通道房间冲激响应。
35.在本公开的另一个实施例中,所述第一生成模块,用于将所述干净语音数据和所述多通道房间冲激响应进行卷积操作,得到所述多通道全混响干净语音数据;将所述干净语音数据中前预设时长的语音数据与所述多通道房间冲激响应进行卷积操作,得到所述前期混响干净语音数据。
36.在本公开的另一个实施例中,所述第二生成模块,用于将所述多通道房间冲激响应与所述单通道噪声数据进行卷积操作,得到所述多通道噪声数据。
37.在本公开的另一个实施例中,所述第三生成模块,用于按照预设信噪比,对所述多通道全混响干净语音数据和所述多通道噪声数据进行混合,得到带噪声混响语音数据;对所述带噪声混响语音数据和所述前期混响干净语音数据的频响进行处理,得到样本音频数据。
38.第三方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现如第一方面所述的样本音频数据的生成方法。
39.第四方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现如第一方面所述的样本音频数据的生成方法。
40.第五方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序代码,所述计算机程序代码存储在计算机可读存储介质中,电子设备的处理器从所述计算机可读存储介质读取所述计算机程序代码,所述处理器执行所述计算机程序代码,使得所述电子设备执行如第一方面所述的样本音频数据的生成方法。
41.本公开实施例提供的技术方案带来的有益效果是:
42.考虑到实际场景下采集的语音数据或多或少会存在一些底噪,且实际场景中麦克风阵列的排放位置可能不会精准地设置在理论位置上,且麦克风阵列中每个麦克风的性能很难做到完全一致,本公开实施例将噪声能量值小于预预设能量值的语音数据作为干净语音数据,同时为多通道房间冲激响应增加了实际场景中麦克风阵列误差、通道幅值误差中至少一项,使得获取的干净语音数据及多通道房间冲激响应更符合实际的采集场景。接着对干净语音数据及多通道房间冲激响应进行处理,得到多通道全混响干净语音数据和前期混响干净语音数据。且考虑到噪声在实际场景下传播时也会具有实际场景下的混响效果,通过对单通道的噪声数据进行处理,得到与多通道全混响干净语音数据具有相同混响效果的多通道噪声数据,进而基于多通道全混响干净语音数据、前期混响干净语音数据及多通道噪声数据,生成与实际场景贴合度较高的样本音频数据。
附图说明
43.为了更清楚地说明本公开实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于
本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
44.图1是本公开实施例提供的一种样本音频数据的生成方法流程图;
45.图2是本公开实施例提供的另一种样本音频数据的生成方法流程图;
46.图3是本公开实施例提供的另一种样本音频数据的生成方法流程图;
47.图4是本公开实施例提供的另一种样本音频数据的生成方法流程图;
48.图5是本公开实施例提供的一种样本音频数据的生成装置结构示意图;
49.图6示出了本公开实施例提供的一种电子设备的结构框图。
具体实施方式
50.为使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开实施方式作进一步地详细描述。
51.可以理解,本公开实施例所使用的术语“每个”、“多个”及“任一”等,多个包括两个或两个以上,每个是指对应的多个中的每一个,任一是指对应的多个中的任意一个。举例来说,多个词语包括10个词语,而每个词语是指这10个词语中的每一个词语,任一词语是指10个词语中的任意一个词语。
52.本公开所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本公开中涉及到的干净语音数据、噪声数据都是在充分授权的情况下获取的。
53.本公开实施例提供了一种样本语音数据的生成方法,参见图1,本公开实施例提供的方法流程包括:
54.101.获取干净语音数据和多通道房间冲激响应。
55.其中,干净语音数据为噪声能量值小于预设能量值的语音数据。多通道房间冲激响应为增加了实际场景中麦克风阵列误差、通道幅值误差中至少一项的仿真混响效果数据。
56.102.基于干净语音数据和多通道房间冲激响应,生成多通道全混响干净语音数据和前期混响干净语音数据。
57.103.基于多通道房间冲激响应和单通道噪声数据,生成多通道噪声数据。
58.104.基于多通道全混响干净语音数据、前期混响干净语音数据及多通道噪声数据,生成样本音频数据。
59.本公开实施例提供的方法,考虑到实际场景下采集的语音数据或多或少会存在一些底噪,且实际场景中麦克风阵列的排放位置可能不会精准地设置在理论位置上,且麦克风阵列中每个麦克风的性能很难做到完全一致,本公开实施例将噪声能量值小于预预设能量值的语音数据作为干净语音数据,同时为多通道房间冲激响应增加了实际场景中麦克风阵列误差、通道幅值误差中至少一项,使得获取的干净语音数据及多通道房间冲激响应更符合实际的采集场景。接着对干净语音数据及多通道房间冲激响应进行处理,得到多通道全混响干净语音数据和前期混响干净语音数据。且考虑到噪声在实际场景下传播时也会具
有实际场景下的混响效果,通过对单通道的噪声数据进行处理,得到与多通道全混响干净语音数据具有相同混响效果的多通道噪声数据,进而基于多通道全混响干净语音数据、前期混响干净语音数据及多通道噪声数据,生成与实际场景贴合度较高的样本音频数据。
60.在本公开的另一个实施例中,获取干净语音数据,包括:
61.获取语音数据库,语音数据库中存储有在实际语音场景下录制的语音数据;
62.采用语音活动检测vad,识别语音数据库中任一条语音数据的噪声部分;
63.当语音数据的噪声部分的平均能量值小于预设能量值,将语音数据作为干净语音数据。
64.在本公开的另一个实施例中,获取多通道房间冲激响应,包括:
65.根据预设的混响效果,确定麦克风阵列中每个麦克风的理论位置坐标;
66.为麦克风阵列中至少一个麦克风的理论位置坐标增加随机扰动;
67.基于位置坐标调整后的麦克风阵列中的每个麦克风仿真音频信号的采集过程,得到多通道音频信号;
68.对多通道音频信号中每个通道音频信号的幅值进行随机调整,得到多通道房间冲激响应。
69.在本公开的另一个实施例中,基于干净语音数据和多通道房间冲激响应,生成多通道全混响干净语音数据和前期混响干净语音数据,包括:
70.将干净语音数据和多通道房间冲激响应进行卷积操作,得到多通道全混响干净语音数据;
71.将干净语音数据中前预设时长的语音数据与多通道房间冲激响应进行卷积操作,得到前期混响干净语音数据。
72.在本公开的另一个实施例中,基于多通道房间冲激响应和单通道噪声数据,生成多通道噪声数据,包括:
73.将多通道房间冲激响应与单通道噪声数据进行卷积操作,得到多通道噪声数据。
74.在本公开的另一个实施例中,基于多通道全混响干净语音数据、前期混响干净语音数据及多通道噪声数据,生成样本音频数据,包括:
75.按照预设信噪比,对多通道全混响干净语音数据和多通道噪声数据进行混合,得到带噪声混响语音数据;
76.对带噪声混响语音数据和前期混响干净语音数据的频响进行处理,得到样本音频数据。
77.上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
78.本公开实施例提供了一种样本语音数据的生成方法,以电子设备执行本公开实施例为例,该电子设备可以是具有较强计算能力的终端,例如,智能手机、平板电脑、笔记本电脑等,该电子设备还可以是服务器,例如,单独的物理服务器、多个物理服务器组成的集或分布式系统等。参见图2,本公开实施例提供的方法流程包括:
79.201.电子设备获取干净语音数据和多通道房间冲激响应。
80.本公开实施例维护一个语音数据库,该语音数据库中存储有在实际语音场景下录制的语音数据。虽然语音数据库中的语音数据都是在安静的环境下录制的,但是在录制过
程中或多或少会存在一些底噪。而本公开实施例所要训练的模型为语音降噪模型,如果原始的语音数据中存在的底噪过大,则会影响最终训练的语音降噪模型性能。为了获取到与实际场景中贴合度较高且不会影响到语音降噪模型性能的干净语音数据,本公开实施例将采用如下方式:
81.第一步,电子设备获取语音数据库。
82.第二步,电子设备采用语音活动检测vad,识别语音数据库中任一条语音数据的噪声部分。
83.其中,vad又称语音端点检测或语音边界检测,其目的是从声音信号流中识别和消除长时间的静音期,以达到在不降低业务质量的情况下节省话路资源的作用,vad是ip电话应用的重要组成部分。静音抑制可以节省宝贵的带宽资源,可以有利于减少用户感觉到的端到端的时延。对于语音数据库中任一条语音数据,电子设备采用vad识别出该语音数据中语音部分的时间戳信息(包括起始时间戳信息和结束时间戳信息等),并识别出噪声部分的时间戳信息(包括起始时间戳信息和结束时间戳信息),进而基于语音部分的时间戳信息以及噪声部分的时间戳信息,识别出该语音数据的噪声部分,该噪声部分包括至少一个噪声片段。
84.第三步,当语音数据的噪声部分的平均能量值小于预设能量值,电子设备将语音数据作为干净语音数据。
85.其中,预设能量值可根据所需训练的语音降噪模型的处理精度进行设置。基于所识别出的该语音数据的噪声部分,电子设备计算每个噪声片段的平均能量值,进而计算所有噪声片段的平均能量值,作为该语音数据的噪声部分的平均能量值。如果该语音数据的噪声部分的平均能量值小于预设能量值,则保留该语音数据,并将该语音数据作为干净语音数据;如果该语音数据的噪声部分的平均能量值大于等于预设能量值,则丢弃该语音数据。电子设备重复执行上述第一步和第二步,直至获取到的干净语音数据的数量达到语音降噪模型训练所需的样本数量。
86.其中,多通道房间冲激响应为一种仿真混响效果数据,采用该多通道房间冲激响应对音频数据进行处理,能够得到与该多通道房间冲激响应具有相同混响效果的音频数据。在本公开实施例中,电子设备采用ism(image source method,image source method)方法,仿真多通道房间冲激响应数据。在仿真过程中,考虑到麦克风阵列中每个麦克风的摆放位置可能与理论摆放位置存在差异,且每个麦克风的性能不完全相同,导致不同麦克风采集的音频数据的幅值存在一定的差异,为了获取到与实际场景贴合度较高的房间冲激响应数据,电子设备将会为理论上的多通道房间冲激响应增加麦克风阵列误差、通道幅值误差中至少一项。
87.对于麦克风阵列误差具体的增加过程为:电子设备根据预设的混响效果,确定需要实现该预设的混响效果的参数,包括麦克风阵列中每个麦克风的理论位置坐标、混响时间、房间尺寸、声源(可以为语音声源,也可以噪声声源等)的个数、每个声源的位置坐标、每个声源与麦克风阵列的距离(该距离为声源到麦克风阵列中心点的距离)等,基于所确定的麦克风阵列中每个麦克风的理论位置坐标,电子设备为该麦克风阵列中至少一个麦克风的理论位置坐标增加随机扰动,进而基于位置坐标调整后的麦克风阵列中的每个麦克风仿真音频信号的采集过程,得到多通道音频信号。
88.此处需要说明两点:第一点,需要增加随机扰动的麦克风的数量是随机的,即电子设备可为麦克风阵列中每个麦克风增加随机扰动,也可以从麦克风阵列中随机选择一个或多个麦克风增加随机扰动。
89.第二点,不同麦克风增加的随机扰动可以相同,也可以不同,该随机扰动的范围可根据实际硬件设备的工艺水平或者麦克风阵列的相对尺寸进行随机生成,该随机扰动的范围可以为预设误差范围与麦克风阵列中各个麦克风之间的间距的乘积,例如,预设误差范围为【-1%,1%】,麦克风阵列中各个麦克风之间的间距为1米,则该随机扰动的范围为-1%*10米~1%*1米,即【-0.01米,0.01米】。
90.对于幅值误差具体的增加过程为:电子设备对多通道音频信号中至少一个通道音频信号的幅值进行随机调整,得到多通道房间冲激响应。
91.此处需要说明几点,第一点,上述以对增加了阵列误差的多通道音频信号增加幅值误差为了进行说明,此时得到的多通道房间冲激响应中同时增加了麦克风阵列误差和通道幅值误差。当然,电子设备也可不为该麦克风阵列中至少一个麦克风的理论位置坐标增加随机扰动,而只为理论的多通道房间冲激响应增加幅值误差,此时电子设备随机调整理论的多通道房间冲激响应中至少一个通道的信号的幅值即可。
92.第二点,需要调整幅值的通道数量是随机的,即电子设备可以调整多通道音频信号中每个通道的音频信号的幅值,电子设备还可以调整多通道音频信号中一个或多个通道的音频信号的幅值。
93.第三点,不同通道幅值的调整范围是随机的,该调整范围可以根据实际需求进行设置,该调整范围可以为【0.9,1.1】。在进行幅值调整时,从调整范围中随机选择一个数值,并将需要调整的音频信号的幅值整体乘以该数值。
94.202.电子设备基于干净语音数据和多通道房间冲激响应,生成多通道全混响干净语音数据和前期混响干净语音数据。
95.考虑到不同的混响时间能够产生不同的混响数据,为了丰富样本音频数据的数量,电子设备可基于干净语音数据和多通道房间冲激响应将采用不同的处理方式,得到不同混响时长的混响数据。
96.第一种方式、电子设备将干净语音数据和多通道房间冲激响应进行卷积操作,得到多通道全混响干净语音数据。该多通道全混响干净语音数据中混响时长较长。
97.第二种方式、将干净语音数据中前预设时长的语音数据与多通道房间冲激响应进行卷积操作,得到前期混响干净语音数据。其中,预设时长可根据需求进行设置,一般为20毫秒~50毫秒。该前期混响干净语音数据中混响时长相比于多通道全混响干净语音数据中混响时长要短。
98.203.电子设备基于多通道房间冲激响应和单通道噪声数据,生成多通道噪声数据。
99.考虑到噪声在实际场景下传播时也会具有实际场景下的混响效果,为了获取到更贴合实际场景的噪声数据,电子设备需要对单通道噪声数据进行混响处理,得到与多通道全混响干净语音数据具有相同混响效果的多通道噪声数据。其中,单通道噪声数据可以为点声源,该到通道噪声数据可从噪声数据库中获取,该噪声数据库用于存储不同声源、不同通道数据的噪声数据。基于所获取的单通道噪声数据,电子设备通过将多通道房间冲激响
应与该单通道噪声数据进行卷积操作,即可得到多通道噪声数据。
100.204.电子设备按照预设信噪比,对多通道全混响干净语音数据和多通道噪声数据进行混合,得到带噪声混响语音数据。
101.其中,信噪比是指一个电子设备或者电子系统中信号与噪声的比例。这里所述信号是指来自设备外部需要通过这台设备进行处理的电子信号,噪声是指经过该设备后产生的原信号中并不存在的无规则的额外信号(或信息),并且该种信号并不随原信号的变化而变。该预设信噪比根据实际需求进行设置,可以为【-5db,25db】。
102.电子设备对多通道全混响干净语音数据和多通道噪声数据进行混合,当多通道全混响干净语音数据的能量值与多通道噪声数据的能量值的比值为预设信噪比,则确定该种混合方式符合预设信噪比要求,进而将符合预设信噪比的混合数据,作为电子设备需要获取的带噪声的混响语音数据。
103.205.电子设备对带噪声混响语音数据和前期混响干净语音数据的频响进行处理,得到样本音频数据。
104.其中,频响也称响曲线,是指增益随频率的变化曲线。任何音响设备或载体(记录声音信号的物体)都有其频响曲线。在电子学上,频响用来描述一台仪器对于不同频率的信号的处理能力的差异。与失真相同,频响也是一个非常重要的参数指标。
105.考虑到不同的麦克风阵列或者同一个麦克风阵列中的不同麦克风的频响并不是完全一致的,特别是不同工艺或者不同型号的麦克风的频响更不相同,而不同频响的麦克风接收到的音频信号频谱分布会存在明显差异,当基于不同频响的带噪声混响语音数据和前期混响干净语音数据训练语音降噪模型,将使得所训练的语音降噪模型对于硬件设备采集的语音数据的匹配度较差而影响性能。为了提高所训练的语音降噪模型的性能,电子设备需要对带噪声混响语音数据和前期混响干净语音数据的频响进行处理。
106.电子设备对带噪声混响语音数据和前期混响干净语音数据的频响进行处理时,先确定容易存在接收差异的频率,进而将多个滤波器组合成能够对该频率的接收效果进行补偿的均衡器,然后基于该均衡器,对带噪声混响语音数据的频响进行处理,得到处理后的带噪声混响语音数据,并基于该均衡器,对前期混响干净语音数据的频响进行处理,得到处理后的前期混响干净语音数据,进而将处理后的带噪声混响语音数据和处理后的前期混响干净语音数据组成一个数据对,该数据对即为用于训练的语音降噪模型的样本音频数据。
107.图3和图4示出了本公开实施例提供的样本音频数据的生成方法的流程图,参见图3和图4,电子设备根据语音数据中底噪的平均能量值,从语音数据库中选取平均能量值小于预设能量值的语音数据作为干净语音数据,然后通过为麦克风阵列中至少一个麦克风的位置坐标增加随机扰动,仿真生成多通道音频信号,进而为多通道音频信号中至少一个通道音频信号的幅值增加随机扰动,得到多通道房间冲激响应。接着,电子设备对干净语音数据与多通道冲房间激响应进行卷积操作,得到多通道全混响干净语音数据和前期混响干净语音数据。然后,电子设备对单通道噪声数据与多通道房间冲激响应进行卷积操作,得到多通道噪声数据。接着,电子设备按照预设信噪比,对多通道全混响干净语音数据和多通道噪声数据进行混合,得到带噪声混响语音数据,然后采用均衡器对带噪声混响语音数据和前期混响干净语音数据的频响进行处理,将处理后的带噪声混响语音数据和处理后的前期混响干净语音数据组成一个数据对,并将该数据对作为样本音频数据。
108.本公开实施例提供的方法,考虑到实际场景下采集的语音数据或多或少会存在一些底噪,且实际场景中麦克风阵列的排放位置可能不会精准地设置在理论位置上,且麦克风阵列中每个麦克风的性能很难做到完全一致,本公开实施例将噪声能量值小于预预设能量值的语音数据作为干净语音数据,同时为多通道房间冲激响应增加了实际场景中麦克风阵列误差、通道幅值误差中至少一项,使得获取的干净语音数据及多通道房间冲激响应更符合实际的采集场景。接着对干净语音数据及多通道房间冲激响应进行处理,得到多通道全混响干净语音数据和前期混响干净语音数据。且考虑到噪声在实际场景下传播时也会具有实际场景下的混响效果,通过对单通道的噪声数据进行处理,得到与多通道全混响干净语音数据具有相同混响效果的多通道噪声数据,进而基于多通道全混响干净语音数据、前期混响干净语音数据及多通道噪声数据,生成与实际场景贴合度较高的样本音频数据。
109.参见图5,本公开实施例提供了一种样本音频数据的生成装置,该装置包括:
110.获取模块501,用于获取干净语音数据和多通道房间冲激响应,该干净语音数据为噪声能量值小于预设能量值的语音数据,该多通道房间冲激响应为增加了实际场景中麦克风阵列误差、通道幅值误差中至少一项的仿真混响效果数据;
111.第一生成模块502,用于基于干净语音数据和多通道房间冲激响应,生成多通道全混响干净语音数据和前期混响干净语音数据;
112.第二生成模块503,用于基于多通道房间冲激响应和单通道噪声数据,生成多通道噪声数据;
113.第三生成模块504,用于基于多通道全混响干净语音数据、前期混响干净语音数据及多通道噪声数据,生成样本音频数据。
114.在本公开的另一个实施例中,获取模块501,用于获取语音数据库,语音数据库中存储有在实际语音场景下录制的语音数据;采用vad(voice activity detection,语音活动检测),识别语音数据库中任一条语音数据的噪声部分;当语音数据的噪声部分的平均能量值小于预设能量值,将语音数据作为干净语音数据。
115.在本公开的另一个实施例中,获取模块501,用于根据预设的混响效果,确定麦克风阵列中每个麦克风的理论位置坐标;为麦克风阵列中至少一个麦克风的理论位置坐标增加随机扰动;基于位置坐标调整后的麦克风阵列中的每个麦克风仿真音频信号的采集过程,得到多通道音频信号;对多通道音频信号中每个通道音频信号的幅值进行随机调整,得到多通道房间冲激响应。
116.在本公开的另一个实施例中,第一生成模块502,用于将干净语音数据和多通道房间冲激响应进行卷积操作,得到多通道全混响干净语音数据;将干净语音数据中前预设时长的语音数据与多通道房间冲激响应进行卷积操作,得到前期混响干净语音数据。
117.在本公开的另一个实施例中,第二生成模块503,用于将多通道房间冲激响应与单通道噪声数据进行卷积操作,得到多通道噪声数据。
118.在本公开的另一个实施例中,第三生成模块504,用于按照预设信噪比,对多通道全混响干净语音数据和多通道噪声数据进行混合,得到带噪声混响语音数据;对带噪声混响语音数据和前期混响干净语音数据的频响进行处理,得到样本音频数据。
119.综上所述,本公开实施例提供的装置,考虑到实际场景下采集的语音数据或多或少会存在一些底噪,且实际场景中麦克风阵列的排放位置可能不会精准地设置在理论位置
上,且麦克风阵列中每个麦克风的性能很难做到完全一致,本公开实施例将噪声能量值小于预预设能量值的语音数据作为干净语音数据,同时为多通道房间冲激响应增加了实际场景中麦克风阵列误差、通道幅值误差中至少一项,使得获取的干净语音数据及多通道房间冲激响应更符合实际的采集场景。接着对干净语音数据及多通道房间冲激响应进行处理,得到多通道全混响干净语音数据和前期混响干净语音数据。且考虑到噪声在实际场景下传播时也会具有实际场景下的混响效果,通过对单通道的噪声数据进行处理,得到与多通道全混响干净语音数据具有相同混响效果的多通道噪声数据,进而基于多通道全混响干净语音数据、前期混响干净语音数据及多通道噪声数据,生成与实际场景贴合度较高的样本音频数据。
120.图6示出了本公开一个示例性实施例提供的一种电子设备600的结构框图。通常,电子设备600包括有:处理器601和存储器602。
121.处理器601可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器601可以采用dsp(digital signal processing,数字信号处理)、fpga(field-programmable gate array,现场可编程门阵列)、pla(programmable logic array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(central processing unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器601可以在集成有gpu(graphics processing unit,图像处理器),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器601还可以包括ai(artificial intelligence,人工智能)处理器,该ai处理器用于处理有关机器学习的计算操作。
122.存储器602可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器601所执行以实现本公开中方法实施例提供的样本音频数据的生成方法。
123.在一些实施例中,电子设备600还可选包括有:外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地,外围设备包括:电源604。
124.外围设备接口603可被用于将i/o(input/output,输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中,处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上;在一些其他实施例中,处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
125.电源604用于为电子设备600中的各个组件进行供电。电源604可以是交流电、直流电、一次性电池或可充电电池。当电源604包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
126.本领域技术人员可以理解,图6中示出的结构并不构成对电子设备600的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
127.在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器,上述指令可由电子设备600的处理器执行以完成上述样本音频数据的生成方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是cd-rom(compact disc read-only memory,只读光盘)、rom、ram(random access memory,随机存取存储器)、磁带、软盘和光数据存储设备等。
128.本公开实施例提供了一种计算机可读存储介质,所述存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现样本音频数据的生成方法。
129.本公开实施例提供了一种计算机程序产品,所述计算机程序产品包括计算机程序代码,所述计算机程序代码存储在计算机可读存储介质中,电子设备的处理器从所述计算机可读存储介质读取所述计算机程序代码,所述处理器执行所述计算机程序代码,使得所述电子设备执行样本音频数据的生成方法。
130.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
131.以上所述仅为本公开的可选实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

技术特征:


1.一种样本音频数据的生成方法,其特征在于,所述方法包括:获取干净语音数据和多通道房间冲激响应,所述干净语音数据为噪声能量值小于预设能量值的语音数据,所述多通道房间冲激响应为增加了实际场景中麦克风阵列误差、通道幅值误差中至少一项的仿真混响效果数据;基于所述干净语音数据和所述多通道房间冲激响应,生成多通道全混响干净语音数据和前期混响干净语音数据;基于所述多通道房间冲激响应和单通道噪声数据,生成多通道噪声数据;基于所述多通道全混响干净语音数据、前期混响干净语音数据及所述多通道噪声数据,生成样本音频数据。2.根据权利要求1所述的方法,其特征在于,所述获取干净语音数据,包括:获取语音数据库,所述语音数据库中存储有在实际语音场景下录制的语音数据;采用语音活动检测vad,识别所述语音数据库中任一条语音数据的噪声部分;当所述语音数据的噪声部分的平均能量值小于所述预设能量值,将所述语音数据作为所述干净语音数据。3.根据权利要求1所述的方法,其特征在于,所述获取多通道房间冲激响应,包括:根据预设的混响效果,确定麦克风阵列中每个麦克风的理论位置坐标;为所述麦克风阵列中至少一个麦克风的理论位置坐标增加随机扰动;基于位置坐标调整后的麦克风阵列中的每个麦克风仿真音频信号的采集过程,得到多通道音频信号;对所述多通道音频信号中至少一个通道音频信号的幅值进行随机调整,得到所述多通道房间冲激响应。4.根据权利要求1所述的方法,其特征在于,所述基于所述干净语音数据和所述多通道房间冲激响应,生成多通道全混响干净语音数据和前期混响干净语音数据,包括:将所述干净语音数据和所述多通道房间冲激响应进行卷积操作,得到所述多通道全混响干净语音数据;将所述干净语音数据中前预设时长的语音数据与所述多通道房间冲激响应进行卷积操作,得到所述前期混响干净语音数据。5.根据权利要求1所述的方法,其特征在于,所述基于所述多通道房间冲激响应和单通道噪声数据,生成多通道噪声数据,包括:将所述多通道房间冲激响应与所述单通道噪声数据进行卷积操作,得到所述多通道噪声数据。6.根据权利要求1所述的方法,其特征在于,所述基于所述多通道全混响干净语音数据、前期混响干净语音数据及所述多通道噪声数据,生成样本音频数据,包括:按照预设信噪比,对所述多通道全混响干净语音数据和所述多通道噪声数据进行混合,得到带噪声混响语音数据;对所述带噪声混响语音数据和所述前期混响干净语音数据的频响进行处理,得到样本音频数据。7.一种样本音频数据的生成装置,其特征在于,所述装置包括:获取模块,用于获取干净语音数据和多通道房间冲激响应,所述干净语音数据为噪声
能量值小于预设能量值的语音数据,所述多通道房间冲激响应为增加了实际场景中麦克风阵列误差、通道幅值误差中至少一项的仿真混响效果数据;第一生成模块,用于基于所述干净语音数据和所述多通道房间冲激响应,生成多通道全混响干净语音数据和前期混响干净语音数据;第二生成模块,用于基于所述多通道房间冲激响应和单通道噪声数据,生成多通道噪声数据;第三生成模块,用于基于所述多通道全混响干净语音数据、前期混响干净语音数据及所述多通道噪声数据,生成样本音频数据。8.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现如权利要求1至6中任一项所述的样本音频数据的生成方法。9.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现如权利要求1至6中任一项所述的样本音频数据的生成方法。10.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序代码,所述计算机程序代码存储在计算机可读存储介质中,电子设备的处理器从所述计算机可读存储介质读取所述计算机程序代码,所述处理器执行所述计算机程序代码,使得所述电子设备执行如权利要求1至6中任一项所述的样本音频数据的生成方法。

技术总结


本公开提供了一种样本音频数据的生成方法、装置、电子设备及存储介质,属于人工智能技术领域。方法包括:基于干净语音数据和多通道房间冲激响应,生成多通道全混响干净语音数据和前期混响干净语音数据,多通道房间冲激响应为增加了实际场景中麦克风阵列误差、通道幅值误差中至少一项的仿真混响效果数据;基于多通道房间冲激响应和单通道噪声数据,生成多通道噪声数据;基于多通道全混响干净语音数据、前期混响干净语音数据及多通道噪声数据,生成样本音频数据。本公开中的多通道房间冲激响应为考虑了实际场景中麦克风阵列误差、通道幅值误差中至少一项的仿真混响效果数据,基于该多通道房间冲激响应能够生成与实际场景贴合度较高的样本音频数据。高的样本音频数据。高的样本音频数据。


技术研发人员:

李良斌

受保护的技术使用者:

北京声智科技有限公司

技术研发日:

2022.08.03

技术公布日:

2022/11/11

本文发布于:2024-09-26 04:19:39,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/9376.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   语音   混响   通道
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议