音频数据处理方法、装置及电子设备与流程



1.本技术属于音频技术领域,具体涉及一种音频数据处理方法、装置及电子设备。


背景技术:



2.用户在使用手机、平板电脑等电子设备时,可能需要采集音频数据。如使用电子设备的录音功能或使用及时通信应用程序发送语音消息时,需要通过电子设备的麦克风采集音频数据。在电子设备的麦克风采集音频数据时,可能出现采集得到的音频数据中出现喷麦、气流声过大等现象(如用户嘴巴离麦克风的距离较近时可能出现此现象),这样采集得到的音频数据的语音质量较差,如果将该音频数据直接作为语音消息发送或者直接作为录音数据,则导致发送语音消息或录音效果较差。


技术实现要素:



3.本技术实施例的目的是提供一种音频数据处理方法、装置及电子设备,能够解决目前采集音频数据时存在音频数据的语音质量较差,导致发送语音消息或录音效果较差的问题。
4.第一方面,本技术实施例提供了一种音频数据处理方法,包括:
5.获取至少两个音频数据;其中,所述音频数据通过不同的麦克风采集得到;
6.获取每个音频数据中的每个语音分段的语音质量;
7.根据所述语音质量,确定目标音频数据;其中,所述目标音频数据为所述至少两个音频数据中的一个,或者所述目标音频数据包括至少两个所述音频数据中的语音分段。
8.第二方面,本技术实施例提供了一种音频数据处理装置,包括:
9.第一获取模块,用于获取至少两个音频数据;其中,所述音频数据通过不同的麦克风采集得到;
10.第二获取模块,用于获取每个音频数据中的每个语音分段的语音质量;
11.处理模块,用于根据所述语音质量,确定目标音频数据;其中,所述目标音频数据为所述至少两个音频数据中的一个,或者所述目标音频数据包括至少两个所述音频数据中的语音分段。
12.第三方面,本技术实施例提供了一种电子设备,该电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的音频数据处理方法的步骤。
13.第四方面,本技术实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的音频数据处理方法的步骤。
14.第五方面,本技术实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的音频数据处理方法的步骤。
15.第六方面,本技术实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所述的音频数据处理方法的步骤。
16.在本技术实施例中,通过获取不同麦克风采集得到的至少两个音频数据,以及获取每个音频数据中的每个语音分段的语音质量;并根据所述语音质量,确定所述至少两个音频数据中的一个为目标音频数据,或者根据至少两个所述音频数据中的语音分段生成目标音频数据。这样,通过对采集的至少两个音频数据进行语音质量的分析来得到目标音频数据,可以保证目标音频数据具有较高的语音质量,从而在采集得到部分语音质量较差的音频数据时,仍可以保证得到语音质量较高的目标音频数据,解决了目前采集音频数据时存在音频数据的语音质量较差,导致发送语音消息或录音的效果较差的问题。
附图说明
17.图1是本技术实施例的音频数据处理方法的流程图;
18.图2是本技术实施例的语音波形图和频谱图的示意图之一;
19.图3是本技术实施例的语音波形图和频谱图的示意图之二;
20.图4是本技术实施例的音频数据处理装置的框图;
21.图5是本技术实施例的电子设备的框图;
22.图6是本技术实施例的电子设备的硬件结构示意图。
具体实施方式
23.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本技术保护的范围。
24.本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
25.下面结合附图,通过具体的实施例及其应用场景对本技术实施例提供的音频数据处理方法进行详细地说明。
26.如图1所示,本发明实施例提供一种音频数据处理方法,包括以下步骤:
27.步骤11:获取至少两个音频数据;其中,所述音频数据通过不同的麦克风采集得到。
28.可选地,所述至少两个音频数据可以通过至少两个麦克风同时采集得到;其中,一个麦克风采集得到一个音频数据。需要说明的是,这里所说的“同时采集”并不限定为至少两个麦克风同时开启,或同时关闭,或同时开启且同时关闭;“同时采集”可以理解为不同麦克风采集的音频数据中至少包括一段相同的语音内容。
29.可选地,所述音频数据处理方法可以应用于电子设备,例如:所述电子设备设置有
至少两个麦克风的情况下,可以通过所述至少两个麦克风分别采集音频数据。如电子设备可以设有位于设备顶部的麦克风和位于设备底部的麦克风等。以发送语音消息场景为例,当用户在使用即时通信等应用程序需要发送语言消息时,可以开启设备底部的主麦克风和设备顶部的副麦克风同时采集音频数据。
30.又例如:所述电子设备设置至少一个麦克风的情况下,可以通过该至少一个麦克风采集至少一路音频数据,以及通过至少一路外接麦克风同时采集至少一路音频数据。如外接麦克风可以是与电子设备连接的麦克风或者与电子设备连接的具有麦克风功能的耳机等,本技术实施例不以此为限。
31.步骤12:获取每个音频数据中的每个语音分段的语音质量。
32.可选地,语音分段为音频数据中包含语音信号的音频分段,该语音信号可以理解为有效语音信息,如人声。
33.步骤13:根据所述语音质量,确定目标音频数据;其中,所述目标音频数据为所述至少两个音频数据中的一个,或者所述目标音频数据包括至少两个所述音频数据中的语音分段。
34.可选地,该步骤13可以包括:将至少两个音频数据中语音质量最高的一个音频分段确定为所述目标音频数据,或者根据至少两个所述音频数据中各时间段内语音质量最高的语音分段,生成目标音频数据。
35.例如:在录音场景下,可以将采集得到的多个音频数据中语音质量最高的音频数据作为录入的目标音频数据,或者根据至少两个所述音频数据中各时间段内语音质量最高的语音分段,生成目标音频数据,从而可以保证在录音场景可以采集得到语音质量较高的音频数据,避免多次重复录入。
36.又例如:在发送语音消息时,可以将采集得到的多个音频数据中语音质量最高的音频数据作为录入的目标音频数据,或者根据至少两个所述音频数据中各时间段内语音质量最高的语音分段,生成目标音频数据,从而可以保证将语音质量较高的音频数据发送至语音消息的接收端,避免多次重复录入。
37.上述方案中,通过获取不同麦克风采集得到的至少两个音频数据,以及获取每个音频数据中的每个语音分段的语音质量;并根据所述语音质量,确定所述至少两个音频数据中的一个为目标音频数据,或者根据至少两个所述音频数据中的语音分段生成目标音频数据。这样,通过对采集的至少两个音频数据进行语音质量的分析来得到目标音频数据,可以保证目标音频数据具有较高的语音质量,从而在采集得到部分语音质量较差的音频数据时,仍可以保证得到语音质量较高的目标音频数据,解决了目前采集音频数据时存在音频数据的语音质量较差,导致发送语音消息或录音的效果较差的问题。
38.可选地,所述获取每个音频数据中的每个语音分段的语音质量,包括:
39.检测每个音频数据中的每个语音信号,将每个所述语音信号对应的音频数据确定为所述语音分段;获取每个所述语音分段的语音质量。
40.例如:通过语音激活检测(voice activation detection,vad)来检测音频数据中是否存在语音信号(即检测音频数据中是否存在有效语音信息,如人声),若存在人声,则确定检测到语音信号,从而将每个所述语音信号对应的音频数据确定为所述语音分段,即检测得到语音分段。
41.该实施例中,检测音频数据中的语音分段可以是在采集音频数据的过程中执行,如采集一部分音频数据后即对该部分音频数据进行vad检测;也可以是在采集得到音频数据后执行,如在采集得到完整的音频数据后对该音频数据进行vad检测等,本技术实施例不以此为限。可选地,所述根据所述语音质量,确定目标音频数据,包括:
42.在所述语音分段的语音质量满足第一预设条件的情况下,将所述语音分段确定为异常语音分段;
43.在所述至少两个音频数据中的第一音频数据中异常语音分段的数量满足第二预设条件的情况下,将所述至少两个音频数据中的第二音频数据确定为所述目标音频数据;
44.在所述第一音频数据中异常语音分段的数量不满足所述第二预设条件的情况下,将所述第一音频分段确定为所述目标音频数据。
45.该实施例中,当至少两个音频数据的数量大于2的情况下,可以针对每个音频数据进行异常语音分段检测,确定每个音频数据中的异常语音分段数量,从而可以从至少两个音频数据中筛选出满足第二预设条件的第一音频数据(这里第一音频数据的数量可能是一个或多个),以及不满足第二预设条件的第二音频数据(这里第二音频数据的数量可能是一个或多个)。
46.进一步地,如果第二音频数据的数量为一个,则可以将该第二音频数据确定为所述目标音频数据。如果第二音频数据的数量大于1,则可以选择任意一个作为音频数据;或者,可以选择第二音频数据中语音质量较高的一个作为目标音频数据,具体的第二音频数据中语音质量最高者可以是继续采用上述方法确定的语音质量最高的一个音频数据,或者还可以是根据所有第二音频数据中各时间段内语音质量最高的语音分段,生成目标音频数据等,本技术实施例不以为限。
47.该实施例中,当至少两个音频数据的数量为2,即在所述至少两个音频数据包括第一音频数据和第二音频数据的情况下,所述根据所述语音质量,确定目标音频数据,包括:
48.在所述语音分段的语音质量满足第一预设条件的情况下,将所述语音分段确定为异常语音分段;在所述第一音频数据中异常语音分段的数量满足第二预设条件的情况下,将所述第二音频数据确定为所述目标音频数据;在所述第一音频数据中异常语音分段的数量不满足第二预设条件情况下,将所述第一音频分段确定为所述目标音频数据。
49.例如:在所述第一音频数据中存在异常语音分段的情况下,确定所述第一音频数据中异常语音分段的数量满足第二预设条件,则将所述第二音频分段确定为所述目标音频数据。在所述第一音频数据中不存在异常语音分段的情况下,确定所述第一音频数据中异常语音分段的数量不满足第二预设条件,则将所述第一音频分段确定为所述目标音频数据。
50.具体的,以发送语音消息场景为例,当用户在使用即时通信等应用程序需要发送语言消息时,可以开启设备底部的主麦克风和设备顶部的副麦克风同时采集音频数据。如主麦克风采集得到第一音频数据,副麦克风采集得到第二音频数据,当主麦克风采集得到的第一音频数据中存在异常语音分段的情况下,表示该主麦克风采集得到第一音频数据的语音质量较差,则将质量较好的副麦克风采集得到的第二音频数据发送至语音消息的接收端,以提升所发送语音消息的质量;当主麦克风采集得到的第一音频数据中不存在异常语音分段的情况下,表示该主麦克风采集得到第一音频数据的语音质量较好,则可以将主麦
克风采集得到第一音频数据发送至语音消息的接收端,从而可以保证所发送语音消息的质量。
51.又例如:在所述第一音频数据中异常语音分段的数量与所述第一音频数据中语音分段的总数量的比值大于第一预设门限的情况下,确定在所述第一音频数据中异常语音分段的数量满足第二预设条件,则将所述第二音频数据确定为所述目标音频数据;在所述第一音频数据中异常语音分段的数量与所述第一音频数据中语音分段的总数量的比值小于或等于第一预设门限的情况下,确定所述第一音频数据中异常语音分段的数量不满足第二预设条件,则将所述第一音频分段确定为所述目标音频数据。
52.具体的,以发送语音消息场景为例,当用户在使用即时通信等应用程序需要发送语言消息时,可以开启设备底部的主麦克风和设备顶部的副麦克风同时采集音频数据。如主麦克风采集得到第一音频数据,副麦克风采集得到第二音频数据,当主麦克风采集得到的第一音频数据中异常语音分段的数量与所述第一音频数据中语音分段的总数量的比值大于第一预设门限的情况下,表示该主麦克风采集得到第一音频数据的语音质量较差,则将质量较好的副麦克风采集得到的第二音频数据发送至语音消息的接收端,以提升所发送语音消息的质量;当主麦克风采集得到的第一音频数据中异常语音分段的数量与所述第一音频数据中语音分段的总数量的比值小于或等于第一预设门限的情况下,表示该主麦克风采集得到第一音频数据的语音质量较好,则可以将主麦克风采集得到第一音频数据发送至语音消息的接收端,从而可以保证所发送语音消息的质量。
53.又例如:在所述第一音频数据中异常语音分段的数量大于第一预设门限的情况下,确定在所述第一音频数据中异常语音分段的数量满足第二预设条件,则将所述第二音频数据确定为所述目标音频数据;在所述第一音频数据中异常语音分段的数量小于或等于所述第一预设门限的情况下,确定在所述第一音频数据中异常语音分段的数量不满足第二预设条件,则将所述第一音频分段确定为所述目标音频数据。
54.具体的,以发送语音消息场景为例,当用户在使用即时通信等应用程序需要发送语言消息时,可以开启设备底部的主麦克风和设备顶部的副麦克风同时采集音频数据。如主麦克风采集得到第一音频数据,副麦克风采集得到第二音频数据,当主麦克风采集得到的第一音频数据中异常语音分段的数量大于第一预设门限的情况下,表示该主麦克风采集得到第一音频数据的语音质量较差,则将质量较好的副麦克风采集得到的第二音频数据发送至语音消息的接收端,以提升所发送语音消息的质量;当主麦克风采集得到的第一音频数据中异常语音分段的数量小于或等于第一预设门限的情况下,表示该主麦克风采集得到第一音频数据的语音质量较好,则可以将主麦克风采集得到第一音频数据发送至语音消息的接收端,从而可以保证所发送语音消息的质量。
55.再例如:还可以基于异常语音分段的总时长占所有语音分段的总时长的比值,来判断第一音频数据中异常语音分段的数量是否满足第二预设条件,如异常语音分段的总时长占所有语音分段的总时长的比值大于第一预设门限,则确定第一音频数据中异常语音分段的数量是满足第二预设条件;异常语音分段的总时长占所有语音分段的总时长的比值小于或等于第一预设门限,则确定第一音频数据中异常语音分段的数量是不满足第二预设条件。
56.可选地,所述第一预设门限可以是根据测试经验设定的固定值,或者除此之外的
其他方式确定的数值等,本技术实施例不以此为限。
57.可选地,作为一种实现方式:所述在所述语音分段的语音质量满足第一预设条件的情况下,将所述语音分段确定为异常语音分段,包括:
58.获取每个所述语音分段对应的语音频谱;
59.根据所述每个所述语音分段对应的语音频谱,确定所述语音分段的语音质量满足第一预设条件的情况下,将所述语音分段确定为异常语音分段。
60.该实施例中,获取每个所述语音分段对应的语音频谱,可以是在采集音频数据的过程中执行,也可以是在采集得到音频数据后执行,本技术实施例不以此为限。
61.例如:当麦克风开启并采集音频数据时,可以通过vad检测所述音频数据中的语音分段,并将语音分段转化为语音频谱。其中,语音频谱的生成过程包括:将检测到的语音分段作为输入信号,经过信号的分帧和加窗处理后,进行短时傅里叶变化处理得到语音分段的能量密度谱;在能量密度谱的基础上,将能量大小映射到图像的范围中(如在0到255的区间内,数值越大颜越浅),从而绘制出该语音分段的语音频谱图,其中语音频谱图是横轴为时间,纵轴为频率,通过颜深浅代表能量大小的二维图像,如图2所示给出了一种音频数据采集场景的语音波形图和频谱图的示例,该场景是:用户说话时嘴巴距离电子设备底部的主麦克风较近,距离电子设备顶部的副麦克风较较远,且同时开启主麦克风和副麦克风采集得到的双通道音频数据;图2中(1)为主麦克风的语音波形图,(2)为副麦克风的语音波形图,(3)为主麦克风的语音频谱图,(4)为副麦克风的语音频谱图。
62.在开启设备底部的主麦克风和设备顶部的副麦克风同时采集音频数据的场景下,如果用户说话时,嘴巴距离设备底部的主麦克风较近,且距离设备顶部的副麦克风的距离较远,则可以通过语音频谱图确定主麦克风对应语音能量高于副麦克风对应的语音能量,如语音频谱图中的能量密度越高(呈现颜越深)表示语音能量越高,且语音能量越高越可能出现“喷麦”现象。结合图2中可以看出,由于用户说话时嘴巴距离主麦克风较近,语音的能量很高,语音频谱图的密度较高(呈现颜较深),如图3所示。
63.其中,“喷麦”现象的原因是由于说话时产生的气流冲击到麦克风上,引起麦克风振膜大幅度的杂乱振动,以及音频输出时的限幅和削波等处理,使得该语音分段的整个频率范围存在很高的能量,尤其是清音部分,不管是高频、中频还是低频都有较大的能量。这种情况下,人耳听到的语音会出现刺耳的、类似白噪声的效果,语音质量较差,即语音分段的语音质量满足预设条件,可以将所述语音分段确定为异常语音分段。
64.相对的,由于嘴巴距离副麦克风较远,如果其采集到的音频数据的语音频谱中浊音的能量集中在中低频,清音的能量集中在中高频,则基本不会出现整个频率范围的能量都很大的情况,语音质量较好,即语音分段的语音质量不满足预设条件,可以将所述语音分段确定为正常语音分段。
65.可选地,作为另一种实现方式:所述在所述语音分段的语音质量满足第一预设条件的情况下,将所述语音分段确定为异常语音分段,包括:
66.获取每个所述语音分段对应的语音频谱和噪声频谱;
67.根据所述语音频谱和噪声频谱,确定所述语音分段中每个语音帧的各频点分别对应的语音噪声比;
68.根据所述语音分段中每个语音帧的各频点分别对应的语音噪声比,确定所述语音
分段的语音质量满足第一预设条件的情况下,将所述语音分段确定为异常语音分段。
69.该实施例中,获取每个所述语音分段对应的语音频谱,可以是在采集音频数据的过程中执行,也可以是在采集得到音频数据后执行,本技术实施例不以此为限。具体获取每个所述语音分段对应的语音频谱的过程可以参见上述实施例,为避免重复,这里不再赘述。
70.相应地,获取每个所述语音分段对应的噪声频谱,也可以是在采集音频数据的过程中执行,也可以是在采集得到音频数据后执行,本技术实施例不以此为限。
71.例如:当麦克风开启并采集音频数据时,可以通过vad检测所述音频数据中的语音分段,并采用改进的最小值控制的递归平均噪声估计算法(improved minima controlled recursive averaging,imcra),根据检测到的语音分段得到对应的背景噪声频谱。其中,采用imcra算法获取的噪声频谱的数据结构和获取语音频谱类似,噪声频谱也是以横轴为时间,纵轴为频率的二维矩阵,其中矩阵里每个点的值代表当前频点的噪声能量。
72.这样,根据所述语音频谱可以确定所述语音分段中每个语音帧的各频点分别对应的语音能量值;根据所述噪声频谱可以确定所述语音分段中每个语言帧的各频点分别对应的噪声能量值;将所述语音能量值和所述噪声能量值的比值,确定为所述语音分段中每个语音帧的各频点分别对应的语音噪声比。
73.可选地,所述在根据所述语音分段中每个语音帧的各频点分别对应的语音噪声比,确定所述语音分段的语音质量满足第一预设条件的情况下,将所述语音分段确定为异常语音分段,包括:
74.在所述语音帧的各频点分别对应的语音噪声比满足第三预设条件的情况下,确定所述语音帧为异常帧;
75.在所述语音分段中异常帧的数量满足第四预设条件的情况下,确定所述语音分段的语音质量满足第一预设条件,并将所述语音分段确定为异常语音分段。
76.例如:在所述语音分段中异常帧的数量与所述语音分段的总帧数的比值大于第二预设门限的情况下,确定所述语音分段中异常帧的数量满足第四预设条件;在所述语音分段中异常帧的数量满足第四预设条件的情况下,确定所述语音分段的语音质量满足第一预设条件,则将所述语音分段确定为异常语音分段。
77.又例如:在所述语音分段中异常帧的数量大于第二预设门限的情况下,确定所述语音分段中异常帧的数量满足第四预设条件;在所述语音分段中异常帧的数量满足第四预设条件的情况下,确定所述语音分段的语音质量满足第一预设条件,则将所述语音分段确定为异常语音分段。
78.该实施例中,所述第二预设门限可以是根据测试经验设定的固定值,或者除此之外的其他方式确定的数值等,本技术实施例不以此为限。
79.可选地,在所述语音帧的各频点分别对应的语音噪声比满足第三预设条件的情况下,确定所述语音帧为异常帧,包括:
80.在所述频点对应的语音噪声比大于预设阈值的情况下,确定所述频点为异常频点;
81.在所述语音帧中异常频点的数量满足第五预设条件的情况下,确定所述语音帧为异常帧。
82.例如:在所述语音帧中异常频点的数量与所述语音帧的频点总数量的比值大于第
三预设门限的情况下,确定所述语音帧中异常频点的数量满足第五预设条件,则确定所述语音帧为异常帧。
83.具体的,针对语音分段中每个语音帧的所有频点,分别计算其对应的语音噪声比,统计每个语音帧中语音噪声比大于预设阈值的频点数;计算语音噪声比大于预设阈值的频点数与该语音帧中所有频点数的比值,得到该语音帧的高能量频点占比。其中,每一帧代表二维矩阵的每一列。若该高能量频点占比大于第三预设门限,则确定所述语音帧中异常频点的数量满足第五预设条件,则确定所述语音帧为异常帧。
84.又例如:在语音帧中异常频点的数量大于第三预设门限的情况下,确定所述语音帧中异常频点的数量满足第五预设条件,则将所述语音帧确定为异常帧。具体的,针对语音分段中每个语音帧的所有频点,分别计算其对应的语音噪声比,统计每个语音帧中语音噪声比大于预设阈值的频点数,得到该语音帧的高能量频点数。其中,每一帧代表二维矩阵的每一列。若该高能量频点数大于第三预设门限,则确定所述语音帧中异常频点的数量满足第五预设条件,则确定所述语音帧为异常帧。
85.可选地,所述第三预设门限可以是根据测试经验设定的固定值,或者除此之外的其他方式确定的数值等,本技术实施例不以此为限。
86.可选地,所述根据所述语音质量,确定目标音频数据,包括:
87.在所述至少两个音频数据中各相同时间段分别对应的语音分段中,将语音质量最高的语音分段确定为目标语音分段;
88.根据所述目标语音分段,生成所述目标音频数据。
89.具体的,以至少两个音频数据包括第一音频数据和第二音频数据为例,若第一音频数据包括语音分段a1、a2和a3,第二音频数据包括语音分段b1、b2和b3;其中,语音分段a1和语音分段b1对应相同的时间段,语音分段a2和语音分段b2对应相同的时间段,语音分段a3和语音分段b3对应相同的时间段.
90.若语音分段a1的语音质量高于语音分段b1的语音质量,语音分段b2的语音质量高于语音分段a2的语音质量,语音分段b3的语音质量高于语音分段a3的语音质量,则确定语音分段a1、语音分段b2和语音分段b3为所述目标语音分段;根据所述语音分段a1、语音分段b2和语音分段b3,生成目标音频数据,从而可以保证目标音频数据具有较高的语音质量。可选地,所述在所述至少两个音频数据中各相同时间段分别对应的语音分段中,将语音质量最高的语音分段确定为目标语音分段,包括:
91.获取每个所述语音分段对应的语音频谱和噪声频谱;
92.根据所述语音频谱和噪声频谱,确定所述语音分段的每个语音帧中各频点分别对应的语音噪声比;
93.根据所述语音噪声比,确定所述至少两个音频数据中各相同时间段分别对应的语音分段中语音质量最高的语音分段,并将所述语音质量最高的语音分段确定为目标语音分段。
94.该实施例中,获取每个所述语音分段对应的语音频谱,可以是在采集音频数据的过程中执行,也可以是在采集得到音频数据后执行,本技术实施例不以此为限。具体获取每个所述语音分段对应的语音频谱的过程可以参见上述实施例,为避免重复,这里不再赘述。
95.相应地,获取每个所述语音分段对应的噪声频谱,也可以是在采集音频数据的过
程中执行,也可以是在采集得到音频数据后执行,本技术实施例不以此为限。具体获取每个所述语音分段对应的噪声频谱的过程可以参见上述实施例,为避免重复,这里不再赘述。
96.根据所述语音频谱可以确定所述语音分段中每个语音帧的各频点分别对应的语音能量值;根据所述噪声频谱可以确定所述语音分段中每个语言帧的各频点分别对应的噪声能量值;将所述语音能量值和所述噪声能量值的比值,确定为所述语音分段中每个语音帧的各频点分别对应的语音噪声比。
97.该实施例中,由于所述至少两个音频数据时通过至少两个音频采集装置同时采集得到的,则不同音频数据中的语音分段可以处于相同的时间段,这样针对每个时间段,可以从不同音频数据中选择语音质量最高的语音分段,并根据这些语音质量最高的语音分段组合生成目标音频数据,从而可以保证目标音频数据具有较高的语音质量。
98.可选地,所述根据所述语音噪声比,确定所述至少两个音频数据中各相同时间段分别对应的语音分段中语音质量最高的语音分段,包括:
99.在所述语音帧的各频点分别对应的语音噪声比满足第三预设条件的情况下,确定所述语音帧为异常帧;
100.将所述至少两个音频数据中各相同时间段分别对应的语音分段中,所述异常帧的数量最小的语音分段,确定为所述语音质量最高的语音分段。
101.可选地,在所述语音帧的各频点分别对应的语音噪声比满足第三预设条件的情况下,确定所述语音帧为异常帧,包括:
102.在所述频点对应的语音噪声比大于预设阈值的情况下,确定所述频点为异常频点;
103.在所述语音帧中异常频点的数量满足第五预设条件的情况下,确定所述语音帧为异常帧。
104.例如:在所述语音帧中异常频点的数量与所述语音帧的频点总数量的比值大于第三预设门限的情况下,确定所述语音帧中异常频点的数量满足第五预设条件,则确定所述语音帧为异常帧。
105.具体的,针对语音分段中每个语音帧的所有频点,分别计算其对应的语音噪声比,统计每个语音帧中语音噪声比大于预设阈值的频点数;计算语音噪声比大于预设阈值的频点数与该语音帧中所有频点数的比值,得到该语音帧的高能量频点占比。其中,每一帧代表二维矩阵的每一列。若该高能量频点占比大于第三预设门限,则确定所述语音帧中异常频点的数量满足第五预设条件,则确定所述语音帧为异常帧。
106.又例如:在语音帧中异常频点的数量大于第三预设门限的情况下,确定所述语音帧中异常频点的数量满足第五预设条件,则将所述语音帧确定为异常帧。
107.具体的,针对语音分段中每个语音帧的所有频点,分别计算其对应的语音噪声比,统计每个语音帧中语音噪声比大于预设阈值的频点数,得到该语音帧的高能量频点数。其中,每一帧代表二维矩阵的每一列。若该高能量频点数大于第三预设门限,则确定所述语音帧中异常频点的数量满足第五预设条件,则确定所述语音帧为异常帧。
108.上述方案中,通过对至少两个音频采集装置采集分别采集的音频信号语音信号分析,在其中一个通道音频采集装置采集的音频数据的语音质量较差时,可以通过另外的音频采集装置采集的音频数据的作为录入/待发送的目标音频数据,从而保证该目标音频数
据具有较高的语音质量,避免用户重复多次录入,且有利于提升用户体验效果。
109.本技术实施例提供的音频数据处理方法,执行主体可以为音频数据处理装置。本技术实施例中以音频数据处理装置执行音频数据处理的方法为例,说明本技术实施例提供的音频数据处理装置。
110.如图4所示,本技术实施例提供一种音频数据处理装置400,包括:
111.第一获取模块410,用于获取至少两个音频数据;其中,所述音频数据通过不同的麦克风采集得到;
112.第二获取模块420,用于获取每个音频数据中的每个语音分段的语音质量;
113.处理模块430,用于根据所述语音质量,确定目标音频数据;其中,所述目标音频数据为所述至少两个音频数据中的一个,或者所述目标音频数据包括至少两个所述音频数据中的语音分段。
114.可选地,所述第二获取模块420包括:
115.识别子模块,用于识别每个音频数据中的每段语音信号,将每段所述语音信号对应的音频数据确定为所述语音分段;
116.获取子模块,用于获取每个所述语音分段的语音质量。
117.可选地,所述处理模块430包括:
118.第一处理子模块,用于在所述语音分段的语音质量满足第一预设条件的情况下,将所述语音分段确定为异常语音分段;
119.第二处理子模块,用于在所述至少两个音频数据中的第一音频数据中异常语音分段的数量满足第二预设条件的情况下,将所述至少两个音频数据中的第二音频数据确定为所述目标音频数据;
120.第三处理子模块,用于在所述第一音频数据中异常语音分段的数量不满足所述第二预设条件的的情况下,将所述第一音频分段确定为所述目标音频数据。
121.可选地,所述第一处理子模块包括:
122.第一获取单元,用于获取每个所述语音分段对应的语音频谱和噪声频谱;
123.第一处理单元,用于根据所述语音频谱和噪声频谱,确定所述语音分段中每个语音帧的各频点分别对应的语音噪声比;
124.第二处理单元,用于在根据所述语音分段中每个语音帧的各频点分别对应的语音噪声比,确定所述语音分段的语音质量满足第一预设条件的情况下,将所述语音分段确定为异常语音分段。
125.可选地,所述第二处理单元包括:
126.第一处理子单元,用于在所述语音帧的各频点分别对应的语音噪声比满足第三预设条件的情况下,确定所述语音帧为异常帧;
127.第二处理子单元,用于在所述语音分段中异常帧的数量满足第四预设条件的情况下,确定所述语音分段的语音质量满足第一预设条件,并将所述语音分段确定为异常语音分段。
128.可选地,所述处理模块430包括:
129.第四处理子模块,用于在所述至少两个音频数据中各相同时间段分别对应的语音分段中,将语音质量最高的语音分段确定为目标语音分段;
130.生成子模块,用于根据所述目标语音分段,生成所述目标音频数据。
131.可选地,所述第四处理子模块包括:
132.第二获取单元,用于获取每个所述语音分段对应的语音频谱和噪声频谱;
133.第三处理单元,用于根据所述语音频谱和噪声频谱,确定所述语音分段的每个语音帧中各频点分别对应的语音噪声比;
134.第四处理单元,用于根据所述语音噪声比,确定所述至少两个音频数据中各相同时间段分别对应的语音分段中语音质量最高的语音分段,并将所述语音质量最高的语音分段确定为所述目标语音分段。
135.可选地,所述第四处理单元包括:
136.第三处理子单元,用于在所述语音帧的各频点分别对应的语音噪声比满足第三预设条件的情况下,确定所述语音帧为异常帧;
137.第四处理子单元,用于将所述至少两个音频数据中各相同时间段分别对应的语音分段中,所述异常帧的数量最小的语音分段,确定为所述语音质量最高的语音分段。
138.可选地,第一处理子单元或第三处理子单元还用于:
139.在所述频点对应的语音噪声比大于预设阈值的情况下,确定所述频点为异常频点;
140.在所述语音帧中异常频点的数量满足第五预设条件的情况下,确定所述语音帧为异常帧。
141.本发明实施例中的装置,通过获取至少两个音频采集装置同时采集得到的至少两个音频数据,以及获取每个音频数据中的每个语音分段的语音质量;并根据所述语音质量,确定所述至少两个音频数据中的一个为目标音频数据,或者根据至少两个所述音频数据中的语音分段生成目标音频数据。这样,通过对采集的至少两个音频数据进行语音质量的分析来得到目标音频数据,可以保证目标音频数据具有较高的语音质量,从而在采集得到部分语音质量较差的音频数据时,仍可以保证得到语音质量较高的目标音频数据,解决了目前采集音频数据时存在音频数据的语音质量较差,导致发送语音消息或录音的效果较差的问题。
142.本技术实施例中的音频数据处理装置可以是电子设备,也可以是电子设备中的部件,例如集成电路或芯片。该电子设备可以是终端,也可以为除终端之外的其他设备。示例性的,电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(mobile internet device,mid)、增强现实(augmented reality,ar)/虚拟现实(virtual reality,vr)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,umpc)、上网本或者个人数字助理(personal digital assistant,pda)等,还可以为服务器、网络附属存储器(network attached storage,nas)、个人计算机(personal computer,pc)、电视机(television,tv)、柜员机或者自助机等,本技术实施例不作具体限定。
143.本技术实施例中的音频数据处理装置可以为具有操作系统的装置。该操作系统可以为安卓(android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本技术实施例不作具体限定。
144.本技术实施例提供的音频数据处理装置能够实现图1的方法实施例实现的各个过
程,为避免重复,这里不再赘述。
145.可选地,如图5所示,本技术实施例还提供一种电子设备500,包括处理器501和存储器502,存储器502上存储有可在所述处理器501上运行的程序或指令,该程序或指令被处理器501执行时实现上述音频数据处理方法实施例的各个步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
146.需要说明的是,本技术实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
147.图6为实现本技术实施例的一种电子设备的硬件结构示意图。
148.该电子设备600包括但不限于:射频单元601、网络模块602、音频输出单元603、输入单元604、传感器605、显示单元606、用户输入单元607、接口单元608、存储器609、以及处理器610等部件。
149.本领域技术人员可以理解,电子设备600还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器610逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图6中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
150.其中,处理器610用于:获取至少两个音频数据;其中,所述音频数据通过不同的麦克风采集得到;获取每个音频数据中的每个语音分段的语音质量;根据所述语音质量,确定目标音频数据;其中,所述目标音频数据为所述至少两个音频数据中的一个,或者所述目标音频数据包括至少两个所述音频数据中的语音分段。
151.可选地,所述处理器610还用于:识别每个音频数据中的每段语音信号,将每段所述语音信号对应的音频数据确定为所述语音分段;获取每个所述语音分段的语音质量。
152.可选地,所述处理器610还用于:在所述语音分段的语音质量满足第一预设条件的情况下,将所述语音分段确定为异常语音分段;在所述至少两个音频数据中的第一音频数据中异常语音分段的数量满足第二预设条件的情况下,将所述至少两个音频数据中的第二音频数据确定为所述目标音频数据;在所述第一音频数据中异常语音分段的数量不满足所述第二预设条件的的情况下,将所述第一音频分段确定为所述目标音频数据。
153.可选地,所述处理器610还用于:获取每个所述语音分段对应的语音频谱和噪声频谱;根据所述语音频谱和噪声频谱,确定所述语音分段中每个语音帧的各频点分别对应的语音噪声比;在根据所述语音分段中每个语音帧的各频点分别对应的语音噪声比,确定所述语音分段的语音质量满足第一预设条件的情况下,将所述语音分段确定为异常语音分段。
154.可选地,所述处理器610还用于:在所述语音帧的各频点分别对应的语音噪声比满足第三预设条件的情况下,确定所述语音帧为异常帧;在所述语音分段中异常帧的数量满足第四预设条件的情况下,确定所述语音分段的语音质量满足第一预设条件,并将所述语音分段确定为异常语音分段。
155.可选地,所述处理器610还用于:在所述至少两个音频数据中各相同时间段分别对应的语音分段中,将语音质量最高的语音分段确定为目标语音分段;根据所述目标语音分段,生成所述目标音频数据。
156.可选地,所述处理器610还用于:获取每个所述语音分段对应的语音频谱和噪声频谱;根据所述语音频谱和噪声频谱,确定所述语音分段的每个语音帧中各频点分别对应的语音噪声比;根据所述语音噪声比,确定所述至少两个音频数据中各相同时间段分别对应的语音分段中语音质量最高的语音分段,并将所述语音质量最高的语音分段确定为所述目标语音分段。
157.可选地,所述处理器610还用于:在所述语音帧的各频点分别对应的语音噪声比满足第三预设条件的情况下,确定所述语音帧为异常帧;将所述至少两个音频数据中各相同时间段分别对应的语音分段中,所述异常帧的数量最小的语音分段,确定为所述语音质量最高的语音分段。
158.可选地,所述处理器610还用于:在所述频点对应的语音噪声比大于预设阈值的情况下,确定所述频点为异常频点;在所述语音帧中异常频点的数量满足第五预设条件的情况下,确定所述语音帧为异常帧。
159.本发明实施例中的电子设备,通过获取不同麦克风采集得到的至少两个音频数据,以及获取每个音频数据中的每个语音分段的语音质量;并根据所述语音质量,确定所述至少两个音频数据中的一个为目标音频数据,或者根据至少两个所述音频数据中的语音分段生成目标音频数据。这样,通过对采集的至少两个音频数据进行语音质量的分析来得到目标音频数据,可以保证目标音频数据具有较高的语音质量,从而在采集得到部分语音质量较差的音频数据时,仍可以保证得到语音质量较高的目标音频数据,解决了目前采集音频数据时存在音频数据的语音质量较差,导致发送语音消息或录音的效果较差的问题。
160.应理解的是,本技术实施例中,输入单元604可以包括图形处理器(graphics processing unit,gpu)6041和麦克风6042,图形处理器6041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元606可包括显示面板6061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板6061。用户输入单元607包括触控面板6071以及其他输入设备6072中的至少一种。触控面板6071,也称为触摸屏。触控面板6071可包括触摸检测装置和触摸控制器两个部分。其他输入设备6072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
161.存储器609可用于存储软件程序以及各种数据。存储器609可主要包括存储程序或指令的第一存储区和存储数据的第二存储区,其中,第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外,存储器609可以包括易失性存储器或非易失性存储器,或者,存储器609可以包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,rom)、可编程只读存储器(programmable rom,prom)、可擦除可编程只读存储器(erasable prom,eprom)、电可擦除可编程只读存储器(electrically eprom,eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory,ram),静态随机存取存储器(static ram,sram)、动态随机存取存储器(dynamic ram,dram)、同步动态随机存取存储器(synchronous dram,sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram,ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram,esdram)、同步连接动态随机存取存储器(synch link dram,sldram)和直接内存总线随机存取存储器(direct rambus ram,
drram)。本技术实施例中的存储器609包括但不限于这些和任意其它适合类型的存储器。
162.处理器610可包括一个或多个处理单元;可选的,处理器610集成应用处理器和调制解调处理器,其中,应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作,调制解调处理器主要处理无线通信信号,如基带处理器。可以理解的是,上述调制解调处理器也可以不集成到处理器610中。
163.本技术实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述音频数据处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
164.其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器rom、随机存取存储器ram、磁碟或者光盘等。
165.本技术实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述音频数据处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
166.应理解,本技术实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
167.本技术实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如上述音频数据处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
168.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本技术实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
169.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本技术各个实施例所述的方法。
170.上面结合附图对本技术的实施例进行了描述,但是本技术并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本技术的启示下,在不脱离本技术宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本技术的保护之内。

技术特征:


1.一种音频数据处理方法,其特征在于,包括:获取至少两个音频数据;其中,所述音频数据通过不同的麦克风采集得到;获取每个音频数据中的每个语音分段的语音质量;根据所述语音质量,确定目标音频数据;其中,所述目标音频数据为所述至少两个音频数据中的一个,或者所述目标音频数据包括至少两个所述音频数据中的语音分段。2.根据权利要求1所述的音频数据处理方法,其特征在于,所述根据所述语音质量,确定目标音频数据,包括:在所述语音分段的语音质量满足第一预设条件的情况下,将所述语音分段确定为异常语音分段;在所述至少两个音频数据中的第一音频数据中异常语音分段的数量满足第二预设条件的情况下,将所述至少两个音频数据中的第二音频数据确定为所述目标音频数据;在所述第一音频数据中异常语音分段的数量不满足所述第二预设条件的情况下,将所述第一音频分段确定为所述目标音频数据。3.根据权利要求2所述的音频数据处理方法,其特征在于,所述在所述语音分段的语音质量满足第一预设条件的情况下,将所述语音分段确定为异常语音分段,包括:获取每个所述语音分段对应的语音频谱和噪声频谱;根据所述语音频谱和噪声频谱,确定所述语音分段中每个语音帧的各频点分别对应的语音噪声比;在根据所述语音分段中每个语音帧的各频点分别对应的语音噪声比,确定所述语音分段的语音质量满足第一预设条件的情况下,将所述语音分段确定为异常语音分段。4.根据权利要求3所述的音频数据处理方法,其特征在于,所述在根据所述语音分段中每个语音帧的各频点分别对应的语音噪声比,确定所述语音分段的语音质量满足第一预设条件的情况下,将所述语音分段确定为异常语音分段,包括:在所述语音帧的各频点分别对应的语音噪声比满足第三预设条件的情况下,确定所述语音帧为异常帧;在所述语音分段中异常帧的数量满足第四预设条件的情况下,确定所述语音分段的语音质量满足第一预设条件,并将所述语音分段确定为异常语音分段。5.根据权利要求1所述的音频数据处理方法,其特征在于,所述根据所述语音质量,确定目标音频数据,包括:在所述至少两个音频数据中各相同时间段分别对应的语音分段中,将语音质量最高的语音分段确定为目标语音分段;根据所述目标语音分段,生成所述目标音频数据。6.根据权利要求5所述的音频数据处理方法,其特征在于,所述在所述至少两个音频数据中各相同时间段分别对应的语音分段中,将语音质量最高的语音分段确定为目标语音分段,包括:获取每个所述语音分段对应的语音频谱和噪声频谱;根据所述语音频谱和噪声频谱,确定所述语音分段的每个语音帧中各频点分别对应的语音噪声比;根据所述语音分段的每个语音帧中各频点分别对应的语音噪声比,确定所述至少两个
音频数据中各相同时间段分别对应的语音分段中语音质量最高的语音分段,并将所述语音质量最高的语音分段确定为所述目标语音分段。7.根据权利要求6所述的音频数据处理方法,其特征在于,所述根据所述语音分段的每个语音帧中各频点分别对应的语音噪声比,确定所述至少两个音频数据中各相同时间段分别对应的语音分段中语音质量最高的语音分段,包括:在所述语音帧的各频点分别对应的语音噪声比满足第三预设条件的情况下,确定所述语音帧为异常帧;将所述至少两个音频数据中各相同时间段分别对应的语音分段中,所述异常帧的数量最小的语音分段,确定为所述语音质量最高的语音分段。8.根据权利要求4或7所述的音频数据处理方法,其特征在于,在所述语音帧的各频点分别对应的语音噪声比满足第三预设条件的情况下,确定所述语音帧为异常帧,包括:在所述频点对应的语音噪声比大于预设阈值的情况下,确定所述频点为异常频点;在所述语音帧中异常频点的数量满足第五预设条件的情况下,确定所述语音帧为异常帧。9.一种音频数据处理装置,其特征在于,包括:第一获取模块,用于获取至少两个音频数据;其中,所述音频数据通过不同的麦克风采集得到;第二获取模块,用于获取每个音频数据中的每个语音分段的语音质量;处理模块,用于根据所述语音质量,确定目标音频数据;其中,所述目标音频数据为所述至少两个音频数据中的一个,或者所述目标音频数据包括至少两个所述音频数据中的语音分段。10.根据权利要求9所述的音频数据处理装置,其特征在于,所述处理模块包括:第一处理子模块,用于在所述语音分段的语音质量满足第一预设条件的情况下,将所述语音分段确定为异常语音分段;第二处理子模块,用于在所述至少两个音频数据中的第一音频数据中异常语音分段的数量满足第二预设条件的情况下,将所述至少两个音频数据中的第二音频数据确定为所述目标音频数据;第三处理子模块,用于在所述第一音频数据中异常语音分段的数量不满足所述第二预设条件的的情况下,将所述第一音频分段确定为所述目标音频数据。11.根据权利要求10所述的音频数据处理装置,其特征在于,所述第一处理子模块包括:第一获取单元,用于获取每个所述语音分段对应的语音频谱和噪声频谱;第一处理单元,用于根据所述语音频谱和噪声频谱,确定所述语音分段中每个语音帧的各频点分别对应的语音噪声比;第二处理单元,用于在根据所述语音分段中每个语音帧的各频点分别对应的语音噪声比,确定所述语音分段的语音质量满足第一预设条件的情况下,将所述语音分段确定为异常语音分段。12.根据权利要求11所述的音频数据处理装置,其特征在于,所述第二处理单元包括:第一处理子单元,用于在所述语音帧的各频点分别对应的语音噪声比满足第三预设条
件的情况下,确定所述语音帧为异常帧;第二处理子单元,用于在所述语音分段中异常帧的数量满足第四预设条件的情况下,确定所述语音分段的语音质量满足第一预设条件,并将所述语音分段确定为异常语音分段。13.根据权利要求9所述的音频数据处理装置,其特征在于,所述处理模块包括:第四处理子模块,用于在所述至少两个音频数据中各相同时间段分别对应的语音分段中,将语音质量最高的语音分段确定为目标语音分段;生成子模块,用于根据所述目标语音分段,生成所述目标音频数据。14.根据权利要求13所述的音频数据处理装置,其特征在于,所述第四处理子模块包括:第二获取单元,用于获取每个所述语音分段对应的语音频谱和噪声频谱;第三处理单元,用于根据所述语音频谱和噪声频谱,确定所述语音分段的每个语音帧中各频点分别对应的语音噪声比;第四处理单元,用于根据所述语音噪声比,确定所述至少两个音频数据中各相同时间段分别对应的语音分段中语音质量最高的语音分段,并将所述语音质量最高的语音分段确定为所述目标语音分段。15.根据权利要求14所述的音频数据处理装置,其特征在于,所述第四处理单元包括:第三处理子单元,用于在所述语音帧的各频点分别对应的语音噪声比满足第三预设条件的情况下,确定所述语音帧为异常帧;第四处理子单元,用于将所述至少两个音频数据中各相同时间段分别对应的语音分段中,所述异常帧的数量最小的语音分段,确定为所述语音质量最高的语音分段。16.根据权利要求12或15所述的音频数据处理装置,其特征在于,第一处理子单元或第三处理子单元还用于:在所述频点对应的语音噪声比大于预设阈值的情况下,确定所述频点为异常频点;在所述语音帧中异常频点的数量满足第五预设条件的情况下,确定所述语音帧为异常帧。17.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至8中任一项所述的音频数据处理方法的步骤。18.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至8中任一项所述的音频数据处理方法的步骤。

技术总结


本申请公开了一种音频数据处理方法、装置及电子设备,属于通信技术领域。其中,该方法包括:获取至少两个音频数据;其中,所述音频数据通过不同的麦克风采集得到;获取每个音频数据中的每个语音分段的语音质量;根据所述语音质量,确定目标音频数据;其中,所述目标音频数据为所述至少两个音频数据中的一个,或者所述目标音频数据包括至少两个所述音频数据中的语音分段。音分段。音分段。


技术研发人员:

张琮

受保护的技术使用者:

维沃移动通信有限公司

技术研发日:

2022.04.12

技术公布日:

2022/7/12

本文发布于:2024-09-21 15:27:20,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/13635.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语音   所述   音频   数据
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议