数据处理方法、装置、电子设备和存储介质与流程



1.本技术涉及计算机技术领域,特别是涉及一种数据处理方法、一种数据处理装置、一种电子设备和一种存储介质。


背景技术:



2.为了提升音频数据的质量,通常会对音频数据进行优化处理,例如,对音频数据进行回声消除、去混响等处理。
3.但是,目前对音频数据进行处理的算法通常是按照预先设置好的参数来进行处理,对音频数据的优化效果差。


技术实现要素:



4.本技术实施例提供了一种数据处理方法,以提升对音频数据的优化效果。
5.相应的,本技术实施例还提供了一种数据处理装置、一种电子设备和一种存储介质,用以保证上述系统的实现及应用。
6.为了解决上述问题,本技术实施例公开了一种数据处理方法,所述的方法包括:获取待分析的音频数据,并确定音频数据对应的滤波系数;依据所述滤波系数的系数衰减信息,确定所述音频数据对应的声学环境。
7.为了解决上述问题,本技术实施例公开了一种数据处理方法,所述的方法包括:获取直播音频数据,并确定直播音频数据对应的滤波系数;依据所述滤波系数的系数衰减信息,确定所述直播音频数据对应的声学环境;依据所述声学环境,确定噪音估计信息,所述噪音估计信息包括回声噪音估计信息和混响噪音估计信息;依据所述噪音估计信息,对直播音频数据进行处理。
8.为了解决上述问题,本技术实施例公开了一种数据处理方法,所述的方法包括:获取会议音频数据,并确定会议音频数据对应的滤波系数;依据所述滤波系数的系数衰减信息,确定所述会议音频数据对应的声学环境;依据所述声学环境和扬声器播放的输出音频,确定干扰噪音估计信息;依据所述干扰噪音估计信息,对会议音频数据进行处理。
9.为了解决上述问题,本技术实施例公开了一种数据处理方法,所述的方法包括:获取控制音频数据,并确定被控物联网设备;在被控物联网设备包括至少两个物联网设备时,确定控制音频数据对应的滤波系数,并依据所述滤波系数的系数衰减信息,确定所述控制音频数据对应的声学环境;依据所述声学环境,从至少两个物联网设备中筛选出目标物联网设备,并依据所述控制音频数据对所述目标物联网设备进行控制。
10.为了解决上述问题,本技术实施例公开了一种数据处理装置,所述装置包括:滤波系数确定模块,用于获取待分析的音频数据,并确定音频数据对应的滤波系数;声学环境确定模块,用于依据所述滤波系数的系数衰减信息,确定所述音频数据对应的声学环境。
11.为了解决上述问题,本技术实施例公开了一种电子设备,包括:处理器;和存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如上述实施例
中一个或多个所述的方法。
12.为了解决上述问题,本技术实施例公开了一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如上述实施例中一个或多个所述的方法。
13.与现有技术相比,本技术实施例包括以下优点:
14.本技术实施例中,可以获取待分析的音频数据,并通过自适应滤波器对音频数据进行滤波,确定音频数据对应的滤波系数;之后,可以对滤波系数进行系数衰减分析,确定系数衰减信息,以依据系数衰减信息来确定音频数据的声学环境。相比于采用预先设置好的参数来去噪,本技术可以分析音频数据对应的声学环境,并依据声学环境来确定音频数据中的噪音(如回声噪音、混响噪音)等,从而抵消音频数据中的噪音,本技术实施例的方式能够提升对音频数据的优化效果。
附图说明
15.图1是本技术一个实施例的数据处理方法的流程示意图;
16.图2a是本技术另一个实施例的数据处理方法的流程示意图;
17.图2b是本技术一个实施例的处理端的结构示意图;
18.图2c是本技术一个实施例的声能在不同空间内随时间变化的示意图;
19.图2d是本技术一个实施例的脉冲响应能量随时间变化的示意图;
20.图3是本技术再一个实施例的数据处理方法的流程示意图;
21.图4是本技术再一个实施例的数据处理方法的流程示意图;
22.图5是本技术再一个实施例的数据处理方法的流程示意图;
23.图6是本技术再一个实施例的数据处理方法的流程示意图;
24.图7是本技术一个实施例的数据处理装置的结构示意图;
25.图8是本技术另一个实施例的数据处理装置的结构示意图;
26.图9是本技术再一个实施例的数据处理装置的结构示意图;
27.图10是本技术再一个实施例的数据处理装置的结构示意图;
28.图11是本技术一个实施例提供的示例性装置的结构示意图。
具体实施方式
29.为使本技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本技术作进一步详细的说明。
30.本技术实施例可以应用于对音频数据进行分析的领域,本实施例能够依据自适应滤波器对音频数据进行滤波,并依据自适应滤波器的滤波系数的系数衰减信息,确定音频数据对应的声学环境,以便依据该声学环境来对音频数据进行处理。例如,依据声学环境对音频数据进行回声消除、去混响等处理,以对音频数据进行优化。
31.具体来说,本技术实施例可以获取待分析的音频数据,并采用自适应滤波器对待分析的音频数据进行滤波,以获取音频数据对应的滤波系数(coefficients)。其中,可以将待分析的音频数据切分为多段子音频数据,以分别确定各段子音频数据对应的滤波系数,子音频数据还可以称为子频带(subband)。在确定音频数据对应的滤波系数之后,可以对滤
波系数进行系数衰减分析,以确定系数衰减信息,其中,系数衰减信息包括混响时长(reverberation time,rt)和能量衰减量,所述能量衰减量包括音频数据中直达声与混响声的能量比。在确定混响时长的过程中,可以预先设置系数阈值,以确定滤波系数衰减到预设系数阈值所需的时长,作为混响时长,混响时长还可以称为混响时间,混响时间是指声能密度降为原来的1/10^6时所需的时间(相当于声压级衰变60分贝需要的时间)。在确定能量衰减量的过程中,可以将音频数据切分为对应直达声的第一音频数据和对应混响声的第二音频数据,从而确定对应直达声的第一滤波系数和对应混响声的第二滤波系数,以确定第一滤波系数和所述第二滤波系数对应的能量比,作为能量衰减量。其中,直达声(direct sound)是指从声源不经过任何的反射而以直线的形式直接传播到麦克风的声音,混响声是指声源由周围环境反射后传播到麦克风的声音。在确定了系数衰减信息之后,可以依据系数衰减信息,确定声学环境。以便依据声学环境来对音频数据进行处理。例如,可以依据声学环境,来确定噪音估计信息,以消除音频数据中的噪音估计信息,得到处理后的音频数据,例如,可以依据声学环境进行回声噪音估计,以消除音频数据中的回声噪音;再例如,可以依据声学环境进行混响噪音估计,以消除音频数据中的混响噪音;再例如,还可以依据声学环境,确定混响等级,从而采用相应的均衡器对音频数据进行处理。
32.本技术实施例中,可以获取待分析的音频数据,并通过自适应滤波器对音频数据进行滤波,确定音频数据对应的滤波系数;之后,可以对滤波系数进行系数衰减分析,确定系数衰减信息,以依据系数衰减信息来确定音频数据的声学环境。相比于采用预先设置好的参数来去噪,本技术可以分析音频数据对应的声学环境,并依据声学环境来确定音频数据中的噪音(如回声噪音、混响噪音)等,从而抵消音频数据中的噪音,本技术实施例的方式能够提升对音频数据的优化效果。
33.本技术实施例可以对音频数据进行分析,以确定音频数据对应的声学环境,因此,本技术实施可以应用在各类对于音频数据进行处理的场景中,例如,本技术实施例可以应用在对会议、直播、语音电话、语音传输等场景中的音频数据进行处理。举例来说,可以应用在语音会议、视频会议等会议场景中,本方法可以获取会议音频数据,并分析会议音频数据对应的声学环境,以便依据声学环境和扬声器播放的输出音频,确定干扰噪音,以消除会议音频数据中的干扰噪音,提升音频数据的数据质量,从而提升参会用户的用户体验。再举例来说,本技术实施例还可以应用在依据语音对物联网设备进行控制的场景中,如在家居场景中,可能在卧室和客厅均设置有空调(物联网设备),在通过处理端(如手机端)依据接收的语音来控制空调时,处理端可能无法确定被控的是卧室空调还是客厅空调,本方法可以对控制音频数据对应的声学环境进行分析,从而能够确定用户处在卧室或客厅,从而能够开启对应的空调,能够减少与用户进一步进行交互的过程,从而能够提升用户体验。
34.本技术实施例提供一种数据处理方法,该方法可以通过处理端来完成,处理端可以为采集音频数据的终端设备,如手机、电脑、麦克风、蓝牙音箱等终端。处理端也可以为中转音频数据的服务端,处理端还可以为接收音频数据,以输出音频数据的输出端,如用于音频接收的手机、电脑等。本方法可以对音频数据进行分析,确定音频数据所对应的声学环境,并依据声学环境进行相应的处理,能够提升对音频数据的优化效果,具体的,如图2a所示,所述的方法包括:
35.步骤202、获取待分析的音频数据,并确定音频数据对应的滤波系数。本技术实施
例可以将音频数据分割为多段子音频数据(或称子频带),并对子频带(subband)进行滤波,确定各子频带对应的滤波系数。也可以通过子频带合成的方式,确定全频带(fullband)对应的滤波系数。其中,图2b示出了一个示例的处理端的结构示意图。如图2b所示,在处理端(近端)可以配置自适应滤波器来对音频数据进行回声消除,以确定音频数据对应的滤波系数。具体的,作为一个可选的实施例,所述确定音频数据对应的滤波系数,包括:依据自适应滤波器对音频数据进行滤波,并确定自适应滤波器的滤波系数。其中,自适应滤波器(adaptive filter)是指根据环境的改变,使用自适应算法来改变滤波器的参数和结构的滤波器。自适应滤波器的系数是由自适应算法更新的时变系数。本技术实施例中,扬声器可以接收来自远端(如其他终端)的待输出音频数据,并将待输出音频数据输出,自适应滤波器可以获取待输出音频数据,并对麦克风采集的音频数据进行回声消除、去混响,从而确定确定滤波后的音频数据。
36.其中,自适应滤波器在对音频数据的滤波过程可以分为未收敛阶段(音频数据前1s-2s)和收敛阶段(1s-2s之后),因此,自适应滤波器的滤波系数可以分为对应收敛阶段的滤波系数和对应未收敛阶段的滤波系数,本技术实施例可以采集自适应滤波器收敛阶段的滤波系数,并在步骤204中,依据所述滤波系数的系数衰减信息,确定所述音频数据对应的声学环境。本技术实施例可以通过多个参数来表达音频数据对应的声学环境,例如,可以通过混响时长(或空间大小)、空间内直达声与混响声的能量比(或空间对于声音的反射率、吸收率等)等参数,代表相应的声学环境,以便依据声学环境对音频数据进行相应的处理。其中,不同的声学环境下,音频数据中的噪音会有不同的差异。例如,图2c示出了同一声音在混响室(reverberationroom)和吸音室(anechoic room)中随着时间的变化,由图2c所示,在吸音效果差(反射效果好)的混响室产生的混响的能量更大,持续时间更久(约为500ms),能量衰减慢。在吸音效果好的吸音室产生的混响的能量小,持续时间短(约为50ms),能量衰减快。因此,为了对声学环境进行分析,本技术实施例可以对音频数据的滤波系数进行系数衰减分析,确定混响时长和能量衰减量作为系数衰减信息,以确定声学环境,具体的,作为一个可选的实施例,所述依据所述滤波系数的系数衰减信息,确定所述音频数据对应的声学环境,包括:依据所述滤波系数,确定系数衰减信息,所述系数衰减信息包括混响时长和能量衰减量,所述能量衰减量包括音频数据中直达声与混响声的能量比;依据所述混响时长和所述能量衰减量,确定所述音频数据对应的声学环境。
37.本技术实施例可以依据混响时长、能量衰减量来确定对应的回声效果、混响效果,从而确定麦克风所处的声学环境。以便依据声学环境进行相应的处理。在一个可选的示例中,本技术实施例可以通过空间脉冲响应(room impulse response)来定量声学环境的参数。空间脉冲响应还可以称为空间冲激响应等,空间脉冲响应是声音传播空间中点对点之间的传递函数的表达。空间脉冲响应可分为直达声的脉冲、前期反射(earlyreflections)以及后期混响(late reverberation),如图2d所示,直达声的脉冲一般在5ms内,前期反射一般在50ms内,后期混响一般在50ms以后。在声学研究中,后期混响符合指数式衰减模型(exponential decaymodel),后期混响可用以下公式1表示:
38.n(t)=n0*e-λt
ꢀꢀ
公式1
39.其中,n0为后期混响开始时的幅度值,λ为衰减因子,t为时间。
40.本技术实施例可以通过滤波系数来确定音频数据所包含的能量,从而确定混响时
长和能量衰减量,具体的,作为一个可选的实施例,所述依据所述滤波系数,确定系数衰减信息,包括:依据所述滤波系数和预设系数阈值,确定混响时长;依据所述滤波系数,确定对应直达声的第一滤波系数和对应混响声的第二滤波系数;依据所述第一滤波系数和所述第二滤波系数对应的能量比,作为能量衰减量。
41.对于混响时长来说,混响时长是指声音的能量衰减到某一目标能量值所需要的时长,本技术实施例可以预先设置系数阈值,以确定滤波系数衰减到该系数阈值所需的时间,作为混响时长。其中,预设系数阈值可以为一个定值,也可以为依据直达声的能量和预设衰减比例来确定,例如,可以依据直达声的能量和预设的比例(如1/10^6),确定目标能量值,进而确定音频数据的能量衰减到1/10^6所需的时间,作为混响时长。对于能量衰减量来说,能量衰减量包括音频数据中直达声与混响声的能量比,本技术实施例可以从音频数据中分离出直达声对应的第一音频数据和混响声对应的第二音频数据,并获取第一音频数据对应的第一滤波系数,获取第二音频数据对应的第二滤波系数,从而确定第一滤波系数和第二滤波系数的比值,作为能量衰减量。
42.在确定了混响时长和能量衰减量之后,可以确定相应的声学环境,并依据声学环境来去除音频数据中的回声、混响等。具体的,作为一个可选的实施例,所述的方法还包括:依据所述声学环境,确定噪音估计信息,所述噪音估计信息包括回声噪音估计信息和混响噪音估计信息;依据所述噪音估计信息,对音频数据进行处理。本技术实施例可以依据声学环境,确定音频数据中的噪音,以便抵消音频数据中的噪音,得到处理后的音频数据。具体的,在一个可选的示例中,混响时长表示整个房间的混响程度,能量衰减量表示在该混响环境下声源到麦克风之间的距离,本技术实施例可以依据混响时长和能量衰减量,确定相应的混响程度和声源到麦克风的距离,从而进行回声估计和混响估计,以进行回声消除(acoustic echo cancellation,aec)和去混响。其中,混响程度与多种因素相关,如与空间大小、空间结构、空间材料吸音率等相关。本技术实施列可以从音频数据中分离出直达声,并依据直达声进行回声估计和混响估计,以确定回声噪音估计信息和混响噪音估计信息,以抵消音频数据中的回声噪音、混响噪音,得到处理后的音频数据。需要说明的是,本技术实施例可以对用户发出的声音进行回声消除和去混响,也可以对扬声器输出的声音进行回声消除和去混响,具体可以依据需求来设置。例如在不包含有扬声器的场景下,如直播场景、录音场景,可以仅对用户发出的声音进行回声消除和去混响。
43.另外,在另一个可选的示例中,本技术实施例可以依据混响时长,确定相应的混响等级,从而采取对应该等级的均衡器对音频数据进行处理。例如,对于混响时长长(如混响时长超过1s)的房间,在喇叭均衡器的选择上可以选择提高高频段能量的均衡器,以使得声音听起来更加亮。再例如,对于混响时长短(如混响时长少于1s)的房间,在喇叭均衡器的选择上可以选择提高低频段能量的均衡器,以使得声音听起来更加浑厚。
44.本技术实施例中,可以获取待分析的音频数据,并通过自适应滤波器对音频数据进行滤波,确定音频数据对应的滤波系数;之后,可以对滤波系数进行系数衰减分析,确定系数衰减信息,以依据系数衰减信息来确定音频数据的声学环境。相比于采用预先设置好的参数来去噪,本技术可以分析音频数据对应的声学环境,并依据声学环境来确定音频数据中的噪音(如回声噪音、混响噪音)等,从而抵消音频数据中的噪音,本技术实施例的方式能够提升对音频数据的优化效果。
45.在上述实施例的基础上,本技术实施例还提供一种数据处理方法,可以应用在处理端,如图3所示,所述方法包括:
46.步骤302、获取待分析的音频数据。
47.步骤304、依据自适应滤波器对音频数据进行滤波,并确定自适应滤波器的滤波系数。
48.步骤306、依据所述滤波系数和预设系数阈值,确定混响时长。
49.步骤308、依据所述滤波系数,确定对应直达声的第一滤波系数和对应混响声的第二滤波系数。
50.步骤310、依据所述第一滤波系数和所述第二滤波系数对应的能量比,作为能量衰减量。所述能量衰减量包括音频数据中直达声与混响声的能量比。
51.步骤312、依据所述混响时长和所述能量衰减量,确定所述音频数据对应的声学环境。
52.步骤314、依据所述声学环境,确定噪音估计信息,所述噪音估计信息包括回声噪音估计信息和混响噪音估计信息。
53.步骤316、依据所述噪音估计信息,对音频数据进行处理。
54.本技术实施例中,可以获取待分析的音频数据,并通过自适应滤波器对音频数据进行滤波,确定音频数据对应的滤波系数。之后,可以依据滤波系数确定混响时长,可以依据滤波系数,确定对应直达声的第一滤波系数和对应混响声的第二滤波系数,从而确定第一滤波系数和第二滤波系数对应的能量比,作为能量衰减量。之后,可以依据混响时长和能量衰减量,确定音频数据对应的声学环境。并依据声学环境进行回声噪音估计和混响噪音估计,得到噪音估计信息,以抵消音频数据中的噪音,得到处理后的音频数据。本技术实施例可以应用在语音通信的场景中,因此,在确定处理后的音频数据之后,处理端可以将处理后的音频数据传输给接收端。
55.在上述实施例的基础上,本技术实施例还提供一种数据处理方法,所述方法可以通过处理端来执行,该方法可以应用在直播场景中,可以对直播音频数据进行分析,确定对应的声学环境,进而依据该声学环境对直播音频数据进行去噪,具体的,如图4所示,所述的方法包括:
56.步骤402、获取直播音频数据,并确定直播音频数据对应的滤波系数。
57.步骤404、依据所述滤波系数的系数衰减信息,确定所述直播音频数据对应的声学环境。
58.步骤406、依据所述声学环境,确定噪音估计信息,所述噪音估计信息包括回声噪音估计信息和混响噪音估计信息。
59.步骤408、依据所述噪音估计信息,对直播音频数据进行处理。
60.本技术实施例的实施方式与上述实施例的实施方式类似,具体实施过程可以参考上述实施例的具体实施过程,此处不再赘述。
61.本技术实施例可以应用在直播的场景中,在直播的场景中,可以通过麦克风会采集直播人员的直播音频数据,并通过自适应滤波器对直播音频数据进行滤波,确定直播音频数据对应的滤波系数;之后,可以对滤波系数进行系数衰减分析,确定系数衰减信息,系数衰减信息包括依据混响时长和能量衰减量。本实施例可以依据混响时长和能量衰减量,
确定直播音频数据对应的声学环境。并依据声学环境进行回声噪音估计和混响噪音估计,得到噪音估计信息,以抵消直播音频数据中的噪音,得到处理后的直播音频数据。然后,可以将处理后的音频数据传输给观看直播的用户。相比于采用预先设置好的参数来去噪,本技术可以分析直播音频数据对应的声学环境,并依据声学环境进行去噪,能够提升对直播音频数据的优化效果,从而能够提升观看直播的用户的用户体验。
62.对于直播场景来说,直播场景可以包括电商直播、教育直播、娱乐直播等细分的场景,本技术实施例可以应用在各类的直播场景中,例如,本技术实施例可以应用在教育直播场景中,以对教育音频数据进行处理,具体的,在一个可选的实施例中,数据处理方法具体可以包括:
63.获取教育音频数据,并确定教育音频数据对应的滤波系数。
64.依据所述滤波系数的系数衰减信息,确定所述教育音频数据对应的声学环境。
65.依据所述声学环境,确定噪音估计信息,所述噪音估计信息包括回声噪音估计信息和混响噪音估计信息。
66.依据所述噪音估计信息,对教育音频数据进行处理。
67.本技术实施例的实施方式与上述实施例的实施方式类似,具体实施过程可以参考上述实施例的具体实施过程,此处不再赘述。
68.在本技术实施例中,教育音频数据可以为教育直播场景中的教育音频数据,教育音频数据也可以为其他与教育相关的音频数据,如教学视频中的音频数据等。本技术实施例可以采集教育音频数据,并通过自适应滤波器进行滤波,确定教育音频数据对应的滤波系数,之后,可以对滤波系数进行系数衰减分析,确定系数衰减信息,系数衰减信息包括依据混响时长和能量衰减量。本实施例可以依据混响时长和能量衰减量,确定教育音频数据对应的声学环境。并依据声学环境进行回声噪音估计和混响噪音估计,得到噪音估计信息,以抵消教育音频数据中的噪音,得到处理后的直播音频数据。
69.在上述实施例的基础上,本技术实施例还提供一种数据处理方法,所述方法可以通过处理端来执行,该方法可以应用在语音会议、视频会议等会议场景中,本方法可以获取会议音频数据,并分析会议音频数据对应的声学环境,以便依据声学环境和扬声器播放的输出音频,确定干扰噪音,以对会议音频数据进行去噪。具体的,如图5所示,所述的方法包括:
70.步骤502、获取会议音频数据,并确定会议音频数据对应的滤波系数。
71.步骤504、依据所述滤波系数的系数衰减信息,确定所述会议音频数据对应的声学环境。
72.步骤506、依据所述声学环境和扬声器播放的输出音频,确定干扰噪音估计信息。
73.步骤508、依据所述干扰噪音估计信息,对会议音频数据进行处理。
74.本技术实施例的实施方式与上述实施例的实施方式类似,具体实施过程可以参考上述实施例的具体实施过程,此处不再赘述。
75.本技术实施例可以应用在会议(如语音会议、视频会议等)的场景中,在会议的场景中,可以通过麦克风会采集参会人员的会议音频数据,并通过自适应滤波器对会议音频数据进行滤波,确定会议音频数据对应的滤波系数;之后,可以对滤波系数进行系数衰减分析,确定系数衰减信息,以确定声学环境,系数衰减信息包括依据混响时长和能量衰减量。
本实施例可以依据声学环境和扬声器播放的输出音频,确定干扰噪音估计信息,从而能够从会议音频数据中抵消扬声器的输出音频对麦克风的干扰,能够提升会议音频数据的数据质量。需要说明的是,本技术实施例除了可以抵消扬声器对麦克风的干扰噪音之外,还可以抵消用户声音在空间内产生的回声、混响等干扰噪音。
76.在上述实施例的基础上,本技术实施例还提供一种数据处理方法,所述方法可以通过处理端来执行,该方法可以应用在依据语音对物联网设备进行控制的场景中,本技术实施例可以对控制音频数据进行分析,确定处理端所处的声学环境,从而从多个被控物联网设备中筛选出目标物联网设备,以对目标物联网设备进行控制。具体的,如图6所示,所述的方法包括:
77.步骤602、获取控制音频数据,并确定被控物联网设备。
78.步骤604、在被控物联网设备包括至少两个物联网设备时,确定控制音频数据对应的滤波系数,并依据所述滤波系数的系数衰减信息,确定所述控制音频数据对应的声学环境。
79.步骤606、依据所述声学环境,从至少两个物联网设备中筛选出目标物联网设备,并依据所述控制音频数据对所述目标物联网设备进行控制。
80.本技术实施例的实施方式与上述实施例的实施方式类似,具体实施过程可以参考上述实施例的具体实施过程,此处不再赘述。
81.本技术实施例可以获取控制音频数据,并确定相应的被控物联网设备,在被控物联网设备大于或等于两个时,可以依据自适应滤波器对控制音频数据进行滤波,以确定滤波系数,并依据滤波系数的系数衰减信息,确定控制音频数据对应的声学环境,从而从多个被控物联网设备中筛选出目标物联网设备,并依据所述控制音频数据对所述目标物联网设备进行控制。本技术实施例可以应用在依据语音对物联网设备进行控制的场景中,在该场景中,用户的语音可能对应多个物联网设备,现有的方案通常需要与用户进行进一步的交互,从而从多个物联网设备中筛选出目标物联网设备,以进行控制。而采用本技术的方案,可以分析控制音频数据对应的声学环境,从而依据声学环境,从而多个物联网设备中筛选出目标物联网设备,以进行控制。本技术实施例的方式可以减少与用户进一步进行交互的操作,能够提升用户的用户体验。举例来说,在家居场景中,可能在卧室和客厅均设置有空调(物联网设备),在通过处理端(如手机端)依据接收的语音来控制空调时,处理端可能无法确定被控的是卧室空调还是客厅空调,本方法可以对控制音频数据的声学环境进行分析,从而能够确定用户处在卧室或客厅,从而能够开启对应的空调,能够减少与用户进一步进行交互的过程,从而能够提升用户体验。
82.本技术实施例中,各种场景的音频数据可包括从视频数据中分离出的音频数据,如针对视频会议、直播等场景,可从相应的视频数据中分离出音频数据。另外,上述场景中如果音频数据流和图像数据流分开传输,则可直接获取相应的音频数据。
83.需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术实施例并不受所描述的动作顺序的限制,因为依据本技术实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本技术实施例所必须的。
84.在上述实施例的基础上,本实施例还提供了一种数据处理装置,参照图7,具体可以包括如下模块:
85.滤波系数确定模块702,用于获取待分析的音频数据,并确定音频数据对应的滤波系数;
86.声学环境确定模块704,用于依据所述滤波系数的系数衰减信息,确定所述音频数据对应的声学环境。
87.综上,本技术实施例中,可以获取待分析的音频数据,并通过自适应滤波器对音频数据进行滤波,确定音频数据对应的滤波系数;之后,可以对滤波系数进行系数衰减分析,确定系数衰减信息,以依据系数衰减信息来确定音频数据的声学环境。相比于采用预先设置好的参数来去噪,本技术可以分析音频数据对应的声学环境,并依据声学环境来确定音频数据中的噪音(如回声噪音、混响噪音)等,从而抵消音频数据中的噪音,本技术实施例的方式能够提升对音频数据的优化效果。
88.在上述实施例的基础上,本实施例还提供了一种数据处理装置,具体可以包括如下模块:
89.音频数据获取处理模块,用于获取待分析的音频数据。
90.滤波系数获取处理模块,用于依据自适应滤波器对音频数据进行滤波,并确定自适应滤波器的滤波系数。
91.混响时长获取处理模块,用于依据所述滤波系数和预设系数阈值,确定混响时长。
92.滤波系数切分处理模块,用于依据所述滤波系数,确定对应直达声的第一滤波系数和对应混响声的第二滤波系数。
93.能量衰减量获取处理模块,用于依据所述第一滤波系数和所述第二滤波系数对应的能量比,作为能量衰减量。所述能量衰减量包括音频数据中直达声与混响声的能量比。
94.声学环境获取处理模块,用于依据所述混响时长和所述能量衰减量,确定所述音频数据对应的声学环境。
95.噪音信息获取处理模块,用于依据所述声学环境,确定噪音估计信息,所述噪音估计信息包括回声噪音估计信息和混响噪音估计信息。
96.音频数据去噪处理模块,用于依据所述噪音估计信息,对音频数据进行处理。
97.本技术实施例中,可以获取待分析的音频数据,并通过自适应滤波器对音频数据进行滤波,确定音频数据对应的滤波系数。之后,可以依据滤波系数确定混响时长,可以依据滤波系数,确定对应直达声的第一滤波系数和对应混响声的第二滤波系数,从而确定第一滤波系数和第二滤波系数对应的能量比,作为能量衰减量。之后,可以依据混响时长和能量衰减量,确定音频数据对应的声学环境。并依据声学环境进行回声噪音估计和混响噪音估计,得到噪音估计信息,以抵消音频数据中的噪音,得到处理后的音频数据。本技术实施例可以应用在语音通信的场景中,因此,在确定处理后的音频数据之后,处理端可以将处理后的音频数据传输给接收端。
98.在上述实施例的基础上,本实施例还提供了一种数据处理装置,参照图8,具体可以包括如下模块:
99.滤波系数获取模块802,用于获取直播音频数据,并确定直播音频数据对应的滤波系数。
100.声学环境获取模块804,用于依据所述滤波系数的系数衰减信息,确定所述直播音频数据对应的声学环境。
101.噪音信息获取模块806,用于依据所述声学环境,确定噪音估计信息,所述噪音估计信息包括回声噪音估计信息和混响噪音估计信息。
102.直播音频去噪模块808,用于依据所述噪音估计信息,对音频数据进行处理。
103.综上,本技术实施例可以应用在直播的场景中,在直播的场景中,可以通过麦克风会采集直播人员的直播音频数据,并通过自适应滤波器对直播音频数据进行滤波,确定直播音频数据对应的滤波系数;之后,可以对滤波系数进行系数衰减分析,确定系数衰减信息,系数衰减信息包括依据混响时长和能量衰减量。本实施例可以依据混响时长和能量衰减量,确定直播音频数据对应的声学环境。并依据声学环境进行回声噪音估计和混响噪音估计,得到噪音估计信息,以抵消直播音频数据中的噪音,得到处理后的音频数据。然后,可以将处理后的音频数据传输给观看直播的用户。相比于采用预先设置好的参数来去噪,本技术可以分析直播音频数据对应的声学环境,并依据声学环境进行去噪,能够提升对直播音频数据的优化效果,从而能够提升观看直播的用户的用户体验。
104.本技术实施例还可以应用在教育直播的场景中,具体的,作为一个可选的实施例,所述滤波系数获取模块802,具体用于获取教育音频数据,并确定教育音频数据对应的滤波系数。所述声学环境获取模块804,具体用于依据所述滤波系数的系数衰减信息,确定所述教育音频数据对应的声学环境。所述噪音信息获取模块806,具体用于依据所述声学环境,确定噪音估计信息,所述噪音估计信息包括回声噪音估计信息和混响噪音估计信息。所述直播音频去噪模块808,具体用于依据所述噪音估计信息,对教育音频数据进行处理。
105.在本技术实施例中,教育音频数据可以为教育直播场景中的教育音频数据,教育音频数据也可以为其他与教育相关的音频数据,如教学视频中的音频数据等。本技术实施例可以采集教育音频数据,并通过自适应滤波器进行滤波,确定教育音频数据对应的滤波系数,之后,可以对滤波系数进行系数衰减分析,确定系数衰减信息,系数衰减信息包括依据混响时长和能量衰减量。本实施例可以依据混响时长和能量衰减量,确定教育音频数据对应的声学环境。并依据声学环境进行回声噪音估计和混响噪音估计,得到噪音估计信息,以抵消教育音频数据中的噪音,得到处理后的直播音频数据。
106.在上述实施例的基础上,本实施例还提供了一种数据处理装置,参照图9,具体可以包括如下模块:
107.滤波系数获得模块902,用于获取会议音频数据,并确定会议音频数据对应的滤波系数。
108.声学环境获得模块904,用于依据所述滤波系数的系数衰减信息,确定所述会议音频数据对应的声学环境。
109.干扰噪音获得模块906,用于依据所述声学环境和扬声器播放的输出音频,确定干扰噪音估计信息。
110.会议音频去噪模块908,用于依据所述干扰噪音估计信息,对会议音频数据进行处理。
111.综上,本技术实施例可以应用在会议(如语音会议、视频会议等)的场景中,在会议的场景中,可以通过麦克风会采集参会人员的会议音频数据,并通过自适应滤波器对会议
音频数据进行滤波,确定会议音频数据对应的滤波系数;之后,可以对滤波系数进行系数衰减分析,确定系数衰减信息,以确定声学环境,系数衰减信息包括依据混响时长和能量衰减量。本实施例可以依据声学环境和扬声器播放的输出音频,确定干扰噪音估计信息,从而能够从会议音频数据中抵消扬声器的输出音频对麦克风的干扰,能够提升会议音频数据的数据质量。
112.在上述实施例的基础上,本实施例还提供了一种数据处理装置,参照图10,具体可以包括如下模块:
113.控制音频获取模块1002,用于获取控制音频数据,并确定被控物联网设备。
114.声学环境分析模块1004,用于在被控物联网设备包括至少两个物联网设备时,确定控制音频数据对应的滤波系数,并依据所述滤波系数的系数衰减信息,确定所述控制音频数据对应的声学环境。
115.被控设备筛选模块1006,用于依据所述声学环境,从至少两个物联网设备中筛选出目标物联网设备,并依据所述控制音频数据对所述目标物联网设备进行控制。
116.本技术实施例可以获取控制音频数据,并确定相应的被控物联网设备,在被控物联网设备大于或等于两个时,可以依据自适应滤波器对控制音频数据进行滤波,以确定滤波系数,并依据滤波系数的系数衰减信息,确定控制音频数据对应的声学环境,从而从多个被控物联网设备中筛选出目标物联网设备,并依据所述控制音频数据对所述目标物联网设备进行控制。本技术实施例可以应用在依据语音对物联网设备进行控制的场景中,在该场景中,用户的语音可能对应多个物联网设备,现有的方案通常需要与用户进行进一步的交互,从而从多个物联网设备中筛选出目标物联网设备,以进行控制。而采用本技术的方案,可以分析控制音频数据对应的声学环境,从而依据声学环境,从而多个物联网设备中筛选出目标物联网设备,以进行控制。本技术实施例的方式可以减少与用户进一步进行交互的操作,能够提升用户的用户体验。举例来说,在家居场景中,可能在卧室和客厅均设置有空调(物联网设备),在通过处理端(如手机端)依据接收的语音来控制空调时,处理端可能无法确定被控的是卧室空调还是客厅空调,本方法可以对音频数据的声学环境进行分析,从而能够确定用户处在卧室或客厅,从而能够开启对应的空调,能够减少与用户进一步进行交互的过程,从而能够提升用户体验。
117.本技术实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本技术实施例中各方法步骤的指令(instructions)。
118.本技术实施例提供了一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得电子设备执行如上述实施例中一个或多个所述的方法。本技术实施例中,所述电子设备包括服务器、终端设备等设备。
119.本公开的实施例可被实现为使用任意适当的硬件,固件,软件,或及其任意组合进行想要的配置的装置,该装置可包括服务器(集)、终端等电子设备。图11示意性地示出了可被用于实现本技术中所述的各个实施例的示例性装置1100。
120.对于一个实施例,图11示出了示例性装置1100,该装置具有一个或多个处理器1102、被耦合到(一个或多个)处理器1102中的至少一个的控制模块(芯片组)1104、被耦合到控制模块1104的存储器1106、被耦合到控制模块1104的非易失性存储器(nvm)/存储设备
1108、被耦合到控制模块1104的一个或多个输入/输出设备1110,以及被耦合到控制模块1104的网络接口1112。
121.处理器1102可包括一个或多个单核或多核处理器,处理器1102可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中,装置1100能够作为本技术实施例中所述服务端、终端等设备。
122.在一些实施例中,装置1100可包括具有指令1114的一个或多个计算机可读介质(例如,存储器1106或nvm/存储设备1108)以及与该一个或多个计算机可读介质相合并被配置为执行指令1114以实现模块从而执行本公开中所述的动作的一个或多个处理器1102。
123.对于一个实施例,控制模块1104可包括任意适当的接口控制器,以向(一个或多个)处理器1102中的至少一个和/或与控制模块1104通信的任意适当的设备或组件提供任意适当的接口。
124.控制模块1104可包括存储器控制器模块,以向存储器1106提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。
125.存储器1106可被用于例如为装置1100加载和存储数据和/或指令1114。对于一个实施例,存储器1106可包括任意适当的易失性存储器,例如,适当的dram。在一些实施例中,存储器1106可包括双倍数据速率类型四同步动态随机存取存储器(ddr4sdram)。
126.对于一个实施例,控制模块1104可包括一个或多个输入/输出控制器,以向nvm/存储设备1108及(一个或多个)输入/输出设备1110提供接口。
127.例如,nvm/存储设备1108可被用于存储数据和/或指令1114。nvm/存储设备1108可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(hdd)、一个或多个光盘(cd)驱动器和/或一个或多个数字通用光盘(dvd)驱动器)。
128.nvm/存储设备1108可包括作为装置1100被安装在其上的设备的一部分的存储资源,或者其可被该设备访问可不必作为该设备的一部分。例如,nvm/存储设备1108可通过网络经由(一个或多个)输入/输出设备1110进行访问。
129.(一个或多个)输入/输出设备1110可为装置1100提供接口以与任意其他适当的设备通信,输入/输出设备1110可以包括通信组件、音频组件、传感器组件等。网络接口1112可为装置1100提供接口以通过一个或多个网络通信,装置1100可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信,例如接入基于通信标准的无线网络,如wifi、2g、3g、4g、5g等,或它们的组合进行无线通信。
130.对于一个实施例,(一个或多个)处理器1102中的至少一个可与控制模块1104的一个或多个控制器(例如,存储器控制器模块)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器1102中的至少一个可与控制模块1104的一个或多个控制器的逻辑封装在一起以形成系统级封装(sip)。对于一个实施例,(一个或多个)处理器1102中的至少一个可与控制模块1104的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器1102中的至少一个可与控制模块1104的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(soc)。
131.在各个实施例中,装置1100可以但不限于是:服务器、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例
中,装置1100可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,装置1100包括一个或多个摄像机、键盘、液晶显示器(lcd)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(asic)和扬声器。
132.其中,检测装置中可采用主控芯片作为处理器或控制模块,传感器数据、位置信息等存储到存储器或nvm/存储设备中,传感器组可作为输入/输出设备,通信接口可包括网络接口。
133.本技术实施例还提供了一种电子设备,包括:处理器;和存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如本技术实施例中一个或多个所述的方法。
134.本技术实施例还提供了一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如本技术实施例中一个或多个所述的方法。
135.对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
136.本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
137.本技术实施例是参照根据本技术实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
138.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
139.这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
140.尽管已描述了本技术实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本技术实施例范围的所有变更和修改。
141.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要
素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
142.以上对本技术所提供的一种数据处理方法、一种数据处理装置、一种电子设备和一种存储介质,进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的一般技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。

技术特征:


1.一种数据处理方法,其特征在于,所述的方法包括:获取待分析的音频数据,并确定音频数据对应的滤波系数;依据所述滤波系数的系数衰减信息,确定所述音频数据对应的声学环境。2.根据权利要求1所述的方法,其特征在于,所述依据所述滤波系数的系数衰减信息,确定所述音频数据对应的声学环境,包括:依据所述滤波系数,确定系数衰减信息,所述系数衰减信息包括混响时长和能量衰减量,所述能量衰减量包括音频数据中直达声与混响声的能量比;依据所述混响时长和所述能量衰减量,确定所述音频数据对应的声学环境。3.根据权利要求2所述的方法,其特征在于,所述依据所述滤波系数,确定系数衰减信息,包括:依据所述滤波系数和预设系数阈值,确定混响时长;依据所述滤波系数,确定对应直达声的第一滤波系数和对应混响声的第二滤波系数;依据所述第一滤波系数和所述第二滤波系数对应的能量比,作为能量衰减量。4.根据权利要求1所述的方法,其特征在于,所述的方法还包括:依据所述声学环境,确定噪音估计信息,所述噪音估计信息包括回声噪音估计信息和混响噪音估计信息;依据所述噪音估计信息,对音频数据进行处理。5.一种数据处理方法,其特征在于,所述的方法包括:获取直播音频数据,并确定直播音频数据对应的滤波系数;依据所述滤波系数的系数衰减信息,确定所述直播音频数据对应的声学环境;依据所述声学环境,确定噪音估计信息,所述噪音估计信息包括回声噪音估计信息和混响噪音估计信息;依据所述噪音估计信息,对直播音频数据进行处理。6.一种数据处理方法,其特征在于,所述的方法包括:获取会议音频数据,并确定会议音频数据对应的滤波系数;依据所述滤波系数的系数衰减信息,确定所述会议音频数据对应的声学环境;依据所述声学环境和扬声器播放的输出音频,确定干扰噪音估计信息;依据所述干扰噪音估计信息,对会议音频数据进行处理。7.一种数据处理方法,其特征在于,所述的方法包括:获取控制音频数据,并确定被控物联网设备;在被控物联网设备包括至少两个物联网设备时,确定控制音频数据对应的滤波系数,并依据所述滤波系数的系数衰减信息,确定所述控制音频数据对应的声学环境;依据所述声学环境,从至少两个物联网设备中筛选出目标物联网设备,并依据所述控制音频数据对所述目标物联网设备进行控制。8.一种数据处理装置,其特征在于,所述装置包括:滤波系数确定模块,用于获取待分析的音频数据,并确定音频数据对应的滤波系数;声学环境确定模块,用于依据所述滤波系数的系数衰减信息,确定所述音频数据对应的声学环境。9.一种电子设备,其特征在于,包括:处理器;和
存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如权利要求1-7中一个或多个所述的方法。10.一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如权利要求1-7中一个或多个所述的方法。

技术总结


本申请实施例提供了一种数据处理方法、装置、电子设备和存储介质,所述的方法包括:获取待分析的音频数据,并确定音频数据对应的滤波系数;依据所述滤波系数的系数衰减信息,确定所述音频数据对应的声学环境。本申请可以分析音频数据对应的声学环境,并依据声学环境进行去噪,能够提升对音频数据的优化效果。能够提升对音频数据的优化效果。能够提升对音频数据的优化效果。


技术研发人员:

熊飞飞 冯津伟

受保护的技术使用者:

阿里巴巴新加坡控股有限公司

技术研发日:

2021.04.29

技术公布日:

2022/11/1

本文发布于:2024-09-23 04:37:46,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/18911.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:音频   系数   数据   所述
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议