语音增强方法、装置、设备、存储介质及程序产品与流程



1.本技术实施例涉及语音技术处理领域,特别涉及一种语音增强方法、装置、设备、存储介质及程序产品。


背景技术:



2.语音在传输过程中不可避免地会受到周围环境以及通信设备内部噪声的干扰,因此需要通过语音增强技术从带噪音的语音信号中提取尽可能纯净的原始语音,语音增强技术在语音处理、语音识别、语音检测等领域中发挥着重要作用。
3.相关技术中,通常采用噪音抑制、回声消除、音量调节等方法对语音信号进行处理,例如:通过深度学习方法对语音信号中的噪声成分进行抑制,输出得到信噪比增强的语音信号。
4.通过上述方法得到的语音信号虽然在一定程度上减轻了噪音的干扰,但当接受者在长时间接收语音信号时,可能会对语音信号产生听觉疲劳,影响语音信号的后续处理过程。


技术实现要素:



5.本技术实施例提供了一种语音增强方法、装置、设备、存储介质及程序产品,能够有选择地对目标音频中不符合调整条件的子带能量数据进行调整,在充分考虑目标音频特性的同时,提高了语音增强的质量。所述技术方案如下。
6.一方面,提供了一种语音增强方法,所述方法包括:
7.获取目标音频,所述目标音频为待进行语音增强的音频数据;
8.沿频域维度对所述目标音频进行频带切分,得到至少两个子频带;
9.获取所述至少两个子频带分别对应的子带能量数据,所述子带能量数据用于指示所述目标音频中的音频帧在所述子频带内沿频域维度的频率变化情况;
10.沿时域维度对所述至少两个子频带分别对应的子带能量数据进行分析,得到所述至少两个子频带分别对应的子带能量分布数据,所述子带能量分布数据用于指示所述目标音频在所述至少两个子频带上的频率分布情况;
11.在所述至少两个子频带中,存在指定子频带对应的子带能量分布数据符合调整条件的情况下,基于所述指定子频带对应的子带能量分布数据确定调整参数,对所述指定子频带的子带能量数据进行调整,得到目标增强音频。
12.另一方面,提供了一种语音增强装置,所述装置包括:
13.音频获取模块,用于获取目标音频,所述目标音频为待进行语音增强的音频数据;
14.频带切分模块,用于沿频域维度对所述目标音频进行频带切分,得到至少两个子频带;
15.数据获取模块,用于获取所述至少两个子频带分别对应的子带能量数据,所述子带能量数据用于指示所述目标音频中的音频帧在所述子频带内沿频域维度的频率变化情
况;
16.数据分析模块,用于沿时域维度对所述至少两个子频带分别对应的子带能量数据进行分析,得到所述至少两个子频带分别对应的子带能量分布数据,所述子带能量分布数据用于指示所述目标音频在所述至少两个子频带上的频率分布情况;
17.能量调整模块,用于在所述至少两个子频带中,存在指定子频带对应的子带能量分布数据符合调整条件的情况下,基于所述指定子频带对应的子带能量分布数据确定调整参数,对所述指定子频带的子带能量数据进行调整,得到目标增强音频。
18.另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本技术实施例中任一所述语音增强方法。
19.另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本技术实施例中任一所述的语音增强方法。
20.另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的语音增强方法。
21.本技术实施例提供的技术方案带来的有益效果至少包括:
22.沿频域维度对待进行语音增强的目标音频进行频带切分,得到至少两个子频带,获取不同子频带分别对应的子带能量数据以及子带能量分布数据,当存在指定子频带对应的子带能量分布数据符合调整条件时,基于指定子频带对应的子带能量分布数据确定调整参数,并利用调整参数对指定子频带的子带能量数据进行调整,从而有效避免对目标音频的全部语音信号进行无目的地调整,通过判断子频带的子带能量分布数据是否符合调整条件,有选择地对不符合调整条件的指定子频带的子带能量数据进行调整,进而利用由指定子频带对应的子带能量分布数据确定的调整参数,对指定子频带的子带能量数据进行调整,并基于调整后的子带能量数据,得到有选择性增强的目标增强音频,在充分考虑目标音频特性的同时,提高了语音增强的质量。
附图说明
23.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
24.图1是本技术一个示例性实施例提供的实施环境示意图;
25.图2是本技术一个示例性实施例提供的语音增强方法的流程图;
26.图3是本技术一个示例性实施例提供的频带切分的示意图;
27.图4是本技术另一个示例性实施例提供的语音增强方法的流程图;
28.图5是本技术一个示例性实施例提供的目标音频的示意图;
29.图6是本技术再一个示例性实施例提供的语音增强方法的流程图;
30.图7是本技术一个示例性实施例提供的子带能量数据调整的示意图;
31.图8是本技术一个示例性实施例提供的语音增强方法的处理流程图;
32.图9是本技术又一个示例性实施例提供的语音增强方法的流程图;
33.图10是本技术一个示例性实施例提供的语音增强装置的结构框图;
34.图11是本技术一个示例性实施例提供的服务器的结构框图。
具体实施方式
35.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
36.相关技术中,通常采用噪音抑制、回声消除、音量调节等方法对语音信号进行处理,例如:通过深度学习方法对语音信号中的噪声成分进行抑制,输出得到信噪比增强的语音信号。通过上述方法得到的语音信号虽然在一定程度上减轻了噪音的干扰,但当接受者在长时间接收语音信号时,可能会对语音信号产生听觉疲劳,影响语音信号的后续处理过程。
37.本技术实施例中,提供了一种语音增强方法,能够有选择地对目标音频中不符合调整条件的子带能量数据进行调整,在充分考虑目标音频特性的同时,提高了语音增强的质量。针对本技术训练得到的语音增强方法,在应用时包括语音通话增强场景、音频增强场景等多种场景。
38.值得注意的是,上述应用场景仅为示意性的举例,本实施例提供的语音增强方法还可以应用于其他语音场景中,本技术实施例对此不加以限定。
39.需要说明的是,本技术所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本技术中涉及到的语音数据、目标音频等都是在充分授权的情况下获取的。
40.其次,对本技术实施例中涉及的实施环境进行说明,示意性的,请参考图1,该实施环境中涉及终端110、服务器120,终端110和服务器120之间通过通信网络130连接。
41.在一些实施例中,终端110中安装有具有音频获取功能的应用程序。在一些实施例中,终端110用于向服务器120发送目标音频。服务器120可通过语音增强模型121对目标音频进行语音增强,并将增强后的目标增强音频反馈至终端110进行播放。
42.其中,语音增强模型121的应用过程如下所示:沿频域维度对获取得到的目标音频进行频带切分,得到至少两个子频带(子频带1、子频带2、

子频带n),之后,获取至少两个子频带分别对应的子带能量数据(子带能量数据1、子带能量数据2、

子带能量数据n),其中,子带能量数据用于指示目标音频中的音频帧在子频带内沿频域维度的频率变化情况,然后,沿时域维度对至少两个子频带分别对应的子带能量数据进行分析,得到至少两个子频带分别对应的子带能量分布数据(子带能量分布数据1、子带能量分布数据2、

子带能量分布数据n),通过子带能量分布数据,能够确定目标音频在至少两个子频带上的频率分布情况。当至少两个子频带中存在指定子频带对应的子带能量分布数据符合调整条件,基于
指定子频带对应的子带能量分布数据确定调整参数。例如:子带能量分布数据1符合调整条件,则子频带1为指定子频带,基于子带能量分析数据1确定子频带1对应的调整参数,并通过该调整参数对指定子频带(子频带1)的子带能量数据(子带能量数据1)进行调整,从而得到指定子频带(子频带1)对应的调整后的子带能量数据(子带能量数据1),并根据调整后的子带能量数据得到目标增强音频。上述过程是语音增强模型121应用过程的不唯一情形的举例。
43.值得注意的是,上述终端包括但不限于手机、平板电脑、便携式膝上笔记本电脑、智能语音交互设备、智能家电、车载终端等移动终端,也可以实现为台式电脑等;上述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
44.其中,云技术(cloud technology)是指在广域网或局域网内将硬件、应用程序、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。
45.在一些实施例中,上述服务器还可以实现为区块链系统中的节点。
46.结合上述名词简介和应用场景,对本技术提供的语音增强方法进行说明,以该方法应用于服务器为例进行说明,如图2所示,该方法包括如下步骤210至步骤250。
47.步骤210,获取目标音频。
48.其中,目标音频为待进行语音增强的音频数据。
49.示意性的,音频用于指示具有音频信息的数据,如:一段音乐、一段语音消息等。可选地,采用终端、录音机等内置或者外接语音采集组件的设备,对音频进行获取。例如:采用配置有麦克风、麦克风阵列或者拾音器的终端,对音频进行获取;或者,采用音频合成应用程序合成音频,从而对音频进行获取等。可选地,目标音频是采用上述采集方式或合成方式获取得到的音频数据。
50.在一个可选的实施例中,目标音频为实时获取得到的音频数据。示意性的,在双人通话或者多人通话的场景下,例如:电话、网络电话(voice over internet protocol,voip)、电话会议等。将实时生成的语音作为目标音频,也即,目标音频为通话过程中的音频数据等。
51.可选地,以待进行语音增强的目标音频为一首歌曲,歌曲中包括多种乐器声源对应的乐器音频数据以及人声声源对应的人声音频数据;或者,以待进行语音增强的目标音频为多人实时通话音频,实时通话音频中包括多个人声声源对应的人声音频数据以及背景音声源对应的背景音音频数据(如:环境音、噪音等音频数据)等。
52.步骤220,沿频域维度对目标音频进行频带切分,得到至少两个子频带。
53.其中,频域维度用于描述目标音频在频率方面特征的维度情况,通过在频域维度对目标音频进行分析,能够提供目标音频在频域维度的振荡信息。
54.可选地,如图3所示,在得到目标音频后,沿频域维度对目标音频310对应的频带进行频带切分,从而得到至少两个子频带320。
55.示意性的,在沿频域维度对输入目标音频310进行频带切分时,将目标音频310对应的频带切分为k个子频带,每个子频带的维度为fk,k=1,

k,且满足
56.可选地,k是随机生成的数字;或者,k是预先设定的数字等。示意性的,以相同频带宽度(维度)的方式对目标音频310进行频带切分,则k个子频带的频带宽度相同;或者,以不同频带宽度的方式对目标音频310进行切分,则k个子频带的频带宽度不同,例如:k个子频带的频带宽度依次递增、k个子频带的频带宽度随机选取等。
57.步骤230,获取至少两个子频带分别对应的子带能量数据。
58.示意性的,在对目标音频进行频带切分得到至少两个子频带后,对至少两个子频带对应的子带能量数据分别进行确定。其中,子带能量数据用于指示目标音频中的音频帧在子频带内沿频域维度的频率变化情况。
59.其中,音频帧是音频对应的计量单位。可选地,根据目标音频对应的音频信号的分布情况、音频数据的振荡情况等,对目标音频进行分帧处理。例如:将频率变化较为平稳的一段音频数据作为一个音频帧。可选地,以固定的时间间隔作为一个音频帧对应的时间间隔,如:采用32毫秒作为一个音频帧。其中,一个音频帧一般取20~50毫秒。
60.基于上述音频帧划分标准,对目标音频进行分帧处理,将截取得到的一小段音频数据作为一个音频帧,从而确定目标音频对应包括的多个音频帧。
61.可选地,在对至少两个子频带分别对应的子带能量数据进行获取时,以音频帧为单位,对不同音频帧中至少两个子频带所分别对应的子带能量数据进行获取,也即,在不同音频帧中,至少两个子频带分别对应的子带能量数据存在差异。
62.在一个可选的实施例中,对任意一个音频帧下的至少两个子频带进行分析。
63.示意性的,对目标音频进行采样后得到目标音频对应的多个采样点,在对某个子频带的子带能量数据进行确定时,根据多个采样点对应的能量数据确定子频带对应的子带能量数据,例如:对该子频带中多个采样点对应的能量数据进行积分,从而得到该子频带对应的子带能量数据;或者,在对某个子频带的子带能量数据进行确定时,首先对多个采样点进行带通滤波,之后将该子频带中多个滤波后采样点对应的能量数据进行积分,从而得到该子频带对应的子带能量数据等。
64.可选地,基于上述子带能量数据的确定方法,确定同一音频帧下多个子频带分别对应的子带能量数据,并确定其他音频帧下多个子频带分别对应的子带能量数据,从而得到不同音频帧下不同子频带分别对应的子带能量数据。
65.步骤240,沿时域维度对至少两个子频带分别对应的子带能量数据进行分析,得到至少两个子频带分别对应的子带能量分布数据。
66.示意性的,时域维度是采用时间标尺对目标音频在时间上的变化进行记录的维度情况,可选地,采用音频帧描述时域维度的变化情况,也即,在沿时域维度对至少两个子频带分别对应的子带能量数据进行分析的过程,即是在不同音频帧下,对至少两个子频带分别对应的子带能量数据进行分析的过程。
67.可选地,在获取得到至少两个子频带分别对应的子带能量数据后,分析同一子频带在不同音频帧下的频率变化情况,确定至少两个子频带分别对应的子带能量分布数据。例如:在目标音频中存在子频带a以及子频带b,在音频帧1下,得到子频带a对应的子带能量数据a以及子频带b对应的子带能量数据b,在音频帧2下,得到子频带a对应的子带能量数据
a’以及子频带b对应的子带能量数据b’,其中,音频帧1以及音频帧2是沿时域维度分布的不同的音频帧。
68.示意性的,以子频带a为例进行分析,根据子频带a在音频帧1下的子带能量数据a以及在音频帧2下的子带能量数据a’之间的频率变化情况,确定子频带a对应的子带能量分布数据;或者,以子频带b为例进行分析,根据子频带b在音频帧1下的子带能量数据b以及在音频帧2下的子带能量数据b’之间的频率变化情况,确定子频带b对应的子带能量分布数据。也即,子带能量分布数据用于指示目标音频在至少两个子频带上的频率分布情况。
69.可选地,以某个子频带为例,由于子带能量分布数据是基于该子频带中不同音频帧下获取得到的数据,故,对于一个子频带而言,对应包括不同音频帧下分别对应的子带能量分布数据,一个子带能量分布数据代表了该音频帧下的子带能量数据与其他音频帧下的子带能量数据的关系等。
70.步骤250,在至少两个子频带中,存在指定子频带对应的子带能量分布数据符合调整条件的情况下,基于指定子频带对应的子带能量分布数据确定调整参数,对指定子频带的子带能量数据进行调整,得到目标增强音频。
71.可选地,调整条件为预先设定的条件,例如:调整条件为预设的能量阈值;或者,调整条件为根据多个子带能量分布数据实时确定的条件,例如:调整条件为:指定子频带的子带能量分布数据大于多个子带能量分布数据的平均值等。
72.示意性的,通过上述方法对目标音频进行频域维度分析和时域维度分析后,确定至少两个子频带分别对应的子带能量分布数据。可选地,将至少两个子频带分别对应的子带能量分布数据与预设的调整条件进行比较,从而确定是否对至少两个子频带对应的子带能量数据进行调整。例如:将某一个子频带在不同音频帧下分别对应的子带能量分布数据与调整条件进行比较。
73.在一个可选的实施例中,当存在某个子频带对应的子带能量分布数据符合调整条件,对该子频带的子带能量数据进行调整;或者,当某个子频带对应的子带能量分布数据不符合调整条件,不对该子频带的子带能量数据进行调整。
74.示意性的,将符合调整条件的子频带作为指定子频带,也即,指定子频带用于指示至少两个子频带中符合调整条件的子频带。例如:指定子频带对应的子带能量分布数据大于预设能量阈值;或者,指定子频带对应的子带能量分布数据小于3倍的预设能量阈值等。
75.可选地,基于指定子频带的频带特征(指定子频带的子带能量分布数据符合调整条件),上述指定子频带既可能是至少两个子频带中的一个子频带,也可能是至少两个子频带中的多个子频带(如:至少两个子频带均为指定子频带)。
76.在一个可选的实施例中,在对指定子频带的子带能量数据进行调整时,通过指定子频带对应的子带能量分布数据确定调整参数,以调整参数对指定子频带的子带能量数据进行调整。
77.示意性的,在获取指定子频带对应的子带能量分布数据时,基于子带能量分布数据所对应的时域关系,得到指定子频带在不同音频帧下分别对应的子带能量分布数据,例如:以指定子频带为子频带a为例进行说明(子频带a对应的能量分布数据符合调整条件),在获取子频带a对应的子带能量分布数据时,得到音频帧1下子频带a对应的子带能量分布数据1以及音频帧2下子频带a对应的子带能量分布数据2,将子带能量分布数据1和子带能
量分布数据2作为子频带a对应的子带能量分布数据。
78.可选地,根据子频带a对应的子带能量分布数据1和子带能量分布数据2的变化情况,确定子频带a对应的调整参数,并通过调整参数对子频带a的子带能量数据进行调整。
79.示意性的,根据上述调整参数的确定方法,确定不同指定子频带分别对应的调整参数,以不同指定子频带各自对应的调整参数对其对应的指定子频带的子带能量数据进行调整,从而得到不同指定子频带分别对应的调整后的子带能量数据。
80.在一个可选的实施例中,基于指定子频带对应的调整后的子带能量数据,得到目标增强音频。
81.示意性的,以任意一个音频帧为例进行分析,根据该音频帧下指定子频带与至少两个子频带之间的关系,在根据调整后的子带能量数据得到目标增强音频时,包括如下至少一种情况。
82.(1)至少两个子频带中的部分子频带为指定子频带。
83.示意性的,当指定子频带为至少两个子频带中的部分子频带时,即代表该部分子频带对应的子带能量分布数据符合调整条件,则根据该部分子频带对应的子带能量分布数据确定对应的调整参数,在通过调整参数对指定子频带的子带能量数据进行调整时,不同的调整参数对其对应的指定子频带的子带能量数据进行调整,从而使得成为指定子频带的部分子频带的子带能量数据进行了调整。然而,至少两个子频带中除指定子频带之外的其余子频带的子带能量分布数据并不符合调整条件,故其余子频带无需确定调整参数并进行子带能量数据的调整过程。
84.也即:对至少两个子频带而言,其中存在部分子频带(指定子频带)对应的子带能量数据进行了调整,并得到不同指定子频带分别对应的调整后的子带能量数据;还存在其余子频带(至少两个子频带中除指定子频带之外的子频带)对应的子带能量数据未进行调整。
85.可选地,在基于调整后的子带能量数据得到目标增强音频时,考虑到未进行调整的其余子频带在目标音频中的频带区域,综合考虑已调整的指定子频带对应的调整后的子带能量数据以及未调整的其余子频带对应的子带能量数据,从而得到增强后的目标增强音频。
86.在一个可选的实施例中,对指定子频带的子带能量数据进行调整,得到指定子频带对应的调整后的子带能量数据。其中,至少两个子频带中还包括未进行能量调整的候选丢弃子频带,也即,候选丢弃子频带用于指示至少两个子频带中除指定子频带之外的子频带。
87.可选地,针对目标音频中的音频帧,响应于经过能量调整的指定子频带在至少两个子频带中的频带占比超过预设占比阈值,且候选丢弃子频带处于人声对应的频域范围外,保留经过能量调整的指定子频带的子带能量数据,丢弃未经过能量调整的候选丢弃子频带的子带能量数据,得到目标增强音频。
88.示意性的,在确定指定子频带在至少两个子频带中的频带占比达到预设占比阈值后,确定至少两个子频带中除指定子频带之外的候选丢弃子频带是否处于人声对应的频域范围外,其中,人声对应的频域范围为20hz-20khz。
89.当候选丢弃子频带处于人声对应的频域范围外,将候选丢弃子频带作为丢弃子频
带,即将处于人声对应的频域范围外的候选丢弃子频带予以丢弃;当候选丢弃子频带处于人声对应的频域范围内,不对该候选丢弃子频带进行丢弃,即将处于人声对应的频域范围内的候选丢弃子频带予以保留。例如:预设占比阈值为95%,当至少两个子频带中存在95%的频带为指定子频带时,将该部分指定子频带作为候选丢弃子频带,并判断候选丢弃子频带是否处于人声对应的频域范围外,从而决定对候选丢弃子频带进行的丢弃操作或保留操作。
90.示意性的,当候选丢弃子频带为处于人声对应的频域范围外的子频带时,对候选丢弃子频带进行丢弃,从而基于指定子频带对应的调整后的子带能量数据确定目标增强音频;或者,当候选丢弃子频带为处于人声对应的频域范围内的子频带时,对候选丢弃子频带进行保留,从而基于指定子频带对应的调整后的子带能量数据以及保留后的子频带对应的子带能量数据确定目标增强音频等。
91.(2)至少两个子频带中的全部子频带为指定子频带。
92.示意性的,当至少两个子频带中的全部子频带为指定子频带时,根据至少两个子频带分别对应的子带能量分布数据,确定至少两个子频带分别对应的调整参数,以调整参数对其对应的子频带的子带能量数据进行调整,从而得到至少两个子频带分别对应的调整后的子带能量数据。可选地,基于至少两个子频带分别对应的调整后的子带能量数据,得到目标增强音频。
93.示意性的,根据至少两个子频带分别对应的调整后的子带能量数据,确定能量分布曲线,根据能量分布曲线还原得到声音信号,通过还原得到的声音信号确定目标增强音频等。
94.值得注意的是,以上仅为示意性的举例,本技术实施例对此不加以限定。
95.综上所述,沿频域维度对待进行语音增强的目标音频进行频带切分,得到至少两个子频带,获取不同子频带分别对应的子带能量数据以及子带能量分布数据,当存在指定子频带对应的子带能量分布数据符合调整条件时,基于指定子频带对应的子带能量分布数据确定调整参数,并利用调整参数对指定子频带的子带能量数据进行调整,从而有效避免对目标音频的全部语音信号进行无目的地调整,通过判断子频带的子带能量分布数据是否符合调整条件,有选择地对不符合调整条件的指定子频带对应的子带能量数据进行调整,进而利用由指定子频带对应的子带能量分布数据确定的调整参数,对指定子频带的子带能量数据进行调整,并基于调整后的子带能量数据,得到增强的目标增强音频,在充分考虑目标音频特性的同时,提高了语音增强的质量。
96.在一个可选的实施例中,基于子带能量分布数据中包括的子带能量长时分布数据,确定是否对子带能量数据进行调整。也即,子带能量分布数据包括子带能量长时分布数据,子带能量长时分布数据用于指示相邻两帧音频帧的子带能量数据的变化情况。示意性的,如图4所示,上述图2所示出的实施例还可以实现为如下步骤410至步骤470。
97.步骤410,获取目标音频。
98.其中,目标音频为待进行语音增强的音频数据。
99.示意性的,音频用于指示具有音频信息的数据,如:一段音乐、一段语音消息等。可选地,采用终端、录音机等内置或者外接语音采集组件的设备,对目标音频进行获取;或者,目标音频为通话过程中的音频数据等。
100.步骤420,沿频域维度对目标音频进行频带切分,得到至少两个子频带。
101.示意性的,根据目标音频对应的频率分布范围,沿频域维度对目标音频进行频带切分。
102.在一个可选的实施例中,采用固定频带宽度对目标音频进行频带切分。
103.例如:目标音频对应的频率分布范围为100hz-399hz,在对目标音频进行频带切分时,以每个频带宽度为100hz为划分标准,得到3个子频带,包括频带范围为100hz-199hz的子频带,频带范围为200hz-299hz的子频带以及频带范围为300hz-399hz的子频带。
104.在一个可选的实施例中,采用临界频带划分标准对目标音频进行频带切分。
105.其中,临界频带用于指示由于耳蜗构造产生的听觉滤波器的频率带宽,也即,临界频带是声音频率带,在临界频带中第一个单音感知性会被第二单音的听觉掩蔽所干扰,从而划分出24个临界频带,对应人耳结构能够产生共振的24个频率点,通常将24个个临界频带以声域(bark域)进行表示。也即,临界频带划分标准为预设的频带划分标准。
106.例如:目标音频对应的频率分布范围为20hz-400hz,在对目标音频进行频带切分时,根据临界频带的划分标准,得到4个子频带,包括频带范围为20hz-100hz(频带带宽为80,频带中心为50)的子频带(临界频带1)、频带范围为100hz-200hz(频带带宽为100,频带中心为150)的子频带(临界频带2)、频带范围为200hz-300hz(频带带宽为100,频带中心为250)的子频带(临界频带3)以及频带范围为300hz-400hz(频带带宽为100,频带中心为350)的子频带(临界频带4)。
107.值得注意的是,以上仅为示意性的举例,本技术实施例对此不加以限定。
108.步骤430,获取至少两个子频带分别对应的子带能量数据。
109.其中,子带能量数据用于指示目标音频中的音频帧在子频带内沿频域维度的频率变化情况。
110.示意性的,对目标音频进行采样后得到目标音频对应的多个采样点,在对至少两个子频带分别对应的子带能量数据进行确定时,对多个采样点分别对应的能量数据进行积分,从而确定子频带对应的子带能量数据;或者,对多个采样点进行带通滤波,之后将该子频带中多个滤波后采样点对应的能量数据进行积分,从而得到该子频带对应的子带能量数据等。
111.可选地,基于上述子带能量数据的确定方法,确定同一音频帧下多个子频带分别对应的子带能量数据,并确定其他音频帧下多个子频带分别对应的子带能量数据,从而得到不同音频帧下不同子频带分别对应的子带能量数据。
112.在一个可选的实施例中,采用上述方法确定不同子频带对应的子带能量值,对子带能量值进行对数运算,将对数运算后的结果作为子带能量数据。
113.示意性的,获取当前帧音频帧对应的子带能量值为x,之后对该子带能量值取对数,例如:log10(x),将取对数后的数值作为子带能量数据,也即,子带能量数据为log10(x)。可选地,以eb(i,k)指示第i个音频帧对应的第k个子频带的子带能量数据。
114.步骤440,获取第i帧音频帧中至少两个子频带分别对应的子带能量数据以及第i-1帧音频帧中至少两个子频带分别对应的子带能量分布数据。
115.其中,第i帧音频帧和第i-1帧音频帧是沿时域维度上分布的相邻的两帧音频帧,i为大于1的正整数。
116.示意性的,采用上述子带能量获取方法获取得到第i帧音频帧中至少两个子频带分别对应的子带能量数据。可选地,获取第i-1帧音频帧对应的子带能量分布数据,其中,子带能量分布数据用于指示目标音频在至少两个子频带上的频率分布情况。
117.也即,在确定当前帧音频帧中至少两个子频带分别对应的子带能量分布数据时,采用迭代确定的方式,通过上一帧音频帧中至少两个子频带分别对应的子带能量分布数据以及当前帧音频帧中至少两个子频带分别对应的子带能量数据,共同对当前帧音频帧中至少两个子频带分别对应的子带能量分布数据进行确定。
118.示意性的,采用上述方法对不同帧音频帧对应的子带能量分布数据进行确定。
119.第1帧音频帧为目标音频在时域维度上的第一个音频帧。可选地,在确定第1帧音频帧中不同子频带分别对应的子带能量分布数据时,将第1帧音频帧中不同子频带分别对应的子带能量数据作为其分别对应的子带能量分布数据。例如:在第1帧音频帧中,子频带a对应的子带能量数据为x,则将第1帧音频帧中子频带a对应的子带能量数据x作为第1帧音频帧中子频带a对应的子带能量分布数据。
120.或者,在确定第1帧音频帧中不同子频带分别对应的子带能量分布数据时,对第1帧音频帧中不同子频带分别对应的子带能量数据分别进行处理,并将处理后的数据作为不同子频带分别对应的子带能量分布数据。例如:在第1帧音频帧中,子频带a对应的子带能量数据为x,将预设参数与子带能量数据x相乘,并将乘积作为第1帧音频帧中子频带a对应的子带能量分布数据等。
121.可选地,在确定除第1帧音频帧以外的其他音频帧中不同子频带分别对应的子带能量分布数据时,采用预设的能量数据计算方式,对子带能量分布数据进行确定。
122.值得注意的是,以上仅为示意性的举例,本技术实施例对此不加以限定。
123.步骤450,以第一预设权重对第i帧音频帧中至少两个子频带分别对应的子带能量数据以及第i-1帧音频帧中至少两个子频带分别对应的子带能量长时分布数据进行加权融合,确定第i帧音频帧中至少两个子频带分别对应的子带能量长时分布数据。
124.可选地,在获取得到第i帧音频帧对应的子带能量数据以及第i-1帧音频帧对应的子带能量长时分布数据后,根据第一预设权重确定第i帧音频帧对应的子带能量长时分布数据。其中,第一预设权重为预先确定的权重数值,用于在确定第i帧音频帧对应的子带能量长时分布数据时,对第i帧音频帧对应的子带能量数据以及第i-1帧音频帧对应的子带能量长时分布数据的权重进行均衡。
125.示意性的,采用如下子带能量分布数据的计算公式,对第i帧音频帧对应的子带能量长时分布数据进行确定。
126.eb_lt(i,k)=a*eb_lt(i-1,k)+(1-a)*eb(i,k)a=0.993
127.其中,i用于指示音频帧;k用于指示子频带;a用于指示第一预设权重;eb_lt(i,k)用于指示第i帧音频帧中第k个频带对应的子带能量长时分布数据,lt是长时(long-term)的缩写,用于描述不同音频帧对应的子带能量长时分布数据在时域维度上的迭代关系;eb_lt(i-1,k)用于指示第i-1帧音频帧中第k个频带对应的子带能量长时分布数据;eb(i,k)用于指示第i帧音频帧中第k个频带对应的子带能量数据。
128.可选地,采用上述子带能量长时分布数据的计算公式确定不同音频帧下不同子频带各自对应的子带能量长时分布数据。
129.步骤460,响应于至少两个子频带中存在指定子频带对应的子带能量长时分布数据达到预设听觉阈值,确定调整参数。
130.可选地,以任意一个音频帧为例进行说明,在确定音频帧下至少两个子频带分别对应的子带能量长时分布数据后,将至少两个子频带分别对应的子带能量分布数据与预设听觉阈值进行比较,并根据比较结果确定是否对至少两个子频带对应的子带能量数据进行调整。
131.其中,预设听觉阈值用于指示调整条件,是预先设定的数值条件,用于避免听觉疲劳现象的出现。
132.听觉疲劳主要的原因是收听的声音信号在频域维度中的某个或某些子频带出现持续性的能量集中和过载,如图5所示,为一个示意性的目标音频的频率分布图,其中,横轴510用于指示时间维度,纵轴520用于指示频率分布情况,如图5所示,在低频部分530存在明显的亮纹(代表目标音频在低频处的能量过大),听者耳朵长时间承受来自于该频带(低频频带)的信号刺激,导致听觉阈值(听阈)上移。此时,其它频带的音频信息由于听阈调节而不敏感,从而出现听不清的情况,也会使得收听时间长后令人精神疲倦,无法精神集中的情况,也即导致听觉疲劳现象的产生。
133.在一个可选的实施例中,根据听觉等响曲线原理,对不同子频带确定不同的预设听觉阈值。
134.其中,听觉等响曲线是通过对人耳声响实感而测定所得出的声音响度主观感量(响度级)相等的曲线,由于不同的子频带对应不同的频率范围,因此在确定不同子频带对应的预设听觉阈值时,确定与频率范围对应的听觉阈值,即确定不同子频带分别对应的预设听觉阈值。
135.可选地,达到预设听觉阈值用于指示子带能量长时分布数据大于预设听觉阈值;或者,达到预设听觉阈值用于指示子带能量长时分布数据大于或等于预设听觉阈值。
136.示意性的,将达到预设听觉阈值的子带能量长时分布数据对应子频带作为指定子频带。例如:指定子频带对应的子带能量长时分布数据大于预设听觉阈值。
137.在一个可选的实施例中,在对指定子频带的子带能量数据进行调整时,通过指定子频带对应的子带能量分布数据确定调整参数,以调整参数对指定子频带的子带能量数据进行调整。
138.步骤470,基于调整参数对指定子频带的子带能量数据进行调整,得到目标增强音频。
139.可选地,相同的子频带在不同的音频帧下对应不同的调整参数,以任意一个音频帧为例进行说明。示意性的,在确定不同子频带分别对应的调整参数后,以不同子频带各自对应的调整参数对其对应的子频带的子带能量数据进行调整。
140.在一个可选的实施例中,通过调整参数对指定子频带对应的子带能量数据进行调整,确定指定子频带对应的能量调整增益。
141.其中,能量调整增益用于指示子带能量数据的数据比例调整情况。
142.示意性的,在得到调整参数后,对调整参数进行转换,得到指定子频带对应的能量调整增益,基于能量调整增益对目标音频进行语音增强,得到目标增强音频。
143.综上所述,通过频带切分得到目标音频对应的至少两个子频带,并获取不同子频
带分别对应的子带能量数据以及子带能量分布数据,通过子频带的子带能量分布数据确定不符合调整条件的指定子频带,进而利用指定子频带对应的子带能量分布数据确定不同指定子频带分别对应的调整参数,从而利用调整参数有选择地对指定子频带的子带能量数据进行调整,并基于调整后的子带能量数据,得到增强的目标增强音频,在充分考虑目标音频特性的同时,提高了语音增强的质量。
144.在本技术实施例中,介绍了子带能量分布数据中包括的子带能量长时分布数据,通过子带能量长时分布数据,能够确定相邻两帧音频帧的子带能量数据的变化情况,进而借助时域维度上具有迭代关系的子带能量长时分布数据,将子带能量长时分布数据与预设听觉阈值进行比较,当子带能量长时分布数据达到预设听觉阈值时,通过调整参数对指定子频带对应的子带能量数据进行调整,从而使得指定子频带对应的子带能量数据被限制一定数值之下,避免由于指定子频带对应的子带能量数据过大而可能导致的听觉疲劳等情形发生,降低了对象在收听目标音频时的疲劳感,有选择地对目标音频对应的子带能量数据进行调整。
145.在一个可选的实施例中,基于子带能量分布数据中包括的子带能量高位分布数据以及子带能量低位分布数据确定调整参数。示意性的,如图6所示,上述图2所示出的实施例还可以实现为如下步骤610至步骤690。
146.步骤610,获取目标音频。
147.其中,目标音频为待进行语音增强的音频数据。
148.步骤610已在上述步骤210中进行了说明,此处不再赘述。
149.步骤620,沿频域维度对目标音频进行频带切分,得到至少两个子频带。
150.在一个可选的实施例中,基于预设频带划分标准,沿频域维度对目标音频进行频带切分,得到至少两个子频带。示意性的,采用预先确定的临界频带划分标准对目标音频进行频带切分,从而得到至少两个子频带。
151.步骤620已在上述步骤220以及步骤420中进行了说明,此处不再赘述。
152.步骤630,获取至少两个子频带分别对应的子带能量数据。
153.其中,子带能量数据用于指示目标音频中的音频帧在子频带内沿频域维度的频率变化情况。
154.示意性的,获取不同帧音频帧对应的子带能量值为x,之后对不同子带能量值分别取对数,将取对数后的数值作为子带能量数据,从而得到不同音频帧下不同子频带对应的子带能量数据。
155.步骤630已在上述步骤230以及步骤430中进行了说明,此处不再赘述。
156.步骤640,获取第i帧音频帧中至少两个子频带分别对应的子带能量数据以及第i-1帧音频帧中至少两个子频带分别对应的子带能量分布数据。
157.其中,i为大于1的正整数,子带能量分布数据用于指示目标音频在至少两个子频带上的频率分布情况。
158.其中,第i帧音频帧和第i-1帧音频帧是沿时域维度上分布的相邻的两帧音频帧,i为大于1的正整数。
159.示意性的,在确定当前帧(第i帧)音频帧对应的子带能量分布数据时,采用迭代确定的方式,通过上一帧(第i-1帧)音频帧对应的子带能量分布数据以及当前帧音频帧(第i
帧)对应的子带能量数据,共同对当前帧音频帧对应的子带能量分布数据进行确定。
160.步骤650,基于第i帧音频帧中至少两个子频带分别对应的子带能量数据、第i-1帧音频帧中至少两个子频带分别对应的子带能量长时分布数据以及第一预设权重,确定第i帧音频帧中至少两个子频带分别对应的子带能量长时分布数据。
161.可选地,通过预先确定的第一预设权重对第i帧音频帧中至少两个子频带分别对应的子带能量数据以及第i-1帧音频帧中至少两个子频带分别对应的子带能量长时分布数据进行加权融合,从而确定第i帧音频帧中至少两个子频带分别对应的子带能量长时分布数据。
162.示意性的,采用上述步骤450所示的子带能量分布数据的计算公式,对第i帧音频帧中第k个子频带对应的子带能量分布数据进行确定。同理,采用子带能量分布数据的计算公式确定不同音频帧下不同子频带各自对应的子带能量分布数据。
163.步骤660,基于第i帧音频帧中至少两个子频带分别对应的子带能量数据、第i-1帧音频帧中至少两个子频带分别对应的子带能量高位分布数据以及第二预设权重,得到第i帧音频帧中至少两个子频带分别对应的子带能量高位分布数据。
164.其中,子带能量分布数据包括子带能量高位分布数据,子带能量高位分布数据用于指示第i帧音频帧相邻两帧音频帧的子带能量数据与第i-1帧音频帧的子带能量高位分布数据的数据比较情况,其中,第i帧音频帧与第i帧音频帧为相邻的音频帧。
165.可选地,在得到第i帧音频帧中至少两个子频带分别对应的子带能量数据后,将第i帧音频帧中至少两个子频带分别对应的子带能量数据与第i-1帧音频帧中至少两个子频带分别对应的子带能量高位分布数据进行比较,根据比较结果确定进行加权融合过程的预设权重。
166.示意性的,第i帧音频帧中第k个频带的子带能量数据表示为eb(i,k),第i-1帧音频帧中第k个频带对应的子带能量高位分布数据表示为eb_up(i-1,k),用于描述不同音频帧对应的子带能量高位分布数据在时域维度上的迭代关系,其中,up用于指示高位。
167.可选地,以指定子频带为例进行分析,在得到eb(i,k)以及eb
up(i-1,k)
后,将eb(i,k)与eb
up(i-1,k)
进行比较,根据数据比较结果,采用第二预设权重对第i帧音频帧对应的子带能量数据以及第i-1帧音频帧对应的子带能量高位分布数据进行加权融合,从而得到第i帧音频帧对应的子带能量高位分布数据。
168.可选地,在得到eb(i,k)以及eb
up(i-1,k)
后,将eb(i,k)与eb
up(i-1,k)
进行比较,根据数据比较结果,采用不同的第二预设权重对第i帧音频帧对应的子带能量数据以及第i-1帧音频帧对应的子带能量高位分布数据进行加权融合,从而得到第i帧音频帧对应的子带能量高位分布数据。也即,根据eb(i,k)与eb
up(i-1,k)
的数值关系,第二预设权重的数值存在差异。
169.示意性的,采用如下子带能量高位分布数据的计算公式,对第i帧音频帧对应的子带能量高位分布数据进行确定。
170.eb
up(i,k)
=b*eb
up(i-1,k)
+(1-b)*eb(i,k)
171.其中,i用于指示音频帧;k用于指示子频带;b用于指示第二预设权重;eb
up(i,k)
用于指示第i帧音频帧中第k个频带对应的子带能量高位分布数据;eb
up(i-1,k)
用于指示第i-1帧音频帧中第k个频带对应的子带能量高位分布数据;eb(i,k)用于指示第i帧音频帧中第k个频带对应的子带能量数据。
172.可选地,根据eb(i,k)与eb
up(i-1,k)
的数值比较关系,第二预设权重b的数值存在差异,示意性的,第二预设权重b表示如下所示。
[0173][0174]
其中,当eb(i,k)小于eb
up(i-1,k)
时,第二预设权重b的取值为0.999,也即,在确定后第i帧音频帧中第k个频带对应的子带能量高位分布数据时,第i-1帧音频帧中第k个频带对应的子带能量高位分布数据的权重影响较大;当eb(i,k)不小于(大于等于)eb
up(i-1,k)
时,第二预设权重b的取值为0.95,也即,在确定后第i帧音频帧中第k个频带对应的子带能量高位分布数据时,第i-1帧音频帧中第k个频带对应的子带能量高位分布数据的权重影响较小。
[0175]
值得注意的是,以上仅为示意性的举例,本技术实施例对此不加以限定。
[0176]
步骤670,基于第i帧音频帧中至少两个子频带分别对应的子带能量数据、第i-1帧音频帧中至少两个子频带分别对应的子带能量低位分布数据以及第三预设权重,得到第i帧音频帧中至少两个子频带分别对应的子带能量低位分布数据。
[0177]
其中,子带能量分布数据包括子带能量低位分布数据,子带能量低位分布数据用于指示第i帧音频帧的子带能量数据与第i-1帧音频帧的子带能量低位分布数据的数据比较情况。
[0178]
可选地,在得到第i帧音频帧中至少两个子频带分别对应的子带能量数据后,将第i帧音频帧中至少两个子频带分别对应的子带能量数据与第i-1帧音频帧中至少两个子频带分别对应的子带能量低位分布数据进行比较,根据比较结果确定进行加权融合过程的预设权重。
[0179]
示意性的,第i帧音频帧中第k个频带的子带能量数据表示为eb(i,k),第i-1帧音频帧中第k个频带对应的子带能量低位分布数据表示为eb
dw(i,k)
,其中,dw用于指示低位,用于描述不同音频帧对应的子带能量低位分布数据在时域维度上的迭代关系。
[0180]
可选地,以指定子频带为例进行分析,在得到eb(i,k)以及eb
dw(i-1,k)
后,将eb(i,k)与eb
dw(i-1,k)
进行比较,根据数据比较结果,采用第三预设权重对第i帧音频帧对应的子带能量数据以及第i-1帧音频帧对应的子带能量低位分布数据进行加权融合,从而得到第i帧音频帧对应的子带能量低位分布数据。
[0181]
可选地,在得到eb(i,k)以及eb
dw(i-1,k)
后,将eb(i,k)与eb
dw(i-1,k)
进行比较,根据数据比较结果,采用不同的第三预设权重对第i帧音频帧对应的子带能量数据以及第i-1帧音频帧对应的子带能量低位分布数据进行加权融合,从而得到第i帧音频帧对应的子带能量低位分布数据。也即,根据eb(i,k)与eb
dw(i-1,k)
的数值关系,第三预设权重的数值存在差异。
[0182]
示意性的,采用如下子带能量低位分布数据的计算公式,对第i帧音频帧对应的子带能量低位分布数据进行确定。
[0183]
eb
dw(i,k)
=c*eb
dw(i-1,k)
+(1-c)*eb(i,k)
[0184]
其中,i用于指示音频帧;k用于指示子频带;c用于指示第三预设权重;eb
dw(i,k)
用于指示第i帧音频帧中第k个频带对应的子带能量低位分布数据;eb
dw(i-1,k)
用于指示第i-1帧音频帧中第k个频带对应的子带能量低位分布数据;eb(i,k)用于指示第i帧音频帧中第k个频带对应的子带能量数据。
[0185]
可选地,根据eb(i,k)与eb
dw(i-1,k)
的数值比较关系,第三预设权重c的数值存在差
异,示意性的,第三预设权重c表示如下所示。
[0186][0187]
其中,当eb(i,k)大于eb
dw(i-1,k)
时,第三预设权重c的取值为0.999,也即,在确定后第i帧音频帧中第k个频带对应的子带能量低位分布数据时,第i-1帧音频帧中第k个频带对应的子带能量低位分布数据的权重影响较大;当eb(i,k)不大于(小于等于)eb
dw(i-1,k)
时,第三预设权重c的取值为0.95,也即,在确定后第i帧音频帧中第k个频带对应的子带能量低位分布数据时,第i-1帧音频帧中第k个频带对应的子带能量低位分布数据的权重影响较小。
[0188]
值得注意的是,以上仅为示意性的举例,本技术实施例对此不加以限定。
[0189]
步骤680,基于指定子频带对应的子带能量高位分布数据、指定子频带对应的子带能量低位分布数据以及预设听觉阈值,确定指定子频带对应的调整参数。
[0190]
其中,预设听觉阈值用于辅助限制指定子频带对应的子带能量数据的数据范围。
[0191]
可选地,在确定指定子频带对应的子带能量高位分布数据eb
up(i,k)
以及指定子频带对应的子带能量低位分布数据eb
dw(i,k)
后,根据预设听觉阈值、eb
up(i,k)
以及eb
dw(i,k)
,确定指定子频带对应的调整参数。
[0192]
示意性的,调整参数的计算公式如下所示。
[0193][0194]
其中,thrd用于指示预设听觉阈值。可选地,通过预设听觉阈值确定指定子频带对应的调整参数,在通过调整参数对指定子频带对应的子带能量数据进行调整时,将调整后的指定子频带对应的子带能量数据限制在预设听觉阈值的数值之内。
[0195]
步骤690,基于调整参数对指定子频带的子带能量数据进行调整,得到目标增强音频。
[0196]
示意性的,如图7所示,为对第i帧音频帧中第k个频带对应的子带能量数据eb(i,k)进行调整的示意图,其中,横轴表示第i帧音频帧中第k个频带对应的子带能量数据eb(i,k);纵轴表示调整后的第i帧音频帧中第k个频带对应的子带能量数据eb

(i,k),其中,a点710用于指示子频带对应的子带能量低位分布数据eb
dw(i,k)
;b点720用于指示子频带对应的子带能量高位分布数据eb
up(i,k)
;c点730用于指示调整后的最大的第i帧音频帧中第k个频带对应的子带能量数据eb

(i,k),基于预设听觉阈值用于限定子带能量长时数据,因此调整后的子带能量数据eb

(i,k)小于预设听觉阈值thrd;d点740用于指示调整后的最小的第i帧音频帧中第k个频带对应的子带能量数据eb

(i,k),其中,a点710、b点720、c点730以及d点740处于一条斜线上,该斜线的斜率为上述调整参数,该条斜线的斜线表达式如下所示。
[0197][0198]
示意性的,以横轴eb(i,k)为输入,纵轴eb

(i,k)为输出,通过上述斜线的调整规律对输入的eb(i,k)进行调整,得到输出的eb

(i,k)。也即,在a点710处,输入eb(i,k)为
eb
dw(i,k)
,根据上述斜线表达式确定输出eb

(i,k)为0.2*thrd;在b点720处,输入eb(i,k)为eb
up(i,k)
,根据上述斜线表达式确定输出eb

(i,k)为0.8*thrd;在c点730处,输入eb(i,k)为(4*eb
up-eb
dw
)/3,根据上述斜线表达式确定输出eb

(i,k)为thrd;在d点740处,输入eb(i,k)为(4*eb
dw-eb
up
)/3,根据上述斜线表达式确定输出eb

(i,k)为0等。
[0199]
示意性的,采用上述斜线表达式,根据不同的输入eb(i,k),确定对应的输出eb

(i,k),从而实现对子带能量数据进行调整的调整过程。可选地,通过预设听觉阈值确定指定子频带对应的调整参数,在通过调整参数对指定子频带对应的子带能量数据进行调整时,将调整后的指定子频带对应的子带能量数据限制在预设听觉阈值的数值之内。
[0200]
在一个可选的实施例中,在得到调整后的子带能量数据eb

(i,k)后,根据调整后的子带能量数据eb

(i,k)以及调整前的子带能量数据eb(i,k),确定不同子频带对应的能量调整增益,其中,子带能量损益的表达式如下所示。
[0201][0202]
其中,gain(i,k)用于指示第i帧音频帧中第k个子频带对应的子带能量损益;sqrt用于指正平方根的计算函数。
[0203]
在一个可选的实施例中,对指定子频带对应的能量调整增益进行增益变换,确定指定子频带中频点对应的频点增益;基于指定子频带中频点对应的频点增益与指定子频带中频点对应的频点幅值的乘积,得到目标增强音频。
[0204]
示意性的,在得到指定子频带对应的能量调整增益后,将指定子频带对应的能量调整增益通过bark域进行逆变换,确定指定子频带中频点对应的频点增益。其中,频点为频带中分布的点。可选地,将上述进行子带能量数据计算过程中指定子频带对应的采样点作为频点;或者,将指定子频带中任意一点或者多点作为频点等。其中,频点增益用于指示频点对应的子带能量数据的比例调整情况。
[0205]
值得注意的是,以上仅为示意性的举例,本技术实施例对此不加以限定。
[0206]
在一个可选的实施例中,对指定子频带中频点对应的频点增益与指定子频带中频点对应的频点幅值的乘积进行时域变换,确定调整后的指定子频带;对至少一个调整后的指定子频带进行频带拼接操作,确定目标增强音频。
[0207]
示意性的,在得到指定子频带中频点对应的频点增益后,将指定子频带中频点对应的频点增益与指定子频带中频点对应的频点幅值的乘积进行时域变换。
[0208]
其中,频点对应的频点幅值为目标音频中指定子频带对应的频点幅值,也即,该频点幅值为未经过能量调整前的数值。
[0209]
可选地,时域变换用于指示将指定子频带从频域维度转换至时域维度。示意性的,采用傅里叶反变换,在得到指定子频带中频点对应的频点增益与指定子频带中频点对应的频点幅值的乘积后,将该乘积结果进行傅里叶反变换,从而得到在时域维度上表示的目标增强音频。
[0210]
综上所述,通过频带切分得到目标音频对应的至少两个子频带,并获取不同子频带分别对应的子带能量数据以及子带能量分布数据,通过子频带的子带能量分布数据确定不符合调整条件的指定子频带,进而利用指定子频带对应的子带能量分布数据确定不同指定子频带分别对应的调整参数,从而利用调整参数有选择地对指定子频带的子带能量数据
进行调整,并基于调整后的子带能量数据,得到增强的目标增强音频,在充分考虑目标音频特性的同时,提高了语音增强的质量。
[0211]
在本技术实施例中,介绍了子带能量分布数据中包括的子带能量高位分布数据以及子带能量低位分布数据,子带能量高位分布数据和子带能量低位分布数据用于指示相邻两帧音频帧的子带能量数据的数据比较情况,通过不同音频帧情况下,不同子频带对应的子带能量数据,差异性地确定子带能量高位分布数据以及子带能量低位分布数据,并借助子带能量高位分布数据以及子带能量低位分布数据确定调整参数,进而通过调整参数实现对不同指定子频带的子带能量数据进行调整的过程,从而使得至少两个子频带所对应的子带能量数据能够限制在预设听觉阈值之内,通过频带能量动态范围控制方法进行语音增强,从而较好地改善听觉疲劳问题。
[0212]
在一个可选的实施例中,对上述语音增强方法的技术原理进行说明,如图8所示,语音增强方法包括如下三个处理部分,分别为:(一)预处理部分810;(二)处理部分820;(三)后处理部分830。
[0213]
(一)预处理部分810
[0214]
步骤811,麦克风录音或者声音信号解码。
[0215]
示意性的,基于听觉疲劳现象,提出一种基于听觉疲劳频域特征提取和子带动态范围控制的方法。可选地,采用麦克风录音设备对获取得到目标音频;或者,将网络传输得到音频数据作为获取得到的目标音频等。
[0216]
步骤812,输入声音信号。
[0217]
示意性的,在获取得到目标音频后,对目标音频进行压缩数据解码后,得到目标音频对应的声音信号。
[0218]
步骤813,傅里叶变换。
[0219]
示意性的,在得到声音信号后,将声音信号经过频域转换(快速傅里叶变换),实现将声音信号从时域维度表示转变为频域维度表示的过程,从而得到以频域形式表示的声音信号。
[0220]
步骤814,bark域变换。
[0221]
示意性的,根据bark域划分标准,对以频域形式表示的声音信号进行子带划分。
[0222]
(二)处理部分820
[0223]
步骤821,确定不同子频带对应的功率谱、相关特征检测值。
[0224]
示意性的,在对声音信号进行子带划分后得到目标音频对应的多个子频带,如:第1子带、第2子带、第n子带等。
[0225]
可选地,分别确定不同子带对应的功率谱、相关特征检测值等。示意性的,获取各子带的当前帧的子带能量数据(取对数,例如log10(x),x为子带能量值),进而计算子带能量长时分布数据、子带能量高位分布数据以及子带能量低位分布数据。也即,确定第1子带对应的子带能量长时分布数据、子带能量高位分布数据以及子带能量低位分布数据;确定第2子带对应的子带能量长时分布数据、子带能量高位分布数据以及子带能量低位分布数据;确定第n子带对应的子带能量长时分布数据、子带能量高位分布数据以及子带能量低位分布数据等。
[0226]
其中,子带能量长时分布数据根据子频带对应的功率谱进行确定;子带能量高位
分布数据以及子带能量低位分布数据通过子带能量长时分布数据进行确定,子带能量长时分布数据、子带能量高位分布数据以及子带能量低位分布数据用于指示上述的相关特征检测值。
[0227]
步骤822,听觉疲劳判决。
[0228]
示意性的,在得到子带能量长时分布数据后,将子带能量长时分布数据与预设听觉疲劳门限值(不同子频带根据听觉等响曲线原理设置不同的数值)进行对比,超过门限值则判该子频带会导致听觉疲劳,需进入动态范围控制(dynamic range control,drc)处理流程,得到子带增益值;相反,如果没有达到听觉疲劳门限值,则无需经过drc处理(即:子带增益值为1)。
[0229]
示意性的,预先设定的听觉疲劳门限值表示为thrd,子带能量长时分布数据表示为eb_lt(i,k),也即,听觉疲劳的子带判决条件为:eb_lt(i,k)>thrd,当第i帧音频帧处第k个子频带的子带能量长时分布数据符合上述子带判决条件,进入步骤823;当第i帧音频帧处第k个子频带的子带能量长时分布数据不符合上述子带判决条件,进入步骤831。
[0230]
步骤823,drc参数调节。
[0231]
示意性的,如图7所示,横坐标为drc过程的输入值,即未经处理的子带能量数据eb(i,k),纵坐标为drc过程的输出值,即:经过drc处理后的子带能量数据eb

(i,k)。其中,abcd四点处于同一条斜线上,该斜线的斜率如下所示。
[0232][0233]
c点代表最大输出值(该值表示为thrd),其对应输入为(4*eb_up(i,k)-eb_dw(i,k))/3,当输入值大于c点,则输出最大值thrd;d点为最小输出值,可选地,此处设置为0,其对应输入为(4*eb_dw(i,k)-eb_up(i,k))/3,当输入值小于d点则输出最小值0。通过drc处理后,子带输出能量可以控制在听觉疲劳范围内。
[0234]
步骤824,drc控制增益。
[0235]
可选地,通过上述drc处理后,得到输出的处理后的子带能量数据eb

(i,k),然后基于处理后的子带能量数据eb

(i,k)以及未处理的子带能量数据eb(i,k),得到drc处理后的子带增益,子带增益如下所示。
[0236][0237]
(三)后处理部分830
[0238]
步骤831,bark域增益逆变换。
[0239]
示意性的,在得到第i帧音频帧下第k个子频带对应的子带增益gain(i,k)后,将子带增益通过bark域逆变换后,转为线性域增益,即得到第k个子频带中多个频点分别对应的频点增益。
[0240]
可选地,以第k个子频带为例进行说明,将第k个子频带中不同频点对应的频点增益与原始的声音信号的功率谱相乘,也即,将第k个子频带中不同频点对应的频点增益与原始的声音信号对应频点的频点幅值相乘。
[0241]
步骤832,傅里叶反变换。
[0242]
可选地,将相乘之后的不同频点对应的数值经过傅里叶反变换,实现将声音信号
从频域维度表示转变为时域维度表示的过程。
[0243]
步骤833,输出声音信号。
[0244]
示意性的,经过傅里叶反变换后,得到以时域形式表示的处理后的声音信号。
[0245]
步骤834,扬声器播放或服务器转码。
[0246]
可选地,基于傅里叶反变换之后得到的声音信号是以时域形式表示的信号,故该输出的声音信号可以直接通过扬声器进行播放,或者通过网络编码压缩传输到终端进行解码播放等。
[0247]
综上所述,通过频带切分得到目标音频对应的至少两个子频带,并获取不同子频带分别对应的子带能量数据以及子带能量分布数据,通过子频带的子带能量分布数据确定不符合调整条件的指定子频带,进而利用指定子频带对应的子带能量分布数据确定不同指定子频带分别对应的调整参数,从而利用调整参数有选择地对指定子频带的子带能量数据进行调整,并基于调整后的子带能量数据,得到增强的目标增强音频,在充分考虑目标音频特性的同时,提高了语音增强的质量。
[0248]
在一个可选的实施例中,将上述语音增强方法应用于语音通话场景中,以该方法应用于终端为例进行说明。示意性的,如图9所示,上述语音增强方法还可以实现为如下步骤910至步骤950。
[0249]
步骤910,获取通话音频。
[0250]
可选地,在实时通话场景下,终端实时获取对象的通话音频,通话音频用于指示具有音频信息的语音数据。示意性的,实时通话场景包括双人通话、多人通话等通话场景下等。
[0251]
步骤920,沿频域维度对通话音频进行频带切分,得到至少两个子频带。
[0252]
其中,频域维度用于描述目标音频在频率方面特征的维度情况,通过在频域维度对通话音频进行分析,能够提供通话音频在频域维度的振荡信息。
[0253]
步骤920已在上述步骤220以及步骤420中进行了说明,此处不再赘述。
[0254]
步骤930,获取至少两个子频带分别对应的子带能量数据。
[0255]
其中,子带能量数据用于指示通话音频中的音频帧在子频带内沿频域维度的频率变化情况。
[0256]
示意性的,终端根据通话音频中的音频帧在子频带内沿频域维度的频率变化情况,实时获取至少两个子频带分别对应的子带能量数据,从而利用至少两个子频带分别对应的子带能量数据进行能量数据分析。
[0257]
步骤930已在上述步骤230以及步骤430中进行了说明,此处不再赘述。
[0258]
步骤940,沿时域维度对至少两个子频带分别对应的子带能量数据进行分析,得到至少两个子频带分别对应的子带能量分布数据。
[0259]
示意性的,时域维度是采用时间标尺对目标音频在时间上的变化进行记录的维度情况。
[0260]
可选地,沿时域维度对至少两个子频带分别对应的子带能量数据进行分析,得到至少两个子频带分别对应的子带能量长时分布数据、子带能量高位分布数据以及子带能量低位分布数据。
[0261]
示意性的,终端根据实时获取得到的至少两个子频带分别对应的子带能量数据,
对不同音频帧下至少两个子频带分别对应的子带能量分布数据进行获取,例如:得到至少两个子频带分别对应的子带能量长时分布数据、子带能量高位分布数据以及子带能量低位分布数据等。
[0262]
步骤940已在上述实施例中进行了说明,此处不再赘述。
[0263]
步骤950,在至少两个子频带中,存在指定子频带对应的子带能量分布数据达到预设听觉阈值的情况下,基于指定子频带对应的子带能量分布数据确定调整参数,对指定子频带的子带能量数据进行调整,得到语音增强音频。
[0264]
可选地,调整条件为预先设定的条件,例如:调整条件为预设的能量阈值;或者,调整条件为根据多个子带能量分布数据实时确定的条件,例如:调整条件为多个子带能量分布数据的平均值等。
[0265]
示意性的,终端在实时获取得到的至少两个子频带分别对应的子带能量分布数据后,将至少两个子频带分别对应的子带能量长时分布数据与预设听觉阈值相比较,当存在指定子频带对应的子带能量长时分布数据达到预设听觉阈值的情况下,根据指定子频带对应的子带能量高位分布数据、子带能量低位分布数据以及预设听觉阈值,确定该指定子频带对应的调整参数,从而通过调整参数对指定子频带的子带能量数据进行调整,使得子带能量长时分布数据超过预设听觉阈值的指定子频带的子带能量数据被限制在预设听觉阈值之内,进而使得至少两个子频带对应的子带能量数据均被限制在预设听觉阈值之内,进而得到通话增强音频。
[0266]
综上所述,通过频带切分得到通话音频对应的至少两个子频带,并获取不同子频带分别对应的子带能量数据以及子带能量分布数据,通过子频带的子带能量分布数据确定不符合调整条件的指定子频带,进而利用指定子频带对应的子带能量分布数据确定不同指定子频带分别对应的调整参数,从而利用调整参数有选择地对指定子频带的子带能量数据进行调整,使得至少两个子频带对应的子带能量数据均被限制在预设听觉阈值之内,在预设听觉阈值的限制下,避免了听觉疲劳现象的出现,既提高了对象在通话时的通话质量,也降低了对象在长时间通话时的不适感,有效提升了通话效果。
[0267]
图10是本技术一个示例性实施例提供的语音增强装置,如图10所示,该装置包括如下部分:
[0268]
音频获取模块1010,用于获取目标音频,所述目标音频为待进行语音增强的音频数据;
[0269]
频带切分模块1020,用于沿频域维度对所述目标音频进行频带切分,得到至少两个子频带;
[0270]
数据获取模块1030,用于获取所述至少两个子频带分别对应的子带能量数据,所述子带能量数据用于指示所述目标音频中的音频帧在所述子频带内沿频域维度的频率变化情况;
[0271]
数据分析模块1040,用于沿时域维度对所述至少两个子频带分别对应的子带能量数据进行分析,得到所述至少两个子频带分别对应的子带能量分布数据,所述子带能量分布数据用于指示所述目标音频在所述至少两个子频带上的频率分布情况;
[0272]
能量调整模块1050,用于在所述至少两个子频带中,存在指定子频带对应的子带能量分布数据符合调整条件的情况下,基于所述指定子频带对应的子带能量分布数据确定
调整参数,对所述指定子频带的子带能量数据进行调整,得到目标增强音频。
[0273]
在一个可选的实施例中,所述数据分析模块1040还用于获取第i帧音频帧中至少两个子频带分别对应的子带能量数据以及第i-1帧音频帧中至少两个子频带分别对应的子带能量分布数据,其中,i为大于1的正整数;基于所述第i帧音频帧中至少两个子频带分别对应的子带能量数据、所述第i-1帧音频帧中至少两个子频带分别对应的子带能量分布数据以及预设权重,得到所述第i帧音频帧中至少两个子频带分别对应的子带能量分布数据。
[0274]
在一个可选的实施例中,所述子带能量分布数据包括子带能量长时分布数据,所述子带能量长时分布数据用于指示相邻两帧音频帧的子带能量数据的变化情况;
[0275]
所述数据分析模块1040还用于以第一预设权重对所述第i帧音频帧中至少两个子频带分别对应的子带能量数据以及所述第i-1帧音频帧中至少两个子频带分别对应的子带能量长时分布数据进行加权融合,确定所述第i帧音频帧中至少两个子频带分别对应的子带能量长时分布数据。
[0276]
在一个可选的实施例中,所述能量调整模块1050还用于响应于所述至少两个子频带中存在指定子频带对应的子带能量长时分布数据达到预设听觉阈值,确定所述调整参数,所述预设听觉阈值用于指示所述调整条件。
[0277]
在一个可选的实施例中,所述子带能量分布数据包括子带能量高位分布数据,所述子带能量高位分布数据用于指示第i帧音频帧的子带能量数据与第i-1帧音频帧的子带能量高位分布数据的数据比较情况;
[0278]
所述数据分析模块1040还用于基于所述第i帧音频帧对应的子带能量数据、所述第i-1帧音频帧对应的子带能量高位分布数据以及第二预设权重,得到所述第i帧音频帧对应的子带能量高位分布数据。
[0279]
在一个可选的实施例中,所述子带能量分布数据包括子带能量低位分布数据,所述子带能量低位分布数据用于指示第i帧音频帧的子带能量数据与第i-1帧音频帧的子带能量低位分布数据的数据比较情况;
[0280]
所述数据分析模块1040还用于基于所述第i帧音频帧对应的子带能量数据、所述第i-1帧音频帧对应的子带能量低位分布数据以及第三预设权重,得到所述第i帧音频帧对应的子带能量低位分布数据。
[0281]
在一个可选的实施例中,所述能量调整模块1050还用于基于所述指定子频带对应的子带能量高位分布数据、所述指定子频带对应的子带能量低位分布数据以及预设听觉阈值,确定所述指定子频带对应的调整参数,所述预设听觉阈值用于辅助限制所述指定子频带对应的子带能量数据的数据范围。
[0282]
在一个可选的实施例中,所述能量调整模块1050还用于基于所述指定子频带对应的子带能量分布数据确定所述调整参数;通过所述调整参数对所述指定子频带对应的子带能量数据进行调整,确定所述指定子频带对应的能量调整增益,所述能量调整增益用于指示子带能量数据的数据比例调整情况;基于所述能量调整增益对所述目标音频进行语音增强,得到所述目标增强音频。
[0283]
在一个可选的实施例中,所述能量调整模块1050还用于对所述指定子频带对应的能量调整增益进行增益变换,确定所述指定子频带中频点对应的频点增益;基于所述指定子频带中频点对应的频点增益与所述指定子频带中频点对应的频点幅值的乘积,得到所述
目标增强音频。
[0284]
在一个可选的实施例中,所述能量调整模块1050还用于对所述指定子频带中频点对应的频点增益与所述指定子频带中频点对应的频点幅值的乘积进行时域变换,确定调整后的指定子频带;对至少一个所述调整后的指定子频带进行频带拼接操作,确定所述目标增强音频。
[0285]
在一个可选的实施例中,所述频带切分模块1020还用于基于预设频带划分标准,沿所述频域维度对所述目标音频进行频带切分,得到所述至少两个子频带。
[0286]
在一个可选的实施例中,所述能量调整模块1050还用于对所述指定子频带的子带能量数据进行调整,得到所述指定子频带对应的调整后的子带能量数据,所述至少两个子频带中还包括未进行能量调整的候选丢弃子频带;针对所述目标音频中的音频帧,响应于经过能量调整的指定子频带在至少两个子频带中的频带占比超过预设占比阈值,且所述候选丢弃子频带处于人声对应的频域范围外,保留经过能量调整的指定子频带的子带能量数据,丢弃未经过能量调整的候选丢弃子频带的子带能量数据,得到所述目标增强音频。
[0287]
综上所述,通过上述装置,在进行频带切分得到目标音频对应的至少两个子频带后,获取不同子频带分别对应的子带能量数据以及子带能量分布数据,通过子频带的子带能量分布数据确定不符合调整条件的指定子频带,进而利用指定子频带对应的子带能量分布数据确定不同指定子频带分别对应的调整参数,从而利用调整参数有选择地对指定子频带的子带能量数据进行调整,并基于调整后的子带能量数据,得到增强的目标增强音频,在充分考虑目标音频特性的同时,提高了语音增强的质量。
[0288]
需要说明的是:上述实施例提供的语音增强装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语音增强装置与语音增强方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
[0289]
图11示出了本技术一个示例性实施例提供的服务器的结构示意图。该服务器1100包括中央处理单元(central processing unit,cpu)1101、包括随机存取存储器(random access memory,ram)1102和只读存储器(read only memory,rom)1103的系统存储器1104,以及连接系统存储器1104和中央处理单元1101的系统总线1105。服务器1100还包括用于存储操作系统1113、应用程序1114和其他程序模块1115的大容量存储设备1106。
[0290]
大容量存储设备1106通过连接到系统总线1105的大容量存储控制器(未示出)连接到中央处理单元1101。大容量存储设备1106及其相关联的计算机可读介质为服务器1100提供非易失性存储。也就是说,大容量存储设备1106可以包括诸如硬盘或者紧凑型光盘只读存储器(compact disc read only memory,cd-rom)驱动器之类的计算机可读介质(未示出)。
[0291]
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括ram、rom、可擦除可编程只读存储器(erasable programmable read only memory,eprom)、带电可擦可编程只读存储器(electrically erasable programmable read only memory,
eeprom)、闪存或其他固态存储技术,cd-rom、数字通用光盘(digital versatile disc,dvd)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1104和大容量存储设备1106可以统称为存储器。
[0292]
根据本技术的各种实施例,服务器1100还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1100可以通过连接在系统总线1105上的网络接口单元1111连接到网络1112,或者说,也可以使用网络接口单元1111来连接到其他类型的网络或远程计算机系统(未示出)。
[0293]
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由cpu执行。
[0294]
本技术的实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的语音增强方法。
[0295]
本技术的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行,以实现上述各方法实施例提供的语音增强方法。
[0296]
本技术的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的语音增强方法。
[0297]
可选地,该计算机可读存储介质可以包括:只读存储器(rom,read only memory)、随机存取记忆体(ram,random access memory)、固态硬盘(ssd,solid state drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(reram,resistance random access memory)和动态随机存取存储器(dram,dynamic random access memory)。上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
[0298]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0299]
以上所述仅为本技术的可选实施例,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。

技术特征:


1.一种语音增强方法,其特征在于,所述方法包括:获取目标音频,所述目标音频为待进行语音增强的音频数据;沿频域维度对所述目标音频进行频带切分,得到至少两个子频带;获取所述至少两个子频带分别对应的子带能量数据,所述子带能量数据用于指示所述目标音频中的音频帧在所述子频带内沿频域维度的频率变化情况;沿时域维度对所述至少两个子频带分别对应的子带能量数据进行分析,得到所述至少两个子频带分别对应的子带能量分布数据,所述子带能量分布数据用于指示所述目标音频在所述至少两个子频带上的频率分布情况;在所述至少两个子频带中,存在指定子频带对应的子带能量分布数据符合调整条件的情况下,基于所述指定子频带对应的子带能量分布数据确定调整参数,对所述指定子频带的子带能量数据进行调整,得到目标增强音频。2.根据权利要求1所述的方法,其特征在于,所述沿时域维度对所述至少两个子频带分别对应的子带能量数据进行分析,得到所述至少两个子频带分别对应的子带能量分布数据,包括:获取第i帧音频帧中至少两个子频带分别对应的子带能量数据以及第i-1帧音频帧中至少两个子频带分别对应的子带能量分布数据,其中,i为大于1的正整数;基于所述第i帧音频帧中至少两个子频带分别对应的子带能量数据、所述第i-1帧音频帧中至少两个子频带分别对应的子带能量分布数据以及预设权重,得到所述第i帧音频帧中至少两个子频带分别对应的子带能量分布数据。3.根据权利要求2所述的方法,其特征在于,所述子带能量分布数据包括子带能量长时分布数据,所述子带能量长时分布数据用于指示相邻两帧音频帧的子带能量数据的变化情况;所述基于所述第i帧音频帧中至少两个子频带分别对应的子带能量数据、所述第i-1帧音频帧中至少两个子频带分别对应的子带能量分布数据以及预设权重,得到所述第i帧音频帧中至少两个子频带分别对应的子带能量分布数据,包括:以第一预设权重对所述第i帧音频帧中至少两个子频带分别对应的子带能量数据以及所述第i-1帧音频帧中至少两个子频带分别对应的子带能量长时分布数据进行加权融合,确定所述第i帧音频帧中至少两个子频带分别对应的子带能量长时分布数据。4.根据权利要求3所述的方法,其特征在于,所述在所述至少两个子频带中,存在指定子频带对应的子带能量分布数据符合调整条件的情况下,基于所述指定子频带对应的子带能量分布数据确定调整参数,包括:响应于所述至少两个子频带中存在指定子频带对应的子带能量长时分布数据达到预设听觉阈值,确定所述调整参数,所述预设听觉阈值用于指示所述调整条件。5.根据权利要求2所述的方法,其特征在于,所述子带能量分布数据包括子带能量高位分布数据,所述子带能量高位分布数据用于指示第i帧音频帧的子带能量数据与第i-1帧音频帧的子带能量高位分布数据的数据比较情况;所述基于所述第i帧音频帧中至少两个子频带分别对应的子带能量数据、所述第i-1帧音频帧中至少两个子频带分别对应的子带能量分布数据以及预设权重,得到所述第i帧音频帧中至少两个子频带分别对应的子带能量分布数据,包括:
基于所述第i帧音频帧中至少两个子频带分别对应的子带能量数据、所述第i-1帧音频帧中至少两个子频带分别对应的子带能量高位分布数据以及第二预设权重,得到所述第i帧音频帧中至少两个子频带分别对应的子带能量高位分布数据。6.根据权利要求2所述的方法,其特征在于,所述子带能量分布数据包括子带能量低位分布数据,所述子带能量低位分布数据用于指示第i帧音频帧的子带能量数据与第i-1帧音频帧的子带能量低位分布数据的数据比较情况;所述基于所述第i帧音频帧中至少两个子频带分别对应的子带能量数据、所述第i-1帧音频帧中至少两个子频带分别对应的子带能量分布数据以及预设权重,得到所述第i帧音频帧中至少两个子频带分别对应的子带能量分布数据,包括:基于所述第i帧音频帧中至少两个子频带分别对应的子带能量数据、所述第i-1帧音频帧中至少两个子频带分别对应的子带能量低位分布数据以及第三预设权重,得到所述第i帧音频帧中至少两个子频带分别对应的子带能量低位分布数据。7.根据权利要求1至6任一所述的方法,其特征在于,所述子带能量分布数据包括子带能量高位分布数据和子带能量低位分布数据;所述基于所述指定子频带对应的子带能量分布数据确定调整参数,包括:基于所述指定子频带对应的子带能量高位分布数据、所述指定子频带对应的子带能量低位分布数据以及预设听觉阈值,确定所述指定子频带对应的调整参数,所述预设听觉阈值用于辅助限制所述指定子频带对应的子带能量数据的数据范围。8.根据权利要求1至6任一所述的方法,其特征在于,所述基于所述指定子频带对应的子带能量分布数据确定调整参数,对所述指定子频带的子带能量数据进行调整,得到目标增强音频,包括:基于所述指定子频带对应的子带能量分布数据确定所述调整参数;通过所述调整参数对所述指定子频带对应的子带能量数据进行调整,确定所述指定子频带对应的能量调整增益,所述能量调整增益用于指示子带能量数据的数据比例调整情况;对所述指定子频带对应的能量调整增益进行增益变换,确定所述指定子频带中频点对应的频点增益;基于所述指定子频带中频点对应的频点增益与所述指定子频带中频点对应的频点幅值的乘积,得到所述目标增强音频。9.根据权利要求1至6任一所述的方法,其特征在于,所述对所述指定子频带的子带能量数据进行调整,得到目标增强音频,包括:对所述指定子频带的子带能量数据进行调整,得到所述指定子频带对应的调整后的子带能量数据,所述至少两个子频带中还包括未进行能量调整的候选丢弃子频带;针对所述目标音频中的音频帧,响应于经过能量调整的指定子频带在至少两个子频带中的频带占比超过预设占比阈值,且所述候选丢弃子频带处于人声对应的频域范围外,保留经过能量调整的指定子频带的子带能量数据,丢弃未经过能量调整的候选丢弃子频带的子带能量数据,得到所述目标增强音频。10.一种语音增强装置,其特征在于,所述装置包括:音频获取模块,用于获取目标音频,所述目标音频为待进行语音增强的音频数据;
频带切分模块,用于沿频域维度对所述目标音频进行频带切分,得到至少两个子频带;数据获取模块,用于获取所述至少两个子频带分别对应的子带能量数据,所述子带能量数据用于指示所述目标音频中的音频帧在所述子频带内沿频域维度的频率变化情况;数据分析模块,用于沿时域维度对所述至少两个子频带分别对应的子带能量数据进行分析,得到所述至少两个子频带分别对应的子带能量分布数据,所述子带能量分布数据用于指示所述目标音频在所述至少两个子频带上的频率分布情况;能量调整模块,用于在所述至少两个子频带中,存在指定子频带对应的子带能量分布数据符合调整条件的情况下,基于所述指定子频带对应的子带能量分布数据确定调整参数,对所述指定子频带的子带能量数据进行调整,得到目标增强音频。11.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一段程序,所述至少一段程序由所述处理器加载并执行以实现如权利要求1至9任一所述的语音增强方法。12.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一段程序,所述至少一段程序由处理器加载并执行以实现如权利要求1至9任一所述的语音增强方法。13.一种计算机程序产品,其特征在于,包括计算机程序或指令,所述计算机程序或指令被处理器执行时实现如权利要求1至9任一所述的语音增强方法。

技术总结


本申请公开了一种语音增强方法、装置、设备、存储介质及程序产品,涉及语音技术处理领域。该方法包括:沿频域维度对待进行语音增强的目标音频进行频带切分,得到至少两个子频带;获取至少两个子频带分别对应的子带能量数据;沿时域维度对至少两个子频带分别对应的子带能量数据进行分析,得到至少两个子频带分别对应的子带能量分布数据;当指定子频带对应的子带能量分布数据符合调整条件的情况下,对指定子频带的子带能量数据进行调整,得到目标增强音频。通过以上方式,能够有选择地对目标音频中不符合调整条件的子带能量数据进行调整,在充分考虑目标音频特性的同时提高了语音增强的质量。本申请可应用于云技术、人工智能、智慧交通等各种场景。慧交通等各种场景。慧交通等各种场景。


技术研发人员:

梁俊斌

受保护的技术使用者:

腾讯科技(深圳)有限公司

技术研发日:

2022.06.07

技术公布日:

2022/9/23

本文发布于:2024-09-22 04:23:28,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/76819.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:频带   能量   数据   音频
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议