音频调整策略获取方法、计算机设备和程序产品与流程



1.本技术涉及音频处理技术领域,特别是涉及一种音频调整策略获取方法、计算机设备、存储介质和计算机程序产品。


背景技术:



2.随着计算机技术的发展,目前人们已经可以通过手机等终端进行歌曲的聆听,并且用户利用终端进行歌唱录制也成为主流。由于每个用户的歌唱水平不同,为达到更好的歌唱效果,需要调整用户的歌唱音频相应的均衡参数。目前调整歌唱音频的均衡参数策略通常由人工选择。然而,每个用户的音乐理解水平不一致,无法发现歌曲音频中存在的均衡缺陷,通过人工选择的策略进行均衡调整,无法针对歌曲音频的存在缺陷的地方进行调整,降低了歌曲音频调整的准确度。
3.因此,目前的音频调整策略存在调整准确度低的缺陷。


技术实现要素:



4.基于此,有必要针对上述技术问题,提供一种能够提高调整准确度的音频调整策略获取方法、计算机设备、计算机可读存储介质和计算机程序产品。
5.第一方面,本技术提供了一种音频调整策略获取方法,所述方法包括:
6.当检测到针对待调整音频的音频调整指令时,获取所述待调整音频中各帧人声信号对应的基频点及泛音频点;
7.针对每帧所述人声信号,在所述人声信号对应的泛音频点中确定至少一个待调整泛音频点,并根据所述至少一个待调整泛音频点确定待调整频段;
8.针对每帧所述人声信号,根据所述至少一个待调整泛音频点与所述基频点之间的幅度比值,确定所述待调整频段对应的幅度增益系数;
9.将各帧所述人声信号、各帧所述人声信号对应的所述待调整频段及所述待调整频段对应的幅度增益系数,确定为所述待调整音频对应的音频幅度调整策略。
10.在其中一个实施例中,所述在所述人声信号对应的泛音频点中确定至少一个待调整泛音频点,包括:
11.根据所述人声信号的泛音频点的泛音频率范围,在预设频率调整表中查询待调整频率;所述预设频率调整表包括需要进行频率调整的泛音频点的频率;
12.将所述人声信号对应的泛音频点中所述待调整频率对应的至少一个泛音频点确定为待调整泛音频点。
13.在其中一个实施例中,所述根据所述人声信号的泛音频点的泛音频率范围,在预设频率调整表中查询待调整频率,包括:
14.将所述人声信号对应的泛音频点组成的频率范围,确定为所述泛音频点对应的泛音频率范围;
15.获取所述预设频率调整表中在所述泛音频率范围内的第一待调整频率,以及获取
与所述泛音频率范围的最小值或最大值的频率差值在预设频率差值范围内的第二待调整频率;
16.将所述第一待调整频率和/或所述第二待调整频率,确定为需要调整的待调整频率。
17.在其中一个实施例中,所述根据所述至少一个待调整泛音频点与所述基频点之间的幅度比值,确定所述待调整频段对应的幅度增益系数,包括:
18.获取所述至少一个待调整泛音频点的平均幅度值与所述基频点的幅度值之间的幅度比值;
19.根据所述幅度比值与预设幅度比值的差值,确定所述待调整频段的幅度增益系数,其中所述幅度增益系数用于使所述待调整频段与所述基频点之间的幅度比值符合所述预设幅度比值。
20.在其中一个实施例中,所述在确定为所述待调整音频的音频幅度调整策略之后,还包括:
21.根据所述待调整音频中各帧所述人声信号对应的待调整频段及所述待调整频段对应的幅度增益系数,调整各帧所述人声信号的所述待调整频段的幅度,得到目标音频。
22.在其中一个实施例中,所述获取所述待调整音频中各帧人声信号对应的基频点和泛音频点之后,还包括:
23.在所述各帧人声信号对应的泛音频点中,获取预设数量的目标泛音频点,根据所述基频点和所述预设数量的目标泛音频点生成所述各帧人声信号对应的包络序列;所述预设数量基于所述泛音频点的幅度大小确定;
24.根据所述各帧人声信号对应的包络序列在预设时间内的幅度下降值,确定所述待调整音频的泛音充分等级;所述泛音充分等级表征所述待调整音频的演唱水平;所述泛音充分等级与所述预设时间内的幅度下降数值呈反比;
25.展示所述泛音充分等级。
26.在其中一个实施例中,所述在所述各帧人声信号对应的泛音频点中,获取预设数量的目标泛音频点,包括:
27.在所述各帧人声信号对应的泛音频点中,获取各个所述泛音频点与所述基频点的幅度差值;
28.获取所述各个泛音频点中第一个与所述基频点的幅度差值大于或等于预设幅度差值阈值的第一泛音频点,将所述第一泛音频点以及所述基频点和第一泛音频点之间的泛音频点,作为目标泛音频点。
29.在其中一个实施例中,所述获取所述待调整音频中各帧人声信号对应的基频点及泛音频点,包括:
30.获取所述待调整音频中每帧人声信号对应的频谱图;其中所述频谱图包括所述人声信号的各个频点的幅度和频率;
31.在每帧所述人声信号对应的频谱图中,确定基频点和所述基频点对应的泛音频点。
32.第二方面,本技术提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
33.第三方面,本技术提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的方法的步骤。
34.第四方面,本技术提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的方法的步骤。
35.上述音频调整策略获取方法、计算机设备、存储介质和计算机程序产品,通过接收音频调整指令后获取待调整音频中人声信号的基频点和泛音频点,在泛音频点中确定待调整泛音频点,并根据基频点与泛音频点之间的幅度比值与预设幅度比值的比较结果,确定由泛音频点组成的待调整频段的幅度增益系数,将待调整频段和幅度增益系数确定为待调整音频的音频幅度调整策略。相较于人工确定策略调整音频的方案,本方案基于基频和泛音之间的标准比例关系确定幅度增益系数,并基于频率范围与预设的频率的比较确定待调整频率,从而确定用于调整音频的策略,提高了确定音频调整策略的准确性。
附图说明
36.图1为一个实施例中音频调整策略获取方法的流程示意图;
37.图2为一个实施例中人声信号的示意图;
38.图3为一个实施例中频谱图的示意图;
39.图4为一个实施例中目标频点获取步骤相关的示意图;
40.图5为一个实施例中包络序列获取步骤相关的示意图;
41.图6为一个实施例中计算机设备的结构示意图。
具体实施方式
42.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
43.在一个实施例中,如图1所示,提供了一种音频调整策略获取方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。该方法包括以下步骤:
44.步骤s202,当检测到音频调整指令时,获取调整音频中各帧人声信号对应的基频点及基频点对应的泛音频点。
45.其中,音频调整指令可以是用户在终端中触发的指令。例如,以音频是歌曲为例,终端检测到用户歌曲录制结束时,可以展示用于对歌曲进行均衡参数调整的音频调整指令按钮,用户点击该按钮后,即可触发音频调整指令。终端此时可以获取待调整音频,识别待调整音频中的人声信号,并获取人声信号对应的频谱图。其中,人声信号可以包括多帧,每帧人声信号中包括多个频点,频谱图中包括人声信号中每个频点的幅度和频率。在一种具体实现方式中,可以使用坐标系表示该频谱图,其中幅度和频率分别作为一个坐标轴,利用人声信号中各个频点的幅度和频率,将该各个频点标记于所述坐标系。
46.具体地,上述用户输入的待调整音频的人声信号可以如图2所示,图2为一个实施例中人声信号的示意图。其中,信号301可以是待调整音频的波形图,信号302可以是从待调整音频中提取出来的人声信号,也可以称为基频信号。其中,终端可以通过傅里叶变换得到
各帧人声信号对应的频谱图。例如,在一个实施例中,获取待调整音频以及待调整音频中人声信号对应的频谱图,包括:获取待调整音频中每帧音频的人声信号,得到多帧人声信号;针对每帧人声信号,对该帧人声信号进行加窗处理,得到加窗后的人声信号;对加窗后的人声信号进行傅里叶变换,得到该帧人声信号对应的频谱图。
47.本实施例中,终端获取待调整音频后,由于待调整音频中包含多帧音频,终端可以对待调整音频进行分帧,并获取待调整音频中每帧音频的人声信号,得到多帧人声信号。对于每帧人声信号,终端可以对该帧人声信号进行加窗处理,得到加窗后的人声信号。其中,加窗处理表示限定人声信号的范围,在范围内进行傅里叶变换。终端可以对每帧人声信号均进行加窗,从而得到多个加窗处理后的人声信号。终端可以对加窗后的人声信号进行傅里叶变换,得到该帧人声信号对应的频谱图。终端可以对每帧人声信号均进行上述频谱图的获取,从而终端可以得到每帧人声信号对应的频谱图,并基于所有帧的人声信号得到待调整音频的频谱图。
48.其中,上述加窗可以是hanning(汉宁)窗,上述傅里叶变换可以是fft(fast fourier transform,快速傅里叶变换),汉宁窗是窗函数之一,是升余弦窗的一个特例。快速傅里叶变换是离散傅氏变换的快速算法,它是根据离散傅氏变换的奇、偶、虚、实等特性,对离散傅立叶变换的算法进行改进获得的。具体地,终端对待调整音频的处理,主要是对人声部分的处理,终端在识别人声信号时,可以识别每帧待调整音频中的基频和谐波,得到每帧人声信号,而没有声带震动的静音和轻音则会被丢弃。终端得到多帧人声信号后,可以对每帧人声信号进行加窗处理,例如加hanning窗,并对每个窗进行傅里叶变换,得到每个频点的幅度和频率,从而得到上述频谱图。其中,上述hanning窗的公式可以如下所示:w(i)=0.54-0.46cos[(2πi)/(n-1)],0≤i≤n-1。其中,i表示样点索引,即这一帧中的第i个采样点,n表示窗长,即上述hanning窗的长度,此处窗长可以是n=512,该窗长可以等于帧的长度。终端对上述人声信号进行加窗后,加窗后的人声信号可以如下所示:xwn(ln+i)=x(i)w(i),0≤i≤n-1。其中,n表示加窗后的第n帧信号,l表示帧移,帧移表示一种滑动窗口,下一帧的开始相对于上一帧的开始的偏移就是帧移,例如l=256,i表示第n帧信号内的n个样点从0开始的索引,即n个样点中的第i个样点。终端对第n帧人声信号进行傅里叶变换后,可以得到如下结果:
[0049]
其中,xwn(ln+i)表示第n帧加窗后的信号,(n,k)表示第n帧的第k个频率点,也可以称为频点。终端对上述每帧人声信号均进行傅里叶变换后,可以得到人声信号对应的频谱图。其中,以一帧人声信号为例,终端对一帧人声信号进行傅里叶变换后,可以得到如图3所示的频谱图。图3为一个实施例中一帧人声信号的频谱图示意图。其中,频谱图可以形成如图3所示的曲线,曲线中的各个点均可以是一个频点,该频谱图的横坐标为频率,纵坐标为幅度。其中横坐标中的频率值和纵坐标中的幅度均为线性递增的状态。
[0050]
其中,终端得到人声信号对应的频谱图后,可以获取频谱图中的基频点,以及获取基频点对应的泛音频点。基频点表示人声对应的频点,泛音频点表示人声的泛音对应的频点。上述人声信号中可以包括多帧人声信号,终端可以基于每帧人声信号,获取每帧人声信号的频谱图中的基频点和泛音频点,从而终端可以得到多个基频点以及每个基频点对应的
泛音频点。其中,终端可以通过搜索每帧频谱图中的幅度极大值的方式确定目标频点,并从多个目标频点中确定出基频点,并基于基频点和泛音频点之间的幅度倍数关系,确定除基频点外的其他目标频点中的泛音频点,从而得到一帧中的基频点和泛音频点。
[0051]
步骤s204,针对每帧人声信号,在所述人声信号对应的泛音频点中确定至少一个待调整泛音频点,并根据至少一个待调整泛音频点确定待调整频段。
[0052]
其中,在每帧人声信号中,可以存在一个基频点和至少一个泛音频点,由于一个基频点对应的泛音频点可以有多个,终端可以从中选取出需要调整的一个或多个泛音频点,作为待调整泛音频点。例如,终端可以从上述频谱图中获取所有泛音频点的频率,从而得到频谱图中基频点对应的泛音频率范围,即泛音频率范围表示上述各个泛音频点的频率对应的范围;终端可以根据上述泛音频率范围查询预设频率调整表,其中预设频率调整表中包括频率值不同的多个频率,终端可以根据预设的倍数关系确定多个频率,并形成上述预设频率调整表,当泛音频点的频率之间存在预设倍数关系时,调整得到的人声音频的泛音可以更充分,从而使得对待调整频率对应的泛音频点进行调整后,人声音频的泛音更充分。具体地,上述多个频率中,每个频率表示一个泛音对应的频率,例如基频的频率为190hz,基频和各个泛音之间存在倍数关系,则第一泛音的频率可以为380hz等,380hz可以是一种频率。终端可以通过查询预设频率调整表,确定预设频率调整表中哪些频率是在上述泛音频率范围内的,则作为需要调整的待调整频率,并将确定出的至少一个待调整频率对应的泛音频点,作为待调整泛音频点,从而得到至少一个待调整泛音频点,另外,上述预设频率调整表中,在泛音频率范围的最大或最小值附近的频率也可以作为待调整频率。终端确定出至少一个待调整泛音频点后,可以基于至少一个待调整泛音频点确定待调整频段。例如,当待调整泛音频点只有一个时,待调整频段则确定为该待调整泛音频点的数值;当待调整泛音频点有多个时,终端可以计算各个待调整泛音频点主要集中的频率范围,决定需要通过均衡进行增益调整的待调整频段,例如终端可以将多个待调整泛音频点对应的频率形成的频率范围,确定为待调整频段。其中,在展示上述待调整频段时,终端可以展示基于上述频率范围确定的频段名称,例如低频、中频和高频等,还可以是将频率范围直接作为待调整频段进行展示。
[0053]
步骤s206,针对每帧人声信号,根据至少一个待调整泛音频点与基频点之间的幅度比值,确定待调整频段对应的幅度增益系数。
[0054]
其中,对于每帧人声信号,基频点对应的泛音频点可以有多个,预设幅度比值为基频点与至少一个待调整泛音频点之间的幅度比值,当上述幅度比值越接近预设幅度比值时,越能够表示演唱者具有更高的演唱水准。即当至少一个待调整泛音频点与基频点之间的幅度比值能够达到上述预设幅度比值,说明该音频的泛音充分,演唱水准较高。当待调整泛音频点与基频点之间的幅度比值不能够达到上述预设幅度比值时,则需要通过增益系数来对至少一个待调整泛音频点进行调整。因此终端可以获取上述基频点及其对应的待调整泛音频点之间的幅度比值,例如终端可以获取上述基频点对应的所有待调整泛音频点的幅度平均值,并获取该幅度平均值与上述基频点的幅度比值。另外,终端也可以对上述各个待调整泛音频点的幅度进行加权和的计算,将计算结果作为与基频点的幅度的对比参数。例如,终端可以预先划分多个幅度范围,并根据多个待调整泛音频点中属于同一范围的待调整泛音频点的数量,确定各个范围内的各个待调整泛音频点的权重,例如同一范围内的待
调整泛音频点的数量越多则权重可以越大,从而终端可以根据多个待调整泛音频点的加权和,得到用于与基频点进行幅度对比的幅度值。终端可以将上述幅度比值与预设幅度比值进行比较,得到比较结果,从而终端可以基于该比较结果确定上述各个泛音频点的幅度增益系数,例如各个泛音频点组成的频段的幅度增益系数。
[0055]
另外,在一些实施例中,终端还可以分别计算每个待调整泛音频点的幅度与基频点的幅度的比值,从而确定出多个待调整泛音频点与基频点的多个幅度比值,终端可以计算每个幅度比值与预设幅度比值的差距,根据该差距确定每个待调整泛音频点对应的子幅度增益系数,从而终端可以根据多个待调整泛音频点的子幅度增益系数,确定出基频点与待调整泛音频点的幅度增益系数。例如,终端可以计算多个子幅度增益系数的平均值,得到上述幅度增益系数。
[0056]
步骤s208,将各帧人声信号、各帧人声信号对应的待调整频段及待调整频段对应的幅度增益系数,确定为待调整音频的音频幅度调整策略。
[0057]
其中,对于每帧人声信号,终端确定上述待调整频率和幅度增益系数后,可以获取待调整频率对应的泛音频点,作为待调整泛音频点,并根据所有待调整泛音频点的频率形成的待调整频段及对应的幅度增益系数,确定待调整音频的音频幅度调整策略。其中,上述幅度增益系数可以是上述每帧人声信号中待调整频段的幅度增益系数,即终端可以对待调整频段进行基于其对应的幅度增益系数的调整。
[0058]
其中,终端还可以基于上述确定出的音频幅度调整策略,生成相应的均衡调整意见,推送给用户,例如基于上述所有待调整泛音频点的频率,确定出一个待调整频段,将待调整频段和对应的幅度增益系数推送给用户,用户可以基于幅度增益系数调整上述待调整频段的幅度。终端得到上述音频幅度调整策略后,可以作为一种推荐方案展示给用户,并在用户确定使用时,才基于该音频幅度调整策略对待调整音频进行调整。例如,在一个实施例中,在确定为待调整音频的音频幅度调整策略之后,还包括:根据待调整音频中各帧人声信号对应的待调整频段及待调整频段对应的幅度增益系数,调整各帧人声信号的待调整频段的幅度,得到目标音频。
[0059]
本实施例中,终端可以通过终端中的显示设备展示上述音频调整策略,该音频调整策略也可以视为一种对每帧人声信号的均衡参数的调整,例如终端可以在显示设备中显示“推荐使用本方案调整均衡”,用户确定使用上述音频调整策略后,终端可以接收到用户触发的音频调整策略确定指令,则终端可以根据上述待调整频段,在待调整音频中与待调整频段对应的频段内,根据上述待调整频段对应的幅度增益系数,调整待调整频段的幅度,终端对每帧人声信号的待调整频段均进行基于幅度增益系数的调整后,可以得到调整完成的目标音频。以音频是歌曲为例,终端还可以将调整完成的歌曲进行输出,使得用户可以聆听调整后的歌曲。
[0060]
上述音频调整策略获取方法中,通过接收音频调整指令后获取待调整音频中人声信号的基频点和泛音频点,在泛音频点中确定待调整泛音频点,并根据基频点与泛音频点之间的幅度比值与预设幅度比值的比较结果,确定由泛音频点组成的待调整频段的幅度增益系数,将待调整频段和幅度增益系数确定为待调整音频的音频幅度调整策略。相较于人工确定策略调整音频的方案,本方案基于基频和泛音之间的标准比例关系确定幅度增益系数,并基于频率范围与预设的频率的比较确定待调整频率,从而确定用于调整音频的策略,
提高了确定音频调整策略的准确性。
[0061]
在一个实施例中,获取人声信号对应的频谱图中的基频点和基频点对应的泛音频点,包括:根据所述频谱图中各个频点的幅度大小和其他频点的其他幅度大小的比较结果,确定该频谱图中的目标频点;其他频点表征该频谱图中以各个频点为中心点的预设范围内的频点;将多个目标频点中的频率最低的目标频点作为该频谱图中的基频点;根据基频点与泛音频点的预设频率倍数关系,确定多个目标频点中基频点外的其他目标频点中的泛音频点。
[0062]
本实施例中,上述频谱图中包括多个频点,多个频点中存在基频点以及基频点对应的泛音频点。则终端可以识别出多个频点中的基频点和泛音频点。其中,一帧频谱图中可以包括一个基频点和若干个泛音频点,则终端可以对每帧人声信号的频谱图进行基频点和泛音频点的识别。对于每帧人声信号对应的频谱图中的各个频点,终端可以将该频点的幅度大小和该频点对应的其他频点的幅度大小进行比较,得到比较结果,并根据该比较结果从该频谱图中的频点中确定出目标频点。其中,其他频点表示该频谱图中以上述各个频点为中心点的预设范围的频点,即终端可以以上述各个频点为中心,在各个频点的前后预设范围内获取频点并进行幅度大小的比较,确定出目标频点。
[0063]
其中,目标频点可以是可能为泛音频点的频点,终端可以对频谱图中的每个频点均进行上述比较,确定多个目标频点,例如,在一个实施例中,根据该频谱图中各个频点的幅度大小和其他频点的其他幅度大小的比较结果,确定该频谱图中的多个目标频点,包括:针对上述频谱图中的每个频点,若该频点的幅度大小为预设范围内的最大幅度,且该频点的幅度大小与预设范围内的次最大幅度的比值大于或等于预设比值,确定该频点为目标频点;次最大幅度为小于预设范围内的最大幅度且大于预设范围内的其他幅度的幅度。
[0064]
本实施例中,上述一帧人声信号的频谱图中包括多个频点,对于一帧人声信号的频谱图中的每个频点,终端可以获取该频点的幅度大小,并确定该频点对应的预设范围,其中预设范围为由频谱图中以该频点为中心点的预设范围。终端还可以获取上述预设范围内的次最大幅度对应的频点,其中次最大幅度表示上述预设范围内中小于最大幅度且大于预设范围内其他幅度的频点的幅度,即预设范围内的第二大幅度。终端若检测到该频点的幅度大小为上述预设范围内的最大幅度,并且该频点的幅度大小与其所在的预设范围内的次最大幅度的比值大于或等于预设比值,则终端可以确定该频点为目标频点。
[0065]
具体地,终端确定目标频点后得到的频谱图可以如图4所示,图4为一个实施例中目标频点获取步骤的示意图。图4中每个被圆点标注出的点即为目标频点。终端可以对该帧频谱图中的每个频点f进行遍历,划定比对范围n,若终端检测到频点f是[f-n,f+n]范围内的幅度最大的频点,且该频点的幅度值大于或等于第二大的频点的预设倍数,例如0.85倍,则终端可以确定该频点f为一个目标频点。其中,上述[f-n,f+n]可以是上述预设范围,预设倍数可以根据实际情况设定。终端确定出多个目标频点后,上述多个目标频点可以按照频率的大小进行顺序排列,则终端可以将多个目标频点中的频率最低的目标频点,作为该频谱图中的基频点,即终端可以将上述频谱图中的第一个目标频点作为基频点。其中,基频点和泛音频点之间存在预设的频率倍数关系,以基频点是f0,泛音频点是f1

fn为例,其中泛音频点f1..fn中包括第一泛音频点f1至第n泛音频点fn,在泛音频点是基频点对应的泛音频点的情况下,f1的频率是f0的频率的两倍,f2的频率是f0的频率的三倍,fn的频率是f0的
频率的n-1倍。上述f1

fn的频率也可以不完全是f0的准确倍数关系,终端只需要检测到f1

fn的频率与f0对应的标准泛音频点f'1

f'n的频率差值在预设频率差值范围内时,也可以将这些泛音频点作为基频点f0对应的泛音频点。终端确定基频点和泛音频点的预设频率倍数关系后,可以基于该关系确定多个目标频点中基频点外的其他目标频点中的泛音频点,即终端可以从其他目标频点中确定基频点对应的各个泛音频点。
[0066]
具体地,如图4所示,图4中的各个目标频点对应的频率,从左至右分别是人声的基频f0,第一泛音频点f1,第二泛音频点f2,

,第n泛音频点fn,他们之间存在倍数关系,例如,假设图4中第一个目标频点f0=190hz,由于标准倍数关系中f'1为f'0的两倍,则终端可以通过计算得到f1为频率是380hz的目标频点,终端可以基于该频率,在频谱图中从基频点往后寻第一个符合该频率的目标频点,作为第一泛音频点f1;另外,上述f1

fn的频率也可以不完全是f0的准确倍数关系,终端只需要检测到f1

fn的频率与f0对应的标准泛音频点f'1

f'n的频率差值在预设频率差值范围内时,也可以将这些泛音频点作为基频点f0对应的泛音频点,例如对于第二泛音频点f2,终端确定f2的标准频率为f0的三倍,即570hz,但终端在第一泛音频点之后到的第一个最接近的目标频点的频率为569hz,与570hz的差值在预设频率差值范围内,则终端也可以将该目标频点作为第二泛音频点f2。终端可以对每个目标频点均进行上述泛音频点的确定,从而终端可以得到每个基频点对应的多个泛音频点。
[0067]
通过上述实施例,终端可以通过对频谱图中每个频点进行基于范围的幅度比较,确定目标频点,并基于基频点和泛音频点的倍数关系,确定多个目标频点中的基频点和泛音频点,从而终端可以基于基频点和泛音频点确定音频调整策略,提高确定音频调整策略的准确度。
[0068]
在一个实施例中,根据至少一个待调整泛音频点与基频点之间的幅度比值幅度比值,确定待调整频段对应的幅度增益系数,包括:获取至少一个待调整泛音频点的平均幅度值与基频点的幅度值之间的幅度比值,根据幅度比值与预设幅度比值的差值,确定待调整泛音频段的幅度增益系数,例如所有待调整泛音频点的频率组成的频段的幅度增益系数,其中幅度增益系数用于使待调整泛音频段与基频点之间的幅度比值符合预设幅度比值。
[0069]
本实施例中,上述每帧人声信号对应的频谱图中包括一个基频点,每个基频点对应有多个泛音频点。以音频是歌曲为例,基频点和泛音频点之间存在一种比例关系,在基频点和泛音频点符合相应的比例关系的情况下,代表歌曲的演唱水平高,但实际演唱中用户的待调整音频对应的各个频点的比例往往不能达到上述比例,因此终端需要确定上述待调整音频对应的各个泛音频点的幅度增益系数,使得终端可以基于幅度增益系数调整泛音频点后,调整后的泛音频点能够符合上述比例关系。对于上述频谱图中的每个基频及其对应的泛音频点,终端可以获取基频和至少一个待调整泛音频点之间的幅度比值,例如终端可以首先获取基频点对应的所有待调整泛音频点的幅度平均值,再获取幅度平均值与上述基频点的幅度比值,另外,在一些实施例中,终端还可以获取上述各个待调整泛音频点的加权和,将该加权和与基频点的幅度进行比较,得到幅度比值。终端可以获取幅度比值与预设幅度比值的比较结果,例如幅度比值与预设幅度比值相差多少,进而再根据该比较结果确定上述至少一个待调整泛音频点所在频段对应的幅度增益系数,使得终端基于该幅度增益系数调整上述待调整泛音频点所在频段后,使得泛音频点与基频点之间的幅度比值符合上述
预设幅度比值。
[0070]
具体地,终端将各个泛音的平均值和基频的比例作为参考,计算增益系数,将泛音的幅度调整至与其对应的基频点的预设倍数左右,例如0.8倍。具体地,若需要调整的泛音频点为第一泛音频点f1至第n泛音频点fn,则终端可以获取f1-fn的幅度平均值,获取该幅度平均值与f0的幅度比值,从而确定对应的幅度增益系数,基于f1-fn所在频段的幅度增益系数调整f1-fn所在的频段的幅度为基频f0的0.8倍左右。
[0071]
通过本实施例,终端可以基于泛音频点和基频点之间的幅度比值,确定泛音频点的幅度增益系数,从而终端可以基于幅度增益系数确定上述泛音频点所在频段的调整程度,提高了确定音频调整策略的准确度。
[0072]
在一个实施例中,根据人声信号的泛音频点的泛音频率范围,在预设频率调整表查询待调整频率,包括:将人声信号后对应的泛音频点组成的频率范围,确定为泛音频点对应的泛音频率范围;获取预设频率调整表中在泛音频率范围内的第一待调整频率,以及获取与泛音频率范围的最小值或最大值的频率差值在预设频率差值范围内的第二待调整频率;将第一待调整频率和/或第二待调整频率,确定为需要调整的待调整频率。
[0073]
本实施例中,上述人声信号对应的频谱图中包含多个基频点,以及多个泛音频点,每个泛音频点的频率不同,终端可以通过在整个待调整音频中人声信号对应的频谱图中以预设帧长的一帧为单位进行分帧,确定待调整音频中人声信号对应的频谱图中每帧中的基频点,从而可以基于多帧频谱图确定多个基频点,因此终端可以获取上述每帧人声信号对应的频谱图中的泛音频点的频率,确定泛音频点对应的泛音频率范围。终端无需对每个频率均进行幅度调整,而是需要基于泛音频率范围确定需要调整的频率。因此终端可以以上述泛音频率范围查询预设频率调整表,获取预设频率调整表中在泛音频率范围内的频率,作为第一待调整频率,并且终端还可以获取频率数值在泛音频率范围的最大值或最小值附近的频率作为第二待调整频率,例如终端可以获取与泛音频率范围的最小值或最大值的频率差值在预设频率差值范围内的第二待调整频率,从而终端可以将获取到的第一待调整音频和第二待调整频率中的至少一种确定为需要调整的待调整频率。
[0074]
具体地,终端在确定基频点对应的泛音频点时,可以基于基频点和泛音频点的预设倍数关系,在每帧频谱图中确定基频点对应的各个泛音频点,包括上述f1

fn等,终端可以在整个待调整音频范围内,获取所有泛音频点的频率,从而确定泛音频率范围,基于泛音频率范围确定需要通过均衡进行增益的频率。上述预设频率调整表中预设了多个可调整的频率,每个频率的数值不同,这些频率可以反映在终端的显示设备中,以不同频段显示,用户也可以在终端中自行调整终端中显示的上述待调整音频对应的频率所在的频段,而为了确定待调整音频对应的最佳音频调整策略,终端可以基于上述泛音频率范围查询预设频率调整表,从中选取对应的第一待调整频率和/或第二待调整频率,作为需要进行调整的频率。
[0075]
通过本实施例,终端可以基于泛音频率范围以及预设频率调整表,确定需要调整的待调整频率,从而终端可以获取频率数值为待调整频率的泛音频点,并获取待调整泛音频点对应的幅度增益系数,基于幅度增益系数对该泛音频点进行幅度调整,以提高待调整音频的听感,并提高了音频调整策略确定准确性。
[0076]
在一个实施例中,获取待调整音频中各帧人声信号对应的基频点和泛音频点之
后,还包括:在各帧人声信号对应的泛音频点中,获取预设数量的目标泛音频点,根据基频点和预设数量的目标泛音频点生成各帧人声信号对应的包络序列;预设数量基于泛音频点的幅度大小确定;根据各帧人声信号对应的包络序列在预设时间内的幅度下降值,确定待调整音频的泛音充分等级;泛音充分等级与预设时间内的幅度下降数值呈反比;泛音充分等级表征所述待调整音频的演唱水平;展示泛音充分等级。
[0077]
本实施例中,终端还可以基于基频点及其对应的泛音频点构建包络序列。上述人声信号对应的频谱图包括多个基频点,每帧人声信号中包括一个基频点,对于每帧人声信号,该帧人声信号中的基频点对应的频谱图中存在多个泛音频点,终端可以获取该基频点对应的预设数量的目标泛音频点,即终端可以从多个泛音频点中选取若干个目标泛音频点,选取的规则可以基于泛音频点的幅度大小确定,即预设数量可以基于泛音频点的幅度大小确定。终端可以基于上述基频点和预设数量的目标泛音频点,生成该基频点对应的包络序列。
[0078]
其中,终端可以基于基频点和其对应的各个泛音频点的幅度差值确定需要选取的目标泛音频点。例如,在一个实施例中,在各帧人声信号对应的泛音频点中,获取预设数量的目标泛音频点,包括:在各帧人声信号对应的泛音频点中,获取各个泛音频点与基频点的幅度差值;获取各个泛音频点中第一个与上述基频点的幅度差值大于或等于预设幅度差值阈值的第一泛音频点,将第一泛音频点以及上述基频点和第一泛音频点之间的泛音频点,作为目标泛音频点。
[0079]
本实施例中,上述人声信号对应的频谱图中包含多个基频点,每帧人声信号可以对应一个基频点,对于每帧人声信号中的基频点和泛音频点,终端可以获取该人声信号中基频点之后的预设数量的目标泛音频点。例如,终端可以获取该基频点对应的频谱图中各个泛音频点与该基频点的幅度差值,终端可以按照从左到右的顺序,对该帧人声信号对应的基频点的每个泛音频点均进行幅度差值的获取,并且终端可以获取上述各个泛音频点中,第一个与该基频点的幅度差值大于或等于预设幅度差值阈值的泛音频点,该泛音频点可以称为第一泛音频点。终端可以将第一泛音频点以及该基频点和第一泛音频点之间的泛音频点,作为目标泛音频点。具体地,如图5所示,图5为一个实施例中包络序列获取步骤的示意图。图中点501为基频点,通常人的基频或第一泛音f1的幅度是最强的,终端可以以基频点为基准,逐个将泛音频点与基频点的幅度进行比较,识别出在第几泛音的泛音频点的幅度衰减程度达到预设幅度差值阈值,例如45db,具体如图5中的点502,则终端可以将这个泛音频点以及这个泛音频点与基频点之间的各个泛音频点,作为目标泛音频点,其中上述预设幅度差值阈值可以根据实际情况设定。
[0080]
终端确定出预设数量的目标泛音频点后,还可以基于基频点和预设数量的泛音频点生成包络序列。例如,在一个实施例中,根据基频点和预设数量的目标泛音频点生成各帧人声信号对应的包络序列,包括:对各帧人声信号的基频点和各帧人声信号的预设数量的目标泛音点进行均值滤波,得到预处理包络序列;对预处理包络序列进行归一化,得到各帧人声信号对应的包络序列。
[0081]
本实施例中,在终端生成包络序列时,可以在获取到各帧人声信号的基频点以及预设数量的目标泛音频点后,对基频点和预设数量的目标泛音频点进行均值滤波,得到预处理包络序列,该预处理包络序列可以是一种大致的包络,终端还可以对预处理包络序列
进行归一化,得到该基频点对应的包络序列。其中,均值滤波表示通过目标点和附近范围的点做平均然后输出,来达到低通滤波的效果。滤除一些高频分量使信号更加平滑。归一化表示保留数据原有的分布比例规律,范围压缩到[0,1]之间的处理过程。具体地,终端获取到上述基频点和目标泛音频点的各个幅度值后,可以通过均值滤波得到大致的包络,并对大致的包络进行归一化,与当前帧的基频点进行一并存储,得到基频点对应的包络序列。其中,上述预设数量可以有一个最大值,例如最大为第七泛音频点f7,当上述基频点对应的泛音频点在达到最大值后,衰减程度仍没达到预设幅度差值阈值时,终端可以直接将第一泛音频点f1和第七泛音频点f7作为目标泛音频点。
[0082]
终端得到上述包络序列后,以音频是歌曲为例,包络序列可以用于对用户的歌曲演唱水准进行评价。终端可以获取上述包络序列在预设时间内的幅度下降数值,并根据该预设时间内的幅度下降数值确定用户的泛音充分等级。其中泛音充分等级表征用户演唱上述待调整音频的演唱水平,泛音充分等级与预设时间内的幅度下降数值呈反比,即预设时间内幅度下降数值越大则泛音充分等级越高,进而表示用户的演唱水平越高,上述预设时间可以根据实际情况设定。终端确定出泛音充分等级后,可以将泛音充分等级进行展示,例如在终端的显示设备中显示。并且,终端在展示泛音充分等级时,还可以基于泛音充分等级生成一定的文案进行展示,例如,当泛音充分等级为第一等级时,可以生成“你的声音感染力很强”等文案进行展示,来表示用户的演唱水平较高;当泛音充分等级为第二等级时,可以生成“中频很饱满”等针对待调整音频中优点的文案进行展示,来表示用户的演唱水平中等;当泛音充分等级为第三等级时,可以生成“注意发声时沉住气,试试这位老师的意见”的文案进行展示,来表示用户的演唱水平较低。
[0083]
通过上述实施例,终端可以基于基频点及其对应的泛音频点,通过均值滤波和归一化等方式生成包络序列,并基于包络序列的衰减程度确定用户的演唱水平,以及通过展示文案的方式令用户知道自己的水平,提高了演唱水平确定的准确度。
[0084]
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0085]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、移动蜂窝网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种音频调整策略获取方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置
的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0086]
本领域技术人员可以理解,图6中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0087]
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述的音频调整策略获取方法。
[0088]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述的音频调整策略获取方法。
[0089]
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的音频调整策略获取方法。
[0090]
需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
[0091]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
[0092]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0093]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。

技术特征:


1.一种音频调整策略获取方法,其特征在于,所述方法包括:当检测到针对待调整音频的音频调整指令时,获取所述待调整音频中各帧人声信号对应的基频点及泛音频点;针对每帧所述人声信号,在所述人声信号对应的泛音频点中确定至少一个待调整泛音频点,并根据所述至少一个待调整泛音频点确定待调整频段;针对每帧所述人声信号,根据所述至少一个待调整泛音频点与所述基频点之间的幅度比值,确定所述待调整频段对应的幅度增益系数;将各帧所述人声信号、各帧所述人声信号对应的所述待调整频段及所述待调整频段对应的幅度增益系数,确定为所述待调整音频对应的音频幅度调整策略。2.根据权利要求1所述的方法,其特征在于,所述在所述人声信号对应的泛音频点中确定至少一个待调整泛音频点,包括:根据所述人声信号的泛音频点的泛音频率范围,在预设频率调整表中查询待调整频率;所述预设频率调整表包括需要进行频率调整的泛音频点的频率;将所述人声信号对应的泛音频点中所述待调整频率对应的至少一个泛音频点确定为待调整泛音频点。3.根据权利要求2所述的方法,其特征在于,所述根据所述人声信号的泛音频点的泛音频率范围,在预设频率调整表中查询待调整频率,包括:将所述人声信号对应的泛音频点组成的频率范围,确定为所述泛音频点对应的泛音频率范围;获取所述预设频率调整表中在所述泛音频率范围内的第一待调整频率,以及获取与所述泛音频率范围的最小值或最大值的频率差值在预设频率差值范围内的第二待调整频率;将所述第一待调整频率和/或所述第二待调整频率,确定为需要调整的待调整频率。4.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个待调整泛音频点与所述基频点之间的幅度比值,确定所述待调整频段对应的幅度增益系数,包括:获取所述至少一个待调整泛音频点的平均幅度值与所述基频点的幅度值之间的幅度比值;根据所述幅度比值与预设幅度比值的差值,确定所述待调整频段的幅度增益系数,其中所述幅度增益系数用于使所述待调整频段与所述基频点之间的幅度比值符合所述预设幅度比值。5.根据权利要求1所述的方法,其特征在于,所述在确定为所述待调整音频的音频幅度调整策略之后,还包括:根据所述待调整音频中各帧所述人声信号对应的待调整频段及所述待调整频段对应的幅度增益系数,调整各帧所述人声信号的所述待调整频段的幅度,得到目标音频。6.根据权利要求1所述的方法,其特征在于,所述获取所述待调整音频中各帧人声信号对应的基频点和泛音频点之后,还包括:在所述各帧人声信号对应的泛音频点中,获取预设数量的目标泛音频点,根据所述基频点和所述预设数量的目标泛音频点生成所述各帧人声信号对应的包络序列;所述预设数量基于所述泛音频点的幅度大小确定;根据所述各帧人声信号对应的包络序列在预设时间内的幅度下降值,确定所述待调整
音频的泛音充分等级;所述泛音充分等级表征所述待调整音频的演唱水平;所述泛音充分等级与所述预设时间内的幅度下降数值呈反比;展示所述泛音充分等级。7.根据权利要求6所述的方法,其特征在于,所述在所述各帧人声信号对应的泛音频点中,获取预设数量的目标泛音频点,包括:在所述各帧人声信号对应的泛音频点中,获取各个所述泛音频点与所述基频点的幅度差值;获取所述各个泛音频点中第一个与所述基频点的幅度差值大于或等于预设幅度差值阈值的第一泛音频点,将所述第一泛音频点以及所述基频点和第一泛音频点之间的泛音频点,作为目标泛音频点。8.根据权利要求1所述的方法,其特征在于,所述获取所述待调整音频中各帧人声信号对应的基频点及泛音频点,包括:获取所述待调整音频中每帧人声信号对应的频谱图;其中所述频谱图包括所述人声信号的各个频点的幅度和频率;在每帧所述人声信号对应的频谱图中,确定基频点和所述基频点对应的泛音频点。9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。

技术总结


本申请涉及一种音频调整策略获取方法、计算机设备、存储介质和计算机程序产品。通过接收音频调整指令后获取待调整音频中人声信号的基频点和泛音频点,在泛音频点中确定待调整泛音频点,并根据基频点与泛音频点之间的幅度比值与预设幅度比值的比较结果,确定由泛音频点组成的待调整频段的幅度增益系数,将待调整频段和幅度增益系数确定为待调整音频的音频幅度调整策略。相较于人工确定策略调整音频的方案,本方案基于基频和泛音之间的标准比例关系确定幅度增益系数,并基于频率范围与预设的频率的比较确定待调整频率,从而确定用于调整音频的策略,提高了确定音频调整策略的准确性。性。性。


技术研发人员:

李博文

受保护的技术使用者:

腾讯音乐娱乐科技(深圳)有限公司

技术研发日:

2022.11.15

技术公布日:

2023/3/27

本文发布于:2024-09-22 06:50:59,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/81966.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:泛音   基频   幅度   所述
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议