基于神经网络的高音练习任务辅助系统

1.本技术涉及人工智能领域，具体涉及一种基于神经网络的高音练习任务辅助系统。

背景技术：

2.演唱者在进行高音练习过程中，高音练习的指导者需要根据演唱者的声音，确定演唱者的高音情况，从而根据高音情况相应地给出用于辅助高音练习的建议，而演唱者的音频中包含的气息会直接影响到演唱者的高音情况。
3.目前对于演唱者的高音辅助练习，需要通过指导者旁站或者进行网络视频连线等方式，指导者对演唱者进行指导。
4.发明人在实现本发明实施例的过程中，发现背景技术中至少存在以下缺陷：现有技术中依赖于指导者进行指导，脱离指导者演唱者将无法得到有效的高音练习指导意见。
5.因此，需要一种能够在无需演唱者介入的情况下能够对演唱者给出用于辅助高音练习的建议的系统，以辅助演唱者进行自助式高音练习。

技术实现要素：

6.针对上述技术问题，本发明提供了一种基于神经网络的高音练习任务辅助系统，能够根据获得演唱者在演唱过程中声音的特征，对演唱者给出与声音的特征相对应的用于辅助高音练习的建议，从而辅助演唱者的高音练习。
7.本发明实施例提出了一种基于神经网络的高音练习任务辅助系统，包括：
8.音频采集模块，用于采集高音练习过程中演唱者的音频。
9.音频处理模块，用于从音频中提取单帧音频对应的波形图，通过短时傅里叶变换获取与波形图对应的语谱图。
10.第一计算模块，用于将波形图中相邻的周期波段上各对应点间的平均距离，作为波形图对应的差异性值。
11.第二计算模块，用于根据语谱图中最大频率值、最小频率值以及预设频率阈值，分别为语谱图中各频率值赋予权重，并根据语谱图中频率的权重以及幅值获得语谱图对应的第一特征值。
12.第三计算模块，用于获取语谱图中大于预设频率阈值的各频率值的占比，将所述占比与第一计算模块中获得差异性值的乘积作为单帧音频的第二特征值，并将所述占比与第二计算模块中所获得的第一特征值的乘积作为单帧音频的第三特征值。
13.网络训练模块，利用训练集及检验集对神经网络进行训练，所述训练集中包括用于时长为预设时长的各音频中每一单帧音频的第二特征值以及第三特征值，所述检验集为对预设时长的音频的高音评价分数。
14.高音练习辅助模块，用于依次调用音频处理模块、第一计算模块、第二计算模块以及第三计算模块，获得将演唱者的待测音频对应的每一单帧音频的第二特征值以及第三特
征值，利用神经网络输出待测音频对应的高音评价分数，以利用高音评价分数给出对演唱者的建议。
15.进一步的，基于神经网络的高音练习任务辅助系统中，第二计算模块中根据语谱图中最大频率值、最小频率值以及预设频率阈值，分别为语谱图中各频率值赋予权重，包括：
[0016][0017]
式中，f
max
为单帧音频的语谱图中的最大频率值，f
min
为单帧音频的语谱图中的最小频率值，fi为第i个频率值，f
t
为预设频率阈值，e为自然常数。
[0018]
进一步的，基于神经网络的高音练习任务辅助系统中，根据语谱图中频率的权重以及幅值获得语谱图对应的第一特征值，包括：
[0019][0020]
式中，β为语谱图对应的第一特征值，∈i为第i个频率值的权重，ei为第i个频率值的幅值，j表示语谱图中频率值的数量。
[0021]
进一步的，基于神经网络的高音练习任务辅助系统中，第一计算模块中波形图中相邻的周期波段上各对应点间的平均距离的获得过程，包括：
[0022]
分别计算每一对应点对中两点之间的距离，所述对应点对中的两点分别位于相邻的两周期波段上。
[0023]
计算每两相邻的周期波段的每一对应点对中两点之间的距离的平均值，以获得波形图中相邻的周期波段上各对应点间的平均距离。
[0024]
进一步的，基于神经网络的高音练习任务辅助系统中，第一计算模块中计算波形图中相邻的周期波段上各对应点间的平均距离前，还包括：
[0025]
判断波形图中是否存在多个周期波段，并在判断结果为否的情况下，将下一帧单帧音频对应的波形图与当前帧的单帧音频的波形图进行拼接，将拼接后得到的波形图作为当前帧的波形图。
[0026]
进一步的，基于神经网络的高音练习任务辅助系统中，周期波段的获得过程包括：
[0027]
获得波形图中的最小周期时长。
[0028]
以波形图的起始时刻为起点，截取时长为所述最小周期时长的波形图片段为首个周期波段，截取时长为最小周期时长的作为下一个周期波段，直至完成对波形图的截取。
[0029]
进一步的，基于神经网络的高音练习任务辅助系统中，高音练习辅助模块中利用高音评价分数给出对演唱者的建议，包括：
[0030]
对高音评价分数进行级别划分，且高音评价分数越高，所对应的划分后的级别越高。
[0031]
不同的级别分别对应对于演唱者的不同的建议。
[0032]
进一步的，基于神经网络的高音练习任务辅助系统中，通过短时傅里叶变换获取与波形图对应的语谱图前，还包括：对波形图进行平滑处理。
[0033]
本发明实施例提供了一种基于神经网络的高音练习任务辅助系统，相比于现有技
术，本发明实施例的有益效果在于：能够根据获得演唱者在演唱过程中声音的特征，对演唱者给出与声音的特征相对应的用于辅助高音练习的建议，从而辅助演唱者的高音练习，避免了演唱者在演唱后每次都需要教学者进行评价并指导，能够实现对于演唱者的自助式辅助练习。
附图说明
[0034]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
[0035]
图1是本发明实施例提供的一种基于神经网络的高音练习任务辅助系统的流程示意图；
[0036]
图2是本发明实施例中单帧音频的波形图的示意图。
具体实施方式
[0037]
为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0038]
以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本技术实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本技术。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本技术的描述。
[0039]
术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征；在本实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。
[0040]
演唱者在进行高音练习过程中，高音练习的指导者需要根据演唱者的声音，确定演唱者的高音情况，从而根据高音情况给出相应的用于辅助高音练习的建议，而演唱者的音频中包含的气息会直接影响到演唱者的高音情况。
[0041]
因此，需要获得演唱者在演唱过程中声音的特征，从而根据声音的特征的不同，给出不同的用于辅助高音练习的建议，从而实现辅助演唱者对于高音练习的目的。
[0042]
本发明实施例提供了一种基于神经网络的高音练习任务辅助系统，如图1所示，包括：
[0043]
音频采集模块、音频处理模块、第一计算模块、第二计算模块、第三计算模块、网络训练模块以及高音练习辅助模块。
[0044]
音频采集模块，用于采集高音练习过程中演唱者的音频。
[0045]
音频处理模块，用于从音频中提取单帧音频对应的波形图，通过短时傅里叶变换获取与波形图对应的语谱图。
[0046]
第一计算模块，用于将波形图中相邻的周期波段上各对应点间的平均距离，作为波形图对应的差异性值。
[0047]
第二计算模块，用于根据语谱图中最大频率值、最小频率值以及预设频率阈值，分别为语谱图中各频率值赋予权重，并根据语谱图中频率的权重以及幅值获得语谱图对应的第一特征值。
[0048]
第三计算模块，用于获取语谱图中大于预设频率阈值的各频率值的占比，将所述占比与第一计算模块中获得差异性值的乘积作为单帧音频的第二特征值，并将所述占比与第二计算模块中所获得的第一特征值的乘积作为单帧音频的第三特征值。
[0049]
网络训练模块，利用训练集及检验集对神经网络进行训练，所述训练集中包括用于时长为预设时长的各音频中每一单帧音频的第二特征值以及第三特征值，所述检验集为对预设时长的音频的高音评价分数。
[0050]
高音练习辅助模块，用于依次调用音频处理模块、第一计算模块、第二计算模块以及第三计算模块，获得将演唱者的待测音频对应的每一单帧音频的第二特征值以及第三特征值，利用神经网络输出待测音频对应的高音评价分数，以利用高音评价分数给出对演唱者的建议。
[0051]
本发明实施例的主要目的是：获得演唱者的声音中单帧音频的波形图，并获取与波形图对应的语谱图，利用波形图以及语谱图的特征来获得演唱者的声音特征，从而结合高音教师或者授课者对于演唱者的高音评价对神经网络进行训练，并最终通过神经网络输出对于演唱者的声音的评价分数，进而针对评价分数给出相应的用于辅助演唱者进行高音联系的建议。
[0052]
进一步的，音频采集模块，用于采集高音练习过程中演唱者的音频。
[0053]
本发明实施例中可以通过布置声音信号采集平台，来采集高音练习过程中演唱人员的声音信号即演唱者的音频。
[0054]
由于所采集得到的声音数字信号中包含很多有用的信息，比如声音的高频幅度、周期波动以及频段能量信息等。因此，可以对声音信号的波形图以及频率的语谱图进行处理，提取声音的特征，以便在后续过程中根据声音的特征对演唱者给出用于辅助高音练习的建议。
[0055]
对于一段时长的音频中的单帧音频，可以得到单帧音频对应的波形图，如图2所示为本发明实施例中单帧音频的波形图的示意图。示例性的，对于一段时长为1秒的音频，采样频率为1/16000秒，当1s的音频对应的声波信号被等分为每份0.02秒长的声波信号，共为50帧声波信号，则每帧声波信号共有320个采样点。
[0056]
进一步的，音频处理模块，用于从音频中提取单帧音频对应的波形图，通过短时傅里叶变换获取与波形图对应的语谱图。
[0057]
需要说明的是，所获取的语谱图中，横轴为时间、纵轴为频率且每个点的颜反映幅值的大小，且颜是通过幅值映射至颜分布中来代替幅值的变化。语谱图中按照颜变化，红橙黄绿青蓝紫，幅值依次从大到小，即红代表的幅值最大，紫代表的幅值最小。
[0058]
每帧音频的声波是由不同频率的声波信号混合后组合再一起的，为了更容易训练神经网络，本发明实施例中利用短时傅里叶变换，将单帧音频的波形图转化为语谱图。
[0059]
短时傅里叶变换(stft，short-time fourier transform)是和傅里叶变换相关的
一种数学变换，其用以确定时变信号其局部区域正弦波的频率与相位。它的思想是：选择一个时频局部化的窗函数，假定分析窗函数在一个短时间间隔内是平稳的，从而计算出各个不同时刻的功率谱，并最终获得与波形图对应的语谱图。需要说明的是，本发明实施例中窗函数采用的是汉明窗函数，
[0060]
进一步的，第一计算模块，用于将波形图中相邻的周期波段上各对应点间的平均距离，作为波形图对应的差异性值。
[0061]
在高音练习的过程中，需要对气息的稳定性、气息长短、均匀等方面进行分析。而这些方面可以通过波形图中波动特征、峰值特征以及周期性等特征表示出来。当高音练习过程中，气息起着关键作用，是唱高音的基础；其中，气息越稳定，波形图越且呈现周期性变化，每个周期的波形就越相似，同时不会在较短时间内出现较大波动变化。
[0062]
声波信号是不断变化的，然而在较短的时长内即单帧内，可近似地认为其存在周期性特征，因此可以通过对单帧音频的波形图进行周期分析，获取演唱者的声音的周期特征。
[0063]
首先，本发明实施例中通过单帧音频的波形图中峰值的周期，间接地确定每帧音频的周期。可以包括：
[0064]
计算单帧音频的波形图内的连续的三个采样时间点之间的振幅差异，并统计出所有的峰值点的幅值，可以得到所有的峰值点组成的峰值点集，以通过峰值点集中峰值点的周期，间接确定单帧音频的波形图的周期大小。
[0065]
以一定的初始步长将峰值点集按时间顺序分成多个组，计算不同组中对应点之间的幅值的差值，设置预设范围[-μ,μ]，判断差值之间变化程度是否在允许的误差范围内，若差值之间的变化程度不在预设范围内，即差值之间的比值的差异较大，则将步长的值加1，进行迭代直到满足变化程度在预设范围内，将当前的步长确定为该单帧音频的周期θ，且θ＝l。
[0066]
例如，单帧音频的波形图中存在连续的三个点，若中间点的幅值大于两边两点的幅值，则该中间点为峰值点，并以此得到包含所有峰值点的峰值点集。同时，作为一个实例，在峰值点集中存在16个峰值点的情况下，可以将初始步长确定为8，该初始步长将峰值点集分为2组，两组分别为[d1,
…
,d8]和[d9,
…
,d
16
]，分别计算c1＝(d
1-d9)，c2＝(d
2-d
10
),
…
,c8＝(d
8-d
16
)的值，进行比较计算，若则该单帧音频的波形图的周期为8；否则，可以将初始步长增大1之后作为新的步长，进行迭代直至相邻两组之间的误差在预设范围内，将当前的步长作为单帧音频的波形图的周期。
[0067]
波形图的周期波段的获得过程包括：获得波形图中的最小周期时长；以波形图的起始时刻为起点，截取时长为所述最小周期时长的波形图片段为首个周期波段，截取时长为最小周期时长的作为下一个周期波段，直至完成对波形图的截取。需要说明的是，本发明实施例中最小周期波长即通过峰值点集所获得的周期。
[0068]
最后，将波形图中相邻的周期波段上各对应点间的平均距离，作为波形图对应的差异性值。
[0069]
可选的，在计算波形图对应的差异性值之前，可以先对波形图进行平滑处理，以减少环境噪声以及设备噪声等对单帧音频的波形图的影响。
[0070]
进一步的，第二计算模块，用于根据语谱图中最大频率值、最小频率值以及预设频率阈值，分别为语谱图中各频率值赋予权重，并根据语谱图中频率的权重以及幅值获得语谱图对应的第一特征值。
[0071]
由于高音属于高频信息，因此本发明实施例主要关注单帧音频的语谱图中高频能量，因此，可以根据语谱图中频率的分布情况，计算该帧整个单帧音频的第一特征值。
[0072]
首先，根据语谱图中最大频率值、最小频率值以及预设频率阈值，分别为语谱图中各频率值赋予权重。
[0073]
各频率所对应的权重的获得过程包括：
[0074][0075]
式中，∈i为第i个频率值的权重，f
max
为单帧音频的语谱图中的最大频率值，f
min
为单帧音频的语谱图中的最小频率值，fi为第i个频率值，f
t
为预设频率阈值，e为自然常数。
[0076]
其次，根据语谱图中频率的权重以及幅值获得语谱图对应的第一特征值，包括：
[0077]
式中，β为语谱图对应的第一特征值，∈i为第i个频率值的权重，ei为第i个频率值的幅值，j表示语谱图中频率值的数量。
[0078]
进一步的，第三计算模块，用于获取语谱图中大于预设频率阈值的各频率值的占比，将所述占比与第一计算模块中获得差异性值的乘积作为单帧音频的第二特征值，并将所述占比与第二计算模块中所获得的第一特征值的乘积作为单帧音频的第三特征值。
[0079]
由于所划分出的单帧音频中，一些单帧音频中并未含有过多的有关高音的信息，对于此类的声波信号，在提取特征时所需要的关注并不高，因此在对每一个单帧音频进行分析时，可以获取语谱图中大于预设频率阈值的各频率值的占比γ，其可以用于表征单帧音频所需要的关注程度。同时，实施者可以根据自身实际情况，确定预设频率阈值的具体取值，例如男声和女声所需要的频率阈值不同，可以分别采取不同的频率阈值。
[0080]
然后，将占比γ与第一计算模块中获得差异性值的乘积作为单帧音频的第二特征值，并将占比γ与第二计算模块中所获得的第一特征值的乘积作为单帧音频的第三特征值。如此，获取了能够反映演唱者的演唱声音中每一单帧音频的第二特征值以及第三特征值，从而便于后续演唱者的演唱音频的评价分数的获取。
[0081]
进一步的，网络训练模块，利用训练集及检验集对神经网络进行训练，所述训练集中包括用于时长为预设时长的各音频中每一单帧音频的第二特征值以及第三特征值，所述检验集为对预设时长的音频的高音评价分数。
[0082]
对预设时长的音频的高音评价分数，可以通过专业的音乐老师对音频进行评价后获得。
[0083]
进一步的，高音练习辅助模块，用于依次调用音频处理模块、第一计算模块、第二计算模块以及第三计算模块，获得将演唱者的待测音频对应的每一单帧音频的第二特征值以及第三特征值，利用神经网络输出待测音频对应的高音评价分数，以利用高音评价分数给出对演唱者的建议。
[0084]
由于网络训练模块中已经完成了对神经网络的训练过程，因此，在将所获得的演唱者的待测音频对应的每一单帧音频的第二特征值以及第三特征值输入至神经网络后，神
经网络可以输出与演唱者的待测音频所对应的高音评价分数。
[0085]
然后，根据得到的评价分数，对目标检测人员的高音水准进行评判，根据评判结果给出相应的练习建议。可以对高音评价分数进行级别划分，且高音评价分数越高，所对应的划分后的级别越高。
[0086]
例如，可以将评分分数分为优秀、良好、中等、较差。例如，各分级所对应的分数范围可以是：优秀，s≥9，良好，8≤s《9，中等，6.5≤s《8，较差，s≤6.5，其中s为高音评价分数。需要说明的是，实施者可以具体根据实际情况确定所划分的等级数量以及各等级相应的阈值范围的取值。
[0087]
最后，对于经过分级后的分数，可以根据等级的不同给予不同的建议。
[0088]
例如，对于评分为优秀的建议为：演唱者的声音气息足且足够稳定，可以继续保持当前演唱状态。
[0089]
例如，对于评分为良好的建议为：演唱者的声音气息足够稳定，可以继续保持当前状态的练习，同时可以注重提升演唱过程中整体的协调能力。
[0090]
例如，对于评分为中等的建议为：演唱者的声音气息不足，可以进行哼鸣练习，同时口适度张开，发声感觉为不满意时发出的哼声；在练习时，可以用身体的力量控制气息的速度，从而均匀地发出声音，进而增强气息的稳定性。
[0091]
例如，对于评分为较差的建议为：演唱者的声音气息不畅，可能由于口腔肌肉紧张，口腔变形，可以用力张嘴拉下巴，同时发中文“一”的长音进行练习；在练习时，可以将舌头位置放正以舌尖轻抵下牙齿为宜；与此同时，还可以提示演唱者训练腰腹力量。
[0092]
需要说明的是，实施者可以根据实际需求，改变各等级下对应的建议，例如，在发现相关研究中能够证明采用不同于本发明实施例中所列举的建议以外的建议，能够更好的用于辅助演唱者进行高音练习时，实施者可以将考虑将各等级对应的建议进行更新。
[0093]
综上所述，本发明实施例提供了一种基于神经网络的高音练习任务辅助系统，相比于现有技术，本发明实施例的有益效果在于：能够根据获得演唱者在演唱过程中声音的特征，对演唱者给出与声音的特征相对应的用于辅助高音练习的建议，从而辅助演唱者的高音练习，避免了演唱者在演唱后每次都需要教学者进行评价并指导，能够实现对于演唱者的自助式辅助练习。
[0094]
本发明中涉及诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。
[0095]
还需要指出的是，在本发明的方法和系统中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
[0096]
上述实施例仅仅是为清楚地说明所做的举例，并不构成对本发明的保护范围的限制。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无需也无法对所有的实施方式予以穷举。凡是与本发明相同或相似的设计均属于本发明的保护范围之内。

技术特征：

1.一种基于神经网络的高音练习任务辅助系统，其特征在于，包括：音频采集模块，用于采集高音练习过程中演唱者的音频；音频处理模块，用于从音频中提取单帧音频对应的波形图，通过短时傅里叶变换获取与波形图对应的语谱图；第一计算模块，用于将波形图中相邻的周期波段上各对应点间的平均距离，作为波形图对应的差异性值；第二计算模块，用于根据语谱图中最大频率值、最小频率值以及预设频率阈值，分别为语谱图中各频率值赋予权重，并根据语谱图中频率的权重以及幅值获得语谱图对应的第一特征值；第三计算模块，用于获取语谱图中大于预设频率阈值的各频率值的占比，将所述占比与第一计算模块中获得差异性值的乘积作为单帧音频的第二特征值，并将所述占比与第二计算模块中所获得的第一特征值的乘积作为单帧音频的第三特征值；网络训练模块，利用训练集及检验集对神经网络进行训练，所述训练集中包括用于时长为预设时长的各音频中每一单帧音频的第二特征值以及第三特征值，所述检验集为对预设时长的音频的高音评价分数；高音练习辅助模块，用于依次调用音频处理模块、第一计算模块、第二计算模块以及第三计算模块，获得将演唱者的待测音频对应的每一单帧音频的第二特征值以及第三特征值，利用神经网络输出待测音频对应的高音评价分数，以利用高音评价分数给出对演唱者的建议。2.根据权利要求1所述的基于神经网络的高音练习任务辅助系统，其特征在于，第二计算模块中，根据语谱图中最大频率值、最小频率值以及预设频率阈值，分别为语谱图中各频率值赋予权重，包括：式中，∈
i
为第i个频率值的权重，f
max
为单帧音频的语谱图中的最大频率值，f
min
为单帧音频的语谱图中的最小频率值，f
i
为第i个频率值，f
t
为预设频率阈值，e为自然常数。3.根据权利要求1所述的基于神经网络的高音练习任务辅助系统，其特征在于，根据语谱图中频率的权重以及幅值获得语谱图对应的第一特征值，包括：式中，β为语谱图对应的第一特征值，∈
i
为第i个频率值的权重，e
i
为第i个频率值的幅值，j表示语谱图中频率值的数量。4.根据权利要求1所述的基于神经网络的高音练习任务辅助系统，其特征在于，第一计算模块中，波形图中相邻的周期波段上各对应点间的平均距离的获得过程，包括：分别计算每一对应点对中两点之间的距离，所述对应点对中的两点分别位于相邻的两周期波段上；计算每两相邻的周期波段的每一对应点对中两点之间的距离的平均值，以获得波形图中相邻的周期波段上各对应点间的平均距离。
5.根据权利要求4所述的基于神经网络的高音练习任务辅助系统，其特征在于，第一计算模块中，计算波形图中相邻的周期波段上各对应点间的平均距离前，还包括：判断波形图中是否存在多个周期波段，并在判断结果为否的情况下，将下一帧单帧音频对应的波形图与当前帧的单帧音频的波形图进行拼接，将拼接后得到的波形图作为当前帧的波形图。6.根据权利要求4所述的基于神经网络的高音练习任务辅助系统，其特征在于，周期波段的获得过程包括：获得波形图中的最小周期时长；以波形图的起始时刻为起点，截取时长为所述最小周期时长的波形图片段为首个周期波段，截取时长为最小周期时长的作为下一个周期波段，直至完成对波形图的截取。7.根据权利要求1所述的基于神经网络的高音练习任务辅助系统，其特征在于，高音练习辅助模块中，利用高音评价分数给出对演唱者的建议，包括：对高音评价分数进行级别划分，且高音评价分数越高，所对应的划分后的级别越高；不同的级别分别对应对于演唱者的不同的建议。8.根据权利要求1所述的基于神经网络的高音练习任务辅助系统，其特征在于，通过短时傅里叶变换获取与波形图对应的语谱图前，还包括：对波形图进行平滑处理。

技术总结

本发明公开了一种基于神经网络的高音练习任务辅助系统，涉及人工智能领域。主要包括：采集高音练习过程中演唱者的音频，并从音频中提取单帧音频对应的波形图，以过短时傅里叶变换获取与波形图对应的语谱图，分别获得每单帧音频的波形图的特征以及语谱图的特征，从而将时长为预设时长的每一音频的波形图的特征以及语谱图的特征作为输入集，将预设时长的音频的高音评价分数作为检验集，对神经网络进行训练；利用神经网络输出待测音频对应的高音评价分数，以利用高音评价分数给出对演唱者的建议。本发明实施例能给根据演唱者的声音的特征，给出相对应的用于辅助高音练习的建议，从而辅助演唱者的高音练习。而辅助演唱者的高音练习。而辅助演唱者的高音练习。