声学模型训练方法、语音识别算法、存储介质及电子设备与流程



1.本发明涉及语音识别技术领域,特别涉及一种声学模型训练方法、语音识别算法、存储介质及电子设备。


背景技术:



2.自然语嵌入式语音识别技术是在端侧低算量,低资源的嵌入式板卡上,实时录制音频,提取音频特征,并转写为对应文字的高新技术,主要运用于实时语音转译,语音交互机器人等领域。语音识别过程大致为音频预处理,声学模型识别,语言模型识别,其中声学模型识别是将音频特征转换为声学音素的关键步骤。
3.嵌入式设备将实时录取的音频进行初步预处理后,得到的fbank特征图谱,输入给声学模型计算,声学模型会根据fbank特征图谱的局部特征以及长期特征进行解算预测每帧特征对应的声学音素预测值。在中文语料识别中,声学模型一般是基于声韵母音素,或无声调拼音,或含声调拼音进行音素建模。以有声调拼音建模为例,声学模型会输出音频特征图谱对应的预测含声调拼音。
4.目前声学模型一般基于深度学习方法,采用的模型结构有cnn+ctc,dfsmn+ctc,conformer等,其中由于conformer模型计算量较大,尚未能应用于低算力的嵌入式设备中,目前常用端侧模型多数仍基于ctc模型。
5.常规声学模型训练中,使用了整句语料进行训练,相应的推断过程中也需要获取完整特征图片才能进行预测,只能实现语音转文本的功能。
6.在实时语音识别场景中,仅能获得当前时刻以前的声学信息,所以需要对普通声学模型进行改造,适应流式识别的需求,即:声学模型通过有限长度,且仅包含过去信息的声学特征图谱,运算预测对应帧的音素。
7.目前的现有技术中,为了实现流式识别,会将语音切分片段来进行片段识别,再将识别结果拼接起来,作为整体的识别结果。
8.但是语音切分时间片过短会造成上下文信息不足而准确率下降,语音切分时间片过长又会造成语音识别延迟过长;并且由于ctc方法无法严格对齐输出的音素时间,在拼接结果的时候,会造成拼接处可能的音素缺失或重复,进一步降低了识别准确率。


技术实现要素:



9.本发明的目的在于提供一种声学模型训练方法以及装置、存储介质及电子设备,解决现有技术中语音识别时切分时间片对识别准确率影响较大的技术问题。
10.为了实现上述目的,本发明提出一种声学模型训练方法,所述声学模型训练方法包括:
11.获取数据集中的第一音频特征图谱;
12.将所述第一实时音频特征图谱按照第一预设时间长度滑窗以获得第二实时音频特征图谱;
13.分别将所述第一音频特征图谱以及所述第二音频特征图谱按照第二预设时间长度切分后得到多个第一分段小窗以及多个第二分段小窗;
14.将多个所述第一分段小窗以及多个所述第二分段小窗输入所述原始声学模型进行计算以获取多个第一分段小窗预测结果以及多个第二分段小窗预测结果;
15.对每一所述第一分段小窗预测结果以及所述第二分段小窗预测结果进行剥离以及拼接后获取整体预测结果;
16.根据所述整体预测结果以及链式时序分类算法确定有效语音识别声学模型。
17.可选地,所述获取数据集中的第一音频特征图谱的步骤包括:
18.获取多个原始音频数据;
19.对多个所述原始音频数据进行数据处理以获取包含多个音频特征图谱的数据集。
20.可选地,所述将所述第一实时音频特征图谱按照第一预设时间长度滑窗以获得第二实时音频特征图谱的步骤之前包括:
21.将所述第一音频特征图谱数据进行随机时间平移以及倒谱均值方差归一化处理;
22.将第一音频特征图谱更新为处理过的音频特征图谱。
23.可选地,所述对每一所述第一分段小窗预测结果以及所述第二分段小窗预测结果进行剥离以及拼接后获取整体预测结果的步骤包括:
24.将每一所述第一分段小窗预测结果前端以及每一所述第一分段小窗预测结果的后端均去掉第一预设时间长度的一半以获取多个第一实际预测语音小节;
25.将每一所述第二分段小窗预测结果前端以及每一所述第二分段小窗预测结果的后端均去掉第一预设时间长度的一半以获取多个第二实际预测语音小节;
26.将每一所述第一实际预测语音小节以及所述第二实际预测语音小节按照时间顺序拼接以获取整体预测结果。
27.可选地,所述根据所述整体预测结果以及链式时序分类算法确定有效语音识别声学模型的步骤包括:
28.将所述整体预测结果输入链式时序分类算法以获取概率值;
29.当所述概率值处于第一可靠预设范围值时,确认当前训练有效;
30.将原始声学模型更新为训练后的语音识别声学模型,并将训练后的语音识别声学模型作为有效语音识别声学模型。
31.可选地,所述将所述整体预测结果输入链式时序分类算法以获取概率值的步骤之后还包括:
32.当所述概率值不处于第一可靠预设范围值时,持续进行链式时序分类算法取概率值计算,并依据所述数据集重新对所述原始声学模型进行训练。
33.可选地,所述获取原始声学模型之前还包括:
34.获取非流式识别的声学模型;
35.将所述非流式识别的声学模型作为原始声学模型。
36.为了实现上述目的,本发明还提出一种语音识别算法,所述语音识别算法包括:
37.获取第一实时音频特征图谱以及有效语音识别声学模型;
38.将所述第一实时音频特征图谱按照第一预设时间长度滑窗以获得第二实时音频特征图谱;
39.分别将所述第一音频特征图谱以及所述第二音频特征图谱按照第二预设时间长度切分后得到多个第一分段小窗以及多个第二分段小窗;
40.将多个所述第一分段小窗以及多个所述第二分段小窗输入有效语音识别声学模型进行计算以获取多个第一分段小窗预测结果以及多个第二分段小窗预测结果;
41.对每一所述第一分段小窗预测结果以及所述第二分段小窗预测结果进行剥离以及拼接后获取整体预测结果;
42.其中,所述有效语音识别声学模型根据如上所述的声学模型训练方法进行确定。
43.为了实现上述目的,本发明还提出一种存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令在电子设备上运行时,使得电子设备执行如上所述的声学模型训练方法的操作。
44.为了实现上述目的,本发明还提出一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
45.所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如上所述的声学模型训练方法的操作。
46.本发明通过获取数据集中的第一音频特征图谱;获取原始声学模型;通过将所述第一实时音频特征图谱按照第一预设时间长度滑窗以获得第二实时音频特征图谱;分别将所述第一音频特征图谱以及所述第二音频特征图谱按照第二预设时间长度切分后得到多个第一分段小窗以及多个第二分段小窗;将多个所述第一分段小窗以及多个所述第二分段小窗输入所述原始声学模型进行计算以获取多个第一分段小窗预测结果以及多个第二分段小窗预测结果;对每一所述第一分段小窗预测结果以及所述第二分段小窗预测结果进行剥离以及拼接后获取整体预测结果;根据所述整体预测结果以及链式时序分类算法确定有效语音识别声学模型。通过上述步骤,将用于训练模型的数据进行处理后再用于训练出有效语音识别声学模型,可以使得最后得到的有效语音识别声学模型在进行语音识别时,实现随意将音频进行时间的切分,而不会改变其识别的结果,从而解决现有技术中语音识别时切分时间片对识别准确率影响较大的技术问题。
附图说明
47.下面结合附图和实施例对本发明进一步地说明;
48.图1为一个实施例中声学模型训练方法的流程示意图。
49.图2为一个实施例中语音识别算法的流程示意图。
50.图3为一个实施例中语音识别算法的时间段滑窗以及分段示意图。
具体实施方式
51.本部分将详细描述本发明的具体实施例,本发明之较佳实施例在附图中示出,附图的作用在于用图形补充说明书文字部分的描述,使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案,但其不能理解为对本发明保护范围的限制。
52.为了解决现有技术中语音识别时切分时间片对识别准确率影响较大的技术问题,本发明提出一种声学模型训练方法、语音识别算法、存储介质及电子设备。
53.在一实施例中,如图1所示,所述声学模型训练方法包括:
54.s1、获取数据集中的第一音频特征图谱;
55.数据集实际上是通过现有的语音数据建立的训练集,此时的训练集可以包含一个或者多个,语音数据可以是中文、日语、英文等各国语言,训练集也可分为常用语、专业词语等各种功能性训练集。从而可以方便用户根据不同需求对声学模型进行训练以获取到训练后语音识别更为精确的声学模型。音频特征图谱为横轴是时间,纵轴是频域的图像。
56.s2、获取原始声学模型;
57.此时的原始声学模型从现有技术中的声学模型进行选用。
58.s3、将所述第一实时音频特征图谱按照第一预设时间长度滑窗以获得第二实时音频特征图谱;
59.其中,第一预设时间长度可以根据需要进行设置,将第一音频特征图谱按照第一预设时间长度滑窗滑窗,此时的滑窗是指将后第二音频特征图谱的整体时间段补充第一预设时间长度的音频特征图谱,并删除首部的第一预设时间长度的音频特征图谱,从而得到滑窗后的第二音频特征图谱,此时,第一音频特征图谱的时间长度等于第二音频特征图谱的时间长度。
60.s4、分别将所述第一音频特征图谱以及所述第二音频特征图谱按照第二预设时间长度切分后得到多个第一分段小窗以及多个第二分段小窗;
61.其中,第二预设时间长度可以根据需要进行设置,由于音频特征图谱实际上仍然是一个按照按照时间变化的信号,因此,将所述第一音频特征图谱以及所述第二音频特征图谱按照第二预设时间长度切分后,可以得到多个时长长度等同的第一分段小窗以及第二分段小窗,此时的多个切分结果即为多个时长长度等同的第一分段小窗以及第二分段小窗。通过上述步骤的数据处理,保证音频特征图谱的完整性以及可弥补性。
62.s5、将多个所述第一分段小窗以及多个所述第二分段小窗输入所述原始声学模型进行计算以获取多个第一分段小窗预测结果以及多个第二分段小窗预测结果;
63.此时,将多个第一分段小窗以及多个第二分段小窗输入所述原始声学模型可以进行特征提取以及模型训练,每一第一分段小窗以及每一第二分段小窗代表一段完整语音,将其输入原始声学模型即可以得到一个分段小窗预测结果,当分段小窗有多个时,即可以得到多个分段小窗预测结果。
64.s6、对每一所述第一分段小窗预测结果以及所述第二分段小窗预测结果进行剥离以及拼接后获取整体预测结果;
65.由于前述步骤中的分段音频特征图谱存在时间长度的覆盖,因此,此时第一分段小窗预测结果以及所述第二分段小窗预测结果也存在片段的重复。此时的剥离本质上是将此重复的片段进行剥离。然后将剥离后的分段小窗预测结果按照时间顺序进行拼接以得到整体的预测结果。参照图3所示,以下距离说明剥离的过程:
66.将第一预设时间长度记为shift,将第二预设时间长度记为t_frame,此时第一分段小窗预测结果的时间段应是(0,t_frame1),(t_frame1,t_frame2),(t_frame2,t_framen),第二分段小窗预测结果的时间段应是(shift,t_frame1+shift),(t_frame1+shift,t_frame2+shift),(t_frame2+shift,t_framen+shift),以此类推,以(0,t_frame1),(t_frame1,t_frame2),(t_frame2,t_framen),(shift,t_frame1+shift),(t_
frame1+shift,t_frame2+shift),(t_frame2+shift,t_framen+shift)为例,此时的剥离就是将此过程中((0,t_frame1),(t_frame1,t_frame2),(t_frame2,t_framen),(shift,t_frame1+shift),(t_frame1+shift,t_frame2+shift),(t_frame2+shift,t_framen+shift)之间的重合部分删减去一段,例如,(0-t_frame1)删除(x,t_frame1)时间段的分段小窗预测结果,(shift,t_frame1+shift)中删除(shift-x,t_frame1+shift)时间段的分段小窗预测结果,或者是删除将(0-t_frame1)以及(shift,t_frame1+shift)重合部分的时间段任意选择进行删除,以完全删除两个时间段内的重合时间为最终结果,即可以实现本发明的技术方案以及技术效果。
67.s7、根据所述整体预测结果以及链式时序分类算法确定有效语音识别声学模型。
68.在实际进行声学模型进行训练时,根据其应用场景选择合适的语音数据训练集后,将此训练集中进行如s3至s4中的过程处理后再用于训练,从而可以根据实际应用场景采用合适的第一预设时间长度以及第二预设时间长度,进行此处理后的多个第一分段小窗以及多个第二分段小窗输入原始声学模型进行计算以获取多个第一分段小窗预测结果以及多个第二分段小窗预测结果,此时,由于分段小窗的时间上有第一预设时间长度的重复,即语音上的重复,从而可以避免在识别过程中由于某一片段识别错误的丢失,而且由于分段,不同的分段对识别精度的影响是有差别的,此时在多个第一分段小窗以及多个第二分段小窗均存在不同语段的结合识别,还可以进一步提高识别的准确性,最后将每一所述第一分段小窗预测结果以及每一第二分段小窗预测结果进行剥离以及拼接后获取整体预测结果以剔除重复的结果,以拼接成完整的整体预测结果,最后根据所述整体预测结果以及链式时序分类算法确定有效语音识别声学模型,可以通过调整声学模型的参数以使得有效语音识别声学模型的整体输出无限靠近数据集中的音频特征图谱所代表的的语音信号。通过上述方案,经过上述训练后的有效语音识别声学模型应用于语音识别时,可以随意将音频进行时间的切分,而不会改变其识别的结果,从而解决现有技术中语音识别时切分时间片对识别准确率影响较大的技术问题。
69.可选地,所述原始声学模型选用原非流式识别的声学模型,或者基于卷积的声学模型。
70.将原始声学模型选用原非流式识别的声学模型,或者基于卷积的声学模型,通过与上述声学模型训练方法结合,可以将原非流式识别的声学模型或者基于卷积的声学模型优化训练为流式识别的声学模型,并保持算量和精度基本不变。仅仅只需要修改训练时模型中头尾的数据处理方式的情况下,不增加标注工作量,以较为简单的方式实现声学模型的优化。
71.在一实施例中,所述获取数据集中的第一音频特征图谱的步骤包括:
72.获取多个原始音频数据;
73.对多个所述原始音频数据进行数据处理以获取包含多个音频特征图谱的数据集。
74.其中,音频特征图谱,就是用audition(音频软件)或者audacity(音频编辑软件)看到的横轴是时间,纵轴是频域的图像。原始音频数据本质上是一种模拟信号,而音频特征图谱可以通过前端处理模拟信号去获取。通过上述步骤,可以使得数据集中的音频特征图谱标准化,方便用于训练以及识别。
75.可选地,以音频特征图谱为fbank音频特征图谱为例,对其进行预处理的过程大致
分为以下几个步骤:
76.首先,采集的语音为时域信号,对其进行预加重、分帧、加窗以及傅里叶变换后得到频域信号,随后对频域信号经过幅值平方、mel滤波以及取对数后获得fbank音频特征图谱。其中,预加重为通过一阶高通滤波器去提升信号在高频部分的信噪比。
77.在一实施例中,所述将所述第一实时音频特征图谱按照第一预设时间长度滑窗以获得第二实时音频特征图谱的步骤之前还包括:
78.将所述第一音频特征图谱数据进行随机时间平移以及倒谱均值方差归一化(cmvn)处理;
79.将第一音频特征图谱更新为处理过的音频特征图谱。
80.需要说明的是,在将所述第一音频特征图谱数据进行随机时间平移以及倒谱均值方差归一化(cmvn)处理之前,需要对原始采集的音频数据进行预处理,以音频特征图谱数据为fbank音频特征图谱数据为例,对其进行预处理的过程大致分为以下几个步骤:
81.首先,采集的语音为时域信号,对其进行预加重、分帧、加窗以及傅里叶变换后得到频域信号,随后对频域信号经过幅值平方、mel滤波以及取对数后获得fbank音频特征图谱数据。其中,预加重为通过一阶高通滤波器去提升信号在高频部分的信噪比。
82.在上述实施例中,对将所述音频特征图谱数据进行随机时间平移以及倒谱均值方差归一化(cmvn)处理即对经过上述处理后的音频特征图谱数据进行处理,其中,随机时间平移是指生成一个一定范围内的随机整数,将音频特征图谱数据进行该值的平移,该方法可有效防止训练的过拟合情况。倒谱均值方差归一化(cmvn)则是计算特征图谱的均值和方差,进行归一化操作,该操作可以增强声学模型的鲁棒性。
83.在一实施例中,所述对每一所述第一分段小窗预测结果以及所述第二分段小窗预测结果进行剥离以及拼接后获取整体预测结果的步骤包括:
84.将每一所述第一分段小窗预测结果前端以及每一所述第一分段小窗预测结果的后端均去掉第一预设时间长度的一半以获取多个第一实际预测语音小节;
85.其中,前文中有举例说明,如图3所示,将第一预设时间长度记为shift,将第二预设时间长度记为t_frame_,此时第一分段小窗预测结果的时间段应是(0,t_frame1),(t_frame1,t_frame2),(t_frame2,t_frame3)以此类推,以(0,t_frame1),(t_frame1,t_frame2),(t_frame2,t_frame3)为例,此时的剥离就是将此过程中与第二分段小窗预测结果重合的部分删减去一段,例如,(0,t_frame1)删除(0,x)以及(x,t_frame1)时间段的第一分段小窗预测结果,(t_frame1,t_frame2)中删除(t_frame1,t_frame1+x)以及(t_frame2-x,t_frame2)时间段的第一分段小窗预测结果或者是删除将(0,t_frame1),(t_frame1,t_frame2),(t_frame2,t_frame3)与第二分段小窗预测结果重合的时间段任意选择进行删除,以完全删除两个时间段内的重合时间为最终结果。
86.将每一所述第二分段小窗预测结果前端以及每一所述第二分段小窗预测结果的后端均去掉第一预设时间长度的一半以获取多个第二实际预测语音小节;
87.其中,前文中有举例说明,将第一预设时间长度记为shift,将第二预设时间长度记为t_frame_,此时第二分段小窗预测结果的时间段应是(shift,t_frame1+shift),(t_frame1+shift,t_frame2+shift),(t_frame2+shift,t_frame3+shift)以此类推,以(shift,t_frame1+shift),(t_frame1+shift,t_frame2+shift),(t_frame2+shift,t_
frame3+shift)为例,此时的剥离就是将此过程中(shift,t_frame1+shift),(t_frame1+shift,t_frame2+shift),(t_frame2+shift,t_frame3+shift)与第一分段小窗预测结果的时间段应是(0,t_frame1),(t_frame1,t_frame2),(t_frame2,t_frame3)之间的重合部分删减去一段,例如,(shift,t_frame1+shift)删除(shift,shift+y)以及(t_frame1+shift-y,t_frame1+shift)时间段的第一分段小窗预测结果,(t_frame1+shift,t_frame2+shift)中删除(t_frame1+shift,t_frame1+shift+y)以及(t_frame2+shift-y,t_frame2+shift)时间段的第二分段小窗预测结果或者是两者各自选择将(0-t_frame1)以及(shift,t_frame1+shift)重合部分的时间段任意选择进行删除,以完全删除两个时间段的重合时间为最终结果。
88.基于上述过程,在本实施例中,将x或y=第一预设时间长度的一半,即x=shift/2,y=shift/2,(shift,t_frame1+shift)删除(shift,shift+shift/2)以及(t_frame1+shift-shift,t_frame1+shift)时间段的第一分段小窗预测结果,(t_frame1+shift,t_frame2+shift)中删除(t_frame1+shift,t_frame1+shift+shift/2)以及(t_frame2+shift-shift,t_frame2+shift)时间段的第二分段小窗预测结果。通过将剥离时长限定,当将删除的均限定为去掉第一预设时间长度的一半,可以方便进行删除,再采用复杂的算法进行计算,降低可本方案的降低的安成本。
89.将每一第一实际预测语音小节以及所述第二实际预测语音小节按照时间顺序拼接以获取整体预测结果。
90.以t_frame=1536ms以及shift=t_frame/2=768ms再进行详细说明:
91.此时的第一分段小窗预测结果的时间段[0,1536ms],[1536ms,3072ms],[3072ms,4608ms]
[0092]
第二分段小窗预测结果的时间段[768ms,2304ms],[2304ms,3804ms],[3804ms,5376ms],.
[0093]
就是每个分段小窗t_frame=1536ms,每一第二分段小窗相对每一第一分段小窗滑动shift=t_frame/2=768ms,切分拼接是指,第一分段小窗取出中间768ms(384ms,1152ms])对应的结果,第二分段小窗也是取出中间768ms结果,然后依次拼接起来。
[0094]
通过上述拼接,可以实现快速的剥离以及拼接,从而实现快速完整的拼接,另外,还能避免拼接处可能的音素缺失或重复,进一步提升了识别准确率。
[0095]
在一实施例中,所述根据所述整体预测结果以及链式时序分类算法确定有效语音识别声学模型的步骤包括:
[0096]
根据链式时序分类算法、所述整体预测结果以及所述原始声学模型确定当前训练数据的损失值以及错误率;
[0097]
当所述损失值小于第一预设阈值,且所述错误率低于第二预设阈值时;
[0098]
确认训练后的为有效语音识别声学模型。
[0099]
将所述整体预测结果输入链式时序分类算法以获取概率值;
[0100]
以链式时序分类算法为ctc loss为例:
[0101]
ctc(connectionist temporal classification)loss的输入预测值为整体预测结果,输入标注值为常规整段语料标注值。由于ctc的特性,依据原始声学模型,自动会将整体模型输出的结果向正确标注值逼近,在此过程中,会持续性获取损失值以及错误率,只有
当所述损失值小于第一预设阈值,且所述错误率低于第二预设阈值时,才能确认训练后的为有效语音识别声学模型,从而达到无监督的自动对齐训练效果。需要说明的是,此时的第一预设阈值以及第二预设阈值可以由用户进行设定,也可以根据多次实验确定,在此并不限定。
[0102]
当所述概率值处于第一可靠预设范围值时,确认当前训练有效;
[0103]
将原始声学模型更新为训练后的语音识别声学模型,并将训练后的语音识别声学模型作为有效语音识别声学模型。
[0104]
在一实施例中,所述将所述整体预测结果输入链式时序分类算法以获取概率值的步骤之后还包括:
[0105]
当所述概率值不处于第一可靠预设范围值时,持续进行链式时序分类算法取概率值计算,并依据所述数据集重新对所述原始声学模型进行训练。
[0106]
通过上述链式时序分类算法,可以自动将整体模型输出的结果向正确标注值逼近,从而达到无监督的自动对齐训练效果。
[0107]
在一实施例中,所述获取原始声学模型之前还包括:
[0108]
获取非流式识别的声学模型;
[0109]
将所述非流式识别的声学模型作为原始声学模型。
[0110]
将非流式识别的声学模型作为原始声学模型并将其与上述声学模型训练方法结合,能够在保持原模型主体结构,不增加标注工作量,仅修改训练时模型头尾结构的情况下,将原非流式识别的声学模型,优化训练为流式识别的声学模型,并保持算量和精度基本不变。
[0111]
为了解决上述问题,本发明还提出一种语音识别算法,如图2所示,所述语音识别算法包括:
[0112]
s10、获取第一实时音频特征图谱以及有效语音识别声学模型;
[0113]
音频特征图谱是横轴是时间,纵轴是频域的图像。有效语音识别声学模型在根据如上所述的声学模型训练方法确定。
[0114]
s20、将所述第一实时音频特征图谱按照第一预设时间长度滑窗以获得第二实时音频特征图谱;
[0115]
s30、分别将所述第一音频特征图谱以及所述第二音频特征图谱按照第二预设时间长度切分后得到多个第一分段小窗以及多个第二分段小窗;
[0116]
需要说明的是,此时的切分以及滑窗处理依据训练有效语音识别声学模型时采用的“将所述音频特征图谱按照第一预设时间长度切分后得到多个分段音频特征图谱,并将每一所述分段音频特征图谱按照第二预设时间长度滑窗以获得多个分段小窗”中的第一预设时间长度以及第二预设时间长度进行切分以及滑窗处理。可以在有效语音识别声学模型的训练完成后,将训练中使用的第一预设时间长度以及第二预设时间长度在嵌入式端侧进行部署。从而获得匹配的精度效果。
[0117]
s40、将多个所述第一分段小窗以及多个所述第二分段小窗输入有效语音识别声学模型进行计算以获取多个第一分段小窗预测结果以及多个第二分段小窗预测结果;
[0118]
s50、将多个所述第一分段小窗预测结果以及所述第二分段小窗预测结果进行剥离以及拼接后确定所述实时音频特征图谱对应的识别结果;
[0119]
需要说明的是,此时的剥离仅仅只需删除重复部分即可,当然,若将每一所述分段小窗识别结果前后第一预设时间长度的1/2部分剥离的效果更加优越。
[0120]
在上述实施例中,有效语音识别声学模型根据如上所述的声学模型训练方法进行确定。
[0121]
在实际进行声学模型进行训练时,根据其应用场景选择合适的语音数据训练集后,将此训练集中进行如声学模型训练方法中的步骤s3中的过程处理后再用于训练,从而可以根据实际应用场景采用合适的第一预设时间长度以及第二预设时间长度,进行此处理后的多个分段小窗输入原始声学模型进行计算以获取多个分段小窗预测结果,此时,由于分段小窗的时间上有第一预设时间长度的重复,即语音上的重复,从而可以避免在识别过程中由于某一片段识别错误的丢失,而且由于分段,不同的分段对识别精度的影响是有差别的,此时在前一以及后一分段小窗均存在不同语段的结合识别,还可以进一步提高识别的准确性,最后将每一所述分段小窗预测结果进行剥离以及拼接后获取整体预测结果以剔除重复的结果,以拼接成完整的整体预测结果,最后根据所述整体预测结果以及链式时序分类算法确定有效语音识别声学模型,可以通过调整声学模型的参数以使得有效语音识别声学模型的整体输出无限靠近数据集中的音频特征图谱所代表的的语音信号。通过上述方案,经过上述训练后的有效语音识别声学模型应用于语音识别时,可以随意将音频进行时间的切分,而不会改变其识别的结果,从而解决现有技术中语音识别时切分时间片对识别准确率影响较大的技术问题。另外,依据上述原理对实时音频特征图谱进行识别,保持了训练时与推断时的模型长度,上下文关系,并且巧妙利于ctc的特性来实现了自动的标注对齐,使得拼接结果能够有序拼接,达到了实现流式识别的同时尽可能保持识别精度的效果。
[0122]
可选地,在嵌入式设备上,需要同样以第二预设时间长度窗长,第一预设时间长度滑动步长,逐帧向有效语音识别声学模型送入音频特征图谱,并将输出结果的前后第一预设时间长度的1/2部分剥离,实时输出当前窗的识别结果。
[0123]
为了解决上述问题,本发明还提出一种存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令在电子设备上运行时,使得电子设备执行如上所述的声学模型训练方法的操作。
[0124]
需要说明的是,由于本技术的存储介质包含上述声学模型训练方法的所有步骤,因此,存储介质也可以实现声学模型训练方法的所有方案,并具有同样的有益效果,在此不再赘述。
[0125]
执行上述方法实施例中的一种声学模型训练方法。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术
中实施的易失性和非易失性、可移除和不可移除介质。计算机存15储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
[0126]
为了解决上述问题,本发明还提出一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
[0127]
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如上所述的声学模型训练方法的操作。
[0128]
需要说明的是,由于本技术的电子设备包含上述声学模型训练方法的所有步骤,因此,电子设备也可以实现声学模型训练方法的所有方案,并具有同样的有益效果,在此不再赘述。
[0129]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

技术特征:


1.一种声学模型训练方法,其特征在于,所述声学模型训练方法包括:获取数据集中的第一音频特征图谱;获取原始声学模型;将所述第一实时音频特征图谱按照第一预设时间长度滑窗以获得第二实时音频特征图谱;分别将所述第一音频特征图谱以及所述第二音频特征图谱按照第二预设时间长度切分后得到多个第一分段小窗以及多个第二分段小窗;将多个所述第一分段小窗以及多个所述第二分段小窗输入所述原始声学模型进行计算以获取多个第一分段小窗预测结果以及多个第二分段小窗预测结果;对每一所述第一分段小窗预测结果以及所述第二分段小窗预测结果进行剥离以及拼接后获取整体预测结果;根据所述整体预测结果以及链式时序分类算法确定有效语音识别声学模型。2.如权利要求1所述的声学模型训练方法,其特征在于,所述获取数据集中的第一音频特征图谱的步骤包括:获取多个原始音频数据;对多个所述原始音频数据进行数据处理以获取包含多个音频特征图谱的数据集。3.如权利要求1所述的声学模型训练方法,其特征在于,所述将所述第一实时音频特征图谱按照第一预设时间长度滑窗以获得第二实时音频特征图谱的步骤之前还包括:将所述第一音频特征图谱数据进行随机时间平移以及倒谱均值方差归一化处理;将第一音频特征图谱更新为处理过的音频特征图谱。4.如权利要求1所述的声学模型训练方法,其特征在于,所述对每一所述第一分段小窗预测结果以及所述第二分段小窗预测结果进行剥离以及拼接后获取整体预测结果的步骤包括:将每一所述第一分段小窗预测结果前端以及每一所述第一分段小窗预测结果的后端均去掉第一预设时间长度的一半以获取多个第一实际预测语音小节;将每一所述第二分段小窗预测结果前端以及每一所述第二分段小窗预测结果的后端均去掉第一预设时间长度的一半以获取多个第二实际预测语音小节;将每一所述第一实际预测语音小节以及所述第二实际预测语音小节按照时间顺序拼接以获取整体预测结果。5.如权利要求1所述的声学模型训练方法,其特征在于,所述根据所述整体预测结果以及链式时序分类算法确定有效语音识别声学模型的步骤包括:将所述整体预测结果输入链式时序分类算法以获取概率值;当所述概率值处于第一可靠预设范围值时,确认当前训练有效;将原始声学模型更新为训练后的语音识别声学模型,并将训练后的语音识别声学模型作为有效语音识别声学模型。6.如权利要求5所述的声学模型训练方法,其特征在于,所述将所述整体预测结果输入链式时序分类算法以获取概率值的步骤之后还包括:当所述概率值不处于第一可靠预设范围值时,持续进行链式时序分类算法取概率值计算,并依据所述数据集重新对所述原始声学模型进行训练。
7.如权利要求1所述的声学模型训练方法,其特征在于,所述获取原始声学模型之前还包括:获取非流式识别的声学模型;将所述非流式识别的声学模型作为原始声学模型。8.一种语音识别算法,其特征在于,所述语音识别算法包括:获取第一实时音频特征图谱以及有效语音识别声学模型;将所述第一实时音频特征图谱按照第一预设时间长度滑窗以获得第二实时音频特征图谱;分别将所述第一音频特征图谱以及所述第二音频特征图谱按照第二预设时间长度切分后得到多个第一分段小窗以及多个第二分段小窗;将多个所述第一分段小窗以及多个所述第二分段小窗输入有效语音识别声学模型进行计算以获取多个第一分段小窗预测结果以及多个第二分段小窗预测结果;对每一所述第一分段小窗预测结果以及所述第二分段小窗预测结果进行剥离以及拼接后获取整体预测结果;其中,所述有效语音识别声学模型根据如权利要求1-7任一项所述的声学模型训练方法进行确定。9.一种存储介质,其特征在于,所述存储介质中存储有至少一可执行指令,所述可执行指令在电子设备上运行时,使得电子设备执行如权利要求1-7任意一项所述的声学模型训练方法的操作。10.一种电子设备,其特征在于,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7任意一项所述的声学模型训练方法的操作。

技术总结


本发明公开了一种声学模型训练方法、语音识别算法、存储介质及电子设备,所述声学模型训练方法包括获取数据集中的第一音频特征图谱;获取原始声学模型;将所述第一实时音频特征图谱按照第一预设时间长度滑窗以获得第二实时音频特征图谱;分别将所述第一音频特征图谱以及所述第二音频特征图谱按照第二预设时间长度切分后得到多个第一分段小窗以及多个第二分段小窗并将其输入所述原始声学模型进行计算以获取多个第一分段小窗预测结果以及多个第二分段小窗预测结果;对上述预测结果进行剥离以及拼接后获取整体预测结果;根据所述整体预测结果以及链式时序分类算法确定有效语音识别声学模型,以解决语音识别时切分时间片对识别准确率影响较大的技术问题。片对识别准确率影响较大的技术问题。片对识别准确率影响较大的技术问题。


技术研发人员:

吴才泽 纪亚萍 李俊杰

受保护的技术使用者:

深圳矽速科技有限公司

技术研发日:

2022.03.11

技术公布日:

2022/7/29

本文发布于:2024-09-21 03:26:25,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/19127.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   声学   小窗   模型
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议