豪萨语语音模型的训练方法、识别方法及装置与流程

1.本发明涉及语音识别技术领域，具体涉及豪萨语语音模型的训练方法、识别方法及装置。

背景技术：

2.语音识别是将人类的声音信号转化为文本的过程，是人工智能感知领域的重要技术之一。随着深度学习技术的发展，语音识别的精度和速度都取得了长远的进步。现如今，语音识别技术已经渗透到我们日常生活中的许多应用中，如智能音箱，导购机器人等产品。然而，现有的语音识别研究大多只关注于人数使用最多的语种，如英语和汉语，这导致了语音识别的应用只局限在较为发达的地区和城市。
3.世界上有6809种语言，大多是为使用人数很少的小语种，针对小语种的语音识别的研究是拉近不同语种人之间交流的关键桥梁。其中，豪萨语是属于亚非语系乍得语族，是非洲最重要的三大语言之一。对于语音识别模型而言，对其训练一般都需要几千小时的音频，而豪萨语作为小语种，所能够收集的样本数据较少。由于样本数据的缺乏，就会导致训练得到的语音识别模型的准确性较低，进而导致语音识别的准确率较低。

技术实现要素：

4.有鉴于此，本发明实施例提供了一种豪萨语语音模型的训练方法、识别方法及装置，以解决语音识别的准确率较低的问题。
5.根据第一方面，本发明实施例提供了一种豪萨语语音模型的训练方法，包括：
6.获取英语音频样本及其对应的第一文本样本，以及豪萨语音频样本及其对应的第二文本样本；
7.利用所述英语音频样本及其对应的第一文本样本对豪萨语语音模型进行训练，确定所述豪萨语语音模型中卷积单元的初始参数，以得到初始豪萨语语音模型，所述豪萨语语音模型包括所述卷积单元以及与所述卷积单元连接的全连接层；
8.利用所述豪萨语音频样本及其对应的第二文本样本对所述初始豪萨语语音模型进行训练，对所述初始参数以及所述全连接层的参数进行调整，以确定目标豪萨语语音模型。
9.本发明实施例提供的豪萨语语音模型的训练方法，由于豪萨语和英语的字符只差了4个字母，在对豪萨语语音模型进行训练时，先利用英语音频样本对豪萨语语音模型进行训练，得到卷积单元的初始参数，进而可以得到初始豪萨语语音模型；再利用豪萨语音频样本对初始豪萨语语音模型进行再次训练，进而对卷积单元以及全连接层的参数进行微调。即，通过迁移学习的方法既能够避免豪萨语音频样本不足的问题，又保证训练得到的豪萨语语音模型的准确性。
10.结合第一方面，在第一方面第一实施方式中，所述利用所述英语音频样本及其对应的第一文本样本对豪萨语语音模型进行训练，确定所述豪萨语语音模型中卷积单元及全
连接层的初始参数，包括：
11.将所述英语音频样本输入豪萨语语音模型中，利用所述卷积单元对所述英语音频样本进行特征提取，得到音频特征；
12.利用所述全连接层对所述音频特征进行分类，确定所述英语音频样本对应的第一预测文本；
13.基于所述第一预测文本以及所述第一文本样本的误差，对所述卷积单元的参数进行更新，以确定所述卷积单元的初始参数。
14.本发明实施例提供的豪萨语语音模型的训练方法，豪萨语语音模型包括卷积单元以及与卷积单元连接的全连接层，所得到的豪萨语语音模型也可以理解为全卷积网络。由于全卷积网络可以同时观测音频序列的历史信息和未来信息，不需要额外的特征来记录，所以网络模型的参数也可以设计比较小，需要消耗的计算资源也能够大大减少，能够在移动终端上运行。
15.结合第一方面第一实施方式，在第一方面第二实施方式中，所述卷积单元包括至少一个卷积子单元，所述卷积单元中的各个所述卷积子单元采用残差方式连接；其中，所述卷积子单元包括连接的深度可分离卷积层、归一化层以及激活函数层。
16.本发明实施例提供的豪萨语语音模型的训练方法，在各个卷积子单元中采用深度可分离卷积层进行特征提取，极大减少了计算量，提高了训练的效率。
17.结合第一方面，在第一方面第三实施方式中，所述利用所述豪萨语音频样本及其对应的第二文本样本对所述初始豪萨语语音模型进行训练，对所述初始参数以及所述全连接层的参数进行调整，以确定目标豪萨语语音模型，包括：
18.利用所述卷积单元的初始参数以及所述全连接层的预设参数，得到初始豪萨语语音模型；
19.将所述豪萨语音频样本输入所述初始豪萨语语音模型中，得到第二预测文本；
20.基于所述第二预测文本以及所述第二文本样本的误差，对所述初始参数以及全连接层的参数进行更新，以确定所述目标豪萨语语音模型。
21.本发明实施例提供的豪萨语语音模型的训练方法，在利用英语音频样本训练豪萨语语音模型之后，确定卷积单元的初始参数；再利用豪萨语音频文件对初始参数以及豪萨语语音模型中与语种相关的全连接层的参数进行训练，保证了训练得到豪萨语语音模型的准确性。
22.结合第一方面，或第一方面第一实施方式至第三实施方式，在第一方面第四实施方式中，所述目标豪萨语语音模型还包括与所述全连接层连接的语言模型，所述训练方法还包括：
23.固定调整后的初始参数以及所述全连接层的参数，并初始化所述语言模型的参数，得到预设豪萨语语音模型；
24.将所述豪萨语音频样本输入所述预设豪萨语语音模型中，得到第三预测文本；
25.基于所述第三预测文本以及所述第二文本样本的误差，对所述语言模型的参数进行调整，确定所述目标豪萨语语音模型。
26.本发明实施例提供的豪萨语语音模型的训练方法，在全连接层后还连接有语言模型，以对全连接层输出的预测文本进行进一步的优化，提高了该豪萨语语音模型的准确性。
27.结合第一方面第四实施方式，在第一方面第五实施方式中，所述将所述豪萨语音频样本输入所述预设豪萨语语音模型中，得到第三预测文本，包括：
28.利用所述语言模型中的语言单元对所述全连接层输出的预测文本进行字符概率统计；
29.基于所述字符概率统计的结果进行解码，得到所述第三预测文本。
30.本发明实施例提供的豪萨语语音模型的训练方法，由于豪萨语文本资源要比音频资源容易获取，利用语言模型来优化预测概率序列的解码过程，进一步提升了最终语音识别的预测结果。
31.根据第二方面，本发明实施例还提供了一种豪萨语语音的识别方法，包括：
32.获取目标豪萨语语音模型，所述目标豪萨语语音模型是根据本发明第一方面，或第一方面任一项实施方式中所述的豪萨语语音模型的训练方法训练得到的；
33.将目标豪萨语音频输入所述目标豪萨语语音模型中，确定所述目标豪萨语音频对应的目标豪萨语文本。
34.本发明实施例提供的豪萨语语音的识别方法，由于豪萨语和英语的字符只差了4个字母，在对豪萨语语音模型进行训练时，先利用英语音频样本对豪萨语语音模型进行训练，得到卷积单元的初始参数，进而可以得到初始豪萨语语音模型；再利用豪萨语音频样本对初始豪萨语语音模型进行再次训练，对卷积单元以及全连接层的参数进行微调。即，通过迁移学习的方法既能够避免豪萨语音频样本不足的问题，又保证训练得到的豪萨语语音模型的准确性。在豪萨语语音模型准确性的基础上，能够保证识别结果的准确性。
35.根据第三方面，本发明实施例还提供了一种豪萨语语音模型的训练装置，包括：
36.第一获取模块，用于获取英语音频样本及其对应的第一文本样本，以及豪萨语音频样本及其对应的第二文本样本；
37.第一训练模块，用于利用所述英语音频样本及其对应的第一文本样本对豪萨语语音模型进行训练，确定所述豪萨语语音模型中卷积单元的初始参数，以得到初始豪萨语语音模型，所述豪萨语语音模型包括卷积单元以及与所述卷积单元连接的全连接层；
38.第二训练模块，用于利用所述豪萨语音频样本及其对应的第二文本样本对所述初始豪萨语语音模型进行训练，对所述初始参数以及所述全连接层的参数进行调整，以确定目标豪萨语语音模型。
39.本发明实施例提供的豪萨语语音模型的训练装置，由于豪萨语和英语的字符只差了4个字母，在对豪萨语语音模型进行训练时，先利用英语音频样本对豪萨语语音模型进行训练，得到卷积单元的初始参数参数，进而可以得到初始豪萨语语音模型；再利用豪萨语音频样本对初始豪萨语语音模型进行再次训练，进而对卷积单元以及全连接层的参数进行微调。即，通过迁移学习的方法既能够避免豪萨语音频样本不足的问题，又保证训练得到的豪萨语语音模型的准确性。
40.根据第四方面，本发明实施例还提供了一种豪萨语语音的识别装置，包括：
41.第二获取模块，用于获取目标豪萨语语音模型，所述目标豪萨语语音模型是根据本发明第一方面，或第一方面任一项实施方式中所述的豪萨语语音模型的训练方法训练得到的；
42.识别模块，用于将目标豪萨语音频输入所述目标豪萨语语音模型中，确定所述目
标豪萨语音频对应的目标豪萨语文本。
43.本发明实施例提供的豪萨语语音的识别装置，在目标豪萨语语音模型准确性的基础上，能够保证识别结果的准确性。
44.根据第五方面，本发明实施例提供了一种电子设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行第一方面或者第一方面的任意一种实施方式中所述的豪萨语语音模型的训练方法，或第二方面所述的豪萨语语音的识别方法。
45.根据第六方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行第一方面或者第一方面的任意一种实施方式中所述的豪萨语语音模型的训练方法，或第二方面所述的豪萨语语音的识别方法。
附图说明
46.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
47.图1是根据本发明实施例的豪萨语语音模型的训练方法的流程图；
48.图2是根据本发明实施例的豪萨语语音模型的训练方法的流程图；
49.图3是根据本发明实施例的豪萨语语音模型的训练方法的流程图；
50.图4是根据本发明实施例的豪萨语语音模型的训练方法的处理架构图；
51.图5是根据本发明实施例的豪萨语语音的识别方法的流程图；
52.图6是根据本发明实施例的豪萨语语音模型的训练装置的结构框图；
53.图7是根据本发明实施例的豪萨语语音的识别装置的结构框图；
54.图8是本发明实施例提供的电子设备的硬件结构示意图。
具体实施方式
55.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
56.根据本发明实施例，提供了一种豪萨语语音模型的训练方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
57.在本实施例中提供了一种豪萨语语音模型的训练方法，可用于电子设备，如电脑、移动终端等，图1是根据本发明实施例的豪萨语语音模型的训练方法的流程图，如图1所示，该流程包括如下步骤：
58.s11，获取英语音频样本及其对应的第一文本样本，以及豪萨语音频样本及其对应
的第二文本样本。
59.其中，豪萨语的官方正字法采用称作博卡字母的拉丁字母，包含30个字母，区分大小写。其中，有26个字母和英文字母一致，此次之外还包括小写。其中，有26个字母和英文字母一致，此次之外还包括四个独特的字母。因此，可以利用在对豪萨语语音模型的训练过程中，可以结合英语音频样本进行。英语音频样本与第一文本样本是一一对应的，且豪萨语音频样本与第二文本样本也是一一对应的。
60.电子设备可以是外界获取到英语音频样本及其对应的第一文本样本，以及豪萨语音频样本及其对应的第二文本样本，也可以是存储在电子设备中的，亦或是电子设备先获取到原始音频文件，通过对原始音频文件及其对应的原始文本文件进行处理后得到音频样本及其对应的文本样本的。
61.以电子设备处理得到豪萨语音频样本及其对应的第二文本样本为例。电子设备在对原始文本进行处理时，先遍历原始文本中的每个字符，去除不属于这30个字母的字符，去除多余的空格和换行符。对于文本中有阿拉伯数字或者缩写单词的，要转换为对应的完整的豪萨语单词。最后，还需要将文本中所有的字符转换为小写。在本发明实施例所述的豪萨语语音模型中，不区分字母的大小写。
62.进一步地，电子设备在对原始音频进行处理时，为了方便训练豪萨语语音模型，音频的长度需要先做一定的约束。其中，可以根据日常交流习惯，一句话的长度大概在10秒左右。例如，电子设备可以采用webrtc库中的vad工具，对所有音频进行端点检测，将连续的音频切分为更小的只包含一句话的音频文件，再对每一个音频都进行时长统计，将小于1秒和大于20秒的音频去除。其次，音频中有可能存在较长的静音片段，带来冗余的信息。例如，可以采用librosa库中的静音切除工具，将音频中的静音切除，只保留有人声的音频片段。
63.电子设备在对音频和相应的文本处理完成之后，需要将音频及文本进行对齐处理。其中，音频是输入信号，文本是用于计算损失的监督信号。因此，每个音频文件和文本需要确保一一对应，才能保证语音模型训练的正常进行。如果音频的内容和文本的内容存在至少一个发音或者一个单词不对应，需要将这个音频和文本一起剔除。检验时还需要注意这四个豪萨语特殊字母的书写，避免和英文字母中的b，d，k，y混淆。
64.s12，利用英语音频样本及其对应的第一文本样本对豪萨语语音模型进行训练，确定豪萨语语音模型中卷积单元的初始参数，以得到初始豪萨语语音模型。
65.其中，所述豪萨语语音模型包括卷积单元以及与卷积单元连接的全连接层。
66.如上文所述，豪萨语与英语存在相似之处，区别在于豪萨语中的4个特殊字符。基于此，电子设备先利用英语音频样本及其对应的第一文本样本对豪萨语语音模型进行训练，确定豪萨语语音模型中卷积单元的初始参数。由于卷积单元是用于进行特征提取的，并不涉及到语种的区别，因此可以直接用英语音频样本及其对应的第一文本样本对豪萨语语音模型进行训练，将训练得到的卷积单元的参数作为豪萨语语音模型中卷积单元的初始参数。
67.对于卷积单元，其可以包括多个卷积层，或在卷积层的基础上再结合激活函数层等等。在此对卷积单元的具体结构并不做任何限制，具体可以根据实际情况进行相应的设置，只需保证其能够实现特征提取即可。
68.其中，所述的初始豪萨语语音模型的参数包括卷积单元的初始参数以及全连接层的预设参数。由于全连接层是用于字符分类的，与语种相关，因此，英语音频样本训练得到
的全连接参数不适合用作全连接层的初始参数。在本实施例中，全连接层的参数可以是采用随机初始化的方式设置的预设参数，使得设置的预设参数满足正态分布或者均匀分布。
69.s13，利用豪萨语音频样本及其对应的第二文本样本对初始豪萨语语音模型进行训练，对初始参数以及所述全连接层的参数进行调整，以确定目标豪萨语语音模型。
70.所述的豪萨语语音模型包括卷积单元以及与卷积单元连接的全连接层，即，在豪萨语语音模型可以划分为卷积单元以及全连接层。其中，全连接层是用于对字符进行分类，因此，对于全连接层参数的确定需要依赖于豪萨语音频样本及其对应的第二文本样本。
71.电子设备在利用英语音频样本及其对应的第一文本样本对豪萨语语音模型进行训练，确定出卷积单元的初始参数之后。电子设备利用卷积单元的初始参数以及全连接层的预设参数得到模型称之为初始豪萨语语音模型。
72.电子设备在得到初始豪萨语语音模型的基础上，利用豪萨语音频样本及其对应的第二文本样本对初始豪萨语语音模型进行训练，对初始豪萨语语音模型的参数(所述的参数包括卷积单元的初始参数以及全连接层的参数)进行更新，以最终确定目标豪萨语语音模型。
73.本实施例提供的豪萨语语音模型的训练方法，由于豪萨语和英语的字符只差了4个字母，在对豪萨语语音模型进行训练时，先利用英语音频样本对豪萨语语音模型进行训练，得到卷积单元的初始参数，进而可以得到初始豪萨语语音模型；再利用豪萨语音频样本对初始豪萨语语音模型进行再次训练，进而对卷积单元以及全连接层的参数进行微调。即，通过迁移学习的方法既能够避免豪萨语音频样本不足的问题，又保证训练得到的豪萨语语音模型的准确性。
74.在本实施例中提供了一种豪萨语语音模型的训练方法，可用于电子设备，如电脑、移动终端等，图2是根据本发明实施例的豪萨语语音模型的训练方法的流程图，如图2所示，该流程包括如下步骤：
75.s21，获取英语音频样本及其对应的第一文本样本，以及豪萨语音频样本及其对应的第二文本样本。
76.详细请参见图1所示实施例的s11，在此不再赘述。
77.s22，利用英语音频样本及其对应的第一文本样本对豪萨语语音模型进行训练，确定豪萨语语音模型中卷积单元的初始参数，以得到初始豪萨语语音模型。
78.其中，所述豪萨语语音模型包括卷积单元以及与卷积单元连接的全连接层。
79.具体地，上述s22可以包括如下步骤：
80.s221，将英语音频样本输入豪萨语语音模型中，利用卷积单元对英语音频样本进行特征提取，得到音频特征。
81.电子设备将英语音频样本输入豪萨语语音模型中，豪萨语语音模型中的卷积单元对英语音频样本进行特征提取，得到音频特征。
82.在本实施例的一些可选实施方式中，所述卷积单元包括至少一个卷积子单元，所述卷积单元中的各个所述卷积子单元采用残差方式连接；其中，所述卷积子单元包括连接的深度可分离卷积层、归一化层以及激活函数层。
83.具体地，所述的卷积单元是基于以为的深度可分离卷积搭建的。对于各个卷积单元而言，其包括一个深度可分离卷积层，一个批处理归一化层以及一个relu非线性激活函
数层。每个卷积单元之间采用残差连接的方式堆叠，多个堆叠而成的卷积子单元组成了豪萨语语音识别模型中用于特征提取的卷积单元，完成包含复杂信息的高维特征的提取。
84.在各个卷积子单元中采用深度可分离卷积层进行特征提取，极大减少了计算量，提高了训练的效率。
85.s222，利用全连接层对音频特征进行分类，确定英语音频样本对应的第一预测文本。
86.卷积单元对输入的英语音频样本进行音频特征提取之后，将提取出的音频特征输入全连接层，并利用全连接层对音频特征进行分类，输出第一预测文本。即，电子设备将卷积单元输出的高维特征输入到一个全连接层进行字符的分类预测，输出为预先定义的语种相关的字母的概率，对每个预测的结果取最大概率的字母进行拼接就可以得到第一预测文本。
87.s223，基于第一预测文本以及第一文本样本的误差，对卷积单元的参数进行更新，以确定卷积单元的初始参数。
88.电子设备在得到第一预测文本之后，利用第一预测文本与第一文本样本进行损失函数的计算，并基于损失函数的计算结果对卷积单元的参数进行更新，经过不断的学习调整，就可以确定豪萨语语音模型中卷积单元的初始参数。例如，可以采用ctc损失函数。当然，也可以采用其他损失函数，本发明实施例对此并不做任何限制。
89.经过上述训练得到的豪萨语语音模型基于字符建模的，可以摆脱发音字典，进行端到端的训练。
90.s23，利用豪萨语音频样本及其对应的第二文本样本对初始豪萨语语音模型进行训练，对初始参数以及全连接层的参数进行调整，以确定目标豪萨语语音模型。
91.具体地，上述s23可以包括如下步骤：
92.s231，利用卷积单元的初始参数以及全连接层的预设参数，得到初始豪萨语语音模型。
93.电子设备在利用英语音频样本对豪萨语语音模型进行训练之后，其得到的卷积单元的参数就可以直接用作豪萨语语音模型中卷积单元的初始参数。对于豪萨语语音模型而言，除了包括卷积单元之外，还包括有全连接层。在此可以对全连接层的参数进行初始化，即，将全连接层的参数设置为预设参数，并将上述s22训练得到的卷积单元的参数作为豪萨语语音模型中卷积单元的初始参数，这两种参数设置完成之后，就可以得到初始豪萨语语音模型。
94.s232，将豪萨语音频样本输入初始豪萨语语音模型中，得到第二预测文本。
95.由于与卷积单元连接的全连接层是与语种相关的，因此，对全连接层参数的设置需要用豪萨语音频文件及其对应的第二文本样本进行训练。具体地，在确定出初始豪萨语语音模型之后，电子设备将豪萨语音频样本输入域初始豪萨语语音模型中，全连接层输出第二预测文本。
96.s233，基于第二预测文本以及第二文本样本的误差，对初始参数以及全连接层的参数进行更新，以确定目标豪萨语语音模型。
97.电子设备计算第二预测文本以及第二文本样本的损失函数，对初始豪萨语语音模型中卷积单元的初始参数以及全连接的参数进行更新。经过多次训练及参数更新，就可以
确定卷积单元以及全连接层的参数。至此，卷积单元的参数以及全连接层的参数确定，在此基础上就可以确定目标豪萨语语音模型。
98.本实施例提供的豪萨语语音模型的训练方法，豪萨语语音模型包括卷积单元以及与卷积单元连接的全连接层，所得到的豪萨语语音模型也可以理解为全卷积网络。由于全卷积网络可以同时观测音频序列的历史信息和未来信息，不需要额外的特征来记录，所以网络模型的参数也可以设计比较小，需要消耗的计算资源也能够大大减少，能够在移动终端上运行。
99.在本实施例中提供了一种豪萨语语音模型的训练方法，可用于电子设备，如电脑、移动终端等，图3是根据本发明实施例的豪萨语语音模型的训练方法的流程图，如图3所示，该流程包括如下步骤：
100.s31，获取英语音频样本及其对应的第一文本样本，以及豪萨语音频样本及其对应的第二文本样本。
101.详细请参见图2所示实施例的s21，在此不再赘述。
102.s32，利用英语音频样本及其对应的第一文本样本对豪萨语语音模型进行训练，确定豪萨语语音模型中卷积单元的初始参数，以得到初始豪萨与语音模型。
103.其中，所述豪萨语语音模型包括卷积单元以及与卷积单元连接的全连接层。
104.详细请参见图2所示实施例的s22，在此不再赘述。
105.s33，利用豪萨语音频样本及其对应的第二文本样本对初始豪萨语语音模型进行训练，对初始参数以及全连接层的参数进行调整，以确定目标豪萨语语音模型。
106.详细请参见图2所示实施例的s23，在此不再赘述。
107.s34，固定调整后的初始参数以及全连接层的参数，并初始化语言模型的参数，得到预设豪萨语语音模型。
108.为进一步提高训练得到的豪萨语语音模型的准确性，本实施例中所述的目标豪萨语语音模型除了包括上述s33中所述的卷积单元以及全连接层之外，还包括有语言模型。具体地，在全连接层之后连接有语言模型。即，所述的目标豪萨语语音模型包括卷积单元、全连接层以及语言模型。
109.在本实施例中，目标豪萨语语音模型中卷积单元以及全连接层的参数可以通过上述s33训练得到，语言模型的参数可以通过初始化设置得到。
110.在下述步骤中，通过对语言模型进行训练，以确定语言模型中的参数，进而最终确定出豪萨语音模型。
111.s35，将豪萨语音频样本输入预设豪萨语语音模型中，得到第三预测文本。
112.具体地，上述s35可以包括如下步骤：
113.s351，利用语言模型中的语言单元对全连接层输出的预测文本进行字符概率统计。
114.电子设备将豪萨语音频样本输入豪萨语语音模型中，从豪萨语语音模型的全连接层中输出预测文本，再利用语言模型中的语言单元对其进行字符概率统计。
115.其中，所述的语言单元可以采用n
–
gam语言模型，也可以采用其他模型，在此并不做任何限制，只需保证该语言单元能够对全连接层输出的预测文本进行字符概率统计即可。
116.s352，基于字符概率统计的结果进行解码，得到第三预测文本。
117.在语言单元后还连接有解码单元，用于对语言单元输出的字符概率统计的结果进行解码，得到第三预测文本。
118.由于豪萨语文本资源要比音频资源容易获取，利用语言模型来优化预测概率序列的解码过程，进一步提升了最终语音识别的预测结果。
119.s36，基于第三预测文本以及第二文本样本的误差，对语言模型的参数进行调整，确定目标豪萨语语音模型。
120.电子设备在得到第三预测文本之后，利用第三预测文本与第二文本样本进行损失函数的计算，并基于计算结果调整语言模型的参数。通过不断的训练及参数调整，确定语言模型中的参数，进而最终确定目标豪萨语语音模型。
121.作为本实施例的一种可选实施方式，电子设备利用n-gam语言模型来进一步提升豪萨语语音识别的准确率。具体地，将全连接层输出的预测文本进行大小为4的滑动窗口操作，形成了长度是4的字节片段序列，再统计每个字节片段序列出现的频度。在语音识别过程中，将n-gam语言模型输出的字符概率序列进行beam search解码，解码过程中引入语言单元中统计好的字节片段频度来优化搜索过程，进一步提升识别结果的准确性。
122.本实施例提供的豪萨语语音模型的训练方法，在全连接层后还连接有语言模型，以对全连接层输出的预测文本进行进一步的优化，提高了该豪萨语语音模型的准确性。
123.作为本实施例的一种具体实施方式，所述的豪萨语语音模型的训练可以采用如图4所述的架构表示。具体地，训练过程可以划分为三个方面的处理，分别为数据预处理，以得到音频样本及其对应的文本样本；声学模型，包括卷积单元以及与卷积单元连接的全连接层，对该模型的训练分为两个部分进行处理，即英语数据集预训练确定卷积单元的初始参数、豪萨语数据集迁移学习确定卷积单元以及全连接层的参数；语言模型，包括语言单元及解码单元。
124.根据本发明实施例，提供了一种豪萨语语音识别方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
125.在本实施例中提供了一种豪萨语语音识别方法，可用于电子设备，如电脑、移动终端等，图5是根据本发明实施例的豪萨语语音识别方法的流程图，如图5所示，该流程包括如下步骤：
126.s41，获取目标豪萨语语音模型。
127.其中，所述目标豪萨语语音模型是根据实施例中所述的豪萨语语音模型的训练方法训练得到的。
128.详细请参见上文实施例中所述的豪萨语语音模型的训练方法的描述，在此不再赘述。
129.s42，将目标豪萨语音频输入目标豪萨语语音模型中，确定目标豪萨语音频对应的目标豪萨语文本。
130.电子设备将目标豪萨语音频输入至目标豪萨语语音模型中，经过该模型的处理，即可输出目标豪萨语文本。
131.本实施例提供的豪萨语语音的识别方法，由于豪萨语和英语的字符只差了4个字母，在对豪萨语语音模型进行训练时，先利用英语音频样本对豪萨语语音模型进行训练，得到卷积单元的初始参数，进而可以得到初始豪萨语语音模型；再利用豪萨语音频样本对初始豪萨语语音模型进行再次训练，进而对卷积单元以及全连接层的参数进行微调。即，通过迁移学习的方法既能够避免豪萨语音频样本不足的问题，又保证训练得到的豪萨语语音模型的准确性。在豪萨语语音模型准确性的基础上，能够保证识别结果的准确性。
132.在本实施例中还提供了一种豪萨语语音模型的训练装置，进一步地，本实施例中还提供了一种豪萨语语音的识别装置。该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。
133.本实施例提供一种豪萨语语音模型的训练装置，如图6所示，包括：
134.第一获取模块51，用于获取英语音频样本及其对应的第一文本样本，以及豪萨语音频样本及其对应的第二文本样本；
135.第一训练模块52，用于利用所述英语音频样本及其对应的第一文本样本对豪萨语语音模型进行训练，确定所述豪萨语语音模型中卷积单元的初始参数，以得到初始豪萨语语音模型，所述豪萨语语音模型包括卷积单元以及与所述卷积单元连接的全连接层；
136.第二训练模块53，用于利用所述豪萨语音频样本及其对应的第二文本样本对所述初始豪萨语语音模型进行训练，对所述初始参数以及所述全连接层的参数进行调整，以确定目标豪萨语语音模型。
137.本实施例提供的豪萨语语音模型的训练装置，由于豪萨语和英语的字符只差了4个字母，在对豪萨语语音模型进行训练时，先利用英语音频样本对豪萨语语音模型进行训练，得到卷积单元的初始参数，进而可以得到初始豪萨语语音模型；再利用豪萨语音频样本对初始豪萨语语音模型进行再次训练，进而对卷积单元以及全连接层的参数进行微调。即，通过迁移学习的方法既能够避免豪萨语音频样本不足的问题，又保证训练得到的豪萨语语音模型的准确性。
138.本实施例还提供了一种豪萨语语音的识别装置，如图7所示，包括：
139.第二获取模块61，用于获取目标豪萨语语音模型，所述目标豪萨语语音模型是根据本发明第一方面，或第一方面任一项实施方式中所述的豪萨语语音模型的训练方法训练得到的；
140.识别模块62，用于将目标豪萨语音频输入所述目标豪萨语语音模型中，确定所述目标豪萨语音频对应的目标豪萨语文本。
141.本实施例提供的豪萨语语音的识别装置，在目标豪萨语语音模型准确性的基础上，能够保证识别结果的准确性。
142.本实施例中的豪萨语语音模型的训练装置，或豪萨语语音的识别装置是以功能单元的形式来呈现，这里的单元是指asic电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。
143.上述各个模块的更进一步的功能描述与上述对应实施例相同，在此不再赘述。
144.本发明实施例还提供一种电子设备，具有上述图6所示的豪萨语语音模型的训练
装置，或上述图7所示的豪萨语语音的识别装置。
145.请参阅图8，图8是本发明可选实施例提供的一种电子设备的结构示意图，如图8所示，该电子设备可以包括：至少一个处理器71，例如cpu(central processing unit，中央处理器)，至少一个通信接口73，存储器74，至少一个通信总线72。其中，通信总线72用于实现这些组件之间的连接通信。其中，通信接口73可以包括显示屏(display)、键盘(keyboard)，可选通信接口73还可以包括标准的有线接口、无线接口。存储器74可以是高速ram存储器(random access memory，易挥发性随机存取存储器)，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器74可选的还可以是至少一个位于远离前述处理器71的存储装置。其中处理器71可以结合图6或图7所描述的装置，存储器74中存储应用程序，且处理器71调用存储器74中存储的程序代码，以用于执行上述任一方法步骤。
146.其中，通信总线72可以是外设部件互连标准(peripheral component interconnect，简称pci)总线或扩展工业标准结构(extended industry standard architecture，简称eisa)总线等。通信总线72可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
147.其中，存储器74可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：ram)；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)，硬盘(英文：hard disk drive，缩写：hdd)或固态硬盘(英文：solid-state drive，缩写：ssd)；存储器74还可以包括上述种类的存储器的组合。
148.其中，处理器71可以是中央处理器(英文：central processing unit，缩写：cpu)，网络处理器(英文：network processor，缩写：np)或者cpu和np的组合。
149.其中，处理器71还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文：application-specific integrated circuit，缩写：asic)，可编程逻辑器件(英文：programmable logic device，缩写：pld)或其组合。上述pld可以是复杂可编程逻辑器件(英文：complex programmable logic device，缩写：cpld)，现场可编程逻辑门阵列(英文：field-programmable gate array，缩写：fpga)，通用阵列逻辑(英文：generic array logic,缩写：gal)或其任意组合。
150.可选地，存储器74还用于存储程序指令。处理器71可以调用程序指令，实现如本技术图1至3实施例中所示的豪萨语语音模型的训练方法，或图4实施例中所示的豪萨语语音的识别方法。
151.本发明实施例还提供了一种非暂态计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的豪萨语语音模型的训练方法，或豪萨语语音的识别方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，rom)、随机存储记忆体(random access memory，ram)、快闪存储器(flash memory)、硬盘(hard disk drive，缩写：hdd)或固态硬盘(solid-state drive，ssd)等；所述存储介质还可以包括上述种类的存储器的组合。
152.虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所
限定的范围之内。

技术特征：

1.一种豪萨语语音模型的训练方法，其特征在于，包括：获取英语音频样本及其对应的第一文本样本，以及豪萨语音频样本及其对应的第二文本样本；利用所述英语音频样本及其对应的第一文本样本对豪萨语语音模型进行训练，确定所述豪萨语语音模型中卷积单元的初始参数，以得到初始豪萨语语音模型，所述豪萨语语音模型包括所述卷积单元以及与所述卷积单元连接的全连接层；利用所述豪萨语音频样本及其对应的第二文本样本对所述初始豪萨语语音模型进行训练，对所述初始参数以及所述全连接层的参数进行调整，以确定目标豪萨语语音模型。2.根据权利要求1所述的训练方法，其特征在于，所述利用所述英语音频样本及其对应的第一文本样本对豪萨语语音模型进行训练，确定所述豪萨语语音模型中卷积单元的初始参数，包括：将所述英语音频样本输入豪萨语语音模型中，利用所述卷积单元对所述英语音频样本进行特征提取，得到音频特征；利用所述全连接层对所述音频特征进行分类，确定所述英语音频样本对应的第一预测文本；基于所述第一预测文本以及所述第一文本样本的误差，对所述卷积单元的参数进行更新，以确定所述卷积单元的初始参数。3.根据权利要求2所述的训练方法，其特征在于，所述卷积单元包括至少一个卷积子单元，所述卷积单元中的各个所述卷积子单元采用残差方式连接；其中，所述卷积子单元包括连接的深度可分离卷积层、归一化层以及激活函数层。4.根据权利要求1所述的训练方法，其特征在于，所述利用所述豪萨语音频样本及其对应的第二文本样本对所述初始豪萨语语音模型进行训练，对所述初始参数以及所述全连接层的参数进行调整，以确定目标豪萨语语音模型，包括：利用所述卷积单元的初始参数以及所述全连接层的预设参数，得到初始豪萨语语音模型；将所述豪萨语音频样本输入所述初始豪萨语语音模型中，得到第二预测文本；基于所述第二预测文本以及所述第二文本样本的误差，对所述初始参数以及全连接层的参数进行更新，以确定所述目标豪萨语语音模型。5.根据权利要求1-4中任一项所述训练方法，其特征在于，所述目标豪萨语语音模型还包括与所述全连接层连接的语言模型，所述训练方法还包括：固定调整后的初始参数以及所述全连接层的参数，并初始化所述语言模型的参数，得到预设豪萨语语音模型；将所述豪萨语音频样本输入所述预设豪萨语语音模型中，得到第三预测文本；基于所述第三预测文本以及所述第二文本样本的误差，对所述语言模型的参数进行调整，确定所述目标豪萨语语音模型。6.根据权利要求5所述的训练方法，其特征在于，所述将所述豪萨语音频样本输入所述预设豪萨语语音模型中，得到第三预测文本，包括：利用所述语言模型中的语言单元对所述全连接层输出的预测文本进行字符概率统计；基于所述字符概率统计的结果进行解码，得到所述第三预测文本。
7.一种豪萨语语音的识别方法，其特征在于，包括：获取目标豪萨语语音模型，所述目标豪萨语语音模型是根据权利要求1-6中任一项所述的豪萨语语音模型的训练方法训练得到的；将目标豪萨语音频输入所述目标豪萨语语音模型中，确定所述目标豪萨语音频对应的目标豪萨语文本。8.一种豪萨语语音模型的训练装置，其特征在于，包括：第一获取模块，用于获取英语音频样本及其对应的第一文本样本，以及豪萨语音频样本及其对应的第二文本样本；第一训练模块，用于利用所述英语音频样本及其对应的第一文本样本对豪萨语语音模型进行训练，确定所述豪萨语语音模型中卷积单元的初始参数，以得到初始豪萨语语音模型，所述豪萨语语音模型包括卷积单元以及与所述卷积单元连接的全连接层；第二训练模块，用于利用所述豪萨语音频样本及其对应的第二文本样本对所述初始豪萨语语音模型进行训练，对所述初始参数以及所述全连接层的参数进行调整，以确定目标豪萨语语音模型。9.一种豪萨语语音的识别装置，其特征在于，包括：第二获取模块，用于获取目标豪萨语语音模型，所述目标豪萨语语音模型是根据权利要求1-6中任一项所述的豪萨语语音模型的训练方法训练得到的；识别模块，用于将目标豪萨语音频输入所述目标豪萨语语音模型中，确定所述目标豪萨语音频对应的目标豪萨语文本。10.一种电子设备，其特征在于，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1-6中任一项所述的豪萨语语音模型的训练方法，或权利要求7所述的豪萨语语音的识别方法。11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使计算机执行权利要求1-6中任一项所述的豪萨语语音模型的训练方法，或权利要求7所述的豪萨语语音的识别方法。

技术总结

本发明涉及语音识别技术领域，具体涉及豪萨语语音模型的训练方法、识别方法及装置，所述训练方法包括获取英语音频样本及其对应的第一文本样本，以及豪萨语音频样本及其对应的第二文本样本；利用英语音频样本及其对应的第一文本样本对豪萨语语音模型进行训练，确定豪萨语语音模型中卷积单元的初始参数，以得到初始豪萨语语音模型，所述豪萨语语音模型包括卷积单元以及与卷积单元连接的全连接层；利用豪萨语音频样本及其对应的第二文本样本对初始豪萨语语音模型进行训练，对初始参数以及全连接层的参数进行调整，以确定目标豪萨语语音模型。通过迁移学习的方法既能够避免豪萨语音频样本不足的问题，又保证训练得到的豪萨语语音模型的准确性。模型的准确性。模型的准确性。