语种识别方法、装置、电子设备和计算机可读存储介质与流程

1.本技术涉及语种识别技术领域，特别是涉及一种语种识别方法、装置、电子设备和计算机可读存储介质。

背景技术：

2.语种识别也称语种辨识，是指由机器自动判断一个语音片段所属某个语言种类的过程。目前，主流的语种识别方法为tv(total varbility)系统等，该方法利用训练语料训练得到覆盖各种环境和信道的全变量空间，将待测语音映射成维度固定统一的语种模型向量，然后和预置的多个待确定的语种模型向量进行相似度比较，从而确定待测语音的语种类别。
3.但是，主流的语种识别技术主要是针对特定语种情况(例如单一语种)的音频数据，面对其他语种情况的音频数据时，识别性能可能发生较大抖动，甚至无法正常运行。

技术实现要素：

4.本技术主要解决的技术问题是提供一种语种识别方法、装置、电子设备和计算机可读存储介质，能够准确地对不同语种情况下的音频进行语种识别。
5.为解决上述技术问题，本技术采用的一个技术方案是：提供一种语种识别方法，该方法包括：利用第一语种识别网络对待识别音频进行语种识别，得到初始语种识别结果；检测初始语种识别结果是否满足预设识别要求；响应于初始语种识别结果不满足预设识别要求，利用第二语种识别网络对待识别音频进行语种识别，得到目标语种识别结果；其中，第一语种识别网络对第一语种情况的音频的识别能力强于第二语种识别网络，第二语种识别网络对第二语种情况的音频的识别能力强于第一语种识别网络。
6.其中，第一语种情况为单语种，第二语种情况为多语种，第一语种识别网络能够识别出单个语种，第二语种识别网络能够识别出至少一个语种。
7.其中，初始语种识别结果包括待识别音频中存在的一初始语种以及初始语种对应的置信分数；预设识别要求包括置信分数满足预设分数要求。
8.其中，第二语种识别网络为隐马尔可夫模型，隐马尔可夫模型由若干高斯混合模型拼接而成，每个高斯混合模型用于识别得到一个语种。
9.其中，语种识别方法还包括以下对第一语种识别网络的训练步骤：获取第一样本音频和第二样本音频；其中，第一样本音频标注有第一样本音频中存在的真实语种信息，第二样本音频未进行标注；对第二样本音频进行随机屏蔽处理，得到第三样本音频；利用第一语种识别网络对第一样本音频、第二样本音频和第三样本音频进行语种识别，对应得到第一样本语种识别结果、第二样本语种识别结果和第三样本语种识别结果；至少基于第一样本语种识别结果与真实语种信息之间的第一差异、第二样本语种识别结果和第三样本语种识别结果之间的第二差异，调整第一语种识别网络的网络参数。
10.其中，第一样本音频有若干个，至少基于第一样本语种识别结果与真实语种信息
之间的第一差异、第二样本语种识别结果和第三样本语种识别结果之间的第二差异，调整第一语种识别网络的网络参数，包括：获取当前第一样本音频的表征特征与各正样本音频的表征特征的第一平均距离以及当前第一样本音频的表征特征与各负样本音频的表征特征的第二平均距离；其中，正样本音频为与当前第一样本音频的语种相同的第一样本音频，负样本音频为与当前第一样本音频的语种不同的第一样本音频，表征特征为第一语种识别网络对相应的第一样本音频进行语种识别过程中提取得到的；基于第一差异、第二差异以及第一平均距离和第二平均距离之间的差异，调整第一语种识别网络的网络参数。
11.其中，在利用第一语种识别网络对待识别音频进行语种识别，得到初始语种识别结果之前，语种识别方法还包括：对待识别音频进行特征提取，得到待识别音频的目标声学特征；或者，对初始音频进行特征提取，得到初始音频的目标声学特征，从初始音频的目标声学特征中，提取预设时间长度的目标声学特征，作为待识别音频的目标声学特征；利用第一语种识别网络对待识别音频进行语种识别，得到初始语种识别结果，包括：利用第一语种识别网络对目标声学特征进行语种识别，得到初始语种识别结果；利用第二语种识别网络对待识别音频进行语种识别，得到目标语种识别结果，包括：利用第二语种识别网络对待目标声学特征进行语种识别，得到目标语种识别结果。
12.其中，对初始音频进行特征提取，得到初始音频的目标声学特征，或对待识别音频进行特征提取，得到待识别音频的目标声学特征，包括：获取待提取数据的移位差分倒谱特征；利用特征提取网络对待提取数据的移位差分倒谱特征进行特征提取，得到瓶颈特征，将瓶颈特征作为待提取数据的目标声学特征；其中，待提取数据为初始音频或待识别音频。
13.其中，特征提取网络包括依序连接的深度神经网络层和瓶颈网络层，瓶颈特征是由瓶颈网络层输出的；和/或，特征提取网络在训练阶段包括输出层，输出层用于对特征提取网络提取得到的瓶颈特征进行预测，得到对应的语种识别结果；语种识别方法还包括：获取第四样本音频和第五样本音频；其中，第四样本音频标注有第四样本音频中存在的真实语种信息，第五样本音频未进行标注；对第五样本音频进行随机屏蔽处理，得到第六样本音频；利用训练阶段的特征提取网络分别对第四样本音频、第五样本音频和第六样本音频进行处理，对应得到第四样本语种识别结果、第五样本语种识别结果和第六样本语种识别结果；基于第四样本语种识别结果和真实语种信息之间的差异，以及第五样本语种识别结果和第六样本语种识别结果之间的差异，调整特征提取网络的网络参数；其中，在特征提取网络训练完成后，剔除输出层。
14.其中，目标语种识别结果包括待识别音频中存在的至少一个目标语种以及各目标语种在待识别音频中对应的时间区间；和/或，待识别音频为初始音频中预设时间长度的语音片段，初始音频包括对应不同时间段的若干待识别音频；在利用第二语种识别网络对待识别音频进行语种识别，得到目标语种识别结果之后，语种识别方法还包括：结合初始音频包含的各待识别音频的目标语种识别结果，得到初始音频的语种识别结果。
15.为解决上述技术问题，本技术采用的另一个技术方案是：提供一种语种识别装置，该装置包括：第一识别模块、检测模块和第二识别模块；第一识别模块用于利用第一语种识别网络对待识别音频进行语种识别，得到初始语种识别结果；检测模块用于检测初始语种识别结果是否满足预设识别要求；第二识别模块用于响应于初始语种识别结果不满足预设识别要求，利用第二语种识别网络对待识别音频进行语种识别，得到目标语种识别结果；其
中，第一语种识别网络对第一语种情况的音频的识别能力强于第二语种识别网络，第二语种识别网络对第二语种情况的音频的识别能力强于第一语种识别网络。
16.为解决上述技术问题，本技术采用的另一个技术方案是：提供一种电子设备，该电子设备包括存储器和处理器，存储器存储有程序指令，处理器用于执行程序指令以实现上述的语种识别方法。
17.为解决上述技术问题，本技术采用的另一个技术方案是：提供一种计算机可读存储介质，该计算机可读存储介质用于存储程序指令，程序指令能够被执行以实现上述的语种识别方法。
18.上述实施方式，在利用第一语种识别网络对待识别音频进行语种识别得到的初始语种识别结果不满足预设识别要求时，利用第二语种识别网络对待识别音频进行语种识别，得到目标语种识别结果。故，在初始语种识别结果不满足预设识别要求时，利用第二语种识别网络再次对待识别音频进行语种识别，能够提高语种识别的准确性；另外，由于第一语种识别网络对第一语种情况的音频的识别能力强于第二语种识别网络，第二语种识别网络对第二语种情况的音频的识别能力强于第一语种识别网络，所以通过结合第一语种识别网络和第二语种识别网络，能够对不同语种情况下的音频进行准确地语种识别。
附图说明
19.图1是本技术提供的语种识别方法一实施例的流程示意图；
20.图2是本技术提供的第一语种识别网络一实施例的结构示意图；
21.图3是本技术提供的特征提取网络一实施例的结构示意图；
22.图4是本技术提供的gmm模型一实施例的结构示意图；
23.图5是本技术提供的训练第一语种识别网络一实施例的流程示意图；
24.图6是图5所示步骤s54一实施例的流程示意图；
25.图7是本技术提供的获取目标声学特征一实施例的流程示意图；
26.图8是本技术提供的训练特征提取网络一实施例的流程示意图；
27.图9是本技术提供的语种识别装置一实施例的结构示意图；
28.图10是本技术提供的电子设备一实施例的结构示意图；
29.图11是本技术提供的计算机可读存储介质一实施例的结构示意图。
具体实施方式
30.下面结合说明书附图，对本技术实施例的方案进行详细说明。
31.以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本技术。
32.本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括a、b、c中的至少一种，可以表示包括从a、b和c构成的集合中选择的任意一个或多个元素。
33.请参阅图1，图1是本技术提供的语种识别方法一实施例的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图1所示的流程顺序为限。如图1所示，本实施例包括：
34.步骤s11：利用第一语种识别网络对待识别音频进行语种识别，得到初始语种识别结果。
35.本实施例的方法用于对待识别音频进行语种识别，以得到对应待识别音频的语种识别结果。在一实施方式中，该待识别音频为任意需要进行语种识别的音频，具体可以从本地存储或者云端存储中获取得到。例如，待识别音频可以是语音通话、录音回放等对应的音频，或者也可以是由语音合成、音转换或人为模仿等手段生成的音频等。可以理解地，在其他实施方式中，也可通过语音采集设备对当前环境声音进行采集得到，在此不做具体限定。
36.本实施方式中，利用第一语种识别网络对待识别音频进行语种识别，得到初始语种识别结果。其中，不对待识别音频中所涉及的语种类别数进行限定。例如，待识别音频为仅涉及单语种的音频数据；或者，待识别音频为涉及2种、3种、4种或者多种等混合语种的音频数据。另外，不对待识别音频中所涉及的具体语种种类进行限定。例如，待识别音频为涉及汉语、英语、德语、地方方言等多个语种的混合语种音频数据；或者，待识别音频为仅涉及汉语、英语、德语或者地方方言等单一语种的音频数据。
37.在一实施方式中，第一语种识别网络能够识别出单个语种，也就说说，第一语种识别网路为单语种识别网络。在一具体实施方式中，在第一语种识别网络为单语种识别网络时，对待识别音频进行语种识别得到的初始语种识别结果包括待识别音频中存在的一初始语种。或者，在其他具体实施方式中，初始语种识别结果也可同时包括待识别音频中存在的一初始语种以及该初始语种对应的置信分数等其他相关信息，在此不做具体限定。可以理解地，在其他实施方式中，第一语种识别网络能够识别出至少一个语种，也就是说，第一语种识别网络为混合语种识别网络，在此不做具体限定。在一具体实施方式中，在第一语种识别结果为混合语种识别网络时，对待识别音频进行语种识别得到的初始语种识别结果包括待识别音频中存在的至少一个语种。或者，在其他具体实施方式中，初始语种识别结果也可同时包括待识别音频中存在的至少一个语种、至少一个语种对应的置信分数以及至少一个语种在待识别音频中对应的时间区间等相关信息，在此不做具体限定。
38.其中，不对第一语种识别网络的具体模型结构进行限定，可根据实际使用需要具体设置。示例性地，如图2所示，图2是本技术提供的第一语种识别网络一实施例的结构示意图，第一语种识别网络包括依序连接的卷积神经网络(convolutional neural network，cnn)层、双向长短记忆(bilstm)网络层、注意力(attention)层和输出(output)层。其中，cnn层具有较强的特征变换能力；bilstm网络层具有关联特征前后时序的建模能力；attention层用来增强对语种分类有效的特征信息；output层实则为一个线性全连接层，用来分类语种类别，其节点数为语种类别数。
39.在一实施方式中，待识别音频为初始音频中预设时间长度的语音片段，初始音频包括对应不同时间段的若干待识别音频。也就是说，会将获取到的初始音频划分为对应不同时间段的若干语音片段，将各语音片段分别作为待识别音频进行语种识别，以分段式地对初始音频进行语种识别，能够使得语种识别结果更精确化，提高了语种识别的准确性。其
中，不对预设时间长度进行限定，可根据实际使用需要具体设置。例如，初始音频包括的对应不同时间段的各待识别音频的预设时间长度均相同。当然，初始音频包括的对应不同时间段的各待识别音频的预设时间长度也可均不同，或者部分待识别音频的预设时间长度相同，部分待识别音频的预设时间长度不同。可以理解地，在其他实施方式中，也可不对初始音频进行语音片段划分，直接将整个初始音频作为待识别音频。
40.在一具体实施方式中，可对初始音频进行滑窗处理，以得到对应不同时间段的若干待识别音频。具体地，对初始音频进行滑窗处理，得到若干预设时间长度的滑窗片段，每一滑窗片段对应一时间段的待识别音频。其中，需要说明的是，若滑窗片段对应的某一时间段的待识别音频的预设时间长度不足，可通过补0的方式将其不足。当然，在其他具体实施方式中，也可通过其他方式将初始音频划分为各预设时间长度的语音片段。
41.为了提高第一语种识别网络对待识别音频进行语种识别得到的初始语种识别结果的精准性，在一实施方式中，在利用第一语种识别网络对待识别音频进行语种识别，得到初始语种识别结果之前，对待识别音频进行去燥、去间断音等相关预处理，以使得待识别音频中的噪声或者间断音等得以滤除，有利于后续语种的精准识别。
42.由于第一语种识别网络对待识别音频进行语种识别实则为对从待识别音频中提取出来的声学特征进行语种识别。因此，在一实施方式中，在利用第一语种识别网络对待识别音频进行语种识别，得到初始语种识别结果之前，会进行声学特征的提取。其中，在待识别音频为初始音频中的某一时间段对应的语音片段时，对具体为语音片段的待识别音频的声学特征的提取具体方式为：首先对初始音频进行特征提取，得到初始音频的目标声学特征；然后，从初始音频的目标声学特征中，提取预设时间长度的目标声学特征，作为待识别音频的目标声学特征。而在待识别音频为完整的初始音频时，直接对待识别音频进行特征提取，得到待识别音频的目标声学特征。
43.此时，第一语种识别网络具体为对待识别音频的目标声学特征进行语种识别，得到对应待识别音频的初始语种识别结果。
44.在一实施方式中，可利用特征提取网络对待识别音频或初始音频进行特征提取，得到待识别音频或初始音频的目标声学特征。可以理解地，在其他实施方式中，也可利用特征提取算法等从待识别音频或初始音频中提取得到目标声学特征，在此不做具体限定。
45.在一实施方式中，目标声学特征为待识别音频或初始音频的移位差分倒谱(sdc)特征。为了提高第一语种识别网络对目标声学特征进行语种识别得到的初始语种识别结果的精准性，在其他实施方式中，目标声学特征为瓶颈(bottleneck network，bn)特征，bn特征更具有语种表征性及抗燥性。其中，不对特征提取网络的具体结构进行限定，可根据实际使用需要具体设置。示例性地，如图3所示，图3是本技术提供的特征提取网络一实施例的结构示意图，特征提取网络包括依序连接的深度神经网络(dnn)层和瓶颈网络层，bn特征是由瓶颈网络层输出的。具体地，dnn层是多层结构的线性全连接层，层间的节点数较多，如，取512或者1024等；瓶颈网络层是一层结构的线性全连接层，其节点数相比dnn层中的节点数少，如，取56。
46.在一具体实施方式中，在目标声学特征为bn特征时，可利用特征提取网络直接对待识别音频或初始音频进行特征提取，以得到待识别音频或初始音频的bn特征。可以理解地，在其他具体实施方式中，在目标声学特征为bn特征时，也可先获取待识别音频或初始音
频的sdc特征，然后利用特征提取网络对待识别音频或初始音频的sdc特征进行特征提取，得到待识别音频或初始音频的bn特征。
47.步骤s12：检测初始语种识别结果是否满足预设识别要求。
48.本实施方式中，检测初始语种识别结果是否满足预设识别要求。由于第一语种识别网络对第一语种情况的音频的语种识别能力强于第二语种识别网络，且第一语种识别网络对第二语种情况的音频的语种识别能力弱于第二语种识别网络，即第一语种识别网络对第一语种情况的待识别音频的语种识别能力较强，其对第一语种情况的待识别音频进行语种识别得到的初始语种识别结果的可信度较高或准确性较高，初始语种识别结果也对应会满足预设识别要求；因此，通过检测初始语种识别结果是否满足预设识别要求，即可确定初始语种识别结果的准确性或者可信程度，从而可确定是否需要利用第二语种识别网络对待识别音频进行语种识别。
49.其中，在初始语种识别结果不满足预设识别要求时，则表明第一语种识别网络对当前语种情况的待识别音频的识别能力较弱，导致对待识别音频进行语种识别得到的初始语种识别结果的可信度或者准确性较低，所以此时执行步骤s13；而在初始语种识别结果满足预设识别要求时，则表明第一语种识别网络对当前语种情况的待识别音频的识别能力较强，使得得到的初始语种识别结果的可信度较高或者准确性较高，所以将初始语种识别结果作为待识别音频的最终的语种识别结果。
50.在一实施方式中，第一语种情况为单语种，第二语种情况为多语种，第一语种识别网络能够识别出单个语种，第二语种识别网络能够识别出至少一个语种。也就是说，第一语种识别网络对单语种的音频的识别能力强于第二语种识别网络，第二语种识别网络对多语种的音频的识别能力强于第一语种识别网络。因此，在待识别音频为多语种的情况下，由于第一语种识别网络对多语种的音频的识别能力较弱，所以得到的初始语种识别结果的准确性较低，即初始语种识别结果不满足预设识别要求，此时执行步骤s13，利用第二语种识别网络对多语种的待识别音频进行语种识别，由于第二语种识别网络对多语种的音频的识别能力较强，所以能够提高语种识别的准确性；而在待识别音频为单语种的情况下，由于第一语种识别网络对单语种的音频的识别能力较强，所以得到的初始语种识别结果的准确性较高，即初始语种识别结果满足预设识别要求，所以将初始语种识别结果作为待识别音频的最终的语种识别结果。可以理解地，在其他实施方式中，第一语种情况也可以为多语种，第二语种情况为单语种，第一语种识别网络能够识别出至少一个语种，第二语种识别网络能够识别出单个语种。其中，不对第一语种识别网络能够识别出的具体语种类别、第二语种识别网络能够识别出的具体语种类别进行限定，可根据实际使用需要具体设置。
51.在一具体实施方式中，第一语种情况为单语种，第二语种情况为多语种，第一语种识别网络能够识别出单个语种，第二语种识别网络能够识别出至少一个语种，此时利用第一语种识别网络对待识别音频进行语种识别得到的初始语种识别结果包括待识别音频中存在的一初始语种以及初始语种对应的置信分数。可以理解地，在其他具体实施方式中，利用第一语种识别网络对待识别音频进行语种识别得到的初始语种识别结果还可包括初始语种对应的时间区间，由于第一语种识别网络是单语种识别网络，所以初始语种对应的时间区间即为该待识别音频的时间区间。
52.可选地，不对预设识别要求进行具体限定，可根据实际使用需要具体设置。例如，
在第一语种情况为单语种、初始语种识别结果包括待识别音频中存在的一初始语种以及初始语种对应的置信分数时，预设识别要求可以为置信分数满足预设分数要求，其中，不对预设分数要求进行限定，如，预设分数要求为大于或等于0.9。
53.示例性地，以第一语种情况为单语种、第一语种识别网络能够识别出单个语种、初始语种识别结果包括待识别音频中存在的一初始语种以及初始语种对应的置信分数、预设识别要求为置信分数满足预设分数要求，预设分数要求为大于或等于0.9为例。其中，利用第一语种识别网络对仅包括汉语的待识别音频a进行语种识别，得到的初始语种识别结果包括待识别音频中存在的一初始语种为汉语语种以及初始语种对应的置信分数为0.98；由于第一语种识别网络对单语种的音频的识别能力较强，所以得到的置信分数较高，是满足预设分数要求的，所以初始语种识别结果是满足预设识别要求的，因此将初始语种识别结果作为待识别音频a的语种识别结果，即待识别音频a中存在的语种为汉语。而利用第一语种识别网络对包括英语和汉语的待识别音频b进行语种识别，由于第一语种识别结果仅能够识别出单个语种，所以得到的初始语种识别结果包括待识别音频中存在的一初始语种以及初始语种对应的置信分数为0.7；由于第一语种识别网络对多语种的音频的识别能力较弱，所以得到的置信分数较低，是不满足预设分数要求的，所以初始语种识别结果是不满足预设识别要求的，即初始语种识别结果的准确性较低，因此，执行步骤s13。
54.步骤s13：响应于初始语种识别结果不满足预设识别要求，利用第二语种识别网络对待识别音频进行语种识别，得到目标语种识别结果。
55.本实施方式中，响应于初始语种识别结果不满足预设识别要求，利用第二语种识别网络对待识别音频进行语种识别，得到目标语种识别结果。在初始语种识别结果不满足预设识别要求时，则表明第一语种识别网络对当前语种情况的待识别音频的识别能力较弱，所以此时利用第二语种识别网络重新对待识别音频进行语种识别，得到目标语种识别结果，从而提高对待识别音频的语种识别的准确性。通过结合第一语种识别网络和第二语种识别网络，能够对多种语种(如，单语种或者多语种)情况下的音频进行语种识别；另外，由于第一语种识别网络对第一语种情况的音频的识别能力强于第二语种识别网络，第二语种识别网络对第二语种情况的音频的识别能力强于第一语种识别网络，所以本技术提供的语种识别方法能够对各种语种情况下的音频进行准确地语种识别。
56.在一实施方式中，第二语种识别网络具体为对待识别音频的目标声学特征进行语种识别，得到对应待识别音频的目标语种识别结果。其中，关于目标声学特征的相关内容如上所述，在此不再赘述。
57.示例性地，以第一语种情况为单语种、第一语种识别网络能够识别出单个语种、初始语种识别结果包括待识别音频中存在的一初始语种以及初始语种对应的置信分数、预设识别要求为置信分数不满足小于0.9、第二语种情况为多语种、第二语种识别网络能够识别出至少一种语种为例。利用第一语种识别网络对包括英语和汉语的待识别音频c进行语种识别，由于第一语种识别网络仅能够识别出单个语种，所以得到的初始语种识别结果包括待识别音频中存在的一初始语种以及初始语种对应的置信分数为0.7，置信分数不满于预设识别要求；所以，此时利用第二语种识别网络对待识别音频c进行语种识别，得到目标语种识别结果，由于第二语种识别网络对多语种情况的音频的识别能力较强，所以得到对应多语种的待识别音频c的目标语种识别结果的准确性较高，提高了对待识别音频的语种识
别的准确性。
58.在一实施方式中，目标语种识别结果包括待识别音频中存在的至少一个目标语种。可以理解地，在其他实施方式中，目标语种识别结果包括待识别音频中存在的至少一个目标语种以及各目标语种在待识别音频中对应的时间区间，从而可通过各目标语种在待识别音频中对应的时间区间确定各个目标语种交替出现的位置信息，有实际的业务应用价值。举例来说，目标语种识别结果包括待识别音频中存在的3个目标语种，分别为目标语种a、目标语种b和目标语种c；目标语种a对应的时间区间为待识别音频中第1音频帧对应的时间至第8音频帧对应的时间构成的时间区间、目标语种b对应的时间区间为待识别音频中第2音频帧对应的时间至第5音频帧对应的时间构成的时间区间以及第8音频帧对应的时间至第15音频帧对应的时间构成的时间区间、目标语种c对应的时间区间为待识别音频中第16音频帧对应的时间至第18音频帧对应的时间构成的时间区间。
59.由于在待识别音频为初始音频中预设时间长度的语音片段时，还需要将初始音频包括的对应不同时间段的若干待识别音频的语种识别结果进行组合，才能够得到初始音频的语种识别结果。因此，在一实施方式中，在利用第二语种识别网络对待识别音频进行语种识别，得到目标语种识别结果之后，还需要结合初始音频包含的各待识别音频的目标语种识别结果，得到初始音频的语种识别结果。其中，需要说明的是，若某一待识别音频仅包括单语种时，即利用第一语种识别网络对某一待识别音频进行语种识别得到的初始语种识别结果符合预设识别要求时，将初始语种识别结果作为该待识别音频的目标语种识别结果。
60.在一实施方式中，第二语种识别网络为隐马尔可夫(hidden markov model，hmm)模型，hmm模型由若干高斯混合(gaussian mixed model，gmm)模型拼接而成，每个gmm模型用于识别得到一个语种；其中，每个语种对应的gmm模型作为hmm模型的一个状态，设置log域自跳惩罚因子为penalty1，状态间跳转惩罚因子为penalty2，采用viterbi解码，动态规划出待识别音频中语种类别以及对应的时间区间。
61.在一具体实施方式中，如图4所示，图4是本技术提供的gmm模型一实施例的结构示意图，每个语种对应的gmm模型的训练过程具体包括：设置gmm模型的高斯混合系为m，利用k-means聚类得到gmm初始模型；然后，利用em算法(expectation-maximization algorithm)对有标签的样本音频数据做迭代训练，训练gmm模型；然后，反复迭代至gmm模型收敛。其中，m为一个整数值，如，取1024；一般来说，当有标签的样本音频数据越多，m值可以设置的越大。
62.上述实施方式，在利用第一语种识别网络对待识别音频进行语种识别得到的初始语种识别结果不满足预设识别要求时，利用第二语种识别网络对待识别音频进行语种识别，得到目标语种识别结果。故，在初始语种识别结果不满足预设识别要求时，利用第二语种识别网络再次对待识别音频进行语种识别，能够提高语种识别的准确性；另外，由于第一语种识别网络对第一语种情况的音频的识别能力强于第二语种识别网络，第二语种识别网络对第二语种情况的音频的识别能力强于第一语种识别网络，所以通过结合第一语种识别网络和第二语种识别网络，能够对不同语种情况下的音频进行准确地语种识别。
63.请结合参阅图2和图5，图5是本技术提供的训练第一语种识别网络一实施例的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图5所示的流程顺序为限。如图5所示，第一语种识别网络能够识别出单个语种，第一语种识别网络包括依序连接的
cnn层、bilstm网络层、attention层和output层，第一语种识别网络的训练步骤具体包括：
64.步骤s51：获取第一样本音频和第二样本音频。
65.本实施例的方法用于基于第一样本音频和第二样本音频对第一语种识别网络进行训练，以使训练完成的第一语种识别网络能够较准确地识别出音频数据中存在的语种。因此，本实施方式中，获取第一样本音频和第二样本音频，其中，第一样本音频标注有第一样本音频中存在的真实语种信息，第二样本音频未标注有第二样本音频中存在的真实语种信息。也就是说，在第一语种识别网络的训练中，加入了大量的无监督样本音频数据，使得训练完成的第一语种识别网络对音频数据的语种识别更加准确，且具有抗干扰能力，即使得训练完成的第一语种识别网络在存在干扰的情况下也能够具有较好的语种识别效果，提高了第一语种识别网络的鲁棒性。
66.在一实施方式中，第一样本音频和第二样本音频具体可以从本地存储或者云端存储中获取得到。可以理解地，在其他实施方式中，也可通过语音采集设备对当前环境声音进行采集得到，在此不做具体限定。
67.在一实施方式中，第一样本音频和第二样本音频分别包括若干个，后续可将若干个第一样本音频和若干个第二样本音频同时输入至第一语种识别网络，即后续在对第一语种识别网络的一次训练中，利用批量的样本音频对第一语种识别网络进行训练，提高了训练第一语种识别网络的效率。其中，不对批量输入至第一语种识别网络的第一样本音频和第二样本音频的个数进行限定，可根据实际使用需要具体设置。可以理解地，在其他实施方式中，第一样本音频和第二样本音频分别为一个，即后续在对第一语种识别网络的一次训练中，利用单个的样本音频对第一语种识别网络进行训练。
68.其中，不对第一样本音频和第二样本音频所具体涉及的具体语种进行限定。例如，第一样本音频和第二样本音频所涉及的语种为汉语、英语、德语或者地方方言等。其中，需要说明的是，在后续利用批量的第一样本音频和第二样本音频对第一语种识别网络进行训练时，各第一样本音频所涉及的具体语种可以相同，也可以不同，以及各第二样本音频所涉及的具体语种可以相同，也可以不同。
69.在一实施方式中，可对第一样本音频和第二样本音频进行预处理，使得噪声、间断声等无效音得以滤除，以提高第一样本音频和第二样本音频的质量，从而使得后续基于第一样本音频和第二样本音频训练得到的第一语种识别网络的语种识别效果更好。
70.在一实施方式中，也可对第一样本音频和第二样本音频进行变速等增广处理，使得用于训练第一语种识别网络的样本数量更加充足、更加多样性，从而使得后续训练完成的第一语种识别网络具有较好的泛化能力。
71.步骤s52：对第二样本音频进行随机屏蔽处理，得到第三样本音频。
72.本实施方式中，对第二样本音频进行随机屏蔽处理，得到第三样本音频。具体地，对第二样本音频做随机tfmask，以得到第三样本音频。也就是说，第三样本音频和第二样本音频的区别在于是否做了tfmask处理，相当于在第二样本音频上形成一个干扰而得到第三样本音频，以使得后续在基于第二样本音频和第三样本音频的差异调整第一语种识别网络的网络参数后并训练收敛后，训练收敛的第一语种识别网络能够在存在干扰的情况下具有较好的语种识别效果。
73.在一实施方式中，在后续利用单个的第二样本音频进行第一语种识别网络的一次
训练时，此时可随机对此第二样本音频的随机音频帧进行屏蔽处理，得到第三样本音频。
74.在一实施方式中，在后续利用批量的第二样本音频进行第一语种识别网络的一次训练时，此时可随机对批量的第二样本音频中的任意第二样本音频的随机音频帧进行屏蔽处理，以得到批量的第三样本音频。
75.步骤s53：利用第一语种识别网络对第一样本音频、第二样本音频和第三样本音频进行语种识别，对应得到第一样本语种识别结果、第二样本语种识别结果和第三样本语种识别结果。
76.本实施方式中，利用第一语种识别网络对第一样本音频、第二样本音频和第三样本音频进行语种识别，对应得到第一样本语种识别结果、第二样本语种识别结果和第三样本语种识别结果。也就是说，利用第一语种识别网络对第一样本音频、第二样本音频和第三样本音频进行语种识别，会得到对应第一样本音频的语种预测结果即第一样本语种识别结果、对应第二样本音频的语种预测结果即第二样本语种识别结果以及对应第三样本音频的语种预测结果即第三样本语种识别结果。
77.在一实施方式中，第一样本音频、第二样本音频和第三样本音频是单个音频数据，即利用单个的第一样本音频、第二样本音频和第三样本音频进行第一语种识别网络的一次训练时，此时得到的第一样本语种识别结果仅包括该单个的第一样本音频对应的语种识别结果、第二样本语种识别结果仅包括该单个的第二样本音频对应的语种识别结果、第三样本语种识别结果仅包括该单个的第三样本音频对应的语种识别结果。
78.在一实施方式中，第一样本音频、第二样本音频和第三样本音频是若干个时，即利用批量的第一样本音频、第二样本音频和第三样本音频进行第一语种识别网络的一次训练时，此时得到的第一样本语种识别网络包括各第一样本音频对应的语种识别结果、第二样本语种识别结果包括各第二样本音频对应的语种识别结果、第三样本语种识别结果包括各第三样本音频对应的语种识别结果。
79.步骤s54：至少基于第一样本语种识别结果与真实语种信息之间的第一差异、第二样本语种识别结果和第三样本语种识别结果之间的第二差异，调整第一语种识别网络的网络参数。
80.本实施方式中，至少基于第一样本语种识别结果与第一样本音频上标注的第一样本音频中存在的真实语种信息之间的第一差异、第二样本语种识别结果和第三样本语种识别结果之间的第二差异，调整第一语种识别网络的网络参数。
81.在一实施方式中，可基于第一样本语种识别结果与第一样本音频上标注的第一样本音频中存在的真实语种信息之间的第一差异、第二样本语种识别结果和第三样本语种识别结果之间的第二差异，调整第一语种识别网络的网络参数。由于第一样本音频标注有第一样本音频中存在的真实语种信息，所以基于第一样本语种识别结果与第一样本音频上标注的真实语种信息之间的第一差异调整第一语种识别网络的网络参数，能够使得最小化第一样本语种识别结果和真实语种信息之间的差异，从而使得利用第一语种识别网络预测得到的第一样本语种识别结果逼近于真实语种信息，以驱使第一语种识别网络对第一样本音频的语种识别尽可能准确，即基于第一样本语种识别结果与第一样本音频上标注的真实语种信息之间的第一差异调整第一语种识别网络的网络参数，能够提高第一语种识别网络对样本音频的语种的识别准确性；另外，由于第三样本音频可以看作是在第二样本音频的基
础上增加干扰的样本音频数据，所以基于第二样本语种识别结果和第三样本语种识别结果之间的差异调整第一语种识别网络的网络参数，能够使得最小化第二样本语种识别结果和第三样本语种识别结果之间的差异，从而使得利用第一语种识别网络预测得到的第二样本语种识别结果逼近于第三样本语种识别结果，以驱使第一语种识别网络在存在干扰的情况下能够具有在不存在干扰的情况下的基本一致的语种识别效果；因此，在基于第一样本语种识别结果与真实语种信息之间的第一差异以及第二样本语种识别结果和第三样本语种识别结果之间的第二差异调整第一语种识别网络的网络参数，能够使得后续调整网络参数至训练收敛后的第一语种识别网络具有较高的语种识别准确性，且能够在存在干扰的情况保持较好的语种识别效果。
82.在一具体实施方式中，第一样本音频和第二样本音频有若干个，在对第一语种识别网络的每一轮训练中，利用批量的第一样本音频和第二样本音频。具体地，可结合第一损失函数和第一样本语种识别结果与真实语种信息之间的第一差异，得到第一语种识别网络的第一损失；可结合第二损失函数和第二样本语种识别结果与第三样本语种识别结果之间的第二差异，得到第一语种识别网络的第二损失；然后，根据第一语种识别网络的第一损失和第二损失，得到第一语种识别网络的总损失；然后，利用得到的第一语种识别网络的总损失，调整第一语种识别网络的网络参数；利用上述步骤对第一语种识别网络进行迭代训练，最终得到网络收敛的第一语种识别网络，此时完成对第一语种识别网络的训练。其中，第一语种识别网络的总损失函数的具体公式如下所示：
[0083][0084]
其中，loss
cba
表示第一语种识别网络的总损失函数；celoss
cba
表示第一语种识别网路的第一损失函数；mseloss
cba
表示第一语种识别网路的第二损失函数；batch
label
表示批量的第一样本音频；batch
unlabel
表示批量的第二样本音频；表示批量的第一样本音频中的第n个第一样本音频；表示批量的第二样本音频中的第n个第二样本音频；表示批量的第三样本音频中的第n个第三样本音频；表示批量的第一样本音频中的第n个第一样本音频的真实语种信息；n表示批量的第一样本音频中所包括的第一样本音频的数量，批量的第二样本音频中所包括的第二样本音频的数量，批量的第三样本音频中所包括的第三样本音频的数量；f1(x)记为bilstm网络层的输出，其实际为多个特征的拼接，其中，f1(x)＝(f(x)1，
…
，f(x)
t
，
…
，f(x)
t
)；f1(x)
attention
表示样本音频的表征特征，由于拼接得到f1(x)的各个特征对后续语种分类的贡献是不同的，将其拼接成一个embeding去做语种分类不应是最优解，所以将其输入至attention层进行加权，以得到加权后的表征特征f1(x)
attention
；g1()表示output层对应的分类函数；mse()表示计算两个特征之间的欧式距离；σ()表示softmax函数；α表示可调节参数，其中，不对可调节参数的具体数值进行限定，例如，α为0.2。
[0085]
其中，将各个特征进行加权而得到样本音频的表征特征的具体公式如下所示：
[0086][0087][0088]
其中，f1(x)
attention
表示样本音频的表征特征；f1(x)
t
表示bilstm网络层输出的各个特征；w
t
表示对应各个特征的权重。
[0089]
为了进一步提高训练收敛的第一语种识别网络的语种识别效果，即提高第一语种识别网络的语种识别鲁棒性，在其他实施方式中，如图6所示，图6是图5所示步骤s54一实施例的流程示意图，在第一样本音频有若干个时，也可基于第一样本语种识别结果与第一样本音频上标注的第一样本音频中存在的真实语种信息之间的第一差异、第二样本语种识别结果和第三样本语种识别结果之间的第二差异以及当前第一样本音频的表征特征与各正样本音频的表征特征的第一平均距离以及当前第一样本音频的表征特征与各负样本音频的表征特征的第二平均距离之间的差异，调整第一语种识别网络的网络参数，具体包括如下子步骤：
[0090]
步骤s541：获取当前第一样本音频的表征特征与各正样本音频的表征特征的第一平均距离以及当前第一样本音频的表征特征与各负样本音频的表征特征的第二平均距离。
[0091]
本实施方式中，获取当前第一样本音频的表征特征与各正样本音频的表征特征的第一平均距离以及当前第一样本音频的表征特征与各负样本音频的表征特征的第二平均距离。其中，正样本音频为与当前第一样本音频的语种相同的第一样本音频，负样本音频为与当前第一样本音频的语种不同的第一样本音频，表征特征为第一语种识别网络对相应的第一样本音频进行语种识别过程中提取得到的。在一实施方式中，如图2所示，表征特征为第一语种识别网络的attention层的输出。
[0092]
需要说明的是，由于用于第一语种识别网络一次训练的是包括若干个第一样本音频的，即由于用于第一语种识别网络一次训练的是批量的第一样本音频，所以需要将批量的第一样本音频中的各第一样本音频分别作为当前第一样本音频，计算其的表征特征与各正样本音频的表征特征的第一平均值以及其的表征特征与各负样本音频的表征特征的第二平均距离。
[0093]
具体地，首先，获取当前第一样本音频的表征特征与各正样本音频的表征特征的距离以及当前第一样本音频的表征特征与任一负样本音频的表征特征的距离。其中，计算当前第一样本音频的表征特征与任一其他样本音频的表征特征之间的距离的具体公式如下所示：
[0094][0095]
其中，表示当前第一样本音频的表征特征；表示批量的第
一样本音频中，除当前第一样本音频以外的其余任一第一样本音频的表征特征；表示当前第一样本音频的表征特征与其余任一第一样本音频的表征特征之间的距离。
[0096]
其次，计算当前第一样本音频的表征特征与各正样本音频的表征特征的距离之和的平均值，作为第一平均距离，记为其中，表示当前第一样本音频；并且，计算当前第一样本音频的表征特征与各负样本音频的表征特征的距离之和的平均值，作为第二平均距离，记为其中，表示当前第一样本音频。
[0097]
步骤s542：基于第一差异、第二差异以及第一平均距离和第二平均距离之间的差异，调整第一语种识别网络的网络参数。
[0098]
本实施方式中，基于第一样本语种识别结果与第一样本音频上标注的第一样本音频中存在的真实语种信息之间的第一差异、第二样本语种识别结果和第三样本语种识别结果之间的第二差异以及当前第一样本音频的表征特征与各正样本音频的表征特征的第一平均距离以及当前第一样本音频的表征特征与各负样本音频的表征特征的第二平均距离之间的差异，调整第一语种识别网络的网络参数。
[0099]
具体地，可结合第一损失函数和第一样本语种识别结果与真实语种信息之间的第一差异，得到第一语种识别网络的第一损失；可结合第二损失函数和第二样本语种识别结果与第三样本语种识别结果之间的第二差异，得到第一语种识别网络的第二损失；可结合第三损失函数和第一平均距离与第二平均距离之间的差异，得到第一语种识别网络的第三损失；然后，根据第一语种识别网络的第一损失、第二损失和第三损失，得到第一语种识别网络的总损失；然后，利用得到的第一语种识别网络的总损失，调整第一语种识别网络的网络参数；利用上述步骤对第一语种识别网络进行迭代训练，最终得到网络收敛的第一语种识别网络，此时完成对第一语种识别网络的训练。其中，第一语种识别网络的总损失函数的具体公式如下所示：
[0100][0101]
其中，loss
cba
表示第一语种识别网络的总损失函数；celoss
cba
表示第一语种识别网路的第一损失函数；mseloss
cba
表示第一语种识别网路的第二损失函数；tripletloss
cba
表示第一语种识别网路的第三损失函数；表示第一平均距离；表示第二平均距离；λ表示一个边距参数值，用于控制正样本音频和负样本音频之间的离散程度，其中，不对其具体的取值进行限定，例如，取值为0.2；α和β表示可调节参数，其中，不对可调节参数的具体数值进行限定，例如，α为0.2、β为1。
[0102]
请参阅图7，图7是本技术提供的获取目标声学特征一实施例的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图7所示的流程顺序为限。如图7所示，利用特征提取网络从待提取数据的sdc特征中提取出bn特征，作为目标声学特征，具体包括：
[0103]
步骤71：获取待提取数据的移位差分倒谱特征。
[0104]
本实施方式中，首先获取待提取数据的移位差分倒谱特征。在一实施方式中，可利用相关的提取网络从待提取数据中提取得到sdc特征。可以理解地，在其他实施方式中，也可以利用相关的提取算法从待提取数据中提取得到sdc特征。
[0105]
其中，待提取数据为初始音频或待识别音频。
[0106]
步骤72：利用特征提取网络对待提取数据的移位差分倒谱特征进行特征提取，得到瓶颈特征，将瓶颈特征作为待提取数据的目标声学特征。
[0107]
本实施方式中，利用特征提取网络对待提取数据的移位差分倒谱特征进行特征提取，得到待提取数据的瓶颈特征，并将瓶颈特征作为待提取数据的目标声学特征。由于bn特征更具有语种表征性及抗燥性，所以将bn特征作为待提取数据的目标声学特征，能够使得后续第一语种识别网络基于待提取数据的目标声学特征进行语种识别得到的初始语种识别结果更加准确。
[0108]
请结合参阅图3和图8，图8是本技术提供的训练特征提取网络一实施例的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图8所示的流程顺序为限。如图8所示，特征提取网络在训练阶段还包括输出层，即特征提取网络在训练阶段包括依序连接的深度神经网络层、瓶颈网络层和输出层，输出层用于对特征提取网络提取得到的瓶颈特征进行预测而得到对应的语种识别结果，其中，输出层与瓶颈网络层全连接，其节点数与语种类别数保持一致，特征提取网络的训练步骤具体包括：
[0109]
步骤s81：获取第四样本音频和第五样本音频。
[0110]
本实施例的方法用于基于第四样本音频和第五样本音频对特征提取网络进行训练，以使训练完成的特征提取网络提取出来的特征更具有语种表征性以及抗燥性。因此，本实施方式中，获取第四样本音频和第五样本音频，其中，第四样本音频标注有第四样本音频中存在的真实语种信息，第五样本音频未标注有第五样本音频中存在的真实语种信息。也就是说，在特征提取网络的训练中，加入了大量的无监督样本音频数据，使得训练完成的特征提取网络从音频数据提取出来的特征具有抗燥性，即使得训练完成的特征提取网络在存在干扰的情况下也能够准确地提取出具有语种表征性的特征。
[0111]
在一实施方式中，第四样本音频和第五样本音频具体可以从本地存储或者云端存储中获取得到。可以理解地，在其他实施方式中，也可通过语音采集设备对当前环境声音进行采集得到，在此不做具体限定。
[0112]
在一实施方式中，第四样本音频和第五样本音频分别包括若干个，后续可将若干个第四样本音频和若干个第五样本音频同时输入至特征提取网络，即后续在对特征提取网
络的一次训练中，利用批量的样本音频对特征提取网络进行训练，提高了训练特征提取网络的效率。其中，不对批量输入至特征提取网络的第四样本音频和第五样本音频的个数进行限定，可根据实际使用需要具体设置。可以理解地，在其他方式中，第四样本音频和第五样本音频分别为一个，即后续在对特征提取网络的一次训练中，利用单个的样本音频对特征提取网络进行训练。
[0113]
其中，不对第四样本音频和第五样本音频所具体涉及的具体语种进行限定。例如，第四样本音频和第五样本音频所涉及的语种为汉语、英语、德语或者地方方言等。其中，需要说明的是，在后续利用批量的第四样本音频和第五样本音频对特征提取网络进行训练时，各第四样本音频所涉及的具体语种可以相同，也可以不同，以及各第五样本音频所涉及的具体语种可以相同，也可以不同。
[0114]
在一实施方式中，可对第四样本音频和第五样本音频进行预处理，使得噪声、间断声等无效音得以滤除，以提高第四样本音频和第五样本音频的质量，从而使得后续基于第四样本音频和第五样本音频训练得到的特征提取网络的效果更好。
[0115]
在一实施方式中，也可对第四样本音频和第五样本音频进行变速等增广处理，使得用于训练特征提取网络的样本数量更加充足、更加多样性，从而使得后续训练完成的特征提取网络具有较好的泛化能力。
[0116]
步骤s82：对第五样本音频进行随机屏蔽处理，得到第六样本音频。
[0117]
本实施方式中，对第五样本音频进行随机屏蔽处理，得到第六样本音频。具体地，对第五样本音频做随机tfmask，以得到第六样本音频。也就是说，第五样本音频和第六样本音频的区别在于是否做了tfmask处理，相当于在第五样本音频上形成一个干扰而得到第六样本音频，以使得后续在基于第五样本音频和第六样本音频的差异调整特征提取网络的网络参数后并训练收敛后，训练收敛的特征提取网络在存在干扰的情况下也能够准确地提取出具有语种表征性的特征。
[0118]
在一实施方式中，在后续利用单个的第五样本音频进行特征提取网络的一次训练时，此时可随机对此第五样本音频的随机音频帧进行屏蔽处理，得到第六样本音频。
[0119]
在一实施方式中，在后续利用批量的第五样本音频进行特征提取网络的一次训练时，此时可随机对批量的第五样本音频中的任意第五样本音频的随机音频帧进行屏蔽处理，以得到批量的第六样本音频。
[0120]
步骤s83：利用训练阶段的特征提取网络分别对第四样本音频、第五样本音频和第六样本音频进行处理，对应得到第四样本语种识别结果、第五样本语种识别结果和第六样本语种识别结果。
[0121]
本实施方式中，利用训练阶段的特征提取网络分别对第四样本音频、第五样本音频和第六样本音频进行处理，对应得到第四样本语种识别结果、第五样本语种识别结果和第六样本语种识别结果。也就是说，利用特征提取网络对第四样本音频、第五样本音频和第六样本音频进行语种识别，会得到对应第四样本音频的语种预测结果即第四样本语种识别结果、对应第五样本音频的语种预测结果即第五样本语种识别结果以及对应第六样本音频的语种预测结果即第六样本语种识别结果。
[0122]
在一实施方式中，第四样本音频、第五样本音频和第六样本音频是单个音频数据，即利用单个的第四样本音频、第五样本音频和第六样本音频进行特征提取网络的一次训练
时，此时得到的第四样本语种识别结果仅包括该单个的第四样本音频对应的语种识别结果、第五样本语种识别结果仅包括该单个的第五样本音频对应的语种识别结果、第六样本语种识别结果仅包括该单个的第六样本音频对应的语种识别结果。
[0123]
在一实施方式中，第四样本音频、第五样本音频和第六样本音频是若干个时，即利用批量的第四样本音频、第五样本音频和第六样本音频进行特征提取网络的一次训练时，此时得到的第四样本语种识别结果包括各第四样本音频对应的语种识别结果、第五样本语种识别结果包括各第五样本音频对应的语种识别结果、第六样本语种识别结果包括各第六样本音频对应的语种识别结果。
[0124]
步骤s84：基于第四样本语种识别结果和真实语种信息之间的差异，以及第五样本语种识别结果和第六样本语种识别结果之间的差异，调整特征提取网络的网络参数。
[0125]
本实施方式中，基于第四样本语种识别结果与第四样本音频上标注的第四样本音频中存在的真实语种信息之间的差异、第五样本语种识别结果和第六样本语种识别结果之间的差异，调整特征提取网络的网络参数。由于第四样本音频标注有第四样本音频中存在的真实语种信息，所以基于第四样本语种识别结果与第四样本音频上标注的真实语种信息之间的差异调整特征提取网络的网络参数，能够使得最小化第四样本语种识别结果和真实语种信息之间的差异，从而使得利用特征提取网络预测得到的第四样本语种识别结果逼近于真实语种信息，以驱使特征提取网络对第四样本音频的语种识别尽可能准确，即基于第四样本语种识别结果与第四样本音频上标注的真实语种信息之间的差异调整特征提取网络的网络参数，能够提高特征提取网络对样本音频的语种的识别准确性；其中，在特征提取网络训练完成后，剔除特征提取网络的输出层，所以基于第四样本语种识别结果与真实语种信息之间的差异调整特征提取网络的网络参数，相当于提高了特征提取网络挖掘样本音频数据特征中隐藏的语种表征信息的能力。另外，由于第五样本音频可以看作是在第六样本音频的基础上增加干扰的样本音频数据，所以基于第五样本语种识别结果和第六样本语种识别结果之间的差异调整特征提取网络的网络参数，能够使得最小化第五样本语种识别结果和第六样本语种识别结果之间的差异，从而使得利用特征提取网络预测得到的第五样本语种识别结果逼近于第六样本语种识别结果，以驱使特征提取网络在存在干扰的情况下能够具有在不存在干扰的情况下的基本一致的语种识别效果；其中，在特征提取网络训练完成后，剔除特征提取网络的输出层，所以基于第五样本语种识别结果与第六样本语种识别结果之间的差异调整特征提取网络的网络参数，相当于提高了特征提取网络在存在干扰的情况下，挖掘样本音频数据特征中隐藏的语种表征信息的能力。因此，在基于第四样本语种识别结果与真实语种信息之间的差异以及第五样本语种识别结果和第六样本语种识别结果之间的差异调整特征提取网络的网络参数，能够使得后续训练收敛后的特征提取网络具有较高的挖掘样本音频数据特征中隐藏的语种表征信息的能力，且能够在存在干扰的情况保持较好的挖掘样本音频数据中隐藏的语种表征信息的能力。
[0126]
在一具体实施方式中，第四样本音频和第五样本音频有若干个，在对特征提取网络的每一轮训练中，利用批量的第四样本音频和第五样本音频。具体地，可结合第四损失函数和第四样本语种识别结果与真实语种信息之间的差异，得到特征提取网络的第一损失；可结合第五损失函数和第五样本语种识别结果与第六样本语种识别结果之间的差异，得到特征提取网络的第二损失；然后，根据特征提取网络的第一损失和第二损失，得到特征提取
网络的总损失；然后，利用得到的特征提取网络的总损失，调整特征提取网络的网络参数；利用上述步骤对特征提取网络进行迭代训练，最终得到网络收敛的特征提取网络，此时完成对特征提取网络的训练。其中，特征提取网络的总损失函数的具体公式如下所示：
[0127][0128]
其中，loss
dnn-bn
表示特征提取网络的总损失函数；celoss
dnn-bn
表示特征提取网络的第一损失函数；mseloss
dnn-bn
表示特征提取网络的第二损失函数；batch
label
表示批量的第四样本音频；batch
unlabel
表示批量的第五样本音频；表示批量的第四样本音频中的第n个第四样本音频；表示批量的第五样本音频中的第n个第五样本音频；表示批量的第六样本音频中的第n个第六样本音频；表示批量的第四样本音频中的第n个第四样本音频的真实语种信息；n表示批量的第四样本音频中所包括的第四样本音频的数量，批量的第五样本音频中所包括的第五样本音频的数量，批量的第六样本音频中所包括的第六样本音频的数量；f2(x)记为瓶颈网络层的输出；g2()表示输出层对应的分类函数；mse()表示计算两个特征之间的欧式距离；σ()表示softmax函数；ω表示可调节参数，其中，不对可调节参数的具体数值进行限定，例如，ω为0.2。
[0129]
请参阅图9，图9是本技术提供的语种识别装置一实施例的结构示意图。语种识别装置90包括第一识别模块91、检测模块92和第二识别模块93。第一识别模块91用于利用第一语种识别网络对待识别音频进行语种识别，得到初始语种识别结果；检测模块92用于检测初始语种识别结果是否满足预设识别要求；第二识别模块93用于响应于初始语种识别结果不满足预设识别要求，利用第二语种识别网络对待识别音频进行语种识别，得到目标语种识别结果；其中，第一语种识别网络对第一语种情况的音频的识别能力强于第二语种识别网络，第二语种识别网络对第二语种情况的音频的识别能力强于第一语种识别网络。
[0130]
其中，上述第一语种情况为单语种，第二语种情况为多语种，第一语种识别网络能够识别出单个语种，第二语种识别网络能够识别出至少一个语种。
[0131]
其中，上述初始语种识别结果包括待识别音频中存在的一初始语种以及初始语种对应的置信分数；预设识别要求包括置信分数满足预设分数要求。
[0132]
其中，上述第二语种识别网络为隐马尔可夫模型，隐马尔可夫模型由若干高斯混合模型拼接而成，每个高斯混合模型用于识别得到一个语种。
[0133]
其中，语种识别装置90还包括训练模块94，训练模块94用于对第一语种识别网络的训练步骤具体包括：获取第一样本音频和第二样本音频；其中，第一样本音频标注有第一样本音频中存在的真实语种信息，第二样本音频未进行标注；对第二样本音频进行随机屏蔽处理，得到第三样本音频；利用第一语种识别网络对第一样本音频、第二样本音频和第三样本音频进行语种识别，对应得到第一样本语种识别结果、第二样本语种识别结果和第三样本语种识别结果；至少基于第一样本语种识别结果与真实语种信息之间的第一差异、第二样本语种识别结果和第三样本语种识别结果之间的第二差异，调整第一语种识别网络的网络参数。
[0134]
其中，上述第一样本音频有若干个，训练模块94用于至少基于第一样本语种识别
结果与真实语种信息之间的第一差异、第二样本语种识别结果和第三样本语种识别结果之间的第二差异，调整第一语种识别网络的网络参数，具体包括：获取当前第一样本音频的表征特征与各正样本音频的表征特征的第一平均距离以及当前第一样本音频的表征特征与各负样本音频的表征特征的第二平均距离；其中，正样本音频为与当前第一样本音频的语种相同的第一样本音频，负样本音频为与当前第一样本音频的语种不同的第一样本音频，表征特征为第一语种识别网络对相应的第一样本音频进行语种识别过程中提取得到的；基于第一差异、第二差异以及第一平均距离和第二平均距离之间的差异，调整第一语种识别网络的网络参数。
[0135]
其中，语种识别装置90还包括特征提取模块95，特征提取模块95用于在利用第一语种识别网络对待识别音频进行语种识别，得到初始语种识别结果之前，具体包括：对待识别音频进行特征提取，得到待识别音频的目标声学特征；或者，对初始音频进行特征提取，得到初始音频的目标声学特征，从初始音频的目标声学特征中，提取预设时间长度的目标声学特征，作为待识别音频的目标声学特征；第一识别模块91用于利用第一语种识别网络对待识别音频进行语种识别，得到初始语种识别结果，具体包括：利用第一语种识别网络对目标声学特征进行语种识别，得到初始语种识别结果；第二识别模块93用于利用第二语种识别网络对待识别音频进行语种识别，得到目标语种识别结果，具体包括：利用第二语种识别网络对待目标声学特征进行语种识别，得到目标语种识别结果。
[0136]
其中，特征提取模块95用于对初始音频进行特征提取，得到初始音频的目标声学特征，或特征提取模块95用于对待识别音频进行特征提取，得到待识别音频的目标声学特征，具体包括：获取待提取数据的移位差分倒谱特征；利用特征提取网络对待提取数据的移位差分倒谱特征进行特征提取，得到瓶颈特征，将瓶颈特征作为待提取数据的目标声学特征；其中，待提取数据为初始音频或待识别音频。
[0137]
其中，上述特征提取网络包括依序连接的深度神经网络层和瓶颈网络层，瓶颈特征是由瓶颈网络层输出的；和/或，特征提取网络在训练阶段包括输出层，输出层用于对特征提取网络提取得到的瓶颈特征进行预测，得到对应的语种识别结果；语种识别方法还包括：获取第四样本音频和第五样本音频；其中，第四样本音频标注有第四样本音频中存在的真实语种信息，第五样本音频未进行标注；对第五样本音频进行随机屏蔽处理，得到第六样本音频；利用训练阶段的特征提取网络分别对第四样本音频、第五样本音频和第六样本音频进行处理，对应得到第四样本语种识别结果、第五样本语种识别结果和第六样本语种识别结果；基于第四样本语种识别结果和真实语种信息之间的差异，以及第五样本语种识别结果和第六样本语种识别结果之间的差异，调整特征提取网络的网络参数；其中，在特征提取网络训练完成后，剔除输出层。
[0138]
其中，目标语种识别结果包括待识别音频中存在的至少一个目标语种以及各目标语种在待识别音频中对应的时间区间；和/或，待识别音频为初始音频中预设时间长度的语音片段，初始音频包括对应不同时间段的若干待识别音频；语种识别装置90还包括结合模块96，结合模块96用于在利用第二语种识别网络对待识别音频进行语种识别，得到目标语种识别结果之后，具体包括：结合初始音频包含的各待识别音频的目标语种识别结果，得到初始音频的语种识别结果。
[0139]
请参阅图10，图10是本技术提供的电子设备一实施例的结构示意图。电子设备100
包括相互耦接的存储器101和处理器102，处理器102用于执行存储器101中存储的程序指令，以实现上述任一语种识别方法实施例的步骤。在一个具体的实施场景中，电子设备100可以包括但不限于：微型计算机、服务器，此外，电子设备100还可以包括笔记本电脑、平板电脑等移动设备，在此不做限定。
[0140]
具体而言，处理器102用于控制其自身以及存储器101以实现上述任一语种识别方法实施例的步骤。处理器102还可以称为cpu(central processing unit，中央处理单元)。处理器102可能是一种集成电路芯片，具有信号的处理能力。处理器102还可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器102可以由集成电路芯片共同实现。
[0141]
请参阅图11，图11是本技术提供的计算机可读存储介质一实施例的结构示意图。本技术实施例的计算机可读存储介质110存储有程序指令111，该程序指令111被执行时实现本技术语种识别方法任一实施例以及任意不冲突的组合所提供的方法。其中，该程序指令111可以形成程序文件以软件产品的形式存储在上述计算机可读存储介质110中，以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施方式方法的全部或部分步骤。而前述的计算机可读存储介质110包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。
[0142]
若本技术技术方案涉及个人信息，应用本技术技术方案的产品在处理个人信息前，已明确告知个人信息处理规则，并取得个人自主同意。若本技术技术方案涉及敏感个人信息，应用本技术技术方案的产品在处理敏感个人信息前，已取得个人单独同意，并且同时满足“明示同意”的要求。例如，在摄像头等个人信息采集装置处，设置明确显著的标识告知已进入个人信息采集范围，将会对个人信息进行采集，若个人自愿进入采集范围即视为同意对其个人信息进行采集；或者在个人信息处理的装置上，利用明显的标识/信息告知个人信息处理规则的情况下，通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权；其中，个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。
[0143]
以上所述仅为本技术的实施方式，并非因此限制本技术的专利范围，凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本技术的专利保护范围内。

技术特征：

1.一种语种识别方法，其特征在于，所述方法包括：利用第一语种识别网络对待识别音频进行语种识别，得到初始语种识别结果；检测所述初始语种识别结果是否满足预设识别要求；响应于所述初始语种识别结果不满足所述预设识别要求，利用第二语种识别网络对所述待识别音频进行语种识别，得到目标语种识别结果；其中，所述第一语种识别网络对第一语种情况的音频的识别能力强于所述第二语种识别网络，所述第二语种识别网络对第二语种情况的音频的识别能力强于所述第一语种识别网络。2.根据权利要求1所述的方法，其特征在于，所述第一语种情况为单语种，所述第二语种情况为多语种，所述第一语种识别网络能够识别出单个语种，所述第二语种识别网络能够识别出至少一个语种。3.根据权利要求2所述的方法，其特征在于，所述初始语种识别结果包括所述待识别音频中存在的一初始语种以及所述初始语种对应的置信分数；所述预设识别要求包括所述置信分数满足预设分数要求。4.根据权利要求1所述的方法，其特征在于，所述第二语种识别网络为隐马尔可夫模型，所述隐马尔可夫模型由若干高斯混合模型拼接而成，每个所述高斯混合模型用于识别得到一个语种。5.根据权利要求1所述的方法，其特征在于，所述方法还包括以下对所述第一语种识别网络的训练步骤：获取第一样本音频和第二样本音频；其中，所述第一样本音频标注有所述第一样本音频中存在的真实语种信息，所述第二样本音频未进行所述标注；对所述第二样本音频进行随机屏蔽处理，得到第三样本音频；利用所述第一语种识别网络对所述第一样本音频、所述第二样本音频和所述第三样本音频进行语种识别，对应得到第一样本语种识别结果、第二样本语种识别结果和第三样本语种识别结果；至少基于所述第一样本语种识别结果与所述真实语种信息之间的第一差异、所述第二样本语种识别结果和所述第三样本语种识别结果之间的第二差异，调整所述第一语种识别网络的网络参数。6.根据权利要求5所述的方法，其特征在于，所述第一样本音频有若干个，所述至少基于所述第一样本语种识别结果与所述真实语种信息之间的第一差异、所述第二样本语种识别结果和所述第三样本语种识别结果之间的第二差异，调整所述第一语种识别网络的网络参数，包括：获取当前所述第一样本音频的表征特征与各正样本音频的表征特征的第一平均距离以及当前所述第一样本音频的表征特征量与各负样本音频的表征特征的第二平均距离；其中，所述正样本音频为与当前所述第一样本音频的语种相同的所述第一样本音频，所述负样本音频为与当前所述第一样本音频的语种不同的所述第一样本音频，所述表征特征为所述第一语种识别网络对相应的所述第一样本音频进行语种识别过程中提取得到的；基于所述第一差异、所述第二差异以及所述第一平均距离和所述第二平均距离之间的差异，调整所述第一语种识别网络的网络参数。7.根据权利要求1所述的方法，其特征在于，在所述利用第一语种识别网络对待识别音
频进行语种识别，得到初始语种识别结果之前，所述方法还包括：对所述待识别音频进行特征提取，得到所述待识别音频的目标声学特征；或者，对初始音频进行特征提取，得到所述初始音频的目标声学特征，从所述初始音频的目标声学特征中，提取预设时间长度的目标声学特征，作为所述待识别音频的目标声学特征；所述利用第一语种识别网络对所述待识别音频进行语种识别，得到初始语种识别结果，包括：利用所述第一语种识别网络对所述目标声学特征进行语种识别，得到所述初始语种识别结果；所述利用第二语种识别网络对所述待识别音频进行语种识别，得到目标语种识别结果，包括：利用第二语种识别网络对所述待目标声学特征进行语种识别，得到所述目标语种识别结果。8.根据权利要求7所述的方法，其特征在于，所述对初始音频进行特征提取，得到所述初始音频的目标声学特征，或所述对所述待识别音频进行特征提取，得到所述待识别音频的目标声学特征，包括：获取所述待提取数据的移位差分倒谱特征；利用特征提取网络对所述待提取数据的移位差分倒谱特征进行特征提取，得到瓶颈特征，将所述瓶颈特征作为所述待提取数据的目标声学特征；其中，所述待提取数据为所述初始音频或所述待识别音频。9.根据权利要求8所述的方法，其特征在于，所述特征提取网络包括依序连接的深度神经网络层和瓶颈网络层，所述瓶颈特征是由所述瓶颈网络层输出的；和/或，所述特征提取网络在训练阶段包括输出层，所述输出层用于对所述特征提取网络提取得到的所述瓶颈特征进行预测，得到对应的语种识别结果；所述方法还包括：获取第四样本音频和第五样本音频；其中，所述第四样本音频标注有所述第四样本音频中存在的真实语种信息，所述第五样本音频未进行所述标注；对所述第五样本音频进行随机屏蔽处理，得到第六样本音频；利用训练阶段的所述特征提取网络分别对所述第四样本音频、所述第五样本音频和所述第六样本音频进行处理，对应得到第四样本语种识别结果、第五样本语种识别结果和第六样本语种识别结果；基于所述第四样本语种识别结果和所述真实语种信息之间的差异，以及所述第五样本语种识别结果和所述第六样本语种识别结果之间的差异，调整所述特征提取网络的网络参数；其中，在所述特征提取网络训练完成后，剔除所述输出层。10.根据权利要求1所述的方法，其特征在于，所述目标语种识别结果包括所述待识别音频中存在的至少一个目标语种以及各所述目标语种在所述待识别音频中对应的时间区间；和/或，所述待识别音频为初始音频中预设时间长度的语音片段，所述初始音频包括对应不同时间段的若干所述待识别音频；在所述利用第二语种识别网络对所述待识别音频进行语种识别，得到目标语种识别结果之后，所述方法还包括：
结合所述初始音频包含的各所述待识别音频的目标语种识别结果，得到所述初始音频的语种识别结果。11.一种语种识别装置，其特征在于，所述装置包括：第一识别模块，用于利用第一语种识别网络对待识别音频进行语种识别，得到初始语种识别结果；检测模块，用于检测所述初始语种识别结果是否满足预设识别要求；第二识别模块，用于响应于所述初始语种识别结果不满足所述预设识别要求，利用第二语种识别网络对所述待识别音频进行语种识别，得到目标语种识别结果；其中，所述第一语种识别网络对第一语种情况的音频的识别能力强于所述第二语种识别网络，所述第二语种识别网络对第二语种情况的音频的识别能力强于所述第一语种识别网络。12.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有程序指令，所述处理器用于执行所述程序指令以实现权利要求1-10任一项所述的语种识别方法。13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序指令，所述程序指令能够被执行以实现权利要求1-10任一项所述的语种识别方法。

技术总结

本申请公开了一种语种识别方法、装置、电子设备和计算机可读存储介质，该方法包括：利用第一语种识别网络对待识别音频进行语种识别，得到初始语种识别结果；检测初始语种识别结果是否满足预设识别要求；响应于初始语种识别结果不满足预设识别要求，利用第二语种识别网络对待识别音频进行语种识别，得到目标语种识别结果。通过上述方式，本申请能够准确地对不同语种情况下的音频进行语种识别。不同语种情况下的音频进行语种识别。不同语种情况下的音频进行语种识别。