语音唤醒方法、声学模型的训练方法及相关装置与流程

1.本技术属于语音唤醒技术领域，具体涉及一种语音唤醒方法、声学模型的训练方法及相关装置。

背景技术：

2.随着物联网及人工智能技术的飞速发展，智能终端设备如音箱、大屏等逐渐普及。此外，语音交互模式正在逐渐替代传统的手动交互模式，而作为开启智能终端语音交互的第一步，语音唤醒系统一直是相关领域的研究热点。
3.现有语音唤醒系统包括声学模型及解码器，其中声学模型以声学状态作为建模单元，解码器以每一帧语音声学后验概率作为输入进行维特比解码，当解码得到的唤醒词的概率大于预设的阈值时，则智能设备从休眠状态进入工作状态并接收用户的指令。受限于智能终端有限的存储及计算能力，其搭载的声学模型通常采用轻量化网络结构(如mobilenet_v2、shufflenet_v2等)。由于轻量化网络参数较少，表征能力有限，导致语音帧的分类准确率较低，特别是在噪声场景下，声学模型欠拟合现象愈加明显，帧分类准确率急剧下降，进而导致噪声场景下唤醒率出现大幅下降。

技术实现要素：

4.本技术提供一种语音唤醒方法、声学模型的训练方法及相关装置，以提高声学模型在噪声场景下的帧分类准确率，继而大幅度提高噪声场景下的唤醒率。
5.为解决上述技术问题，本技术采用的一个技术方案是：提供一种语音唤醒方法，包括：接收待识别语音信号，并获得所述待识别语音信号的声学特征；将所述声学特征输入至训练后的声学模型中以获得唤醒词的概率；其中，训练所述声学模型的步骤包括：构建增强模型，所述增强模型包括与所述声学模型相同的第一分支；利用训练数据共同训练所述增强模型和所述声学模型，且所述第一分支和所述声学模型的参数同步更新并保持相同；基于所述概率确定是否唤醒。
6.为解决上述技术问题，本技术采用的另一个技术方案是：提供一种声学模型的训练方法，包括：构建增强模型；其中，所述增强模型包括与待训练的声学模型相同的第一分支；利用训练数据共同训练所述增强模型和所述声学模型，且所述第一分支和所述声学模型的参数同步更新并保持相同。
7.为解决上述技术问题，本技术采用的另一个技术方案是：提供一种语音唤醒装置，包括：第一获得模块，用于接收待识别语音信号，并获得所述待识别语音信号的声学特征；第二获得模块，与所述第一获得模块连接，用于将所述声学特征输入至训练后的声学模型中以获得唤醒词的概率值；执行模型，与第二获得模块连接，用于基于所述概率值确定是否唤醒；训练模块，与第二获得模块连接，用于构建增强模型，所述增强模型包括与所述声学模型相同的第一分支；以及用于利用训练数据共同训练所述增强模型和所述声学模型，且所述第一分支和所述声学模型的参数同步更新并保持相同。
8.为解决上述技术问题，本技术采用的另一个技术方案是：提供一种电子设备，包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现上述任一实施例中的方法。
9.为解决上述技术问题，本技术采用的另一个技术方案是：提供一种存储装置，存储有能够被处理器运行的程序指令，所述程序指令用于实现上述任一实施例中的方法。
10.区别于现有技术情况，本技术的有益效果是：本技术中训练声学模型时会引入增强模型，且声学模型为增强模型的子模型，二者共享模型参数。一方面，将声学模型嵌入到参数容量更大的增强模型中训练，增强模型可以提供额外的监督信息，使得声学模型跳出局部最优、收敛到更优的状态。另一方面，由于声学模型是增强模型的子模型，声学模型效果的提升进一步提升增强模型的效果，更优的增强模型又会进一步提升声学模型的效果，如此循环交替，最终使得声学模型和增强模型均达到更高的效果。又一方面，增强模型只在训练阶段启动，只使用声学模型部署到智能设备进行前向推理计算，不会带来额外的计算开销。因此，本技术所提供的语音唤醒方法能够改善声学模型的欠拟合问题，提高其在噪声场景下的帧分类准确率，进而大幅提高噪声场景下的唤醒率；且其不会带来额外的计算开销，不会增加设备的响应时间。
11.此外，本技术采用知识蒸馏模式进行训练，将增强模型作为老师模型，声学模型作为学生模型，对学生模型添加kl散度损失，使其尽可能逼近老师模型。由于具有更大的模型容量，老师模型可以达到更高的帧分类准确率，在老师模型的约束下，又因为模型参数的冗余性，相比直接训练容易陷入局部最优，这种训练模式可以使得学生模型达到更优的参数配置，实现更高的帧分类准确率。
附图说明
12.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，其中：
13.图1为本技术语音唤醒方法一实施方式的流程示意图；
14.图2为本技术声学模型的训练方法一实施方式的流程示意图；
15.图3为声学模型和增强模型一实施方式的结构示意图；
16.图4为本技术语音唤醒装置一实施方式的结构示意图；
17.图5为本技术电子设备一实施方式的结构示意图；
18.图6为本技术存储装置一实施方式的结构示意图。
具体实施方式
19.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本技术的一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本技术保护的范围。
20.为了提高噪声场景下的唤醒率，现有方法一般采用如下两种方法进行解决。
21.方法一：引入二级确认模型对唤醒结果进行纠错。具体地，可在现有声学模型基础上增加一个二分类模型。在噪声场景下，声学模型分类的帧正确率较低，导致含唤醒词语音解码得分偏低。为了尽可能减少漏唤醒，需要适当降低门限阈值；当声学模型解码总得分超过阈值时，将连续多帧声学模型的隐层特征输入到二级分类模型中，对当前语音是否含有唤醒词进一步确认。即该方法通过一级声学模型尽可能召回疑似含有唤醒词的语音片段，再通过二级分类模型对语音片段是否含有唤醒词进行二次确认，可大大提高噪声场景下的唤醒率。但是由于增加了二级确认模型，导致唤醒模型参数量及计算量上升，不仅对智能终端带来额外的存储及计算资源负担，还会增加智能终端的功耗及响应时间，影响用户体验。
22.方法二：采用多路pk(挑战)的方式。具体地，用户语音和背景噪声经智能终端收音后送入前端模块进行降噪处理；经声源定位、回声消除、波束形成、语音增强等处理步骤，最终输出多路降噪音频；开启多个唤醒进程，将多路音频分别送入对应的唤醒进程中进行前向解码计算，在相同时间区间内，只要有一路成功唤醒，则认为该段语音片段中存在唤醒词，智能终端从休眠状态进入工作状态，准备接收用户的语音指令。这种多路pk的方式能有效提高噪声场景下的唤醒率。但是由于需要同时开启多个唤醒进程对多路音频同时进行前向解码计算，不仅给智能终端带来巨大的计算负担，而且多路pk策略也会带来一定的时延，导致智能终端响应时间的增加。
23.为了解决上述技术问题，请参阅图1，图1为本技术语音唤醒方法一实施方式的流程示意图，该语音唤醒方法具体包括：
24.s101：接收待识别语音信号，并获得待识别语音信号的声学特征。
25.具体地，在本实施例中，智能终端的麦克风会获得待识别语音信号，然后将待识别语音信号送入智能终端的处理器中；处理器将待识别语音信号依次进行分帧、加窗和傅里叶变换处理等获得多个待识别频域特征，其中，多个待识别频域特征构成声学特征。例如，时长为一秒的待识别语音经过特征提取转换后的待识别频域特征的个数可能为100帧。
26.s102：将声学特征输入至训练后的声学模型中以获得唤醒词的概率。
27.具体地，在本实施例中，声学模型可以包括至少一个卷积层、池化层和全连接层等；声学模型的结构可以为现有技术中任一一种，例如，声学模型可以为混合高斯-隐马尔科夫模型gmm-hmm、深度神经网络-隐马尔科夫模型dnn-hmm、深度循环神经网络-隐马尔科夫模型rnn-hmm、深度卷积神经网络-隐马尔科夫模型cnn-hmm、连接时序分类-长短时记忆模型ctc-lstm等。
28.在一个实施方式中，请参阅图2，图2为本技术声学模型的训练方法一实施方式的流程示意图，训练声学模型的步骤具体包括：
29.s201：构建增强模型；其中，增强模型包括与待训练的声学模型相同的第一分支。
30.具体地，在上述构建增强模型之前还可包括：将声学模型的至少部分层的宽度进行整数倍扩大以构建初始模型；其中，初始模型中包括与声学模型相同的第一分支以及与声学模型不同的第二分支。由于声学模型大小随着参数量的增加而线性增长，为了减少训练开销，只维护初始模型(即最大增强模型)。此外，上述通过增加声学模型至少部分层的宽度来构建初始模型的方式，与增加声学模型至少部分层的深度相比，在处理器上产生的训练时间开销更小。
31.较佳地，可以将声学模型的每层宽度进行整数倍扩大以构建初始模型。该方式可
以使得后续基于初始模型构建的增强模型的多样性更强。且初始模型中每层宽度与声学模型中对应层宽度具有第一比值，初始模型中所有层的第一比值相同。该设计方式可以降低构建初始模型的难度。
32.例如，声学模型包含卷积层、池化层和全连接层，可以将卷积层、池化层和全连接层的通道数均分别扩展为原来的r倍，以构建初始模型；r即上述提及的第一比值；根据经验值，r可取3等。此时，假设原有声学模型某层的宽度(即卷积核个数)为w，则初始模型中对应层的宽度为r*w。
33.进一步，上述步骤s201中构建增强模型的步骤包括：从初始模型中选取第一分支和至少部分第二分支构建增强模型。上述构建增强模型的过程较为简单。
34.一般而言，训练声学模型和增强模型的次数可以为多次，此时针对不同训练次数的增强模型的结构可以不同，以使得每次训练对应的增强模型变得多样化，提高训练后的声学模型的精度。例如，上述构建增强模型的步骤，包括：a、基于当前训练次数获得多样性参数矩阵；其中，多样性参数矩阵中的每个元素s为大于1且小于第一比值r的整数，每个元素s对应初始模型中的每一层；可选地，上述多样性参数矩阵可随机生成。b、针对初始模型中的每一层，获得当前层对应的宽度选择范围，其中，宽度选择范围包括声学模型对应层的宽度w、声学模型对应层的宽度与元素的乘积s*w、以及初始模型对应层的宽度r*w。c、从宽度选择范围中任选一个作为增强模型对应层的宽度，且增强模型对应层包含声学模型的对应层。
35.可选地，多样性参数矩阵中每个元素s的值相同。该设计方式可以降低处理器的计算负荷，降低构建增强模型的难度。
36.在一个应用场景中，如图3所示，图3为声学模型和增强模型一实施方式的结构示意图。声学模型10和增强模型12中仅分别示意画出三层结构。假设声学模型10中每层包含两个卷积核，每层对应的第一比值r为3，初始模型中每层包含六个卷积核，当前训练次数对应的多样性参数矩阵中每个元素s为2；则此时构建增强模型12时，每层对应的宽度可以从w(即2)、s*w(即2*2)和r*w(即3*2)中任选一个。例如，图3中增强模型12的第一层宽度选择为s*w、第二层宽度选择为r*w、第三层宽度选择为w，且增强模型必然包含图3中声学模型10中的两列。
37.s202：利用训练数据共同训练增强模型和声学模型，且第一分支和声学模型的参数同步更新并保持相同。
38.具体地，在一个实施方式中，上述步骤s202之前或上述步骤s201之前包括构建训练数据。而具体构建训练数据的过程可以为：
39.a、获得多个样本数据；其中，样本数据为正例语音数据或反例语音数据；正例语音数据中包含唤醒词，反例语音数据中不包含唤醒词，且正例语音数据和反例语音数据设置有对应的文本标注。
40.b、对每个样本数据和对应的文本标注进行强制对齐以获得样本数据中每帧音频对应的状态标签。
41.具体地，可以通过云端更大的已经训练好的模型根据样本数据对应的文本标注构建其解码路径，再利用维特比算法计算得到所有对齐路径(每一帧语音特征对应一个声学状态state标签)的得分，取其中最大值对应的对齐路径为该音频的state状态标签。
42.c、利用多个样本数据构建拼接数据，且多个拼接数据构成训练数据；其中，拼接数据由至少一个正例语音数据和至少一个反例语音数据拼接形成，拼接数据的状态标签由形成拼接数据的正例语音数据和反例语音数据的状态标签依序构成。
43.由于在实际使用场景中唤醒词音频片段通常是紧挨着非唤醒词音频片段出现的，因此采用上述长句拼接方式构建长拼接数据的方式，可以使得训练数据与实际使用场景更加匹配，增加唤醒系统的鲁棒性；此外，采用长句拼接方式增加了训练数据的复杂度，有利于后续的训练过程，使得唤醒模型收敛到更优的状态。
44.可选地，针对每个拼接数据而言，构成该拼接数据的反例语音数据的个数可以多余正例语音数据的个数。例如，反例语音数据的个数与正例语音数据的个数之比为3等。一般而言，正例语音数据多可能会使得声学模型误唤醒概率大，正例语音数据少可能会使得声学模型不唤醒概率大，故对两者平衡给出该比值选择。
45.另一可选地，不同样本数据其对应的幅值可能不同，为了消除形成拼接数据时各个样本数据幅值分布不一致的影响，可以采取如下方式：
46.a、获得构建当前拼接数据的每个样本数据的局部幅值最大值、以及所有局部幅值最大值中的全局幅值最大值。
47.例如，假设当前需要利用3条正例语音数据(a1、a2和a3)和1条反例语音数据(b1)构成拼接数据；则获得a1的局部幅值最大值为t1、获得a2的局部幅值最大值为t2、获得a3的局部幅值最大值为t3、以及获得b1的局部幅值最大值为t4，且t4为t1、t2、t3和t4中的全局幅值最大值。
48.b、基于每个样本数据的局部幅值最大值对样本数据进行幅值归一化处理。
49.例如，以正例语音数据a1为例，将其各个位置处的幅值强度除以t1，以将正例语音数据a1中各个位置处的幅值强度限定至0-1范围内。
50.c、将幅值归一化后的每个样本数据乘以全局幅值最大值后，进行拼接处理以获得拼接数据。
51.例如，以正例语音数据a1为例，将归一化后的各个位置处的幅值强度乘以t4，以将正例语音数据a1中各个位置处的幅值强度限定至0-t4范围内，此时形成拼接数据的每个正例语音数据和反例语音数据中各个位置处的幅值强度限定至0-t4范围内。
52.当然，在其他实施例中，上述步骤c的实现方式也可为：将幅值归一化后的每个样本数据进行拼接，然后再将拼接后的拼接数据乘以全局幅值最大值。
53.此外，需要说明的是，不同拼接数据所对应的全局幅值最大值可以不同，该方式可以增大训练数据的多样性。且在其他实施例中，也可对对拼接数据通过加噪、加混响、变速等技术手段进行数据扩增得到增广后的拼接数据及对应的状态标签。
54.在另一个实施方式中，请再次参阅图3，上述步骤s202利用训练数据共同训练增强模型和声学模型的步骤具体包括：
55.a、将训练数据输入至增强模型12以获得第一预测结果p
t
(y|x)、以及将训练数据输入至声学模型10以获得第二预测结果ps(y|x)。
56.b、基于第一预测结果p
t
(y|x)和训练数据的状态标签获得第一损失ce
loss
(p
t
)、基于第二预测结果ps(y|x)和训练数据的状态标签获得第二损失ce
loss
(ps)、基于第一预测结果p
t
(y|x)和第二预测结果获得ce
loss
(p
t
)kl散度损失kl
div
(ps,p
t
)。
57.具体地，上述第一损失ce
loss
(p
t
)和第二损失ce
loss
(ps)可以为交叉熵损失等。
58.c、基于第一损失ce
loss
(p
t
)、第二损失ce
loss
(ps)和kl散度损失kl
div
(ps,p
t
)获得总损失。
59.具体地，总损失loss
total
为第一损失ce
loss
(p
t
)、第二损失ce
loss
(ps)和kl散度损失kl
div
(ps,p
t
)之和。
60.d、基于总损失更新增强模型、声学模型和初始模型的参数；其中，增强模型和初始模型中第一分支的参数与声学模型的参数保持相同，增强模型中剩余分支的参数与初始模型中对应分支参数相同。
61.具体地，可以根据总损失计算两个模型的梯度，将两个模型的梯度叠加后，再根据叠加后的梯度同步调整增强模型的参数和声学模型的参数；且增强模型中包含声学模型的模块，在参数更新时声学模型和增强模型中相同卷积核部分的参数保持一致。且在上述步骤d中可以根据增强模型同步更新初始模型中的参数，后续训练过程再从更新后的初始模型中随机选取增强模型进行训练。即：响应于未达到停止训练的预设条件(例如，响应于训练次数未达到预设值，或响应于总损失未收敛等)，基于更新后的初始模型重构增强模型，并利用下一批次的训练数据共同训练重构后的增强模型和更新后的声学模型。具体重构增强模型的过程以及训练的过程可参见上方实施例，在此不再赘述。
62.举例而言，声学模型参数是(x,y)，增强模型的参数是(x,y,z)，假设当前训练次数下声学模型计算得到的反向梯度分别为a1，增强模型计算得到的反向梯度为a2，则增强模型参数更新如为(x-x1,y-y1,z-z1)，声学模型参数更新为(x-x1,y-y1)，并不是只更新增强模型的参数，此时最大增强模型的参数更新为(x-x1,y-y1,z-z1，u，v，w)；其中，声学模型和增强模型中相同的参数x和y的调整值x1和y1是基于a1和a2共同获得；增强模型中与声学模型中不同的参数z的调整值是基于a2获得。上述可以理解为梯度叠加了，两个模型共享的参数部分梯度是叠加的，如x，y，不共享的部分是单独更新的，如z只是增强模型的参数，只会更新增强模型计算得到的梯度。具体参数更新方法对应的计算公式如下所示：
[0063][0064]
其中，(w
bi
，w
ai
)代表当前训练次数的增强模型参数，w
bi
为声学模型的参数，α为增强模型梯度的缩放参数，根据经验值，α可取1，η为学习率，此外，在训练步骤中，新增参数w
ai
)也通过梯度下降进行更新。
[0065]
在上述设计方式中，将增强模型作为老师模型，声学模型作为学生模型，对学生模型添加kl散度损失，将声学模型及增强模型联合训练，声学模型为增强模型的子模型，采用多任务学习方式进行训练，将增强模型的知识迁移到声学模型；作为模型压缩的主要方法之一，知识蒸馏越来越被用于端侧模型效果优化，传统的知识蒸馏方法需要事先训练一个更大网络的老师模型，然后将老师模型的参数固定不动，通过kl散度的约束使得学生模型表现逼近老师模型，在学生模型训练完成后老师模型即告废弃；不同于传统的知识蒸馏方法，本技术通过构建声学模型的增强模型作为老师模型，将老师模型和学生模型联合训练，不需要事先训练老师模型，此外，由于最终优化的目标是学生模型，传统的知识蒸馏方法是保持老师模型参数固定，调整学生模型参数，本技术是根据学生模型和老师模型计算得到的梯度叠加后同时调整学生模型参数与老师模型参数，保持模型中相同卷积核部分参数一
致，在一个批次训练结束后，通过参数共享的方式实现学生模型与老师模型的协同优化，基于更新后的学生模型重新构建下一次训练的老师模型(先更新最大增强模型，再随机生成增强模型作为老师模型)，进行下一批次的训练。当达到预设的训练词数时或epoch(遍历一次所有训练数据为一个epoch)数时停止训练。
[0066]
s103：基于概率确定是否唤醒。
[0067]
具体地，在本实施例中，当唤醒词的概率大于或等于阈值时，智能终端从休眠状态进入工作状态；当唤醒词的概率小于阈值时，智能终端保持休眠状态。
[0068]
在上述设计方式中，训练声学模型时会引入增强模型，且声学模型为增强模型的子模型，二者共享模型参数。一方面，将声学模型嵌入到参数容量更大的增强模型中训练，增强模型可以提供额外的监督信息，使得声学模型跳出局部最优、收敛到更优的状态。另一方面，由于声学模型是增强模型的子模型，声学模型效果的提升进一步提升增强模型的效果，更优的增强模型又会进一步提升声学模型的效果，如此循环交替，最终使得声学模型和增强模型均达到更高的效果。又一方面，增强模型只在训练阶段启动，只使用声学模型部署到智能设备进行前向推理计算，不会带来额外的计算开销。因此，本技术所提供的语音唤醒方法能够改善声学模型的欠拟合问题，提高其在噪声场景下的帧分类准确率，进而大幅提高噪声场景下的唤醒率；且其不会带来额外的计算开销，不会增加设备的响应时间。
[0069]
请参阅图4，图4为本技术语音唤醒装置一实施方式的结构示意图，该语音唤醒装置包括第一获得模块20、第二获得模块22、执行模块24和训练模块26。
[0070]
具体地，第一获得模块20用于接收待识别语音信号，并获得待识别语音信号的声学特征。第二获得模块22与第一获得模块20连接，用于将声学特征输入至训练后的声学模型中以获得唤醒词的概率值。执行模块24与第二获得模块22连接，用于基于概率值确定是否唤醒。训练模块26与第二获得模块22连接，训练模块26包括相互连接的构建子模块260和训练子模块262，训练子模块262与第二获得模块22连接，构建子模块260用于构建增强模型，增强模型包括与声学模型相同的第一分支，训练子模块262用于利用训练数据共同训练增强模型和声学模型，且第一分支和声学模型的参数同步更新并保持相同。
[0071]
在一个实施方式中，上述构建子模块260具体用于将声学模型的至少部分层的宽度进行整数倍扩大以构建初始模型；其中，初始模型中包括与声学模型相同的第一分支以及与声学模型不同的第二分支；从初始模型中选取第一分支和至少部分第二分支构建增强模型。
[0072]
进一步，上述从初始模型中选取第一分支和至少部分第二分支构建增强模型的步骤，包括：基于当前训练次数获得多样性参数矩阵；其中，多样性参数矩阵中的每个元素为大于1且小于第一比值的整数，每个元素对应初始模型中的每一层，第一比值为初始模型中对应层宽度与声学模型中对应层宽度的比值；针对初始模型中的每一层，获得当前层对应的宽度选择范围，其中，宽度选择范围包括声学模型对应层的宽度、声学模型对应层的宽度与元素的乘积、以及初始模型对应层的宽度；从宽度选择范围中任选一个作为增强模型对应层的宽度，且增强模型对应层包含声学模型的对应层。
[0073]
可选地，上述将声学模型的至少部分层的宽度进行整数倍扩大以构建初始模型的步骤，包括：将声学模型的每层宽度进行整数倍扩大以构建初始模型，且初始模型中所有层的第一比值相同。
[0074]
另一可选地，上述多样性参数矩阵中每个元素的值相同。
[0075]
在一个实施方式中，上述训练子模块262具体用于将训练数据输入至增强模型以获得第一预测结果、以及将训练数据输入至声学模型以获得第二预测结果；基于第一预测结果和训练数据的状态标签获得第一损失、基于第二预测结果和训练数据的状态标签获得第二损失、基于第一预测结果和第二预测结果获得kl散度损失；基于第一损失、第二损失和kl散度损失获得总损失；基于总损失更新增强模型和、声学模型和初始模型中的参数；其中，增强模型和初始模型中第一分支的参数与声学模型的参数保持相同，增强模型中剩余分支的参数与初始模型中对应分支参数相同。
[0076]
此外，上述训练子模块262还用于：响应于未达到停止训练的预设条件(例如，响应于训练次数未达到预设值，或响应于总损失未收敛等)，基于更新后的初始模型重构增强模型，并利用下一批次的训练数据共同训练重构后的增强模型和更新后的声学模型。
[0077]
在另一实施方式中，上述训练模块26还可包括拼接子模块，拼接子模块与构建子模块连接，用于获得多个样本数据；其中，样本数据为正例语音数据或反例语音数据；正例语音数据中包含唤醒词，反例语音数据中不包含唤醒词，且正例语音数据和反例语音数据设置有对应的文本标注；对每个样本数据和对应的文本标注进行强制对齐以获得样本数据中每帧音频对应的状态标签；利用多个样本数据构建拼接数据，且多个拼接数据构成训练数据；其中，拼接数据由至少一个正例语音数据和至少一个反例语音数据拼接形成，拼接数据的状态标签由形成拼接数据的正例语音数据和反例语音数据的状态标签依序构成。
[0078]
可选地，利用多个样本数据构建拼接数据的步骤，包括：获得构建当前拼接数据的每个样本数据的局部幅值最大值、以及所有局部幅值最大值中的全局幅值最大值；基于每个样本数据的局部幅值最大值对样本数据进行幅值归一化处理；将幅值归一化后的每个样本数据乘以全局幅值最大值后，进行拼接处理以获得拼接数据。
[0079]
请参阅图5，图5为本技术电子设备一实施方式的结构示意图。该电子设备包括：相互耦接的存储器32和处理器30，存储器32中存储有程序指令，处理器30用于执行程序指令以实现上述任一语音唤醒方法或训练方法。具体地，电子设备包括但不限于：台式计算机、笔记本电脑、平板电脑、服务器等，在此不做限定。此外，处理器30还可以称为cpu(center processing unit,中央处理单元)。处理器30可能是一种集成电路芯片，具有信号处理能力。处理器30还可以是、通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器30可以由集成电路芯片共同实现。
[0080]
请参阅图6，图6为本技术存储装置一实施方式的结构示意图，该存储装置40存储有能够被处理器运行的程序指令400，程序指令400用于实现上述任一语音唤醒方法或训练方法。
[0081]
在本技术所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨
论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。
[0082]
作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
[0083]
另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0084]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本技术各个实施方式方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0085]
以上所述仅为本技术的实施例，并非因此限制本技术的专利范围，凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本技术的专利保护范围内。

技术特征：

1.一种语音唤醒方法，其特征在于，包括：接收待识别语音信号，并获得所述待识别语音信号的声学特征；将所述声学特征输入至训练后的声学模型中以获得唤醒词的概率；其中，训练所述声学模型的步骤包括：构建增强模型，所述增强模型包括与所述声学模型相同的第一分支；利用训练数据共同训练所述增强模型和所述声学模型，且所述第一分支和所述声学模型的参数同步更新并保持相同；基于所述概率确定是否唤醒。2.根据权利要求1所述的语音唤醒方法，其特征在于，所述构建增强模型，所述增强模型包括与所述声学模型相同的第一分支的步骤之前，包括：将所述声学模型的至少部分层的宽度进行整数倍扩大以构建初始模型；其中，所述初始模型中包括与所述声学模型相同的所述第一分支以及与所述声学模型不同的第二分支；所述构建增强模型的步骤，包括：从所述初始模型中选取所述第一分支和至少部分所述第二分支构建所述增强模型。3.根据权利要求2所述的语音唤醒方法，其特征在于，所述从所述初始模型中选取所述第一分支和至少部分所述第二分支构建所述增强模型的步骤，包括：基于当前训练次数获得多样性参数矩阵；其中，所述多样性参数矩阵中的每个元素为大于1且小于第一比值的整数，每个所述元素对应所述初始模型中的每一层，所述第一比值为所述初始模型中对应层宽度与所述声学模型中对应层宽度的比值；针对所述初始模型中的每一层，获得当前层对应的宽度选择范围，其中，所述宽度选择范围包括所述声学模型对应层的宽度、所述声学模型对应层的宽度与所述元素的乘积、以及所述初始模型对应层的宽度；从所述宽度选择范围中任选一个作为所述增强模型对应层的宽度，且所述增强模型对应层包含所述声学模型的对应层。4.根据权利要求3所述的语音唤醒方法，其特征在于，所述将所述声学模型的至少部分层的宽度进行整数倍扩大以构建初始模型的步骤，包括：将所述声学模型的每层宽度进行整数倍扩大以构建所述初始模型，且所述初始模型中所有层的所述第一比值相同；和/或，所述多样性参数矩阵中每个所述元素的值相同。5.根据权利要求2所述的语音唤醒方法，其特征在于，所述利用训练数据共同训练所述增强模型和所述声学模型，且所述第一分支和所述声学模型的参数同步更新并保持相同的步骤包括：将所述训练数据输入至所述增强模型以获得第一预测结果、以及将所述训练数据输入至所述声学模型以获得第二预测结果；基于所述第一预测结果和所述训练数据的状态标签获得第一损失、基于所述第二预测结果和所述训练数据的状态标签获得第二损失、基于所述第一预测结果和所述第二预测结果获得kl散度损失；基于所述第一损失、所述第二损失和所述kl散度损失获得总损失；基于所述总损失更新所述增强模型、所述声学模型和所述初始模型中的参数；其中，所述增强模型和所述初始模型中所述第一分支的参数与所述声学模型的参数保持相同，所述增强模型中剩余分支的参数与所述初始模型中对应分支参数相同。
6.根据权利要求5所述的语音唤醒方法，其特征在于，还包括：响应于未达到停止训练的预设条件，基于更新后的所述初始模型重构增强模型，利用训练数据共同训练重构后的所述增强模型和更新后的所述声学模型。7.根据权利要求1所述的语音唤醒方法，其特征在于，所述利用训练数据共同训练所述增强模型和所述声学模型的步骤之前，包括：获得多个样本数据；其中，所述样本数据为正例语音数据或反例语音数据；所述正例语音数据中包含唤醒词，所述反例语音数据中不包含唤醒词，且所述正例语音数据和所述反例语音数据设置有对应的文本标注；对每个所述样本数据和对应的文本标注进行强制对齐以获得所述样本数据中每帧音频对应的状态标签；利用多个所述样本数据构建拼接数据，且多个所述拼接数据构成所述训练数据；其中，所述拼接数据由至少一个所述正例语音数据和至少一个所述反例语音数据拼接形成，所述拼接数据的状态标签由形成所述拼接数据的所述正例语音数据和所述反例语音数据的状态标签依序构成。8.根据权利要求7所述的语音唤醒方法，其特征在于，所述利用多个所述样本数据构建拼接数据的步骤，包括：获得构建当前所述拼接数据的每个所述样本数据的局部幅值最大值、以及所有所述局部幅值最大值中的全局幅值最大值；基于每个所述样本数据的局部幅值最大值对所述样本数据进行幅值归一化处理；将幅值归一化后的每个所述样本数据乘以所述全局幅值最大值后，进行拼接处理以获得所述拼接数据。9.一种声学模型的训练方法，其特征在于，包括：构建增强模型；其中，所述增强模型包括与待训练的声学模型相同的第一分支；利用训练数据共同训练所述增强模型和所述声学模型，且所述第一分支和所述声学模型的参数同步更新并保持相同。10.一种语音唤醒装置，其特征在于，包括：第一获得模块，用于接收待识别语音信号，并获得所述待识别语音信号的声学特征；第二获得模块，与所述第一获得模块连接，用于将所述声学特征输入至训练后的声学模型中以获得唤醒词的概率值；执行模型，与第二获得模块连接，用于基于所述概率值确定是否唤醒；训练模块，与第二获得模块连接，用于构建增强模型，所述增强模型包括与所述声学模型相同的第一分支；以及用于利用训练数据共同训练所述增强模型和所述声学模型，且所述第一分支和所述声学模型的参数同步更新并保持相同。11.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现权利要求1至8中任一项所述的语音唤醒方法，或权利要求9中所述的训练方法。12.一种存储装置，其特征在于，存储有能够被处理器运行的程序指令，所述程序指令用于实现权利要求1至8中任一项所述的语音唤醒方法，或权利要求9中所述的训练方法。

技术总结

本申请公开了一种语音唤醒方法、声学模型的训练方法及相关装置，该语音唤醒方法包括：接收待识别语音信号，并获得待识别语音信号的声学特征；将声学特征输入至训练后的声学模型中以获得唤醒词的概率；其中，训练声学模型的步骤包括：构建增强模型，增强模型包括与声学模型相同的第一分支；利用训练数据共同训练增强模型和声学模型，且第一分支和声学模型的参数同步更新并保持相同；基于概率确定是否唤醒。通过上述方式，本申请能够提高声学模型在噪声场景下的帧分类准确率，继而大幅度提高噪声场景下的唤醒率。声场景下的唤醒率。声场景下的唤醒率。