音频识别方法、装置、存储介质及电子设备与流程

1.本技术涉及语音识别技术领域，具体而言，涉及一种音频识别方法、装置、存储介质及电子设备。

背景技术：

2.随着人工智能的飞速发展，音频识别技术在多个场景中得到了广泛的应用，例如车载智能终端和手机语音助手等，为用户提供了更为方便的人机交互方式，提高了用户的使用体验。
3.音频识别方法涉及到了语音检测、语音唤醒和命令词识别等功能。现有技术通常为每个功能分别设置单独的神经网络模型，这使得各个功能模块相互独立存在，对系统的计算资源的需求量较大，导致系统的硬件成本较高，系统响应的延迟较大，使得用户的使用体验差。

技术实现要素：

4.本技术提供一种音频识别方法、装置、存储介质及电子设备，用于解决现有的音频识别方法对系统的计算资源需求量较大，导致系统的硬件成本较高，系统响应的延迟较大，用户体验差的技术问题。
5.本技术提供一种音频识别方法，包括：
6.获取待识别音频；
7.将所述待识别音频输入音频识别模型，得到所述音频识别模型输出的音频识别结果；
8.其中，所述音频识别结果包括唤醒词识别结果和/或命令词识别结果；所述音频识别模型包括特征提取层、语音检测层、唤醒词识别层和命令词识别层；所述语音检测层、所述唤醒词识别层和所述命令词识别层分别与所述特征提取层连接；
9.所述特征提取层用于提取所述待识别音频的声学识别特征；所述语音检测层用于基于所述声学识别特征，确定所述待识别音频对应的待识别语音帧；所述唤醒词识别层用于基于所述声学识别特征，确定所述待识别音频对应的唤醒词识别结果；所述命令词识别层用于基于所述声学识别特征，确定所述待识别音频对应的命令词识别结果。
10.根据本技术提供的音频识别方法，所述将所述待识别音频输入音频识别模型，得到所述音频识别模型输出的音频识别结果，包括：
11.将所述待识别音频输入至所述特征提取层，得到所述特征提取层输出的多个待识别音频帧，以及各个待识别音频帧的声学识别特征；
12.将所述各个待识别音频帧的声学识别特征输入至所述语音检测层，得到所述语音检测层输出的各个待识别音频帧的语音检测结果；
13.基于各个待识别音频帧的语音检测结果，确定所述多个待识别音频帧中的待识别语音帧；
14.基于目标语音交互系统的唤醒状态，将所述待识别语音帧的声学识别特征输入至所述唤醒词识别层和/或所述命令词识别层，得到所述音频识别结果。
15.根据本技术提供的音频识别方法，所述基于目标语音交互系统的唤醒状态，将所述待识别语音帧的声学识别特征输入至所述唤醒词识别层和/或所述命令词识别层，得到所述音频识别结果，包括：
16.在所述目标语音交互系统的唤醒状态为已唤醒的情况下，将所述待识别语音帧的声学识别特征输入至所述命令词识别层，得到所述命令词识别层输出的第一命令词识别结果；
17.将所述第一命令词识别结果作为所述音频识别结果。
18.根据本技术提供的音频识别方法，所述基于目标语音交互系统的唤醒状态，将所述待识别语音帧的声学识别特征输入至所述唤醒词识别层和/或所述命令词识别层，得到所述音频识别结果，包括：
19.在所述目标语音交互系统的唤醒状态为未唤醒的情况下，将所述待识别语言帧的声学识别特征输入至所述唤醒词识别层，得到所述唤醒词识别层输出的唤醒词识别结果，以及所述唤醒词识别结果对应的唤醒识别语音帧；
20.基于所述唤醒词识别结果对所述目标语音交互系统进行唤醒，在所述目标语音交互系统的唤醒状态由未唤醒切换至已唤醒的情况下，基于所述待识别语音帧和所述唤醒识别语音帧，确定命令词待识别语音帧，并将所述命令词待识别语音帧的声学识别特征输入至所述命令词识别层，得到所述命令词识别层输出的第二命令词识别结果；
21.将所述唤醒词识别结果和/或第二命令词识别结果作为所述音频识别结果。
22.根据本技术提供的音频识别方法，所述特征提取层包括频谱特征提取层和声学特征提取层；
23.所述将所述待识别音频输入至所述特征提取层，得到所述特征提取层输出的多个待识别音频帧，以及各个待识别音频帧的声学识别特征，包括：
24.将所述待识别音频输入至所述频谱特征提取层，由所述频谱特征提取层对所述待识别音频进行分帧和频谱特征提取，得到所述频谱特征提取层输出的多个待识别音频帧，以及各个待识别音频帧的频谱识别特征；
25.将各个待识别音频帧的频谱识别特征输入至所述声学特征提取层，由所述声学特征提取层对各个待识别音频帧进行声学特征提取，得到所述声学特征提取层输出的各个待识别音频帧的声学识别特征。
26.根据本技术提供的音频识别方法，
27.所述声学特征提取层用于基于预设声学模型对各个待识别音频帧进行声学特征提取；
28.其中，所述预设声学模型是基于所述音频识别结果对应的字库中各个字的发音训练得到的。
29.根据本技术提供的音频识别方法，所述特征提取层还包括特征维度映射层；
30.所述得到所述声学特征提取层输出的各个待识别音频帧的声学识别特征之后，所述方法还包括：
31.将所述各个待识别音频帧的声学识别特征输入至所述特征维度映射层，由所述特
征维度映射层基于所述语音检测层的输入特征维度，对所述声学识别特征的特征维度进行调整。
32.本技术提供一种音频识别装置，包括：
33.获取单元，用于获取待识别音频；
34.识别单元，用于将所述待识别音频输入音频识别模型，得到所述音频识别模型输出的音频识别结果；
35.其中，所述音频识别结果包括唤醒词识别结果和/或命令词识别结果；所述音频识别模型包括特征提取层、语音检测层、唤醒词识别层和命令词识别层；所述语音检测层、所述唤醒词识别层和所述命令词识别层分别与所述特征提取层连接；
36.所述特征提取层用于提取所述待识别音频的声学识别特征；所述语音检测层用于基于所述声学识别特征，确定所述待识别音频对应的待识别语音帧；所述唤醒词识别层用于基于所述声学识别特征，确定所述待识别音频对应的唤醒词识别结果；所述命令词识别层用于基于所述声学识别特征，确定所述待识别音频对应的命令词识别结果。
37.本技术提供一种计算机可读的存储介质，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行所述的音频识别方法。
38.本技术提供一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述的音频识别方法。
39.本技术提供的音频识别方法、装置、存储介质及电子设备，将待识别音频输入音频识别模型，得到音频识别模型输出的音频识别结果；音频识别模型包括特征提取层、语音检测层、唤醒词识别层和命令词识别层；语音检测层、唤醒词识别层和命令词识别层分别与特征提取层连接；特征提取层用于提取待识别音频的声学识别特征；语音检测层用于基于声学识别特征，确定待识别音频对应的待识别语音帧；唤醒词识别层用于基于声学识别特征，确定待识别音频对应的唤醒词识别结果；命令词识别层用于基于声学识别特征，确定待识别音频对应的命令词识别结果，由于音频识别模型中的语音检测层、唤醒词识别层和命令词识别层共用一个特征提取层，通过模型融合的方式使得音频识别模型分别实现了语音检测、唤醒词识别和命令词识别等三个功能，减小了音频识别模型的网络尺寸和计算参数，提高了音频识别模型的运算速度，提高了音频识别模型的响应速度，同时减小了音频识别模型对计算资源的需求量，使得音频识别模型可以部署在硬件资源有限的平台上，提高了用户使用语音交互系统的便捷性，提高了用户对于终端设备的使用体验。
附图说明
40.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本技术的实施例，并与说明书一起用于解释本技术的原理。
41.为了更清楚地说明本技术或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
42.图1是本技术提供的音频识别方法的流程示意图；
43.图2是本技术提供的频谱特征提取层的运行示意图；
44.图3是本技术提供的音频识别模型的结构示意图；
45.图4是本技术提供的音频识别装置的结构示意图；
46.图5是本技术提供的电子设备的结构示意图。
具体实施方式
47.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分的实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本技术保护的范围。
48.需要说明的是，本技术中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
49.本技术实施例提供的音频识别方法适用于搭载人机语音交互系统的终端设备。人机语音交互系统为以语音为载体，与用户进行信息交互的系统。
50.终端设备包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备、或连接到无线调制解调器的其它处理设备，例如，手机、平板、台式笔记本以及可以运行应用程序的智能设备，包括智能汽车的中央控制台等。具体可以指用户设备(user equipment，ue)、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置。
51.终端设备还可以是卫星电话、蜂窝电话、智能手机、无线数据卡、无线调制解调器、机器类型通信设备、可以是无绳电话、会话启动协议(session initiation protocol，sip)电话、无线本地环路(wireless local loop，wll)站、个人数字处理(personal digital assistant，pda)、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、车载设备或可穿戴设备，虚拟现实(virtual reality，vr)终端设备、增强现实(augmented reality，ar)终端设备、工业控制(industrial control)中的无线终端、无人驾驶(self-driving)中的无线终端、远程医疗(remote medical)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端、5g网络或者未来通信网络中的终端设备等。
52.终端设备可以由电池供电，还可以附接到车辆或者船舶的电源系统，并由车辆或者船舶的电源系统供电。车辆或者船舶的电源系统还可以为终端设备的电池充电，以延长终端设备通信时间。
53.本技术实施例的音频识别方法的执行主体为音频识别装置。音频识别装置可以为人机语音交互系统中单独设置的硬件模块，也可以为在人机语音交互系统中运行的软件程序。
54.图1是本技术提供的音频识别方法的流程示意图，如图1所示，该方法包括步骤110和步骤120。
55.步骤110、获取待识别音频。
56.具体地，待识别音频为包含了用户发出的语音的音频。待识别音频的存储格式可以为mp3、mpeg、wma和aac等。本技术实施例对于待识别音频的存储格式不作具体限定。
57.步骤120、将待识别音频输入音频识别模型，得到音频识别模型输出的音频识别结果。
58.其中，音频识别结果包括唤醒词识别结果和/或命令词识别结果。
59.音频识别模型包括特征提取层、语音检测层、唤醒词识别层和命令词识别层；语音检测层、唤醒词识别层和命令词识别层分别与特征提取层连接。
60.特征提取层用于提取待识别音频的声学识别特征；语音检测层用于基于声学识别特征，确定待识别音频对应的待识别语音帧；唤醒词识别层用于基于声学识别特征，确定待识别音频对应的唤醒词识别结果；命令词识别层用于基于声学识别特征，确定待识别音频对应的命令词识别结果。
61.具体地，待识别音频中的用户语音包含了用户的意图。用户的意图可以分为两类，第一类为用户希望对语音交互系统进行唤醒，第二类为用户希望对语音交互系统下达命令，用于控制语音交互系统连接的终端设备执行相应的操作。
62.例如，终端设备可以为智能汽车的中央控制台，该终端设备中搭载了车载语音交互系统，该系统与智能汽车上的各个控制设备连接。为了节约电能消耗以及节约计算资源，车载语音交互系统在平常时处于休眠状态或者低功耗状态，在检测到特定的唤醒词后才进入唤醒状态，即正常工作状态。用户在驾驶智能汽车时，可以发出语音“小助手你好，请帮助我打开车窗”。在该音频中，“小助手”为用户向车载语音交互系统发出的唤醒词，“打开车窗”为用户向车载语音交互系统发出的命令词。
63.可以以神经网络模型为初始模型，建立音频识别模型，用于对待识别音频进行处理，得到音频识别结果。音频识别结果包括了唤醒词识别结果和/或命令词识别结果。唤醒词识别结果为对待识别音频进行识别后得到的唤醒词，命令词识别结果为对待识别音频进行识别后得到的命令词。
64.待识别音频是对用户发出的语音进行采集后得到的音频。待识别音频中不仅包含了用户的语音，还可能包含了其它声音，例如用户所在环境的背景声音等。因此，音频识别模型可以包括语音检测模块，用于对待识别音频进行语音检测，将待识别音频分为语音部分(即非静音部分)和非语音部分(即静音部分)。由于唤醒词和命令词分别实现不同的功能，且对于语音交互系统来说，唤醒词的识别是在系统未被唤醒的状态下进行的，而命令词的识别是在系统被唤醒的状态下进行的。唤醒词一般比较固定和简短，可以由用户提前进行设置，而命令词一般不是固定的，包含多种可能。因此，音频识别模型可以包括唤醒词识别模块和命令词识别模块。
65.考虑到语音检测、唤醒词识别和命令词识别在采用神经网络模型进行实现时，都可以建立在对待识别音频的声学特征进行分析的基础上。因此，本技术实施例建立的音频识别模型从模型结构上可以包括特征提取层、语音检测层、唤醒词识别层和命令词识别层。语音检测层、唤醒词识别层和命令词识别层分别与特征提取层连接。
66.在音频识别模型中，特征提取层主要用于提取待识别音频的声学识别特征。声学识别特征用于描述待识别音频在声学特性方面的物理量。例如，声学识别特征可以为韵律特征、音特征和响度特征等；也可以为时域特征和频域特征等。其中，频域特征又可以包括梅尔倒谱系数特征(mel frequency cepstral coefficent，mfcc)和滤波器组特征(filter-bank，fbank)等。
67.语音检测层用于根据特征提取层输出的声学识别特征，确定待识别音频对应的待识别语音帧。待识别语音帧为对待识别音频进行语音检测，将其中的语音部分提取出来，并进行分帧后得到的结果，例如确定待识别音频中的语音开始时间和语音结束时间，然后将语音开始时间和语音结束时间之间的语音部分提取出来，分帧后得到多个待识别语音帧。通过提取待识别语音帧，可以将待识别音频中的有用部分(语音部分)提取出来，减少对无用部分(非语音部分)进行处理，从而减少系统的计算量。
68.唤醒词识别层用于根据特征提取层输出的声学识别特征，确定待识别音频对应的唤醒词识别结果。唤醒词识别层还可以根据语音检测层的识别结果，对已经得到的待识别语音帧进行识别，得到唤醒词识别结果。
69.命令词识别层用于根据特征提取层输出的声学识别特征，确定待识别音频对应的命令词识别结果。命令词识别层还可以根据语音检测层的识别结果，对已经得到的待识别语音帧进行识别，得到命令词识别结果。
70.特征提取层、语音检测层、唤醒词识别层和命令词识别层可以采用不同的初始神经网络模型进行实现。各个层所采用的初始神经网络模型的种类可以相同，也可以不同，本技术实施例对此不做具体限定。初始神经网络模型可以包括卷积神经网络(convolutional neural network，cnn)、深度前馈序列记忆神经网络(deep feedforward sequential memory network，dfsmn)、长短期记忆神经网络(long-stort term memory，lstm)、注意力神经网络(transformer)等。
71.为了缩小音频识别模型的模型结构，语音检测层、唤醒词识别层和命令词识别层也可以采用神经网络的部分结构进行实现，例如神经网络中的全连接层等。由于各个层执行的任务不同，虽然都采用全连接层实现，但是各个层的神经元数量和权重参数等均不相同。
72.音频识别模型的训练可以采用联合训练的方式。具体的训练过程如下：
73.首先，收集大量的用户音频。其次，通过标注的方法，确定各个用户音频中的语音开始时间和语音结束时间，以及各个用户语音中包含的唤醒词和命令词。再次，根据音频识别模型的模型结构建立初始模型，以用户音频为样本，以各个用户音频中的语音开始时间、语音结束时间、唤醒词和命令词为样本标签，对初始模型进行训练，以提高初始模型对于样本中语音开始时间、语音结束时间、唤醒词和命令词的预测能力，最终得到音频识别模型。
74.在音频识别模型的训练过程中，损失函数可以包括三个部分。第一部分为语音检测损失函数，第二部分为唤醒词识别损失函数，第三部分为命令词识别损失函数。可以分别为各个部分的损失函数设置权重值，包括语音检测损失权重、唤醒词识别损失权重和命令词识别损失权重。通过加权求和的方式，得到音频识别模型的损失函数。
75.语音检测损失函数可以通过初始模型预测得到的语音开始预测时间和用户音频的语音开始时间之间的第一差值，以及语音结束预测时间和用户音频的语音结束时间之间
的第二差值进行确定。第一差值与第二差值的和越小，则语音检测损失越小。
76.唤醒词识别损失函数可以通过初始模型预测得到的唤醒词预测值和用户音频的唤醒词之间的相似度进行确定。命令词识别损失函数可以通过初始模型预测得到的命令词预测值和用户音频的命令词之间的相似度进行确定。相似度越高，则唤醒词识别损失或者命令词识别损失越小。
77.此外，唤醒词识别损失函数和/或命令词识别损失函数还可以根据ctc(connectionist temporal classification)算法进行确定。ctc算法又具体包括贪心搜索(greedy search)、束搜索(beam search)、前缀束搜索(prefix beam search)等。
78.本技术实施例提供的音频识别方法，将待识别音频输入音频识别模型，得到音频识别模型输出的音频识别结果；音频识别模型包括特征提取层、语音检测层、唤醒词识别层和命令词识别层；语音检测层、唤醒词识别层和命令词识别层分别与特征提取层连接；特征提取层用于提取待识别音频的声学识别特征；语音检测层用于基于声学识别特征，确定待识别音频对应的待识别语音帧；唤醒词识别层用于基于声学识别特征，确定待识别音频对应的唤醒词识别结果；命令词识别层用于基于声学识别特征，确定待识别音频对应的命令词识别结果，由于音频识别模型中的语音检测层、唤醒词识别层和命令词识别层共用一个特征提取层，通过模型融合的方式使得音频识别模型分别实现了语音检测、唤醒词识别和命令词识别等三个功能，减小了音频识别模型的网络尺寸和计算参数，提高了音频识别模型的运算速度，提高了音频识别模型的响应速度，同时减小了音频识别模型对计算资源的需求量，使得音频识别模型可以部署在硬件资源有限的平台上，提高了用户使用语音交互系统的便捷性，提高了用户对于终端设备的使用体验。
79.基于上述任一实施例，步骤120包括：
80.将待识别音频输入至特征提取层，得到特征提取层输出的多个待识别音频帧，以及各个待识别音频帧的声学识别特征；
81.将各个待识别音频帧的声学识别特征输入至语音检测层，得到语音检测层输出的各个待识别音频帧的语音检测结果；
82.基于各个待识别音频帧的语音检测结果，确定多个待识别音频帧中的待识别语音帧；
83.基于目标语音交互系统的唤醒状态，将待识别语音帧的声学识别特征输入至唤醒词识别层和/或命令词识别层，得到音频识别结果。
84.具体地，可以先将待识别音频输入至音频识别模型的特征提取层，由特征提取层对待识别音频进行分帧和特征提取后，得到多个待识别音频帧，以及各个待识别音频帧的声学识别特征。
85.分帧可以提高待识别音频处理的实时性。可以按照设定的持续时间长度，将待识别音频划分为多个待识别音频帧。持续时间长度可以根据需要进行设定。
86.将各个待识别音频帧的声学识别特征输入至语音检测层，得到语音检测层输出的各个待识别音频帧的语音检测结果。
87.现有的语音检测多采用能量阈值法、零交叉率法和语音活动检测(voice activity detection，vad)算法等。这些算法在信噪比较高的情况下，对语音活动的检测效果较差。而本技术实施例中的语音检测层采用了神经网络来进行语音检测。由于神经网络
具有更好的特征提取能力，因此可以提高语音检测的准确性。
88.在经过语音检测层处理之后，可以根据各个待识别音频帧的语音检测结果，将多个待识别音频帧划分为待识别语音帧和非语音帧。待识别语音帧中包含了用户发出的语音，需要进行进一步地识别，而非语音帧不包含语音，无需进行识别，可以进行舍弃，从而减少唤醒词识别层和/或命令词识别层的计算量，提高唤醒词识别层和/或命令词识别层的计算速度。
89.音频识别模型的唤醒词或者命令词可以用于唤醒或者控制目标语音交互系统。对于待识别语音帧的进一步识别，需要根据目标语音交互系统的唤醒状态进行判断。如果目标语音交互系统的唤醒状态为已唤醒，则无需将待识别语音帧的声学识别特征输入唤醒词识别层进行识别，可以直接输入命令词识别层进行识别，从而提高音频识别过程的响应速度。如果目标语音交互系统的唤醒状态为未唤醒，则需要将待识别语音帧的声学识别特征输入唤醒词识别层进行识别。在识别得到唤醒词识别结果为唤醒词的情况下，再将待识别语音帧的声学识别特征输入命令词识别层进行识别；在识别得到唤醒词识别结果为非唤醒词的情况下，则表明此时用户发出的语音并非是为了唤醒目标语音交互系统，也不是为了让目标语音交互系统执行任何指令，可能是用户与其他用户的交流声音等，此时，可以舍弃待识别语音帧，避免进行误识别，浪费系统的计算资源。
90.本技术实施例提供的音频识别方法，通过结合目标语音交互系统的唤醒状态，实现了灵活地选择音频识别模型中的部分网络结构进行音频识别，有效地节约了系统的计算资源，提高了音频识别的响应速度，提高了用户的使用体验。
91.基于上述任一实施例，基于目标语音交互系统的唤醒状态，将待识别语音帧的声学识别特征输入至唤醒词识别层和/或命令词识别层，得到音频识别结果，包括：
92.在目标语音交互系统的唤醒状态为已唤醒的情况下，将待识别语音帧的声学识别特征输入至命令词识别层，得到命令词识别层输出的第一命令词识别结果；
93.将第一命令词识别结果作为音频识别结果。
94.具体地，在目标语音交互系统的唤醒状态为已唤醒的情况下，此时无需再识别待识别语音帧中的唤醒词，可以直接将待识别语音帧的声学识别特征输入至命令词识别层，进行识别后，得到第一命令词识别结果。第一命令词识别结果即为当前待识别音频的音频识别结果。
95.在得到第一命令词识别结果后，还需要将第一命令词识别结果与目标语音交互系统的预设命令词进行比对，比对结果为一致后，目标语音交互系统才执行第一命令词识别结果对应的控制命令。比对结果不一致，表明用户发出的语音可能为包含了错误命令词的语音，或者用户发出语音的意图并不是为了向目标语音交互系统发出控制命令。
96.在当前待识别音频的识别过程中，由于目标语音交互系统为已唤醒状态，无需再识别唤醒词，可以提高音频识别的响应速度。
97.基于上述任一实施例，基于目标语音交互系统的唤醒状态，将待识别语音帧的声学识别特征输入至唤醒词识别层和/或命令词识别层，得到音频识别结果，包括：
98.在目标语音交互系统的唤醒状态为未唤醒的情况下，将待识别语言帧的声学识别特征输入至音频识别模型的唤醒词识别层，得到唤醒词识别层输出的唤醒词识别结果，以及唤醒词识别结果对应的唤醒识别语音帧；
99.基于唤醒词识别结果对目标语音交互系统进行唤醒，在目标语音交互系统的唤醒状态由未唤醒切换至已唤醒的情况下，基于待识别语音帧和唤醒识别语音帧，确定命令词待识别语音帧，并将命令词待识别语音帧的声学识别特征输入至音频识别模型的命令词识别层，得到命令词识别层输出的第二命令词识别结果；
100.将唤醒词识别结果和/或第二命令词识别结果作为音频识别结果。
101.具体地，在目标语音交互系统的唤醒状态为未唤醒的情况下，需要将待识别语言帧的声学识别特征输入至音频识别模型的唤醒词识别层，由唤醒词识别层识别后得到唤醒词识别结果。同时，唤醒词识别层还输出唤醒词识别结果对应的唤醒识别语音帧。唤醒识别语音帧也就是各个唤醒词中的字对应的待识别语音帧。
102.唤醒词识别结果用于对目标语音交互系统进行唤醒。可以将唤醒词识别结果与预设唤醒词进行比对，比对方法可以采用字词匹配的方法或者计算语义相似度的方法进行比较。例如，如果唤醒词识别结果与预设唤醒词之间的语义相似度小于或者等于预设相似度阈值，可以认为唤醒词识别结果与预设唤醒词的比对结果为一致；如果唤醒词识别结果与预设唤醒词之间的语义相似度大于预设相似度阈值，可以认为唤醒词识别结果与预设唤醒词的比对结果为不一致。
103.在比对结果为不一致的情况下，则唤醒目标语音交互系统失败。在比对结果为一致的情况下，则唤醒目标语音交互系统成功。此时，目标语音交互系统的唤醒状态从未唤醒切换至已唤醒。
104.在目标语音交互系统的唤醒状态已切换至已唤醒的情况下，可以在待识别语音帧中排除唤醒识别语音帧，以得到命令词待识别语音帧。因为唤醒识别语音帧中所包含的信息为唤醒词，唤醒词和命令词是不相同的，因此可以进一步地减少计算数据量，得到命令词待识别语音帧。命令词待识别语音帧为可能包含命令词信息的语音帧。
105.将命令词待识别语音帧的声学识别特征输入至音频识别模型的命令词识别层，得到命令词识别层输出的第二命令词识别结果。
106.在得到第二命令词识别结果后，还需要将第二命令词识别结果与目标语音交互系统的预设命令词进行比对，比对结果为一致后，目标语音交互系统才执行第二命令词识别结果对应的控制命令。比对结果不一致，表明用户发出的语音可能为包含了错误命令词的语音。
107.本技术实施例提供的音频识别方法，在唤醒目标语音交互系统后，在待识别语音帧中排除唤醒识别语音帧，能够减小了音频识别模型的计算量，提高了音频识别模型的运算速度，提高了音频识别模型的响应速度。
108.基于上述任一实施例，特征提取层包括频谱特征提取层和声学特征提取层；
109.将待识别音频输入至特征提取层，得到特征提取层输出的多个待识别音频帧，以及各个待识别音频帧的声学识别特征，包括：
110.将待识别音频输入至频谱特征提取层，由频谱特征提取层对待识别音频进行分帧和频谱特征提取，得到频谱特征提取层输出的多个待识别音频帧，以及各个待识别音频帧的频谱识别特征；
111.将各个待识别音频帧的频谱识别特征输入至声学特征提取层，由声学特征提取层基于预设声学模型对各个待识别音频帧进行声学特征提取，得到声学特征提取层输出的各
个待识别音频帧的声学识别特征；
112.其中，预设声学模型是基于音频识别结果对应的字库中各个字的发音训练得到的。
113.具体地，将待识别音频输入至频谱特征提取层，由频谱特征提取层对待识别音频进行分帧和频谱特征提取，得到多个待识别音频帧，以及各个待识别音频帧的频谱识别特征。频谱识别特征用于描述待识别音频在频率特性方面的物理量。
114.图2是本技术提供的频谱特征提取层的运行示意图，如图2所示，以频谱识别特征为fbank特征为例，频谱特征提取层先后对待识别音频进行预加重210、分帧220、加窗230、傅里叶变换240、取功率谱250、幅度平方260、梅尔滤波器组映射270和取对数280等操作，从而得到多个待识别音频帧，以及各个待识别音频帧的fbank特征。
115.具体操作步骤为先对待识别音频进行预加重，目的是对高频信号进行增强；再分帧和加窗，分帧是把音频信号按照10ms为一帧分开，加窗是为了防止频谱泄漏，每次使用25ms的信号计算特征，也就是每次移动10ms，实际使用25ms的信号，有15ms的历史重叠信息。再经过傅里叶变换利用时域信号得到频域信号，也就是频谱。累加某一时间的频域得到语谱，再经过梅尔滤波器组把频率映射到梅尔频率标度，最后取对数得到fbank特征。在唤醒词识别和命令词识别应用中一般梅尔滤波器组取40或80个，也就是每帧音频对应40或80个输出。
116.例如，待识别音频有160ms，则分成16帧，每帧特征为40维数据，则待识别音频对应的各个待识别音频帧的频谱识别特征可以用维度为16
×
40的矩阵来表示。
117.在提取频谱识别特征之后，可以将各个待识别音频帧的频谱识别特征输入至声学特征提取层，由声学特征提取层基于预设声学模型对各个待识别音频帧进行声学特征提取，得到声学特征提取层输出的各个待识别音频帧的声学识别特征。
118.声学特征提取层是为了进一步地提取待识别音频帧中的声学特征。声学特征提取层可以采用预设声学模型。预设声学模型可以以cnn、dfsmn、lstm或transformer等神经网络模型为初始模型，根据音频识别结果对应的字库中各个字的发音对初始模型进行训练得到的。
119.由于预设声学模型是通过音频识别结果对应的字库中各个字的发音训练后得到的，因此预设声学模型更具有针对性，更能够从待识别音频帧中提取到满足音频识别结果要求的特征，提高了声学特征提取的准确性，也就提高了唤醒词识别和命令词识别的准确性。
120.在声学特征提取层中，可以将声学识别特征的维度作为模型训练的超参数进行设置。显然，声学识别特征的维度越大，声学识别特征的准确性也就越高，对系统计算资源的需求量也就越大，声学识别特征的维度越小，声学识别特征的准确性也就越低，对系统计算资源的需求量也就越小。
121.例如1帧fbank特征数据，设置声学识别特征的维度为100，则输出的任一待识别音频帧的声学识别特征为100维的矩阵。这个维度和最后的识别维度不一样，可以通过其他的网络层来把它们的维度匹配起来。
122.基于上述任一实施例，在音频识别结果对应的字库为中文字库的情况下，各个字的发音为音节发音。
123.具体地，在音频识别结果对应的字库为中文字库的情况下，在预设声学模型进行训练时，可以采用音节发音。音节发音为不带音调的音素发音，而拼音为带音调的音素发音。对于中文中的字而言，一个音节可以对应4个不同音调的拼音。例如，常用的中文汉字大约有400多个音节。
124.采用音节发音对预设声学模型进行训练，虽然没有音调，导致音素颗粒度低，单帧拟合度高，但是降低了声学识别特征的输出维度，模型的参数和计算量少，提高了音频识别模型的运算速度，提高了音频识别模型的响应速度。
125.基于上述任一实施例，特征提取层还包括特征维度映射层；
126.得到声学特征提取层输出的各个待识别音频帧的声学识别特征之后，方法还包括：
127.将各个待识别音频帧的声学识别特征输入至特征维度映射层，由特征维度映射层基于语音检测层的输入特征维度，对声学识别特征的特征维度进行调整。
128.具体地，在声学特征提取层输出的各个待识别音频帧的声学识别特征的维度与语音检测层的输入特征维度不匹配的情况下，特征提取层还包括特征维度映射层，用于对声学识别特征的特征维度进行调整。
129.特征维度映射层可以为全连接层。例如，任一声学识别特征的维度为dimk，而语音检测层的输入特征维度为dim1。通过根据全连接层构造特征维度映射层，类似于矩阵乘法，该声学识别特征表示为1
×
dimk的矩阵，特征维度映射层可以用dimk×
dim1的矩阵表示，则将该声学识别特征输入特征维度映射层后，输出为1
×
dim1的矩阵。
130.通过特征维度映射层的变换，可以将各个待识别音频帧的声学识别特征中语音检测层更关注的特征提取出来。
131.基于上述任一实施例，图3是本技术提供的音频识别模型的结构示意图，如图3所示，音频识别模型包括特征提取层310、语音检测层320、唤醒词识别层330和命令词识别层340；语音检测层320、唤醒词识别层330和命令词识别层340分别与特征提取层310连接。
132.其中，特征提取层310又包括依次连接的频谱特征提取层311、声学特征提取层312和特征维度映射层313。
133.也可以在特征提取层310之前，预设设置一个语音预检测层，该层用于通过现有的语音活动检测(vad)算法对待识别音频进行预处理，以减少对不必要的语音或者背景音频的计算和识别，减少音频识别模型的计算量。
134.语音检测层320、唤醒词识别层330和命令词识别层340可以采用独立的全连接层实现。
135.具体地，语音检测层320可以包括依次连接的第一全连接层321、第一激活函数层322和门限判断层323。唤醒词识别层330可以包括依次连接的第二全连接层331、第二激活函数层332和唤醒词解码层333。命令词识别层340可以包括依次连接的第三全连接层341、第三激活函数层342和命令词解码层343。
136.第一全连接层的结果是语音(非静音)或者非语音(静音)，所以最终标签可以是1个或者2个，全连接层输出维度也就相应的是1或者2。第二全连接层的输出是唤醒字、空白帧或者非唤醒字，如果唤醒标签有m个，则每个待识别音频帧的全连接层输出维度为m。第三全连接层和第二全连接层类似，通常输出标签更多一些，如果命令标签有n个，则每个待识
别音频帧的全连接层输出维度为n。
137.为了增加全连接层输出结果的非线性特征，可以在全连接层后增加激活函数。常用激活函数有relu、tanh、sigmoid、softmax等。
138.对于第一激活函数层，由于语音检测的结果是布尔型的，对某一帧结果是语音还是非语音，所以结果标签可以是1个值或者2个值，当结果是1个值时，可以使用sigmoid激活函数；当结果是2个值时通常使用softmax，当然也可以使用relu。
139.第二激活函数层输出标签是多个，比如400多个无声调的拼音，则输出维度就是400多，对于多标签的输出可以使用relu和softmax。
140.第三激活函数层和第二激活函数层类似，激活函数可以使用relu和softmax。
141.对于门限判断层，对某一帧结果是还是语音(非静音)还是非语音(静音)。由于一帧音频只有10ms，时间太短不足以判断是否是静音，比如一个突然出现的噪声，需要的判断出人讲话的声音，通常会持续一段时间，比如1000ms。所以这里判断是否出现人声，一般要缓存一段时间的处理结果来综合判断，判断的策略可以有多种，例如持续时长、持续期间空白帧的次数，人声帧的置信度等，时长好过滤，空白帧可以使用移动平均来滤除，置信度可以使用门限值来约束。
142.对于唤醒词解码层，语音唤醒输出标签是多个，比如400多个无声调的拼音，则输出维度就是400多。一般多个帧映射到同一个音节上，如果唤醒词是“你好小咖”，则结果应当是[0,0,0,0
…
,0,0a,a,
…
a,a,b,b,
…
b,b,c,c,
…
c,c,d,d,
…
d,d,0,
…
0,0,0,0]。其中，0为空白帧，a对应着“你”的拼音“ni”,b对应着“好”的拼音“hao”，c对应着“小”的拼音“xiao”，d对应着“咖”的拼音“ka”。判断是否唤醒的策略比较多，首先要考虑人讲话的帧的长度，每一帧被预测成唤醒字的概率，整个唤醒词的概率，唤醒字出现的顺序，比如唤醒4个字出现的顺序不是“你”、“好”、“小”、“咖”，就不能被认为唤醒成功。
[0143]
对于命令词解码层，和唤醒词解码层类似，由于命令词有多个，带有语言统计信息，所以解码的时候可以考虑词句的概率，例如使用ctc算法解码，或者带有n-gram的语言模型解码，这样准确度更高。
[0144]
基于上述任一实施例，图4是本技术提供的音频识别装置的结构示意图，如图4所示，该装置包括：
[0145]
获取单元410，用于获取待识别音频；
[0146]
识别单元420，用于将待识别音频输入音频识别模型，得到音频识别模型输出的音频识别结果；
[0147]
其中，音频识别结果包括唤醒词识别结果和/或命令词识别结果；音频识别模型包括特征提取层、语音检测层、唤醒词识别层和命令词识别层；语音检测层、唤醒词识别层和命令词识别层分别与特征提取层连接；
[0148]
特征提取层用于提取待识别音频的声学识别特征；语音检测层用于基于声学识别特征，确定待识别音频对应的待识别语音帧；唤醒词识别层用于基于声学识别特征，确定待识别音频对应的唤醒词识别结果；命令词识别层用于基于声学识别特征，确定待识别音频对应的命令词识别结果。
[0149]
本技术实施例提供的音频识别装置，将待识别音频输入音频识别模型，得到音频识别模型输出的音频识别结果；音频识别模型包括特征提取层、语音检测层、唤醒词识别层
和命令词识别层；语音检测层、唤醒词识别层和命令词识别层分别与特征提取层连接；特征提取层用于提取待识别音频的声学识别特征；语音检测层用于基于声学识别特征，确定待识别音频对应的待识别语音帧；唤醒词识别层用于基于声学识别特征，确定待识别音频对应的唤醒词识别结果；命令词识别层用于基于声学识别特征，确定待识别音频对应的命令词识别结果，由于音频识别模型中的语音检测层、唤醒词识别层和命令词识别层共用一个特征提取层，通过模型融合的方式使得音频识别模型分别实现了语音检测、唤醒词识别和命令词识别等三个功能，减小了音频识别模型的网络尺寸和计算参数，提高了音频识别模型的运算速度，提高了音频识别模型的响应速度，同时减小了音频识别模型对计算资源的需求量，使得音频识别模型可以部署在硬件资源有限的平台上，提高了用户使用语音交互系统的便捷性，提高了用户对于终端设备的使用体验。
[0150]
基于上述任一实施例，识别单元用于：
[0151]
将待识别音频输入至特征提取层，得到特征提取层输出的多个待识别音频帧，以及各个待识别音频帧的声学识别特征；
[0152]
将各个待识别音频帧的声学识别特征输入至语音检测层，得到语音检测层输出的各个待识别音频帧的语音检测结果；
[0153]
基于各个待识别音频帧的语音检测结果，确定多个待识别音频帧中的待识别语音帧；
[0154]
基于目标语音交互系统的唤醒状态，将待识别语音帧的声学识别特征输入至唤醒词识别层和/或命令词识别层，得到音频识别结果。
[0155]
基于上述任一实施例，识别单元具体用于：
[0156]
在目标语音交互系统的唤醒状态为已唤醒的情况下，将待识别语音帧的声学识别特征输入至命令词识别层，得到命令词识别层输出的第一命令词识别结果；
[0157]
将第一命令词识别结果作为音频识别结果。
[0158]
基于上述任一实施例，识别单元具体用于：
[0159]
在目标语音交互系统的唤醒状态为未唤醒的情况下，将待识别语言帧的声学识别特征输入至音频识别模型的唤醒词识别层，得到唤醒词识别层输出的唤醒词识别结果，以及唤醒词识别结果对应的唤醒识别语音帧；
[0160]
基于唤醒词识别结果对目标语音交互系统进行唤醒，在目标语音交互系统的唤醒状态由未唤醒切换至已唤醒的情况下，基于待识别语音帧和唤醒识别语音帧，确定命令词待识别语音帧，并将命令词待识别语音帧的声学识别特征输入至命令词识别层，得到命令词识别层输出的第二命令词识别结果；
[0161]
将唤醒词识别结果和/或第二命令词识别结果作为音频识别结果。
[0162]
基于上述任一实施例，在特征提取层包括频谱特征提取层和声学特征提取层的情况下，识别单元还具体用于：
[0163]
将待识别音频输入至频谱特征提取层，由频谱特征提取层对待识别音频进行分帧和频谱特征提取，得到频谱特征提取层输出的多个待识别音频帧，以及各个待识别音频帧的频谱识别特征；
[0164]
将各个待识别音频帧的频谱识别特征输入至声学特征提取层，由声学特征提取层对各个待识别音频帧进行声学特征提取，得到声学特征提取层输出的各个待识别音频帧的
声学识别特征。
[0165]
基于上述任一实施例，声学特征提取层用于基于预设声学模型对各个待识别音频帧进行声学特征提取；
[0166]
其中，预设声学模型是基于音频识别结果对应的字库中各个字的发音训练得到的。
[0167]
基于上述任一实施例，在音频识别结果对应的字库为中文字库的情况下，各个字的发音为音节发音。
[0168]
基于上述任一实施例，在特征提取层还包括特征维度映射层的情况下，识别单元还具体用于：
[0169]
将各个待识别音频帧的声学识别特征输入至特征维度映射层，由特征维度映射层基于语音检测层的输入特征维度，对声学识别特征的特征维度进行调整。
[0170]
基于上述任一实施例，图5为本技术提供的电子装置的结构示意图，如图5所示，该电子装置可以包括：处理器(processor)510、通信接口(communications interface)520、存储器(memory)530和通信总线(communications bus)540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑命令，以执行如下方法：
[0171]
获取待识别音频；将待识别音频输入音频识别模型，得到音频识别模型输出的音频识别结果；其中，音频识别结果包括唤醒词识别结果和/或命令词识别结果；音频识别模型包括特征提取层、语音检测层、唤醒词识别层和命令词识别层；语音检测层、唤醒词识别层和命令词识别层分别与特征提取层连接；特征提取层用于提取待识别音频的声学识别特征；语音检测层用于基于声学识别特征，确定待识别音频对应的待识别语音帧；唤醒词识别层用于基于声学识别特征，确定待识别音频对应的唤醒词识别结果；命令词识别层用于基于声学识别特征，确定待识别音频对应的命令词识别结果。
[0172]
此外，上述的存储器530中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干命令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0173]
本技术实施例提供的电子装置中的处理器可以调用存储器中的逻辑指令，实现上述方法，其具体的实施方式与前述方法实施方式一致，且可以达到相同的有益效果，此处不再赘述。
[0174]
本技术实施例还提供一种计算机可读的存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法。
[0175]
其具体的实施方式与前述方法实施方式一致，且可以达到相同的有益效果，此处不再赘述。
[0176]
本技术实施例提供一种计算机程序产品，包括计算机程序，计算机程序被处理器
执行时实现如上述方法。
[0177]
以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0178]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0179]
最后应说明的是：以上实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。

技术特征：

1.一种音频识别方法，其特征在于，包括：获取待识别音频；将所述待识别音频输入音频识别模型，得到所述音频识别模型输出的音频识别结果；其中，所述音频识别结果包括唤醒词识别结果和/或命令词识别结果；所述音频识别模型包括特征提取层、语音检测层、唤醒词识别层和命令词识别层；所述语音检测层、所述唤醒词识别层和所述命令词识别层分别与所述特征提取层连接；所述特征提取层用于提取所述待识别音频的声学识别特征；所述语音检测层用于基于所述声学识别特征，确定所述待识别音频对应的待识别语音帧；所述唤醒词识别层用于基于所述声学识别特征，确定所述待识别音频对应的唤醒词识别结果；所述命令词识别层用于基于所述声学识别特征，确定所述待识别音频对应的命令词识别结果。2.根据权利要求1所述的音频识别方法，其特征在于，所述将所述待识别音频输入音频识别模型，得到所述音频识别模型输出的音频识别结果，包括：将所述待识别音频输入至所述特征提取层，得到所述特征提取层输出的多个待识别音频帧，以及各个待识别音频帧的声学识别特征；将所述各个待识别音频帧的声学识别特征输入至所述语音检测层，得到所述语音检测层输出的各个待识别音频帧的语音检测结果；基于各个待识别音频帧的语音检测结果，确定所述多个待识别音频帧中的待识别语音帧；基于目标语音交互系统的唤醒状态，将所述待识别语音帧的声学识别特征输入至所述唤醒词识别层和/或所述命令词识别层，得到所述音频识别结果。3.根据权利要求2所述的音频识别方法，其特征在于，所述基于目标语音交互系统的唤醒状态，将所述待识别语音帧的声学识别特征输入至所述唤醒词识别层和/或所述命令词识别层，得到所述音频识别结果，包括：在所述目标语音交互系统的唤醒状态为已唤醒的情况下，将所述待识别语音帧的声学识别特征输入至所述命令词识别层，得到所述命令词识别层输出的第一命令词识别结果；将所述第一命令词识别结果作为所述音频识别结果。4.根据权利要求2所述的音频识别方法，其特征在于，所述基于目标语音交互系统的唤醒状态，将所述待识别语音帧的声学识别特征输入至所述唤醒词识别层和/或所述命令词识别层，得到所述音频识别结果，包括：在所述目标语音交互系统的唤醒状态为未唤醒的情况下，将所述待识别语言帧的声学识别特征输入至所述唤醒词识别层，得到所述唤醒词识别层输出的唤醒词识别结果，以及所述唤醒词识别结果对应的唤醒识别语音帧；基于所述唤醒词识别结果对所述目标语音交互系统进行唤醒，在所述目标语音交互系统的唤醒状态由未唤醒切换至已唤醒的情况下，基于所述待识别语音帧和所述唤醒识别语音帧，确定命令词待识别语音帧，并将所述命令词待识别语音帧的声学识别特征输入至所述命令词识别层，得到所述命令词识别层输出的第二命令词识别结果；将所述唤醒词识别结果和/或第二命令词识别结果作为所述音频识别结果。5.根据权利要求2所述的音频识别方法，其特征在于，所述特征提取层包括频谱特征提取层和声学特征提取层；
所述将所述待识别音频输入至所述特征提取层，得到所述特征提取层输出的多个待识别音频帧，以及各个待识别音频帧的声学识别特征，包括：将所述待识别音频输入至所述频谱特征提取层，由所述频谱特征提取层对所述待识别音频进行分帧和频谱特征提取，得到所述频谱特征提取层输出的多个待识别音频帧，以及各个待识别音频帧的频谱识别特征；将各个待识别音频帧的频谱识别特征输入至所述声学特征提取层，由所述声学特征提取层对各个待识别音频帧进行声学特征提取，得到所述声学特征提取层输出的各个待识别音频帧的声学识别特征。6.根据权利要求5所述的音频识别方法，其特征在于，所述声学特征提取层用于基于预设声学模型对各个待识别音频帧进行声学特征提取；其中，所述预设声学模型是基于所述音频识别结果对应的字库中各个字的发音训练得到的。7.根据权利要求5所述的音频识别方法，其特征在于，所述特征提取层还包括特征维度映射层；所述得到所述声学特征提取层输出的各个待识别音频帧的声学识别特征之后，所述方法还包括：将所述各个待识别音频帧的声学识别特征输入至所述特征维度映射层，由所述特征维度映射层基于所述语音检测层的输入特征维度，对所述声学识别特征的特征维度进行调整。8.一种音频识别装置，其特征在于，包括：获取单元，用于获取待识别音频；识别单元，用于将所述待识别音频输入音频识别模型，得到所述音频识别模型输出的音频识别结果；其中，所述音频识别结果包括唤醒词识别结果和/或命令词识别结果；所述音频识别模型包括特征提取层、语音检测层、唤醒词识别层和命令词识别层；所述语音检测层、所述唤醒词识别层和所述命令词识别层分别与所述特征提取层连接；所述特征提取层用于提取所述待识别音频的声学识别特征；所述语音检测层用于基于所述声学识别特征，确定所述待识别音频对应的待识别语音帧；所述唤醒词识别层用于基于所述声学识别特征，确定所述待识别音频对应的唤醒词识别结果；所述命令词识别层用于基于所述声学识别特征，确定所述待识别音频对应的命令词识别结果。9.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行权利要求1至7中任一项所述的音频识别方法。10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行权利要求1至7中任一项所述的音频识别方法。

技术总结

本申请公开了一种音频识别方法、装置、存储介质及电子设备，其中方法包括：将待识别音频输入音频识别模型，得到音频识别模型输出的音频识别结果；音频识别模型包括特征提取层、语音检测层、唤醒词识别层和命令词识别层；语音检测层、唤醒词识别层和命令词识别层分别与特征提取层连接；特征提取层用于提取待识别音频的声学识别特征；语音检测层基于声学识别特征确定待识别音频对应的待识别语音帧；唤醒词识别层基于声学识别特征确定待识别音频对应的唤醒词识别结果；命令词识别层基于声学识别特征确定待识别音频对应的命令词识别结果。本申请提供的方法和装置，减小了音频识别模型的网络尺寸和计算参数，提高了用户对于终端设备的使用体验。的使用体验。的使用体验。