知识蒸馏方法、电子设备和存储介质与流程

1.本发明属于知识蒸馏技术领域，尤其涉及知识蒸馏方法、电子设备和存储介质。

背景技术：

2.近年来，自动语音识别(automatic speech recognition，asr)的性能通过序列到序列建模得到了很大的提升，例如连接时序分类(connectionist temporal classification，ctc)、循环神经网络换能器(recurrent neural network transducer，rnnt)和基于注意力的编码器-解码器(attention-based encoder-decoder，aed)。许多早期的研究都集中在自回归(autoregressive，ar)建模上，它使用从左到右的概率链规则生成令牌序列。尽管它们具有出的性能，但此类ar模型需要l步增量模型计算来生成l个令牌，从而导致高推理延迟和可观的计算成本。
3.从另一方面来看，非自回归(non-autoregressive，nar)建模以恒定步骤生成令牌序列，并消除了链式规则假设。ctc在最近的nar研究中发挥着重要作用。现代nar方法通过利用对齐(基于对齐)和输出标记序列(基于标记)来优于ctc。基于联合ctc/注意架构，mask-ctc利用(条件)掩码语言模型((conditional)masked language model，(c)mlm)解码器来细化ctc令牌序列。提出了两个辅助任务来解决mask-ctc中出现的长度预测问题。从另一个角度来看，ctc对齐在align-refine、cass-nat和alnat中显示了其在构建nar模型方面的优势。此外，自监督预训练模型wav2vec2.0在ctc建模方面取得了可喜的成果。
4.然而，nar建模仍然存在两个主要挑战：首先，与最先进的(state-of-the-art，sota)ar模型相比，nar模型收敛缓慢且性能较差。其次，虽然nar模型通常在资源受限的情况下因推理速度快和准确度高而受到青睐，但模型规模大和计算成本高限制了nar建模的应用。知识蒸馏(迁移学习)通常用于通过教授较小的学生模型来解决此类问题。具体来说，学生的目标是使用kullback-leibler散度(kullback-leibler divergence，kld)来模仿训练有素的教师模型提供的软目标。然而，发明人在实现本技术的过程中发现，当在非自回归asr上应用知识蒸馏时，可怜的nar教师模型限制了改进。

技术实现要素：

5.本发明实施例提供一种知识蒸馏方法、电子设备和存储介质，用于至少解决上述技术问题之一。
6.第一方面，本发明实施例提供一种知识蒸馏方法，包括：在两个蒸馏级别将ar教师模型的知识转移到nar学生模型，其中，两个蒸馏级别包括帧级蒸馏和序列级蒸馏，编码器的帧级蒸馏和所述编码器的序列级蒸馏在所述编码器的线性层之后完成，解码器的帧级蒸馏和所述解码器的序列级蒸馏从基于注意力的自回归模型发展为mask-ctc的自回归模型，其中，所述mask-ctc为通过条件掩码语言模型对ctc结果的改进。
7.第二方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所
述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的知识蒸馏方法的步骤。
8.第三方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的知识蒸馏方法的步骤。
9.本技术的方法提出了一个新的知识转移和提炼架构，从ar教师模型中蒸馏知识到nar学生模型中，利用ar模型的知识来提高nar的性能，同时减少模型的大小。
附图说明
10.为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
11.图1为本发明一实施例提供的一种知识蒸馏方法的流程图；
12.图2为本发明一实施例提供的波束搜索解码算法图；
13.图3是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
14.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
15.本技术实施例的知识蒸馏方法可以适用于自回归(ar)教师模型到非自回归(nar)学生模型，具体可用于自动语音识别。
16.其中，一种知识蒸馏方法，包括：在两个蒸馏级别将ar教师模型的知识转移到nar学生模型，其中，两个蒸馏级别包括帧级蒸馏和序列级蒸馏，编码器的帧级蒸馏和所述编码器的序列级蒸馏在所述编码器的线性层之后完成，解码器的帧级蒸馏和所述解码器的序列级蒸馏从基于注意力的自回归模型发展为mask-ctc的自回归模型，其中，所述mask-ctc为通过条件掩码语言模型对ctc结果的改进。
17.在一些可选的实施例中，在所述mask-ctc上利用波束搜索方法，以扩大推理阶段的搜索空间。
18.进一步可选的，所述波束搜索方法包括：在每次迭代期间，保留一个预设大小的波束，并且更新的令牌的数量固定，至少根据对数域后验概率选择候选集中前预设数量的候选。
19.在另一些可选的实施例中，所述解码器的蒸馏包括：对于帧级蒸馏，仅选择y
mask
位置，对目标函数通过《mask》标记的数量进行归一化，其中，所述y
mask
位置包括训练期间使用特殊标记随机替换人工标注得到的预测掩码标记；对于序列级蒸馏，使用来自所述候选集的近似概率进行计算。
20.在另一些可选的实施例中，所述知识蒸馏的最终损失l的计算公式为：
[0021][0022]
其中，γ
enc
是所述ar教师模型的编码器知识蒸馏的权重系数，γ
dec
是所述ar教师模型的解码器知识蒸馏的权重系数，是所述nar学生模型的损失，是所述ar教师模型的编码器知识蒸馏的损失，是所述ar教师模型的解码器知识蒸馏的损失。
[0023]
在进一步可选的实施例中，所述学生模型的损失为具有多任务学习的损失，计算公式如下：
[0024]
其中，α∈[0,1]是一个超参数，l
ctc
是连接时序分类的损失，l
mlm
是掩码语言模型的损失。
[0025]
在另一些可选的实施例中，所述nar学生模型用于自动语音识别。
[0026]
本实施例的方法提出了一个新的知识转移和提炼架构，从ar教师模型中蒸馏知识到nar学生模型中，利用ar模型的知识来提高nar的性能，同时减少模型的大小。
[0027]
需要说明的是，上述方法步骤并不用于限制各步骤的执行顺序，实际上，某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行，本技术在此没有限制。
[0028]
下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本技术的方案。
[0029]
现代非自回归～(nar)语音识别系统旨在加快推理速度；然而，与自回归～(ar)模型相比，它们存在性能下降以及巨大的模型尺寸问题。
[0030]
请参考图1，其示出了本技术实施例提出了一个新的知识转移和提炼架构，从自回归(ar)中蒸馏知识到非自回归模型(nar)，利用ar模型的知识来提高nar的性能，同时减少模型的大小。其中，中英文对照如下：ar/nar:自回归/非自回归，teacher/student：老师、学生，linear：线性层，posterior：后验概率，kd：知识蒸馏，encoder/decoder:编码、解码器，ctc：连接时序分类，masking：做掩膜，mask、obs：掩码、可观察，mlm：掩码语言模型。
[0031]
帧和序列级目标是为转移学习而精心设计的。
[0032]
为了进一步提高nar的性能，在mask-ctc上开发了一个波束搜索方法，以扩大推理阶段的搜索空间。
[0033]
实验表明，在aishell-1基准上，所提出的nar波束搜索方法在可容忍的实时因素～(rtf)增量下相对减少了cer超过5％。
[0034]
通过知识转移，与ar教师模型具有相同规模的nar学生在aishell-1开发/测试集上获得了8/16％的相对cer降低，在librispeech测试集上获得了超过25％的相对wer降低。
[0035]
此外，9倍小的nar模型在aishell-1和librispeech基准上，通过本技术实施例建议的知识转移和提炼，实现了25％的相对cer/wer降低。本技术实施例的方法能够在提升自动语音识别推理速度的同时，保有高性能。
[0036]
以下通过介绍发明人实现本技术的过程和所进行的实验及相关的实验数据，以使本领域技术人员更好地理解本技术的方案。
[0037]
1.简介
[0038]
近年来，自动语音识别(asr)的性能通过序列到序列建模得到了很大的提升，例如
连接时序分类(ctc)、循环神经网络换能器(rnnt)和基于注意力的编码器-解码器(aed)。许多早期的研究都集中在自回归(ar)建模上，它使用从左到右的概率链规则生成令牌序列。尽管它们具有出的性能，但此类ar模型需要l步增量模型计算来生成l个令牌，从而导致高推理延迟和可观的计算成本。
[0039]
从另一方面来看，非自回归(nar)建模以恒定步骤生成令牌序列，并消除了链式规则假设。ctc在最近的nar研究中发挥着重要作用。现代nar方法通过利用对齐(基于对齐)和输出标记序列(基于标记)来优于ctc。基于联合ctc/注意架构，mask-ctc利用(条件)掩码语言模型((c)mlm)解码器来细化ctc令牌序列。相关技术提出了两个辅助任务来解决mask-ctc中出现的长度预测问题。从另一个角度来看，ctc对齐在align-refine、cass-nat和alnat中显示了其在构建nar模型方面的优势。此外，自监督预训练模型wav2vec2.0在ctc建模方面取得了可喜的成果。
[0040]
然而，nar建模仍然存在两个主要挑战：首先，与最先进的(sota)ar模型相比，nar模型收敛缓慢且性能较差。其次，虽然nar模型通常在资源受限的情况下因推理速度快和准确度高而受到青睐，但模型规模大和计算成本高限制了nar建模的应用。知识蒸馏(迁移学习)通常用于通过教授较小的学生模型来解决此类问题。具体来说，学生模型的目标是使用kullback-leibler散度(kld)来模仿训练有素的教师模型提供的软目标。然而，当在非自回归asr上应用知识蒸馏时，可怜的nar教师模型限制了改进。
[0041]
在本技术实施例中提出了一种新颖的架构，通过将自回归(ar)教师模型的知识转移和提炼到非自回归(nar)学生模型以及波束搜索解码方法来提高非自回归建模的性能。首先，本技术实施例引入了一种波束搜索解码方法来扩大(条件)掩码语言模型((c)mlm)解码器的搜索空间。然后，本技术实施例通过在两个蒸馏级别将ar教师模型的知识转移到nar来扩展知识蒸馏技术，从而提高nar学生模型的表现。编码器蒸馏是按照本技术实施例之前的设置进行的。对于解码器蒸馏，本技术实施例将帧级和序列级蒸馏从基于注意力的自回归模型发展为mask-ctc。蒸馏损失是为基于令牌的nar模型定制的，因此nar解码器可以从ar解码器中受益。
[0042]
2.自回归和非自回归asr
[0043]
基本上，端到端asr模型将语音特征x＝[x1，x2，
…
，x
t
]
t
，x
t
∈rf映射到令牌序列y＝[y1，y2，
…
，y
l
]
t
，y1∈u，其中f是特征维度，u表示词汇集。
[0044]
传统的基于注意力的自回归(ar)asr模型首先将语音特征x编码为隐藏表示h：h＝encoder(x)，然后将其与先前的标记y＜1组合以估计后验p(y1|y＜1，x)：
[0045]
p
ar
(y
l
|y＜l，h)＝decoder(y＜l，h)
ꢀꢀ
(1)
[0046]
并且整个序列概率是：
[0047][0048]
在推理过程中，ar模型逐个生成假设
[0049]
连接时序分类(ctc)是最早的非自回归(nar)方法之一，它从帧级对齐z＝[z1，z2，
…
，z
t
]
t
引入多对一函数η，z
t
∈u∪{blank}到令牌序列y，通过合并相同的标签并去除z
中的空白。序列概率表示为：
[0050][0051]
其中，η是从z到y的多对一函数。在推理过程中，贪婪的ctc通过选择每一步概率最高的标记来预测对齐。
[0052]
mask-ctc是nar asr的流行实例，实际上是通过条件掩码语言模型(mlm)对ctc结果的改进。在训练期间，人工标注的结果(groundtruth)y被特殊标记《mask》随机替换，mlm解码器根据观察到的标记y
obs
＝y\y
mask
预测掩码标记y
mask
：
[0053][0054]
在推理过程中，输出由ctc贪婪解码初始化，低置信度令牌根据预定义的阈值p
thr
用《mask》代替。之后，使用easy-first(易先)算法填充掩码：在迭代中填充所有掩码，其中n表示《mask》的总数，每次迭代预测具有最高置信度的前k个令牌，由mlm引导：
[0055][0056]
其中，c是《mask》标记的候选集和是掩码填充后的更新结果。
[0057]
联合ctc/注意力架构广泛用于现代ar和nar asr模型，具有基于多任务学习的损失函数：
[0058]
l
jca
＝αl
ctc
+(1-α)l
att
ꢀꢀ
(6)
[0059]
其中α∈[0，1]是一个超参数，对于ar asr，l
att
＝l
ar
，对于narasr，l
att
＝l
mlm
。
[0060]
3.建议的方法
[0061]
在本实施例中介绍：(1)提出的nar波束搜索方法，(2)将知识从ar转移到nar asr的蒸馏架构。
[0062]
3.1nar asr的波束搜索
[0063]
本技术实施例设计了一种波束搜索解码方法来扩大mlm解码器的搜索空间。过程如图2中的算法1所示。ω1是在一次迭代开始时要更新的排序队列，ω0存储一次迭代后的最终ω1。在每次迭代期间，保留一个b大小的波束，并且更新的令牌的数量是固定的，并由k(即)计算。根据对数域后验概率和公式(5)，选择top-b候选。
[0064]
算法解释如下：
[0065]
算法1：非自回归模型中的波束搜索解码
[0066]
1将ctc连接时序分类的贪婪搜索结果赋值到y^
[0067]
2根据p_thr将部分令牌掩膜为mask，生成y^mask，y^obs
[0068]
3构造接收集合omega_0，这是一个保存所有可用假设序列的集合，初始化为y^obs
[0069]
4 for循环，迭代次数最大为n/k次
[0070]
5构造优先队列omega_1，用于保存b个待定序列
[0071]
6计算k
[0072]
7对于所有在omega_0中的序列，
[0073]
8根据公式5得到前b个候选
[0074]
9将这些候选加入到omega_1里面
[0075]
10将omega_0＝omega_1
[0076]
11返回z在omega_0中的最大后验y^
[0077]
3.2从自回归到非自回归asr的知识转移和提炼
[0078]
如前所述，由于nar教师的表现不佳，nar的知识蒸馏性能受到限制。本技术实施例提出了从自回归(ar)到非自回归(nar)asr的知识转移和蒸馏，突破了nar的极限。
[0079]
首先，本技术实施例介绍了两种基于kullback-leibler散度(kld)的知识蒸馏技术：kld(p，q)＝∑ipilog(pi/qi)，其中p，q分别是教师模型和学生模型的输出分布。
[0080]
作为基本蒸馏标准的帧级知识蒸馏公式如下：
[0081][0082]
其中p
t
(c)和q
t
(c)是教师模型p和学生模型q在时间戳t处标记c的后验概率。h、y
obs
和y＜t是上述概率的条件，但为简单起见省略。p
t
(c)logp
t
(c)在计算kld损失时被省略，这是由于训练期间冻结的教师模型。
[0083]
序列级知识蒸馏是另一个蒸馏标准：
[0084][0085]
其中，中是来自教师模型的假设，τ是所有可能序列的集合，并且与等式(7)中类似的省略。使用这种序列级知识蒸馏是无法承受的，因为本技术实施例正在逼近指数大小的序列分布τ。与mwer训练类似，通过波束搜索访问n-best候选集ω，然后可以近似为：
[0086][0087]
然后本技术实施例可以通过以下方式实现知识蒸馏损失：
[0088]
l
kd
＝βfl
f-kd
+βsl
s-kd
ꢀꢀ
(10)
[0089]
其中，βf，βs分别是帧级和序列级知识蒸馏的超参数。
[0090]
图1：从自回归到非自回归asr提出的知识蒸馏概述。
[0091]
如图1所示，提出的知识蒸馏方法分为两部分：第一部分是编码器之后的蒸馏，第
二部分是解码器之后的蒸馏。编码器蒸馏是在编码器的线性层之后完成的，其具有与“m.huang，y.you，z.chen，y.qian，and k.yu，“knowledge distillation for sequence model，”proc.interspeech 2018，p.5，2018”类似的l
f-kd
和l
s-kd
。解码器蒸馏设置如下。对于帧级蒸馏，仅选择y
mask
位置，因此目标函数通过《mask》标记的数量进行归一化：
[0092][0093]
对于序列级蒸馏，使用来自n-bestω的近似概率p
′
：
[0094][0095]
那么最终的损失是：
[0096][0097]
其中，γ
enc
，γ
dec
是编码器和解码器知识蒸馏的权重系数。
[0098]
4.实验
[0099]
4.1数据集
[0100]
本技术实施例的实验是在普通话aishell-1和英语librispeech语料库上进行的。aishell-1包含一个150小时的训练集，一个开发(dev)和一个用于评估的测试集，而librispeech有一个960小时的训练集，用于测试的test-clean/other(测试c/o)。本技术实施例分别在aishell-1上报告字符错误率(character error rate，cer)，在librispeech上报告单词错误率(word error rate，wer)。
[0101]
表1：aishell1语料库(cer)(％)和librispeech测试语料库(wer)(％)上的知识转移和蒸馏性能，'i+d'是插入和删除错误的总和，'a'是总cer/wer。'#param'的括号中包含'xs'、's'、'm'、'l'，如表2所示。'same size'表示nar与ar具有相同的模型比例，'smaller'表示nar是比ar小9倍。
[0102][0103]
4.2型号说明
[0104]
对于声学特征提取，使用全局水平倒谱均值和方差归一化(cmvn)提取80维梅尔滤波器组(fbank)特征。在数据增强方面，速度扰动仅适用于两个数据集的aishell-1和specaugment。对于文本建模，英语采用5000个英语字节对编码(bpe)子词单元，普通话采用4233个字符。基线遵循espnet v2的配方，这是一个具有四次下采样的12层一致性编码器和一个6层变压器解码器。ctc模块的权重α固定为0.3。
[0105]
对于知识转移和蒸馏，本技术实施例首先使用lf-kd从头开始训练一个新的nar学生模型，历时80个epoch。超参数设置为βf＝1.0,βs＝0,γenc＝0.5,γdec＝0.3。然后本技术实施例通过添加ls-kd对蒸馏过程进行微调，调整参数设置为βf＝1.0,βs＝1.0,γenc＝0.5,γdec＝0.5，共20个epoch。在等式8、9中，本技术实施例使用光束尺寸|ω|＝10，这与ar模型中的解码超参数一致。
[0106]
表2中探讨了不同的nar学生模型尺寸，标识为大(l)、中(m)、小(s)和极小(xs)。ar教师模型为librispeech保持l尺寸，为aishell-1保持m尺寸。
[0107]
在推理阶段，在接下来的实验中不使用语言模型。模型参数在最后5个检查点上取平均值。对于自回归模型，使用联合ctc/注意力单通解码，光束大小等于10，ctc的得分插值为0.3。对于非自回归mask-ctc解码，本技术实施例遵循第3.1节中的波束解码方法，对于aishell-1和librispeech语料库，波束大小b＝10，阈值pthr＝0.99和k＝2。
[0108]
4.3.nar波束解码的结果
[0109]
如第3.1节所述，本技术实施例首先在表3中使用实时因子(rtf)评估波束搜索性能。rtf是使用intel-xeon e5-2690 cpu在测试集上使用单核计算的。nar(m)模型将ar(m)
模型加速了10倍以上，因为ar(m)的rtf为0.58，ar(s)的rtf为0.31。在没有过多降低推理速度的情况下(比“beam1”慢1.5倍)，与贪心(beam1)相比，beam解码方法在测试集上实现了更好的性能，相对wer降低了5％～9％。随着光束尺寸b的增大，改进率降低。
[0110]
表2：l、m、x和xs的不同ar和nar conformer尺度的模型超参数。
[0111][0112]
表3：aishell-1语料库上的非自回归mask-ctc性能(cer)。报告测试集的实时因子(rtf)。
[0113][0114]
4.4.知识转移和蒸馏结果
[0115]
表1比较了aishell-1和librispeech数据集上的知识转移蒸馏和其他现代ar和nar模型，以验证性能。
[0116]
aishell-1：如表1所示，与nar(m)相比，教师ar模型的cer相对降低24％以上，与nar(xs)相比降低40％。在知识蒸馏之后，带有“+lf-kd”的nar(m)在开发集和测试集上分别实现了8％和16％的相对cer减少，而基于“+lf-kd”和“++ls-kd”的nar(m)'显示测试集上的cer进一步降低了15％。与cass-nat或al-nat等最先进的nar模型相比，学生的成绩达到了具有竞争力的性能(5.0％/5.4％cer)。对于蒸馏nar(xs)，在两个评估集上获得了类似的结果，即18％/25％cer减少。
[0117]
librispeech：表1显示了在大型librispeech语料库上的性能比较。采用ar(l)作为教师模型，而采用nar(l,s)作为学生模型。观察结果与表1中的aishell1一致，lf-kd和ls-kd进一步提高了nar mask-ctc模型在l(3.3/7.8％wer)和s(3.7/9.2％wer)尺度下的性能～相对wer减少25％。但是，由于ar教师模型的限制，ar(l)上的插入和删除错误率很高。
[0118]
结果表明，这种知识转移方法缩小了ar和nar之间的差距，在更困难的评估集(即aishell-1中的测试集，librispeech中的test-other)中，改进明显更大。经过知识转移和蒸馏，由于ar教师的高预测精度，与原始nar模型相比，长度误差问题得到了很大缓解。此外，lf-kd和ls-kd都归因于减少插入和删除错误('i+d')，将长度错误问题推到了aishell-1中'i+d'的0.2％cer的极限librispeech test-other为1.4％。同时，nar学生模型与其他最先进的nar方法的结果相当，包括wav2vec2-ctc、改进的cass-nat和alnat。
[0119]
5.结论
[0120]
在本文中，本技术实施例提出了一种新颖的知识转移和蒸馏架构，该架构利用来自ar模型的知识来提高nar性能，同时减小模型大小。为了进一步提高nar的性能，本技术实施例在mask-ctc上提出了一种波束搜索方法，该方法在推理阶段扩大了搜索空间。实验表明，nar波束搜索在aishell-1数据集上获得了5％的相对减少，同时具有可容忍的rtf增量。对于知识蒸馏，大多数结果在大型和小型nar建模上实现了超过15％的相对cer/wer降低。
[0121]
在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的知识蒸馏方法；
[0122]
作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：
[0123]
在两个蒸馏级别将ar教师模型的知识转移到nar学生模型，其中，两个蒸馏级别包括帧级蒸馏和序列级蒸馏，编码器的帧级蒸馏和所述编码器的序列级蒸馏在所述编码器的线性层之后完成，解码器的帧级蒸馏和所述解码器的序列级蒸馏从基于注意力的自回归模型发展为mask-ctc的自回归模型，其中，所述mask-ctc为通过条件掩码语言模型对ctc结果的改进。
[0124]
非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据知识蒸馏装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至知识蒸馏装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0125]
本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项知识蒸馏方法。
[0126]
图3是本发明实施例提供的电子设备的结构示意图，如图3所示，该设备包括：一个或多个处理器310以及存储器320，图3中以一个处理器310为例。知识蒸馏方法的设备还可以包括：输入装置330和输出装置340。处理器310、存储器320、输入装置330和输出装置340可以通过总线或者其他方式连接，图3中以通过总线连接为例。存储器320为上述的非易失性计算机可读存储介质。处理器310通过运行存储在存储器320中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例知识蒸馏方法。输入装置330可接收输入的数字或字符信息，以及产生与通讯补偿装置的用户设
置以及功能控制有关的键信号输入。输出装置340可包括显示屏等显示设备。
[0127]
上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。
[0128]
作为一种实施方式，上述电子设备应用于知识蒸馏装置中，用于客户端，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：
[0129]
在两个蒸馏级别将ar教师模型的知识转移到nar学生模型，其中，两个蒸馏级别包括帧级蒸馏和序列级蒸馏，编码器的帧级蒸馏和所述编码器的序列级蒸馏在所述编码器的线性层之后完成，解码器的帧级蒸馏和所述解码器的序列级蒸馏从基于注意力的自回归模型发展为mask-ctc的自回归模型，其中，所述mask-ctc为通过条件掩码语言模型对ctc结果的改进。
[0130]
本技术实施例的电子设备以多种形式存在，包括但不限于：
[0131]
(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iphone)、多媒体手机、功能性手机，以及低端手机等。
[0132]
(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：pda、mid和umpc设备等，例如ipad。
[0133]
(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如ipod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。
[0134]
(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
[0135]
(5)其他具有数据交互功能的电子装置。
[0136]
以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0137]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
[0138]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征：

1.一种知识蒸馏方法，包括：在两个蒸馏级别将ar教师模型的知识转移到nar学生模型，其中，两个蒸馏级别包括帧级蒸馏和序列级蒸馏，编码器的帧级蒸馏和所述编码器的序列级蒸馏在所述编码器的线性层之后完成，解码器的帧级蒸馏和所述解码器的序列级蒸馏从基于注意力的自回归模型发展为mask-ctc的自回归模型，其中，所述mask-ctc为通过条件掩码语言模型对ctc结果的改进。2.根据权利要求1所述的方法，其中，在所述mask-ctc上利用波束搜索方法，以扩大推理阶段的搜索空间。3.根据权利要求2所述的方法，其中，所述波束搜索方法包括：在每次迭代期间，保留一个预设大小的波束，并且更新的令牌的数量固定，至少根据对数域后验概率选择候选集中前预设数量的候选。4.根据权利要求1所述的方法，其中，所述解码器的蒸馏包括：对于帧级蒸馏，仅选择y
mask
位置，对目标函数通过<mask>标记的数量进行归一化，其中，所述y
mask
位置包括训练期间使用特殊标记随机替换人工标注得到的预测掩码标记；对于序列级蒸馏，使用来自所述候选集的近似概率进行计算。5.根据权利要求1所述的方法，其中，所述知识蒸馏的最终损失l的计算公式为：其中，γ
enc
是所述ar教师模型的编码器知识蒸馏的权重系数，γ
dec
是所述ar教师模型的解码器知识蒸馏的权重系数，是所述nar学生模型的损失，是所述ar教师模型的编码器知识蒸馏的损失，是所述ar教师模型的解码器知识蒸馏的损失。6.根据权利要求5所述的方法，其中，所述学生模型的损失为具有多任务学习的损失，计算公式如下：其中，α∈[0,1]是一个超参数，l
ctc
是连接时序分类的损失，l
mlm
是掩码语言模型的损失。7.根据权利要求1-6中任一项所述的方法，其中，所述nar学生模型用于自动语音识别。8.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至7任一项所述方法的步骤。9.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。

技术总结

本发明公开知识蒸馏方法、电子设备和存储介质，其中，一种知识蒸馏方法，包括：在两个蒸馏级别将AR教师模型的知识转移到NAR学生模型，其中，两个蒸馏级别包括帧级蒸馏和序列级蒸馏，编码器的帧级蒸馏和所述编码器的序列级蒸馏在所述编码器的线性层之后完成，解码器的帧级蒸馏和所述解码器的序列级蒸馏从基于注意力的自回归模型发展为Mask-CTC的自回归模型，其中，所述Mask-CTC为通过条件掩码语言模型对CTC结果的改进。结果表明，这种知识转移方法缩小了AR和NAR之间的差距，在更困难的评估集(即AISHELL-1中的测试集，Librispeech中的test-other)中，改进明显更大。经过知识转移和蒸馏，由于AR教师的高预测精度，与原始NAR模型相比，长度误差问题得到了很大缓解。长度误差问题得到了很大缓解。长度误差问题得到了很大缓解。