基于改进Transformer模型的语音识别方法及装置与流程

基于改进transformer模型的语音识别方法及装置
技术领域
1.本发明涉及语音识别技术领域，尤其涉及基于改进transformer模型的语音识别方法及装置。

背景技术：

2.自动语音识别是一项将语音序列转换为文本序列的技术，语音识别技术在多个领域有广泛应用。随着近些年移动互联网领域的蓬勃发展，人们的日常生活已不仅局限于人与人的沟通，人与机器之间的互动也日益频繁。目前，诸如手机、平板、电脑等电子设备，开始大量出现语音控制设备的功能，与使用触控板、鼠标、键盘等方式控制相比，语音控制方法更加方便、自然。目前，端到端语音识别模型在语音识别任务中取得了很好的效果。其中，transformer模型是最流行的方法之一，广泛应用于语音识别领域。虽然transformer在语音识别中取得了不错的成效，但是它还存在着一些不足之处：
3.1、transformer模型缺少对局部信息的关注。在语音识别中，一个句子中各个词语大多不是相互独立的，而是具有上下文相关性。transformer中采用的自注意力机制是对全局特征进行建模，这会导致模型对局部特征缺乏关注。因此，有必要对transformer的局部特征信息进行补偿。另外，transformer只使用最顶层提取的特征进行预测识别，如果能用适当的方法把不同层的细节信息融合到最后的预测识别中，模型可以获得更好的性能。除此之外，当神经网络较深时，底层梯度更新会经历多次连乘，存在梯度消失的风险。
4.2、在多层神经网络叠加后，模型的位置编码信息在语义空间中会减弱，这会使模型性能降低。transformer没有使用循环结构，而是转向完全使用自注意力机制，所以模型无法分辨输入序列的位置信息。为了使transformer感知序列的顺序，必须对输入特征向量加入序列位置标记信息，即位置编码。另一方面，在经历多层神经网络后，输入序列的语义特征被提取出来。但是，位置编码在transformer中经过多层神经网络后，其包含的位置信息会减弱。此外，在transformer的自注意力层中同时包含了输入序列和位置编码，这会导致在通过点积计算其关联性时引入不必要的噪声。
5.如上所述，传统基于transformer的语音识别模型缺少对局部信息的关注，忽略了一些局部特征信息，而且由于transformer只使用最顶层提取得到的特征进行预测识别，会忽略掉其他层的细节信息。transformer需要经过多层神经网络叠加，但是在网络较深时不仅会导致底层梯度消失，而且会使得位置编码模糊。由于transformer模型是一个通用的语音识别模型，并没有为中文进行特殊优化，所以在以往的数据集实验中会产生同音字错误，所以需要对其进行针对性改进以满足对中文语言识别的需求。

技术实现要素：

6.本发明的目的是为了至少解决现有技术的不足之一，提供基于改进transformer模型的语音识别方法及装置。
7.为了实现上述目的，本发明采用以下的技术方案：
8.具体的，提出基于改进transformer模型的语音识别方法，包括以下：
9.获取待识别的语音数据；
10.对所述语音数据进行预处理得到预处理后的语音数据；
11.通过改进的transformer模型对所述语音数据进行语音识别得到语音识别结果；
12.输出所述语音识别结果；
13.改进的transformer模型与传统的transformer模型的不同之处在于，
14.特征融合的方式为利用拼接函数和卷积神经网络融合解码器的高低层特征，并提取局部特征信息，将卷积神经网络提取的局部细节特征与transformer的全局特征相融合；以及位置编码增强，将transformer模型的语音特征嵌入向量和位置编码进行拆解，之后在transformer模型每个编码器层的自注意力子层中都加入位置编码信息。
15.进一步，具体的，利用拼接函数和卷积神经网络融合解码器的高低层特征，并提取局部特征信息，将卷积神经网络提取的局部细节特征与transformer的全局特征相融合，包括，
16.首先将除最高层外的所有层特征拼接起来以便更好地融合，然后使用卷积神经网络来压缩提取拼接后的特征，以保证融合特征后的输出与每个解码层的特征有相同的维度，其公式表现形式如下，
[0017][0018]
其中，sff为算法定义名称，li∈rb×d是解码器中i
·
th
的输出，b表示批量(batch size)大小，d表示单个嵌入量，concat(
·
)是拼接操作，concat(
·
)∈r^((n-1)
×b×
d)，也就是说，拼接操作在第一维度上拼接了输入矩阵，ξ是一个压缩函数，sff算法使用卷积神经网络实现压缩，它使得sff重新回到rb×d，由于来自每个解码器的特征都是rb×d的维度，如果维度不相同，提取后的融合特征将不能叠加在原来的解码器顶层，如此一来，最顶层的输出特征ln(x)和便可以与sff提取的特征进行叠加运算。
[0019]
进一步，具体的，将transformer模型的语音特征嵌入向量和位置编码进行拆解，之后在transformer模型每个编码器层的自注意力子层中都加入位置编码信息，包括，
[0020]
编码器只使用语音嵌入向量作为输入，之后，将位置编码添加进编码器的每一个自注意力层中，在编码器的自注意力层中，分别进行语音嵌入向量和位置编码的关联性q
×
k计算，在计算的过程中，位置编码使用自己独立的自注意力矩阵，语音嵌入向量与位置编码分别进行关联性计算后融合在一起，共同产生注意力分布，transformer的编码器自注意力层计算公式如下，
[0021][0022]
其中，q＝xwq,k＝xwk,v＝xwv,x是自注意力层的输入，p是位置编码，wq、wk、wv与经典transformer模型一致，分别为查询query、键key、值value的映射矩阵，和是位置编码增强在子注意力层增加的两个映射矩阵，分别为位置编码独立的查询、键映射矩阵。
[0023]
本发明还提出基于改进transformer模型的语音识别装置，包括以下：
[0024]
语音数据获取模块，用于获取待识别的语音数据；
[0025]
预处理模块，用于对所述语音数据进行预处理得到预处理后的语音数据；
[0026]
语音识别模块，用于通过改进的transformer模型对所述语音数据进行语音识别得到语音识别结果；
[0027]
结果输出模块，用于输出所述语音识别结果；
[0028]
改进的transformer模型与传统的transformer模型的不同之处在于，
[0029]
特征融合的方式为利用拼接函数和卷积神经网络融合解码器的高低层特征，并提取局部特征信息，将卷积神经网络提取的局部细节特征与transformer的全局特征相融合；以及位置编码增强，将transformer模型的语音特征嵌入向量和位置编码进行拆解，之后在transformer模型每个编码器层的自注意力子层中都加入位置编码信息。
[0030]
进一步，具体的，利用拼接函数和卷积神经网络融合解码器的高低层特征，并提取局部特征信息，将卷积神经网络提取的局部细节特征与transformer的全局特征相融合，包括，
[0031]
首先将除最高层外的所有层特征拼接起来以便更好地融合，然后使用卷积神经网络来压缩提取拼接后的特征，以保证融合特征后的输出与每个解码层的特征有相同的维度，其公式表现形式如下，
[0032][0033]
其中，sff为算法定义名称，li∈rb×d是解码器中i
·
th
的输出，b表示批量(batch size)大小，d表示单个嵌入量，concat(
·
)是拼接操作，concat(
·
)∈r^((n-1)
×b×
d)，也就是说，拼接操作在第一维度上拼接了输入矩阵，ξ是一个压缩函数，sff算法使用卷积神经网络实现压缩，它使得sff重新回到rb×d，由于来自每个解码器的特征都是rb×d的维度，如果维度不相同，提取后的融合特征将不能叠加在原来的解码器顶层，如此一来，最顶层的输出特征ln(x)和便可以与sff提取的特征进行叠加运算。
[0034]
进一步，具体的，将transformer模型的语音特征嵌入向量和位置编码进行拆解，之后在transformer模型每个编码器层的自注意力子层中都加入位置编码信息，包括，
[0035]
编码器只使用语音嵌入向量作为输入，之后，将位置编码添加进编码器的每一个自注意力层中，在编码器的自注意力层中，分别进行语音嵌入向量和位置编码的关联性q
×
k计算，在计算的过程中，位置编码使用自己独立的自注意力矩阵，语音嵌入向量与位置编码分别进行关联性计算后融合在一起，共同产生注意力分布，transformer的编码器自注意力层计算公式如下，
[0036][0037]
其中，q＝xwq,k＝xwk,v＝xwv,x是自注意力层的输入，p是位置编码，wq、wk、wv与经典transformer模型一致，分别为查询query、键key、值value的映射矩阵，和是位置编码增强在子注意力层增加的两个映射矩阵，分别为位置编码独立的查询、键映射矩阵。
[0038]
本发明的有益效果为：
[0039]
本发明提供的基于改进transformer模型的语音识别方法，通过改进的transformer模型进行语音识别，改进的方式为特征融合的方式为利用拼接函数和卷积神经网络融合解码器的高低层特征，并提取局部特征信息，将卷积神经网络提取的局部细节特征与transformer的全局特征相融合，使得模型提取的特征更具有健壮性。同时为解码器的每一层构建一条短距离的反向传播路径，缓解模型底层的梯度消失问题；以及位置编码增强，将transformer模型的语音特征嵌入向量和位置编码进行拆解，可以解决因为两者间的弱关联而引起噪声的问题，之后在transformer模型每个编码器层的自注意力子层中都加入位置编码信息，解决因网络多次叠加而造成位置编码信息减弱的问题。
附图说明
[0040]
通过对结合附图所示出的实施方式进行详细说明，本公开的上述以及其他特征将更加明显，本公开附图中相同的参考标号表示相同或相似的输出电压，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，在附图中：
[0041]
图1所示为本发明基于改进transformer模型的语音识别方法的流程图；
[0042]
图2所示为本发明基于改进transformer模型的语音识别方法的特征融合算法的原理图；
[0043]
图3所示为本发明基于改进transformer模型的语音识别方法的应用了融合位置编码增强算法的transformer编码器结构示意图；
[0044]
图4所示为本发明基于改进transformer模型的语音识别方法的编码器自注意力层中的位置编码增强算法原理图；
[0045]
图5所示为df方法的结构原理图；
[0046]
图6所示为lf方法的结构原理图；
[0047]
图7所示为传统的transformer模型整体框架；
[0048]
图8所示为位置编码在传统的transformer编码器中的应用。
具体实施方式
[0049]
以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本发明的目的、方案和效果。需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。附图中各处使用的相同的附图标记指示相同或相似的部分。
[0050]
参照图7，首先对现有技术中的transformer模型进行介绍，
[0051]
transformer模型是一个舍弃递归的模型架构，仅靠注意力机制，可以允许更多的并行运算，transformer是一种端到端的模型，所以也是基于编码器解码器架构。这要求编码器对输入序列的编码能力足够强，以保证输入序列上下文的嵌入向量能够尽可能地保留输入序列的信息。随着句子长度增加，模型不再能完全保留输入序列的大部分信息，所以上下文嵌入向量的表达能力逐渐下降。得益于注意力机制，transformer不再考虑其编码器最后一个时间步长的的隐藏状态，而是其解码器在每一个步骤中，都能自动寻与输入和输
出间最密切相关的隐藏状态，然后将这些隐藏状态与解码器的前一个输出共同作为解码器下一个输入。在这些端到端架构中，编码器将输入的符号序列映射为连续的表征序列。在获得表征序列后，解码器会逐个生成输出序列，这些序列由元素符号组成。在每一步中，解码器会进行自回归。也就是说在进行下一步转换时，解码器会使用前一步生成的符号作为额外的输入。transformer也遵循这一整体架构，在编、解码器中把自注意力层与前馈神经网络层堆叠起来。它的整体架构如图所示，其中左半部分和右半部分别代表编码器和解码器。
[0052]
transformer的编码器是由n个相同的层连接而成。其中每个层含有两个子层。在编码器层中，输入序列首先经过多层自注意网络子层，然后输入到前馈神经网络子层中。且这两个子层之间采用一个残差连接用来输入残差信息并加速反向传播，然后对添加残差后的特征序列进行层归一化。
[0053]
解码器也包含n个相同的解码器层。除了和编码器层相同的自注意力、前馈神经网络子层外，解码器层还在它们之间加入了第三个子层，该子层使编码器的输出再经过一次多头自注意网络。类似于编码器，每两个子层之间采用一个残差连接，然后进行一次层归一化处理。
[0054]
参照图1，本发明提出基于改进transformer模型的语音识别方法，包括以下：
[0055]
步骤110、获取待识别的语音数据；
[0056]
步骤120、对所述语音数据进行预处理得到预处理后的语音数据；
[0057]
步骤130、通过改进的transformer模型对所述语音数据进行语音识别得到语音识别结果；
[0058]
步骤140、输出所述语音识别结果；
[0059]
改进的transformer模型与传统的transformer模型的不同之处在于，
[0060]
特征融合的方式为利用拼接函数和卷积神经网络融合解码器的高低层特征，并提取局部特征信息，将卷积神经网络提取的局部细节特征与transformer的全局特征相融合；以及位置编码增强，将transformer模型的语音特征嵌入向量和位置编码进行拆解，之后在transformer模型每个编码器层的自注意力子层中都加入位置编码信息。
[0061]
参照图2，作为本发明的优选实施方式，具体的，利用拼接函数和卷积神经网络融合解码器的高低层特征，并提取局部特征信息，将卷积神经网络提取的局部细节特征与transformer的全局特征相融合，包括，
[0062]
基于卷积神经网络的语音特征融合方法(sff)
[0063]
由于transformer中自注意力机制是对全局特征的建模，其获取嵌入向量局部信息的能力与rnn和cnn相比较弱。在卷积神经网络中，卷积核的操作范围仅限于感受野内，而感受野范围不大，所以卷积操作提取的是局部特征。sff算法在transformer的解码器上使用了卷积网络，利用卷积网络具有的局部性加强transformer对局部特征的关注。其次，transformer只使用从顶层提取的特征进行预测识别。相比于融合多层次特征，原方式用于预测的特征没有足够的代表性，因此无法获得最佳的模型性能。sff算法通过特征融合的办法，充分吸收了高低层不同的特征，使得所提取的特征更具代表性，模型的鲁棒性更强。除此之外，transformer还存在底层梯度容易消失的问题。transformer实际上是由一些残差连接和层归一化模块(layer normalization)组成。
[0064]
总的来说，sff算法通过解决上述问题，提升了transformer在语音识别中的鲁棒
性。应用于transformer解码器上的语音特征融合算法可以用来融合解码器中各个层的特征，同时利用卷积神经网络解决了局部特征不足的问题，并利用底层和顶层的额外联系解决底层可能存在的梯度消失问题。本发明采用了一种有效的方式来实现特征融合，首先将除最高层外的所有层特征拼接起来以便更好地融合，然后使用卷积神经网络来压缩提取拼接后的特征，以保证sff算法融合特征后的输出与每个解码层的特征有相同的维度。
[0065]
sff算法融合了除最高层外其他层的特征，即高低层特征，然后sff算法使用卷积神经网络提取高低层特征中的局部特征。最后，将提取出的高低层特征融入解码器最高层，使得预测的特征更加全面。
[0066]
其公式表现形式如下，
[0067][0068]
其中，sff为算法定义名称，li∈rb×d是解码器中i
·
th
的输出，b表示批量(batch size)大小，d表示单个嵌入量，concat(
·
)是拼接操作，concat(
·
)∈r^((n-1)
×b×
d)，也就是说，拼接操作在第一维度上拼接了输入矩阵，ξ是一个压缩函数，sff算法使用卷积神经网络实现压缩，它使得sff重新回到rb×d，由于来自每个解码器的特征都是rb×d的维度，如果维度不相同，提取后的融合特征将不能叠加在原来的解码器顶层，如此一来，最顶层的输出特征ln(x)和便可以与sff提取的特征进行叠加运算。
[0069]
sff算法的结构如图所示，总的来说，sff算法融合了所有解码器层的特征，因此其所蕴含的特征往往更具表征性。其次，它使用卷积提取这些融合特征的局部信息，加强模型对局部特征的关注。然后，模型将sff算法提取的融合特征添加到最高层特征中，这样模型就能充分利用所有层的特征。并且，sff将每一层特征添加到最高层的同时，也为最高层通往各层添加了一条短距离通路，有利于神经网络模型进行反向传播，解决底层梯度容易消失的问题。
[0070]
为了验证sff算法的可行性，进行transformer解码器的高低层特征与局部特征方法研究，
[0071]
本发明中设计了两个方法，并将它们使用在transformer的解码器中，进一步探究高低层特征和局部特征提取在模型中的作用。第一种方法是高低层直接融合(direct fusion)方法，简称df方法，该方法的结构如图5所示。df方法与sff一样整合第1层到第n-1层的特征。首先，df方法将第1层至第n-1个解码器线性叠加，然后使用层归一化函数对叠加的数据进行特征平滑。最后再将整合好的高低层特征添加到最高层并再次平滑。df方法的结构用公式表示为
[0072][0073]
其中li表示解码器第i层的输出。df方法与sff算法同样融合了各个解码器层的特征，不同的是df并未使用卷积提取局部信息。用该方法与sff算法比较，可以得出局部信息对模型的重要性。
[0074]
第二种方法是单层局部融合(local fusion)方法，简称lf方法，该方法的结构如图6所示。lf方法只在另一个分支使用卷积神经网络提取最高层的局部特征，而不使用其他
层的特征。首先，lf将顶层特征向量提取出来，并在向量的两侧填充空白边，以保证顶层特征向量经过卷积提取后向量长度不变，然后再将提取的最高层局部特征添加到原最高层。lf方法的结构用公式表示为：
[0075]
sff(ln)＝ξ(padding(ln))
[0076]
其中ξ表示为卷积函数，padding表示边缘填充，ln表示第n个解码器的输出，即解码器顶层的输出。如此一来，df方法与sff算法同样使用了卷积提取局部信息，但其仅提取了顶层的局部信息，而舍弃了其他层的信息。将lf方法与sff算法比较，可以研究高低层特征对模型的重要性。
[0077]
结合图3以及图4，作为本发明的优选实施方式，具体的，将transformer模型的语音特征嵌入向量和位置编码进行拆解，之后在transformer模型每个编码器层的自注意力子层中都加入位置编码信息，包括，
[0078]
编码器只使用语音嵌入向量作为输入，之后，将位置编码添加进编码器的每一个自注意力层中，在编码器的自注意力层中，分别进行语音嵌入向量和位置编码的关联性q
×
k计算，在计算的过程中，位置编码使用自己独立的自注意力矩阵，语音嵌入向量与位置编码分别进行关联性计算后融合在一起，共同产生注意力分布，transformer的编码器自注意力层计算公式如下，
[0079][0080]
其中，q＝xwq,k＝xwk,v＝xwv,x是自注意力层的输入，p是位置编码，wq、wk、wv与经典transformer模型一致，分别为查询query、键key、值value的映射矩阵，和是位置编码增强在子注意力层增加的两个映射矩阵，分别为位置编码独立的查询、键映射矩阵。
[0081]
参照图8，对位置编码增强算法(pee)的可行性分析如下，
[0082]
transformer不使用循环神经网络，而是直接采用注意力机制。当失去了rnn这样一个序列结构时，这些输入序列的顺序信息就会丢失，模型很难捕捉到序列的顺序关系。为了使模型感知序列的顺序，必须在编码器和解码器的底部特征向量中注入一些用于标记相对或绝对位置的信息，即位置编码(positional encoding，pe)。为了使位置编码可以叠加在输入序列上，模型将它们设置为相同的向量维度d
model
。位置编码的计算公式如下：
[0083][0084][0085]
其中pos是特征向量的位置，i是它的维度。每个维度的位置编码对应于一个正弦波或余弦波。由于对任何固定的偏移量k，pe
pos+k
皆用pe
pos
的线性变化来表示。因此，这个函数可以使模型容易关注特征序列的相对位置信息。位置编码在transformer编码器中的应用如图所示。在图中，编码器将位置编码和语音嵌入向量的叠加作为输入，共同进行自注意
力机制的运算。经过n个编码器层组成的编码器后，模型将其输出的结果输入到解码器中。
[0086]
然而，在训练过程中，模型会使用多个自注意力机制和前馈神经网络。因此，会进行大量的线性变换。这使得在多层叠加后位置编码在语义空间含有的信息量会减弱，不能很好地表征位置信息。并且，位置编码是由正弦波和余弦波交替生成，不包含语义信息，因此无需经过多层神经网络提取特征信息。故也可以直接在编码器的高层中添加位置编码信息。
[0087]
另一方面，在transformer中位置编码与语音嵌入向量共同作为神经网络的输入，在经过编码器自注意力层会有如下矩阵点积：
[0088][0089]
其中x代表语音向量的输入，p是位置编码，wq、wk、wv分别是q、k、v的映射矩阵，(
·
)
t
表示矩阵的转置。若用att
′
表示softmax前q和k进行关联性计算(q
×
k)的过程，则：
[0090][0091]
att
′
＝((x+p)wq)((x+p)wk)
t
[0092]
将这个过程单独提取出来，根据矩阵的运算法则，两个二项式相乘可以得到一个四项式：
[0093]
att
′
＝(xwq)(xwk)
t
+(xwq)(pwk)
t
+(pwq)(pwk)
t
+(pwq)(xwk)
t
[0094]
上述式子显示了位置编码(位置)与语音嵌入向量(语音)叠加作为神经网络的输入后，在注意力层中进行映射的拆解过程。它包含四个部分：语音-语音的关联、语音-位置的关联、位置-语音的关联、位置-位置的关联。
[0095]
然而，语音嵌入向量和位置编码向量所含信息的类型有差异，语音嵌入向量代表语义，位置编码代表序列中的位置信息。liu等人的研究显示，在transformer中每个输入可能包含多个句子，且由于批处理过程的随机性，一个句子有可能出现在任何位置，故词和位置之间的关联性不强。上式中的第二和第三项，若使语音嵌入向量作为查询向量(q)，使位置编码向量作为被查询的相关性的向量(k)，则它们的乘积并没有实际意义。因此，直接在语音嵌入向量添加位置编码虽然引入了位置信息，但在进行注意力机制时的乘积操作会引入不必要的噪声。
[0096]
基于上述原因，本发明对目前transformer中的位置编码使用了一个有效的修改，称为位置编码增强算法(pee)。pee融合在transformer的编码器的自注意力层。与经典transformer使用叠加位置编码后的语音嵌入向量作为输入不同，在位置编码增强算法中编码器只使用语音嵌入向量作为输入。在这之后，位置编码被添加进编码器的每一个自注意力层中，使用位置编码增强算法的自注意力层被称为位置编码增强的自注意力层。由此，transformer编码器架构如上图所示。在transformer的编码器中，每个编码器层中都加入位置编码，这加强了编码器对嵌入向量中位置关系的关注度。并且，位置编码不是简单地添
加进每一个编码器层，而是添加进编码器层中的自注意力子层。在编码器的自注意力层中，分别进行语音嵌入向量和位置编码的关联性q
×
k计算。。在计算的过程中，它们使用不同的自注意力矩阵，也就是说位置编码使用自己独立的自注意力矩阵。它们分别进行关联性计算后融合在一起，共同产生注意力分布。
[0097]
本发明还提出基于改进transformer模型的语音识别装置，包括以下：
[0098]
语音数据获取模块，用于获取待识别的语音数据；
[0099]
预处理模块，用于对所述语音数据进行预处理得到预处理后的语音数据；
[0100]
语音识别模块，用于通过改进的transformer模型对所述语音数据进行语音识别得到语音识别结果；
[0101]
结果输出模块，用于输出所述语音识别结果；
[0102]
改进的transformer模型与传统的transformer模型的不同之处在于，
[0103]
特征融合的方式为利用拼接函数和卷积神经网络融合解码器的高低层特征，并提取局部特征信息，将卷积神经网络提取的局部细节特征与transformer的全局特征相融合；以及位置编码增强，将transformer模型的语音特征嵌入向量和位置编码进行拆解，之后在transformer模型每个编码器层的自注意力子层中都加入位置编码信息。
[0104]
作为本发明的优选实施方式，具体的，利用拼接函数和卷积神经网络融合解码器的高低层特征，并提取局部特征信息，将卷积神经网络提取的局部细节特征与transformer的全局特征相融合，包括，
[0105]
首先将除最高层外的所有层特征拼接起来以便更好地融合，然后使用卷积神经网络来压缩提取拼接后的特征，以保证融合特征后的输出与每个解码层的特征有相同的维度，其公式表现形式如下，
[0106][0107]
其中，sff为算法定义名称，li∈rb×d是解码器中i
·
th
的输出，b表示批量(batch size)大小，d表示单个嵌入量，concat(
·
)是拼接操作，concat(
·
)∈r^((n-1)
×b×
d)，也就是说，拼接操作在第一维度上拼接了输入矩阵，ξ是一个压缩函数，sff算法使用卷积神经网络实现压缩，它使得sff重新回到rb×d，由于来自每个解码器的特征都是rb×d的维度，如果维度不相同，提取后的融合特征将不能叠加在原来的解码器顶层，如此一来，最顶层的输出特征ln(x)和便可以与sff提取的特征进行叠加运算。
[0108]
作为本发明的优选实施方式，具体的，将transformer模型的语音特征嵌入向量和位置编码进行拆解，之后在transformer模型每个编码器层的自注意力子层中都加入位置编码信息，包括，
[0109]
编码器只使用语音嵌入向量作为输入，之后，将位置编码添加进编码器的每一个自注意力层中，在编码器的自注意力层中，分别进行语音嵌入向量和位置编码的关联性q
×
k计算，在计算的过程中，位置编码使用自己独立的自注意力矩阵，语音嵌入向量与位置编码分别进行关联性计算后融合在一起，共同产生注意力分布，transformer的编码器自注意力层计算公式如下，
[0110][0111]
其中，q＝xwq,k＝xwk,v＝xwv,x是自注意力层的输入，p是位置编码，wq、wk、wv与经典transformer模型一致，分别为查询query、键key、值value的映射矩阵，和是位置编码增强在子注意力层增加的两个映射矩阵，分别为位置编码独立的查询、键映射矩阵。
[0112]
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例中的方案的目的。
[0113]
另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。
[0114]
所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储的介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、电载波信号、电信信号以及软件分发介质等。
[0115]
尽管本发明的描述已经相当详尽且特别对几个所述实施例进行了描述，但其并非旨在局限于任何这些细节或实施例或任何特殊实施例，而是应当将其视作是通过参考所附权利要求考虑到现有技术为这些权利要求提供广义的可能性解释，从而有效地涵盖本发明的预定范围。此外，上文以发明人可预见的实施例对本发明进行描述，其目的是为了提供有用的描述，而那些目前尚未预见的对本发明的非实质性改动仍可代表本发明的等效改动。
[0116]
以上所述，只是本发明的较佳实施例而已，本发明并不局限于上述实施方式，只要其以相同的手段达到本发明的技术效果，都应属于本发明的保护范围。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。

技术特征：

1.基于改进transformer模型的语音识别方法，其特征在于，包括以下：获取待识别的语音数据；对所述语音数据进行预处理得到预处理后的语音数据；通过改进的transformer模型对所述语音数据进行语音识别得到语音识别结果；输出所述语音识别结果；改进的transformer模型与传统的transformer模型的不同之处在于，特征融合的方式为利用拼接函数和卷积神经网络融合解码器的高低层特征，并提取局部特征信息，将卷积神经网络提取的局部细节特征与transformer的全局特征相融合；以及位置编码增强，将transformer模型的语音特征嵌入向量和位置编码进行拆解，之后在transformer模型每个编码器层的自注意力子层中都加入位置编码信息。2.根据权利要求1所述的基于改进transformer模型的语音识别方法，其特征在于，具体的，利用拼接函数和卷积神经网络融合解码器的高低层特征，并提取局部特征信息，将卷积神经网络提取的局部细节特征与transformer的全局特征相融合，包括，首先将除最高层外的所有层特征拼接起来以便更好地融合，然后使用卷积神经网络来压缩提取拼接后的特征，以保证融合特征后的输出与每个解码层的特征有相同的维度，其公式表现形式如下，其中，sff为算法定义名称，l
i
∈r
b
×
d
是解码器中i
·
th
的输出，b表示批量(batch size)大小，d表示单个嵌入量，concat(
·
)是拼接操作，concat(
·
)∈r^((n-1)
×
b
×
d)，也就是说，拼接操作在第一维度上拼接了输入矩阵，ξ是一个压缩函数，sff算法使用卷积神经网络实现压缩，它使得sff重新回到r
b
×
d
，由于来自每个解码器的特征都是r
b
×
d
的维度，如果维度不相同，提取后的融合特征将不能叠加在原来的解码器顶层，如此一来，最顶层的输出特征l
n
(x)和便可以与sff提取的特征进行叠加运算。3.根据权利要求1所述的基于改进transformer模型的语音识别方法，其特征在于，具体的，将transformer模型的语音特征嵌入向量和位置编码进行拆解，之后在transformer模型每个编码器层的自注意力子层中都加入位置编码信息，包括，编码器只使用语音嵌入向量作为输入，之后，将位置编码添加进编码器的每一个自注意力层中，在编码器的自注意力层中，分别进行语音嵌入向量和位置编码的关联性q
×
k计算，在计算的过程中，位置编码使用自己独立的自注意力矩阵，语音嵌入向量与位置编码分别进行关联性计算后融合在一起，共同产生注意力分布，transformer的编码器自注意力层计算公式如下，其中，q＝xw
q
,k＝xw
k
,v＝xwv,x是自注意力层的输入，p是位置编码，w
q
、w
k
、wv与经典transformer模型一致，分别为查询query、键key、值value的映射矩阵，和是位置编码增强在子注意力层增加的两个映射矩阵，分别为位置编码独立的
查询、键映射矩阵。4.基于改进transformer模型的语音识别装置，其特征在于，包括以下：语音数据获取模块，用于获取待识别的语音数据；预处理模块，用于对所述语音数据进行预处理得到预处理后的语音数据；语音识别模块，用于通过改进的transformer模型对所述语音数据进行语音识别得到语音识别结果；结果输出模块，用于输出所述语音识别结果；改进的transformer模型与传统的transformer模型的不同之处在于，特征融合的方式为利用拼接函数和卷积神经网络融合解码器的高低层特征，并提取局部特征信息，将卷积神经网络提取的局部细节特征与transformer的全局特征相融合；以及位置编码增强，将transformer模型的语音特征嵌入向量和位置编码进行拆解，之后在transformer模型每个编码器层的自注意力子层中都加入位置编码信息。5.根据权利要求4所述的基于改进transformer模型的语音识别装置，其特征在于，具体的，利用拼接函数和卷积神经网络融合解码器的高低层特征，并提取局部特征信息，将卷积神经网络提取的局部细节特征与transformer的全局特征相融合，包括，首先将除最高层外的所有层特征拼接起来以便更好地融合，然后使用卷积神经网络来压缩提取拼接后的特征，以保证融合特征后的输出与每个解码层的特征有相同的维度，其公式表现形式如下，其中，sff为算法定义名称，l
i
∈r
b
×
d
是解码器中i
·
th
的输出，b表示批量(batch size)大小，d表示单个嵌入量，concat(
·
)是拼接操作，concat(
·
)∈r^((n-1)
×
b
×
d)，也就是说，拼接操作在第一维度上拼接了输入矩阵，ξ是一个压缩函数，sff算法使用卷积神经网络实现压缩，它使得sff重新回到r
b
×
d
，由于来自每个解码器的特征都是r
b
×
d
的维度，如果维度不相同，提取后的融合特征将不能叠加在原来的解码器顶层，如此一来，最顶层的输出特征l
n
(x)和便可以与sff提取的特征进行叠加运算。6.根据权利要求4所述的基于改进transformer模型的语音识别装置，其特征在于，将transformer模型的语音特征嵌入向量和位置编码进行拆解，之后在transformer模型每个编码器层的自注意力子层中都加入位置编码信息，包括，编码器只使用语音嵌入向量作为输入，之后，将位置编码添加进编码器的每一个自注意力层中，在编码器的自注意力层中，分别进行语音嵌入向量和位置编码的关联性q
×
k计算，在计算的过程中，位置编码使用自己独立的自注意力矩阵，语音嵌入向量与位置编码分别进行关联性计算后融合在一起，共同产生注意力分布，transformer的编码器自注意力层计算公式如下，其中，q＝xw
q
,k＝xw
k
,v＝xwv,x是自注意力层的输入，p是位置编码，w
q
、w
k
、wv与经典transformer模型一致，分别为查询query、键key、值value的映射矩阵，
和是位置编码增强在子注意力层增加的两个映射矩阵，分别为位置编码独立的查询、键映射矩阵。

技术总结

本发明涉及基于改进Transformer模型的语音识别方法，通过改进的Transformer模型进行语音识别，改进的方式为特征融合的方式为利用拼接函数和卷积神经网络融合解码器的高低层特征，并提取局部特征信息，将卷积神经网络提取的局部细节特征与Transformer的全局特征相融合，使得模型提取的特征更具有健壮性。同时为解码器的每一层构建一条短距离的反向传播路径，缓解模型底层的梯度消失问题；以及位置编码增强，将Transformer模型的语音特征嵌入向量和位置编码进行拆解，可以解决因为两者间的弱关联而引起噪声的问题，之后在Transformer模型每个编码器层的自注意力子层中都加入位置编码信息，解决因网络多次叠加而造成位置编码信息减弱的问题。造成位置编码信息减弱的问题。造成位置编码信息减弱的问题。