一种语音识别方法、装置及设备与流程



1.本发明涉及通信技术领域,尤其涉及一种语音识别方法、装置及设备。


背景技术:



2.伴随信息化时代的迅速发展,大量的人工智能(artificial intelligence,ai)技术催发了智能终端设备的实际应用,例如智能音箱、车载导航系统、手机助手、智能家居等。在ai技术的门类中,语音作为最便捷化的人机交互方式,自动语音识别(automatic speech recognition,asr)技术则成为了智能设备中不可或缺的一环。在日常的生活工作中,由于使用场景的变化,多设备(如手机、平板、笔记本电脑)通讯的情形越来越普遍,随之而来的是数不胜数的设备终端之间由于音频采集传输的差异而导致的多传输信道下语音识别性能的下降。
3.在多传输信道的影响下,通讯过程中产生的音频信号由于各不同信道具有其独特的响应函数或者由于设备对信号传输量限制而做出的音频压缩处理,都会导致传输到所调用的语音识别模型时由于信道差异产生的性能急剧下降。对于这种情况,现有技术提供了端到端语音识别模型。
4.但是,现有技术中,端到端语音识别模型会使用梅尔滤波器组提取特征,这将依赖于声学信号的统计特性和滤波器设计性,反而加剧了对信道响应差异的敏感度;无法处理多传输信道语音的差异问题,当遇到多信道传输过来的音频信号时将导致识别性能的下降。
5.由上可知,现有技术中针对多信道传输的语音识别方案存在识别性能差等问题。


技术实现要素:



6.本发明的目的在于提供一种语音识别方法、装置及设备,以解决现有技术中针对多信道传输的语音识别方案识别性能差的问题。
7.为了解决上述技术问题,本发明实施例提供一种语音识别方法,包括:
8.利用至少两个已有信道对应的自动编码器,对待识别的语音数据进行编码,得到各已有信道对应的编码数据;
9.利用自注意力机制,根据所述编码数据,获取所述语音数据的至少两个抽象空间特征;
10.利用自注意力机制,获取各个所述抽象空间特征之间的内在联系信息;
11.根据所述内在联系信息进行解码,得到所述语音数据的识别结果。
12.可选的,还包括:
13.利用自注意力机制,根据所述编码数据,获取所述已有信道之间的内在关联信息;
14.所述利用自注意力机制,根据所述编码数据,获取所述语音数据的至少两个抽象空间特征,包括:
15.在所述语音数据的来源信道不属于所述已有信道的情况下,利用自注意力机制,
根据所述编码数据和内在关联信息,获取所述语音数据的至少两个抽象空间特征。
16.可选的,所述利用自注意力机制,根据所述编码数据,获取所述已有信道之间的内在关联信息,包括:
17.利用自注意力机制,根据所述编码数据,获取所述已有信道之间的空间响应函数关联信息。
18.可选的,所述利用自注意力机制,根据所述编码数据,获取所述语音数据的至少两个抽象空间特征,包括:
19.通过公式一,利用自注意力机制,根据所述编码数据,获取所述语音数据的至少两个抽象空间特征;
20.其中,所述公式一为:
21.c
out
=∑g(enj)
×
f(enj),j=1
···
n;
22.c
out
表示所述至少两个抽象空间特征,g(enj)表示自注意力的加权权重矩阵,f(enj)表示所述自动编码器的信道响应抽象特征输出矩阵,n表示所述已有信道的数量。
23.本发明实施例还提供了一种语音识别装置,包括:
24.第一编码模块,用于利用至少两个已有信道对应的自动编码器,对待识别的语音数据进行编码,得到各已有信道对应的编码数据;
25.第一获取模块,用于利用自注意力机制,根据所述编码数据,获取所述语音数据的至少两个抽象空间特征;
26.第二获取模块,用于利用自注意力机制,获取各个所述抽象空间特征之间的内在联系信息;
27.第一解码模块,用于根据所述内在联系信息进行解码,得到所述语音数据的识别结果。
28.可选的,还包括:
29.第三获取模块,用于利用自注意力机制,根据所述编码数据,获取所述已有信道之间的内在关联信息;
30.所述利用自注意力机制,根据所述编码数据,获取所述语音数据的至少两个抽象空间特征,包括:
31.在所述语音数据的来源信道不属于所述已有信道的情况下,利用自注意力机制,根据所述编码数据和内在关联信息,获取所述语音数据的至少两个抽象空间特征。
32.可选的,所述利用自注意力机制,根据所述编码数据,获取所述已有信道之间的内在关联信息,包括:
33.利用自注意力机制,根据所述编码数据,获取所述已有信道之间的空间响应函数关联信息。
34.可选的,所述利用自注意力机制,根据所述编码数据,获取所述语音数据的至少两个抽象空间特征,包括:
35.通过公式一,利用自注意力机制,根据所述编码数据,获取所述语音数据的至少两个抽象空间特征;
36.其中,所述公式一为:
37.c
out
=∑g(enj)
×
f(enj),j=1
···
n;
38.c
out
表示所述至少两个抽象空间特征,g(enj)表示自注意力的加权权重矩阵,f(enj)表示所述自动编码器的信道响应抽象特征输出矩阵,n表示所述已有信道的数量。
39.本发明实施例还提供了一种语音识别设备,包括:处理器和收发机;
40.所述处理器,用于利用至少两个已有信道对应的自动编码器,对待识别的语音数据进行编码,得到各已有信道对应的编码数据;
41.利用自注意力机制,根据所述编码数据,获取所述语音数据的至少两个抽象空间特征;
42.利用自注意力机制,获取各个所述抽象空间特征之间的内在联系信息;
43.根据所述内在联系信息进行解码,得到所述语音数据的识别结果。
44.可选的,所述处理器还用于:
45.利用自注意力机制,根据所述编码数据,获取所述已有信道之间的内在关联信息;
46.所述利用自注意力机制,根据所述编码数据,获取所述语音数据的至少两个抽象空间特征,包括:
47.在所述语音数据的来源信道不属于所述已有信道的情况下,利用自注意力机制,根据所述编码数据和内在关联信息,获取所述语音数据的至少两个抽象空间特征。
48.可选的,所述利用自注意力机制,根据所述编码数据,获取所述已有信道之间的内在关联信息,包括:
49.利用自注意力机制,根据所述编码数据,获取所述已有信道之间的空间响应函数关联信息。
50.可选的,所述利用自注意力机制,根据所述编码数据,获取所述语音数据的至少两个抽象空间特征,包括:
51.通过公式一,利用自注意力机制,根据所述编码数据,获取所述语音数据的至少两个抽象空间特征;
52.其中,所述公式一为:
53.c
out
=∑g(enj)
×
f(enj),j=1
···
n;
54.c
out
表示所述至少两个抽象空间特征,g(enj)表示自注意力的加权权重矩阵,f(enj)表示所述自动编码器的信道响应抽象特征输出矩阵,n表示所述已有信道的数量。
55.本发明实施例还提供了一种语音识别设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;所述处理器执行所述程序时实现上述的语音识别方法。
56.本发明实施例还提供了一种可读存储介质,其上存储有程序,该程序被处理器执行时实现上述的语音识别方法中的步骤。
57.本发明的上述技术方案的有益效果如下:
58.上述方案中,所述语音识别方法通过利用至少两个已有信道对应的自动编码器,对待识别的语音数据进行编码,得到各已有信道对应的编码数据;利用自注意力机制,根据所述编码数据,获取所述语音数据的至少两个抽象空间特征;利用自注意力机制,获取各个所述抽象空间特征之间的内在联系信息;根据所述内在联系信息进行解码,得到所述语音数据的识别结果;能够实现一种融合多传输信道的一体化鲁棒语音识别方案,可利用双重注意力机制实现对不同信道内在关系的学习,自动决定每种传输信道下所学信息的占比,
从而实现对多信道传输到asr端口的良好识别;具体的,可通过使用多传输信道自编码器(auto-encoder,即预训练自编码器结构)产生的embedding(嵌入)替代现有技术中使用的梅尔特征,在一定程度上消除现有基于滤波器组特征获取方式对信道差异敏感度的影响;另外,可利用双重注意力机制实现对不同信道内在关系的自主学习,无需依赖先验信道信息(即先验信道特征标签),从而实现一体化鲁棒语音识别方案。进一步的,除了能够提高对模型训练时已知的n(n大于1)个传输信道的语音识别准确性之外,对于新增的传输信道,使用n个预训练的auto-encoder(可理解为信道编码器)可以有效模拟出新增信道embedding特征(具体的,对于新增的传输信道语音数据,可通过信道自注意力机制产生已有信道的不同贡献度,得到融合信道信息表达),无需进行多次重新训练与系统更新,减少了内存资源占用与计算资源的消耗(具体的,减少了对传输信道变化时所需的数据积累、模型重训练导致的计算资源占用和时间消耗,减少信道导致的参数差异影响,提升识别准确率;也就是不需要大量的对应数据进行训练,避免模型的重新训练需要消耗大量的计算资源与较长时间做特定的更新部署);很好的解决了现有技术中针对多信道传输的语音识别方案识别性能差的问题。
附图说明
59.图1为本发明实施例的语音识别方法流程示意图;
60.图2为本发明实施例的语音识别方法实现系统示意图;
61.图3为本发明实施例的语音识别装置结构示意图;
62.图4为本发明实施例的语音识别设备结构示意图。
具体实施方式
63.为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
64.本发明针对现有的技术中针对多信道传输的语音识别方案识别性能差的问题,提供一种语音识别方法,如图1所示,包括:
65.步骤11:利用至少两个已有信道对应的自动编码器,对待识别的语音数据进行编码,得到各已有信道对应的编码数据;
66.步骤12:利用自注意力机制,根据所述编码数据,获取所述语音数据的至少两个抽象空间特征;
67.步骤13:利用自注意力机制,获取各个所述抽象空间特征之间的内在联系信息;
68.步骤14:根据所述内在联系信息进行解码,得到所述语音数据的识别结果。
69.在步骤14之后,还可以将识别结果返回给本设备的对侧设备(比如对侧终端),在此不作限定。其中,“内在联系信息”具体可以是指使用self-attention(自注意力)建立的需要进行识别的语音帧之间的隐含关系。
70.本发明实施例提供的所述语音识别方法通过利用至少两个已有信道对应的自动编码器,对待识别的语音数据进行编码,得到各已有信道对应的编码数据;利用自注意力机制,根据所述编码数据,获取所述语音数据的至少两个抽象空间特征;利用自注意力机制,获取各个所述抽象空间特征之间的内在联系信息;根据所述内在联系信息进行解码,得到
所述语音数据的识别结果;能够实现一种融合多传输信道的一体化鲁棒语音识别方案,可利用双重注意力机制实现对不同信道内在关系的学习,自动决定每种传输信道下所学信息的占比,从而实现对多信道传输到asr端口的良好识别;具体的,可通过使用多传输信道自编码器(auto-encoder,即预训练自编码器结构)产生的embedding(嵌入)替代现有技术中使用的梅尔特征,在一定程度上消除现有基于滤波器组特征获取方式对信道差异敏感度的影响;另外,可利用双重注意力机制实现对不同信道内在关系的自主学习,无需依赖先验信道信息(即先验信道特征标签),从而实现一体化鲁棒语音识别方案。进一步的,除了能够提高对模型训练时已知的n(n大于1)个传输信道的语音识别准确性之外,对于新增的传输信道,使用n个预训练的auto-encoder(可理解为信道编码器)可以有效模拟出新增信道embedding特征(具体的,对于新增的传输信道语音数据,可通过信道自注意力机制产生已有信道的不同贡献度,得到融合信道信息表达),无需进行多次重新训练与系统更新,减少了内存资源占用与计算资源的消耗(具体的,减少了对传输信道变化时所需的数据积累、模型重训练导致的计算资源占用和时间消耗,减少信道导致的参数差异影响,提升识别准确率;也就是不需要大量的对应数据进行训练,避免模型的重新训练需要消耗大量的计算资源与较长时间做特定的更新部署);很好的解决了现有技术中针对多信道传输的语音识别方案识别性能差的问题。
71.进一步的,所述的语音识别方法,还包括:利用自注意力机制,根据所述编码数据,获取所述已有信道之间的内在关联信息;所述利用自注意力机制,根据所述编码数据,获取所述语音数据的至少两个抽象空间特征,包括:在所述语音数据的来源信道不属于所述已有信道的情况下,利用自注意力机制,根据所述编码数据和内在关联信息,获取所述语音数据的至少两个抽象空间特征。
72.这样能够实现针对新增信道来源的语音数据进行识别。关于“内在关联信息”具体可以是指不同信道的信道特征间的关联关系,更具体的,“内在关联信息”可以是该方案中使用self-attention对已有信道的embedding信息建立的关联信息,可用于拟合出新信道的特征表达。
73.其中,所述利用自注意力机制,根据所述编码数据,获取所述已有信道之间的内在关联信息,包括:利用自注意力机制,根据所述编码数据,获取所述已有信道之间的空间响应函数关联信息。
74.这样能够准确确定各信道之间的内在关联。
75.本发明实施例中,所述利用自注意力机制,根据所述编码数据,获取所述语音数据的至少两个抽象空间特征,包括:通过公式一,利用自注意力机制,根据所述编码数据,获取所述语音数据的至少两个抽象空间特征;其中,所述公式一为:c
out
=∑g(enj)
×
f(enj),j=1
···
n;c
out
表示所述至少两个抽象空间特征,g(enj)表示自注意力的加权权重矩阵,f(enj)表示所述自动编码器的信道响应抽象特征输出矩阵,n表示所述已有信道的数量。
76.这样能够准确获取语音数据的抽象空间特征。
77.下面对本发明实施例提供的所述语音识别方法进行举例说明,语音识别设备以终端为例。
78.针对上述技术问题,本发明实施例提供了一种语音识别方法,具体可实现为一种融合多传输信道的一体化鲁棒语音识别方案,利用双重注意力机制实现对不同信道内在关
系的学习,自动决定每种传输信道下所学信息的占比,从而实现对多信道传输到asr端口的良好识别。其中,本方案涉及的端到端语音识别架构主要包括编码器(encoder)、自注意力机制模块(self-attention)以及解码器(decoder)三个部分。具体的,本方案可在常见的端到端识别模型基础上,增加多传输信道自编码器(auto-encoder)与信道自注意力模块;利用双重注意力机制实现对不同信道内在关系的学习,无需依赖先验信道信息,从而建立了一体化鲁棒语音识别方案。本方案除了能够提高系统对模型训练时已知的n个传输信道的语音识别准确性之外,对于新增的传输信道,可通过信道自注意力模块(channel-wise self-attention module)使用n个预训练的auto-encoder(信道编码器)有效模拟出新增信道embedding(嵌入)特征,无需进行多次重新训练与系统更新,减少了内存资源占用与计算资源的消耗。
79.具体的,本方案可采用图2所示的系统(也可称为双重自注意力机制的端到端语音识别系统)进行实现,该系统主要包括以下几个部分(本案例中以n=4进行阐述):
80.1.语音输入模块:将采集到的语音数据输入到识别系统中;
81.2.多传输信道自编码器模块:在面向多种不同传输信道的语音识别场景中,利用现有已积累的n个信道数据库(图2中n=4)训练各自的编解码系统,得到预训练的auto-encoder模块,将它们集成一起;如图2中的信道1encoder、信道2encoder、信道3encoder以及信道4encoder,共同构成的encoder模块。
82.3.信道自注意力模块(channel-wise self-attention module,如图2中的信道attention):特别地,该模块不同于一般encoder,在系统训练中该模块仅用于提取学习抽象空间相应特征(比如:声音的环境特征),本方案通过该模块得到自编码器产生的embedding各个信道信息的内在关联(对应于上述内在关联信息,可以涵盖到新增信道),具体可以是通过图2中的embedding concat(函数)来得到。
83.具体的,该模块的(信道)输出为:c
out
=∑g(enj)
×
f(enj),j=1,..,4;
84.其中,c
out
表示输出(对应于上述至少两个抽象空间特征),f(enj)为各信道编码器的信道响应抽象特征输出矩阵(对应于上述所述自动编码器的信道响应抽象特征输出矩阵),g(enj)为self-attention的加权权重矩阵(对应于上述自注意力的加权权重矩阵)。具体的,通过获取c
out
的该公式,可以得到一组深维特征,这个特征的分布能够涵盖新增信道的特征,后续针对新增信道可继续训练本系统,但并不作限制。
85.此外,根据本模块的输入(即多传输信道自编码器模块的输出,对应于上述编码数据),通过自注意力机制可捕获不同采集设备(信道)之间的空间响应函数关联关系(对应于上述空间响应函数关联信息),及择出对当前时刻输入语音信号(对应于上述待识别的语音数据)的抽象空间特征表示(对应于上述利用自注意力机制,根据所述编码数据,获取所述语音数据的至少两个抽象空间特征);
86.4.识别自注意力模块(对应于图2中的asr attention):可采用现有方式,获取与识别相关特征的内在联系;但并不以此为限。对应于上述利用自注意力机制,获取各个所述抽象空间特征之间的内在联系信息。
87.5.解码器模块(对应于图2中的decoder):可设计准则函数,得到识别结果输出;对应于上述根据所述内在联系信息进行解码,得到所述语音数据的识别结果。
88.6.识别结果:可将最终得到的识别结果返回到交互设备终端(即本终端的对侧终
端),用于下一步如自然语言处理nlp等后续处理操作;
89.由上可知,本发明实施例提供的方案能够构建一种融合多传输信道的一体化鲁棒语音识别系统,充分利用现有积累的各通道数据,增加多传输信道自编码器(auto-encoder)与信道自注意力模块。其中,可利用双重注意力机制实现对不同信道内在关系的学习,无需依赖先验信道信息,从而实现一体化鲁棒语音识别方案;并且对训练时已知或未知的传输信道都可实现识别性能的提升。此外,可通过信道自注意力模块(channel-wise self-attention module)使用预训练的auto-encoder进行信息编码,有效模拟输入信号的embedding特征,无需进行多次重新训练与系统更新,从而减少内存资源占用与计算资源的消耗。
90.综上,本发明实施例提供的方案具备以下优点:
91.1.使用预训练自编码器结构产生的embedding替代现有技术中使用的梅尔特征,在一定程度上消除了这种传统基于滤波器组特征获取方式对信道差异敏感度的影响;
92.2.利用双重自注意力机制,无需依赖先验信道特征标签,能够自主习得信道信息之间的内在联系;
93.3.一体化的鲁棒识别系统,对于新增的传输信道的语音数据,可通过信道自注意力模块产生已有信道的不同贡献度,得到融合信道信息表达(具体可以是已有信道的相关参数信息根据权重矩阵进行融合);
94.4.减少了对传输信道变化时所需的数据积累、模型重训练导致的计算资源占用和时间消耗,并减少了信道导致的参数差异影响,可提升识别准确率;也就是,不需要大量的对应数据进行训练,避免模型的重新训练需要消耗大量的计算资源与较长时间做特定的更新部署。
95.综上所述,本发明实施例提供的方案与现有方案相比,从特征提取的信道敏感性,系统鲁棒性,识别准确性,计算资源与时长消耗等方面都具有改进提升。
96.本发明实施例还提供了一种语音识别装置,如图3所示,包括:
97.第一编码模块31,用于利用至少两个已有信道对应的自动编码器,对待识别的语音数据进行编码,得到各已有信道对应的编码数据;
98.第一获取模块32,用于利用自注意力机制,根据所述编码数据,获取所述语音数据的至少两个抽象空间特征;
99.第二获取模块33,用于利用自注意力机制,获取各个所述抽象空间特征之间的内在联系信息;
100.第一解码模块34,用于根据所述内在联系信息进行解码,得到所述语音数据的识别结果。
101.本发明实施例提供的所述语音识别装置通过利用至少两个已有信道对应的自动编码器,对待识别的语音数据进行编码,得到各已有信道对应的编码数据;利用自注意力机制,根据所述编码数据,获取所述语音数据的至少两个抽象空间特征;利用自注意力机制,获取各个所述抽象空间特征之间的内在联系信息;根据所述内在联系信息进行解码,得到所述语音数据的识别结果;能够实现一种融合多传输信道的一体化鲁棒语音识别方案,可利用双重注意力机制实现对不同信道内在关系的学习,自动决定每种传输信道下所学信息的占比,从而实现对多信道传输到asr端口的良好识别;具体的,可通过使用多传输信道自
编码器(auto-encoder,即预训练自编码器结构)产生的embedding(嵌入)替代现有技术中使用的梅尔特征,在一定程度上消除现有基于滤波器组特征获取方式对信道差异敏感度的影响;另外,可利用双重注意力机制实现对不同信道内在关系的自主学习,无需依赖先验信道信息(即先验信道特征标签),从而实现一体化鲁棒语音识别方案。进一步的,除了能够提高对模型训练时已知的n(n大于1)个传输信道的语音识别准确性之外,对于新增的传输信道,使用n个预训练的auto-encoder(可理解为信道编码器)可以有效模拟出新增信道embedding特征(具体的,对于新增的传输信道语音数据,可通过信道自注意力机制产生已有信道的不同贡献度,得到融合信道信息表达),无需进行多次重新训练与系统更新,减少了内存资源占用与计算资源的消耗(具体的,减少了对传输信道变化时所需的数据积累、模型重训练导致的计算资源占用和时间消耗,减少信道导致的参数差异影响,提升识别准确率;也就是不需要大量的对应数据进行训练,避免模型的重新训练需要消耗大量的计算资源与较长时间做特定的更新部署);很好的解决了现有技术中针对多信道传输的语音识别方案识别性能差的问题。
102.进一步的,所述的语音识别装置,还包括:第三获取模块,用于利用自注意力机制,根据所述编码数据,获取所述已有信道之间的内在关联信息;所述利用自注意力机制,根据所述编码数据,获取所述语音数据的至少两个抽象空间特征,包括:在所述语音数据的来源信道不属于所述已有信道的情况下,利用自注意力机制,根据所述编码数据和内在关联信息,获取所述语音数据的至少两个抽象空间特征。
103.其中,所述利用自注意力机制,根据所述编码数据,获取所述已有信道之间的内在关联信息,包括:利用自注意力机制,根据所述编码数据,获取所述已有信道之间的空间响应函数关联信息。
104.本发明实施例中,所述利用自注意力机制,根据所述编码数据,获取所述语音数据的至少两个抽象空间特征,包括:通过公式一,利用自注意力机制,根据所述编码数据,获取所述语音数据的至少两个抽象空间特征;其中,所述公式一为:c
out
=∑g(enj)
×
f(enj),j=1
···
n;c
out
表示所述至少两个抽象空间特征,g(enj)表示自注意力的加权权重矩阵,f(enj)表示所述自动编码器的信道响应抽象特征输出矩阵,n表示所述已有信道的数量。
105.其中,上述语音识别方法的所述实现实施例均适用于该语音识别装置的实施例中,也能达到相同的技术效果。
106.本发明实施例还提供了一种语音识别设备,如图4所示,包括:处理器41和收发机42;
107.所述处理器41,用于利用至少两个已有信道对应的自动编码器,对待识别的语音数据进行编码,得到各已有信道对应的编码数据;
108.利用自注意力机制,根据所述编码数据,获取所述语音数据的至少两个抽象空间特征;
109.利用自注意力机制,获取各个所述抽象空间特征之间的内在联系信息;
110.根据所述内在联系信息进行解码,得到所述语音数据的识别结果。
111.本发明实施例提供的所述语音识别设备通过利用至少两个已有信道对应的自动编码器,对待识别的语音数据进行编码,得到各已有信道对应的编码数据;利用自注意力机制,根据所述编码数据,获取所述语音数据的至少两个抽象空间特征;利用自注意力机制,
获取各个所述抽象空间特征之间的内在联系信息;根据所述内在联系信息进行解码,得到所述语音数据的识别结果;能够实现一种融合多传输信道的一体化鲁棒语音识别方案,可利用双重注意力机制实现对不同信道内在关系的学习,自动决定每种传输信道下所学信息的占比,从而实现对多信道传输到asr端口的良好识别;具体的,可通过使用多传输信道自编码器(auto-encoder,即预训练自编码器结构)产生的embedding(嵌入)替代现有技术中使用的梅尔特征,在一定程度上消除现有基于滤波器组特征获取方式对信道差异敏感度的影响;另外,可利用双重注意力机制实现对不同信道内在关系的自主学习,无需依赖先验信道信息(即先验信道特征标签),从而实现一体化鲁棒语音识别方案。进一步的,除了能够提高对模型训练时已知的n(n大于1)个传输信道的语音识别准确性之外,对于新增的传输信道,使用n个预训练的auto-encoder(可理解为信道编码器)可以有效模拟出新增信道embedding特征(具体的,对于新增的传输信道语音数据,可通过信道自注意力机制产生已有信道的不同贡献度,得到融合信道信息表达),无需进行多次重新训练与系统更新,减少了内存资源占用与计算资源的消耗(具体的,减少了对传输信道变化时所需的数据积累、模型重训练导致的计算资源占用和时间消耗,减少信道导致的参数差异影响,提升识别准确率;也就是不需要大量的对应数据进行训练,避免模型的重新训练需要消耗大量的计算资源与较长时间做特定的更新部署);很好的解决了现有技术中针对多信道传输的语音识别方案识别性能差的问题。
112.进一步的,所述处理器还用于:利用自注意力机制,根据所述编码数据,获取所述已有信道之间的内在关联信息;所述利用自注意力机制,根据所述编码数据,获取所述语音数据的至少两个抽象空间特征,包括:在所述语音数据的来源信道不属于所述已有信道的情况下,利用自注意力机制,根据所述编码数据和内在关联信息,获取所述语音数据的至少两个抽象空间特征。
113.其中,所述利用自注意力机制,根据所述编码数据,获取所述已有信道之间的内在关联信息,包括:利用自注意力机制,根据所述编码数据,获取所述已有信道之间的空间响应函数关联信息。
114.本发明实施例中,所述利用自注意力机制,根据所述编码数据,获取所述语音数据的至少两个抽象空间特征,包括:通过公式一,利用自注意力机制,根据所述编码数据,获取所述语音数据的至少两个抽象空间特征;其中,所述公式一为:c
out
=∑g(enj)
×
f(enj),j=1
···
n;c
out
表示所述至少两个抽象空间特征,g(enj)表示自注意力的加权权重矩阵,f(enj)表示所述自动编码器的信道响应抽象特征输出矩阵,n表示所述已有信道的数量。
115.其中,上述语音识别方法的所述实现实施例均适用于该语音识别设备的实施例中,也能达到相同的技术效果。
116.本发明实施例还提供了一种语音识别设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;所述处理器执行所述程序时实现上述的语音识别方法。
117.其中,上述语音识别方法的所述实现实施例均适用于该语音识别设备的实施例中,也能达到相同的技术效果。
118.本发明实施例还提供了一种可读存储介质,其上存储有程序,该程序被处理器执行时实现上述的语音识别方法中的步骤。
119.其中,上述语音识别方法的所述实现实施例均适用于该可读存储介质的实施例中,也能达到相同的技术效果。
120.需要说明的是,此说明书中所描述的许多功能部件都被称为模块,以便更加特别地强调其实现方式的独立性。
121.本发明实施例中,模块可以用软件实现,以便由各种类型的处理器执行。举例来说,一个标识的可执行代码模块可以包括计算机指令的一个或多个物理或者逻辑块,举例来说,其可以被构建为对象、过程或函数。尽管如此,所标识模块的可执行代码无需物理地位于一起,而是可以包括存储在不同位里上的不同的指令,当这些指令逻辑上结合在一起时,其构成模块并且实现该模块的规定目的。
122.实际上,可执行代码模块可以是单条指令或者是许多条指令,并且甚至可以分布在多个不同的代码段上,分布在不同程序当中,以及跨越多个存储器设备分布。同样地,操作数据可以在模块内被识别,并且可以依照任何适当的形式实现并且被组织在任何适当类型的数据结构内。所述操作数据可以作为单个数据集被收集,或者可以分布在不同位置上(包括在不同存储设备上),并且至少部分地可以仅作为电子信号存在于系统或网络上。
123.在模块可以利用软件实现时,考虑到现有硬件工艺的水平,所以可以以软件实现的模块,在不考虑成本的情况下,本领域技术人员都可以搭建对应的硬件电路来实现对应的功能,所述硬件电路包括常规的超大规模集成(vlsi)电路或者门阵列以及诸如逻辑芯片、晶体管之类的现有半导体或者是其它分立的元件。模块还可以用可编程硬件设备,诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等实现。
124.以上所述的是本发明的优选实施方式,应当指出对于本技术领域的普通人员来说,在不脱离本发明所述原理前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

技术特征:


1.一种语音识别方法,其特征在于,包括:利用至少两个已有信道对应的自动编码器,对待识别的语音数据进行编码,得到各已有信道对应的编码数据;利用自注意力机制,根据所述编码数据,获取所述语音数据的至少两个抽象空间特征;利用自注意力机制,获取各个所述抽象空间特征之间的内在联系信息;根据所述内在联系信息进行解码,得到所述语音数据的识别结果。2.根据权利要求1所述的语音识别方法,其特征在于,还包括:利用自注意力机制,根据所述编码数据,获取所述已有信道之间的内在关联信息;所述利用自注意力机制,根据所述编码数据,获取所述语音数据的至少两个抽象空间特征,包括:在所述语音数据的来源信道不属于所述已有信道的情况下,利用自注意力机制,根据所述编码数据和内在关联信息,获取所述语音数据的至少两个抽象空间特征。3.根据权利要求2所述的语音识别方法,其特征在于,所述利用自注意力机制,根据所述编码数据,获取所述已有信道之间的内在关联信息,包括:利用自注意力机制,根据所述编码数据,获取所述已有信道之间的空间响应函数关联信息。4.根据权利要求1所述的语音识别方法,其特征在于,所述利用自注意力机制,根据所述编码数据,获取所述语音数据的至少两个抽象空间特征,包括:通过公式一,利用自注意力机制,根据所述编码数据,获取所述语音数据的至少两个抽象空间特征;其中,所述公式一为:c
out
=∑g(en
j
)
×
f(en
j
),j=1
···
n;c
out
表示所述至少两个抽象空间特征,g(en
j
)表示自注意力的加权权重矩阵,f(en
j
)表示所述自动编码器的信道响应抽象特征输出矩阵,n表示所述已有信道的数量。5.一种语音识别装置,其特征在于,包括:第一编码模块,用于利用至少两个已有信道对应的自动编码器,对待识别的语音数据进行编码,得到各已有信道对应的编码数据;第一获取模块,用于利用自注意力机制,根据所述编码数据,获取所述语音数据的至少两个抽象空间特征;第二获取模块,用于利用自注意力机制,获取各个所述抽象空间特征之间的内在联系信息;第一解码模块,用于根据所述内在联系信息进行解码,得到所述语音数据的识别结果。6.根据权利要求5所述的语音识别装置,其特征在于,还包括:第三获取模块,用于利用自注意力机制,根据所述编码数据,获取所述已有信道之间的内在关联信息;所述利用自注意力机制,根据所述编码数据,获取所述语音数据的至少两个抽象空间特征,包括:在所述语音数据的来源信道不属于所述已有信道的情况下,利用自注意力机制,根据所述编码数据和内在关联信息,获取所述语音数据的至少两个抽象空间特征。
7.根据权利要求6所述的语音识别装置,其特征在于,所述利用自注意力机制,根据所述编码数据,获取所述已有信道之间的内在关联信息,包括:利用自注意力机制,根据所述编码数据,获取所述已有信道之间的空间响应函数关联信息。8.根据权利要求5所述的语音识别装置,其特征在于,所述利用自注意力机制,根据所述编码数据,获取所述语音数据的至少两个抽象空间特征,包括:通过公式一,利用自注意力机制,根据所述编码数据,获取所述语音数据的至少两个抽象空间特征;其中,所述公式一为:c
out
=∑g(en
j
)
×
f(en
j
),j=1
···
n;c
out
表示所述至少两个抽象空间特征,g(en
j
)表示自注意力的加权权重矩阵,f(en
j
)表示所述自动编码器的信道响应抽象特征输出矩阵,n表示所述已有信道的数量。9.一种语音识别设备,其特征在于,包括:处理器和收发机;所述处理器,用于利用至少两个已有信道对应的自动编码器,对待识别的语音数据进行编码,得到各已有信道对应的编码数据;利用自注意力机制,根据所述编码数据,获取所述语音数据的至少两个抽象空间特征;利用自注意力机制,获取各个所述抽象空间特征之间的内在联系信息;根据所述内在联系信息进行解码,得到所述语音数据的识别结果。10.一种语音识别设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;其特征在于,所述处理器执行所述程序时实现如权利要求1至4中任一项所述的语音识别方法。11.一种可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1至4中任一项所述的语音识别方法中的步骤。

技术总结


本发明提供了一种语音识别方法、装置及设备,其中,语音识别方法包括:利用至少两个已有信道对应的自动编码器,对待识别的语音数据进行编码,得到各已有信道对应的编码数据;利用自注意力机制,根据编码数据,获取语音数据的至少两个抽象空间特征;利用自注意力机制,获取各个抽象空间特征之间的内在联系信息;根据内在联系信息进行解码,得到语音数据的识别结果。本方案能够实现一种融合多传输信道的一体化鲁棒语音识别方案,可利用双重注意力机制实现对不同信道内在关系的学习,自动决定每种传输信道下所学信息的占比,从而实现对多信道传输到ASR端口的良好识别;很好的解决了现有技术中针对多信道传输的语音识别方案识别性能差的问题。差的问题。差的问题。


技术研发人员:

侯雷静 张世磊 潘昕

受保护的技术使用者:

中国移动通信集团有限公司

技术研发日:

2021.09.18

技术公布日:

2023/3/21

本文发布于:2024-09-23 09:33:35,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/79119.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   信道   数据   注意力
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议