英语口语评测的语音识别及纠错方法、系统、设备及介质与流程



1.本发明涉及语音识别技术领域,特别是涉及一种英语口语评测的语音识别及纠错方法、系统、设备及介质。


背景技术:



2.英语口语评测技术可以对口语进行自动评分、纠音等,在口试测试自动评分、口语练习等方面具有广泛的应用。其中,自动语音识别(automaticspeech recognition,asr)是基于语音特征参数的模式识别,即通过学习,把输入的语音按一定模式进行分类,进而依据判定准则出最佳匹配结果,应用于如车载系统、智能手机和智能家电等场景。
3.在深度学习扩展至语言识别领域之前,基于混合高斯模型-隐马尔科夫模型(gmm-hmm)的语音识别模型一直是语言识别系统的主流方法,此时的语音识别系统通常由特征提取、声学模型和语言模型三部分组成,特征提取将语音信号从时域转化到频域,并为后面的声学模型提取合适的特征;声学模型将声学和发音学相结合,以特征为输入生成声学模型得分;语言模型根据声学模型得分计算对应词序列概率。虽然gmm-hmm模型训练速度快、声学模型较小,但也存在明显的缺点,没有充分利用的上下文信息。而随着卷积神经网络(convolutionalneural networks, cnn)、循环神经网络(recurrentneural network, rnn)和transformer的广泛应用,基于深度学习或深度学习与传统方法混合的声学模型的识别能力已经大幅度超过曾经的gmm-hmm模型。
4.目前,语音识别领域广泛使用的基于深度学习的端到端模型可分为两类:基于ctc(connectionisttemporal classification)的方法和基于attention的方法。基于ctc的方法解决了输入与输出之间的对齐问题,通过计算预测过程中所有可能的对齐方式,实现在不事先对输入序列和输出序列进行对齐的情况下进行训练,基于ctc的方法通常与rnn方法相结合,如rnn、lstm、gru等,但往往只关注局部信息,而忽略了全局信息;基于attention的方法通常采用encoder-decoder架构,其中权重向量中的值越大,表示该部分对输出越重要,通过历史输出和特征编码来学习输入序列和输出序列之间的对齐,解码方式更为灵活,但也忽略了序列中的顺序关系。
5.无论是传统gmm-hmm模型还是基于深度学习的端到端语音识别模型,由于发音、识别算法等问题,在最终的预测结果中不可避免的存在实际中并不存在的单词,由此采用文本纠错解决此问题。文本纠错任务是典型的序列到序列任务,输入是通过输入设备输入、asr或光学文本识别(opticalcharacter recognition,ocr)等得到的文本,输出是一个纠正错误单词后的完整句子。
6.目前的文本纠错主要分为两阶段的方法和端到端的方法。两阶段的方法由判断阶段和纠错阶段两阶段组成,判断阶段通过n-gram或深度学习模型的方法来识别错误的文本,纠错阶段的输入是文本中的错误部分,同样采用深度学习的方法或传统方法来对文本进行纠错;端到端的方法仅包含一个纠错阶段,输入为完整的文本,输出为被纠错后的文本,因为端到端常常会以准确率作为代价来提升速度,因此常常会在输入时加入些特殊处
理来缓解正确率的下降。
7.目前科研领域对英文语音识别方法的研究主要针对安静背景条件下标准英音或美音的朗读文本,语句短,语速适中且发音清晰,而真实场景下的英语口语评测的语音识别与科研场景有较大差距。具体来说,真实场景下的英语口语测评的语音识别面临下面几个问题:受考场环境限制,真实考场中收集的语音数据存在大量背景噪声,对识别造成很大负面影响;受母语以及方言影响,朗读者本身的英文发音存在差异,导致识别难度增加;不同于科研场景下使用的优质公开数据集,真实考场中收集的语音长度通常超过一分钟,存在大量三分钟语音数据,中间更是存在卡顿、沉默等多种复杂情况,所以由于应用场景限制,目前方法精准识别难度较大。


技术实现要素:



8.为了解决上述问题,本发明提出了一种英语口语评测的语音识别及纠错方法、系统、设备及介质,提取梅尔频率倒谱系数作为特征,并通过扭曲和遮蔽的方式进行特征增强,在解码后,通过编辑距离和出现频率,对解码结果进行纠正,从而得到更准确的识别结果。
9.为了实现上述目的,本发明采用如下技术方案:第一方面,本发明提供一种英语口语评测的语音识别及纠错方法,包括:对英语口语语音经时频转换后提取梅尔频率倒谱系数,以构成频谱图;对频谱图通过扭曲和遮蔽的方式进行特征增强,得到特征图;对特征图进行编码;根据编码结果和上一时刻的字符串识别结果进行解码,得到当前时刻的字符串解码结果;对字符串解码结果根据预设词典进行校验,对解码错误的单词根据编辑距离在词典中筛选候选单词,并根据候选单词的出现频率以及其与解码错误的单词的编辑距离确定正确单词,从而得到正确的字符串识别结果。
10.作为可选择的实施方式,对英语口语语音的时域信号通过高通滤波器进行预加重处理,对预加重处理后的时域信号进行分帧加窗处理,采用快速傅里叶变换,将每个窗口内的时域信号转为频域信号;将频域信号通过一组梅尔尺度的三角形滤波器组,然后经离散余弦变换提取梅尔频率倒谱系数。
11.作为可选择的实施方式,所述扭曲为采用时间扭曲的方式,所述遮蔽采用频率遮蔽和时间遮蔽的方式。
12.作为可选择的实施方式,对特征图采用编码器进行编码,所述编码器包括前馈模块、多头自注意力模块和卷积模块,所述前馈模块为两个权重的前馈模块,且两个权重的前馈模块分别连接在多头自注意力模块之前和卷积模块之后,将特征图经前馈模块处理后,采用多头自注意力机制提取注意力特征,然后将多头自注意力模块的输出结果经层归一化和逐点卷积后输入至卷积模块,最后经权重的前馈模块完全编码。
13.作为可选择的实施方式,所述解码过程中添加空元素以对齐字符和音素。
14.作为可选择的实施方式,预先构建词典且同时确定词典中单词的出现频率,根据词典中单词间的编辑距离构建bk树,所述候选单词基于bk树筛选。
15.作为可选择的实施方式,对候选单词的编辑距离和出现频率所对应的得分进行加权后,取总分最高的候选单词作为正确单词。
16.第二方面,本发明提供一种英语口语评测的语音识别及纠错系统,包括:特征提取模块,被配置为对英语口语语音经时频转换后提取梅尔频率倒谱系数,以构成频谱图;特征增强模块,被配置为对频谱图通过扭曲和遮蔽的方式进行特征增强,得到特征图;编码模块,被配置为对特征图进行编码;解码模块,被配置为根据编码结果和上一时刻的字符串识别结果进行解码,得到当前时刻的字符串解码结果;纠错模块,被配置为对字符串解码结果根据预设词典进行校验,对解码错误的单词根据编辑距离在词典中筛选候选单词,并根据候选单词的出现频率以及其与解码错误的单词的编辑距离确定正确单词,从而得到正确的字符串识别结果。
17.第三方面,本发明提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述的方法。
18.第四方面,本发明提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
19.与现有技术相比,本发明的有益效果为:本发明提出一种英语口语评测的语音识别及纠错方法、系统、设备及介质,通过对频谱图进行时间扭曲、频率遮蔽和时间遮蔽的特征增强组合处理方式,通过扩大频谱图数量,使得模型更好的学习语音特征。
20.本发明提出一种英语口语评测的语音识别及纠错方法、系统、设备及介质,设计了使用cnn改进的transformer架构的编码器,transformer能够捕获长序列的依赖和基于内容的全局交互信息,cnn则能够有效利用局部特征,从而实现对音频序列进行局部依赖建模和全局依赖建模;在在解码阶段使用多头自注意力机制增强对局部信息的关注;通过扩展标签集合,添加空元素的方式解决输入序列和输出序列之间不对齐的问题。
21.传统基于bk树的纠错聚焦于编辑距离最短的若干候选单词,然而候选单词中常常出现生僻单词,生僻单词往往不是所需要的,因此本发明在构建词典和bk树的过程中加入了出现频率的统计,综合考虑编辑距离和出现频率来确定最终的识别结果,识别更准确。
22.本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
23.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
24.图1为本发明实施例1提供的英语口语评测的语音识别及纠错方法流程图;
图2为本发明实施例1提供的 bk树示意图。
具体实施方式
25.下面结合附图与实施例对本发明做进一步说明。
26.应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
27.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
28.在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
29.实施例1本实施例提供一种英语口语评测的语音识别及纠错方法,如图1所示,包括:对英语口语语音经时频转换后提取梅尔频率倒谱系数,以构成频谱图;对频谱图通过扭曲和遮蔽的方式进行特征增强,得到特征图;对特征图进行编码;根据编码结果和上一时刻的字符串识别结果进行解码,得到当前时刻的字符串解码结果;对字符串解码结果根据预设词典进行校验,对解码错误的单词根据编辑距离在词典中筛选候选单词,并根据候选单词的出现频率以及其与解码错误的单词的编辑距离确定正确单词,从而得到正确的字符串识别结果。
30.梅尔频率是基于人耳听觉特性提出来的,它与赫兹频率成非线性对应关系,梅尔频率倒谱系数(mel-frequencycepstral coefficients,mfcc)则是利用它们之间的这种关系计算得到的赫兹频谱特征,使频谱和人类非线性的听觉系统更为接近,主要用于语音数据特征提取和降低运算维度。mfcc特征提取流程主要包括将获取的英语口语语音从时域转到频域后获取梅尔频率倒谱系数作为特征,具体包括如下步骤:(1)对给定的英语口语语音的某一时间点t的时域信号进行预加重处理得到处理后的时域信号,预加重处理是将英语口语语音的时域信号通过高通滤波器,目的是提升高频部分,时域信号的频谱变得平坦,保持在低频到高频的整个频带中,用同样的信噪比求频谱;如式(1)所示:(1)(2)为减少英语口语语音的时域信号整体的非稳态、时变的影响,对预加重处理后的时域信号进行分帧处理,帧长通常取25ms;为了保证帧与帧之间平滑过渡,保持其连续性,分帧一般采用交叠分段的方法,保
证相邻两帧相互重叠一部分,相邻两帧的起始位置的时间差称为帧移,帧移一般取10ms。
31.分帧后的时域信号是非周期的,进行傅里叶变换之后会存在频率泄露的问题,所以为了最大程度减少泄露误差,本实施例采用加窗函数,以使时域信号更好地满足傅里叶变换的周期性要求。
32.在本实施例中,选择汉明窗作为加窗函数,使分帧后的时域信号在窗边界的值近似为0,从而使得分帧后的时域信号趋近于周期信号,该加窗函数为:(2)(3)采用快速傅里叶变换(fast fourier transform,fft),将每个窗口内的数据从时域信号转为频域信号,如式(3)所示:(3)其中,是傅里叶变换的点数,是自然底数。
33.(4)将频域信号通过一组mel尺度的三角形滤波器组,目的是对频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰,然后经过离散余弦变换dct得到mfcc,从而构成频谱图。
34.和其他自然语言处理(natural language processing,nlp)问题一样,asr面临的核心挑战之一是缺少足够的训练数据,导致的后果就是训练得到的模型要么很容易过拟合,要么很难去处理那些模型在训练集中从来没有见过的数据。解决这个问题常用的方法就是数据增强,语音识别领域常用的数据增强方法主要是从增加噪声、改变音调和时间拉伸三方面来进行原始音频处理,由于实际应用场景数据集的限制,增加噪声的方法并不适用,而改变音调和时间拉伸仅是对音频数据做小幅度变化,对频谱图数量并没有改变,也就是没有改变缺少足够的训练数据这个事实。
35.不同于传统方法在音频数据上的处理,本实施例以频谱图作为数据增强的基准,使用时间扭曲、频率遮蔽和时间遮蔽三种基本方法的组合直接在频谱图上进行操作从而达到数据增强的目的。
36.其中,时间扭曲是序列在时间方向上的变形,在某一时间点t时刻和时域调整参数w,选择时间区间或根据扭曲因子进行图像扭曲操作,其中扭曲因子从事先设置的均匀分布中选择;频率掩蔽,使得f个连续的mel频率通道被掩蔽,其中频率掩蔽参数f从的均匀分布中选择,从中选择,是mel频率通道的数量;时间遮蔽将时间步遮掩,时间掩蔽参数t从的均匀分布中选择,从中选择,是该段音频序列时间长度。
37.通过时间扭曲、频率遮蔽和时间遮蔽三种操作的组合,设置时域调整参数w为80,频域遮蔽参数f为27,时域遮蔽参数t为100。
38.在本实施例中,对得到的特征图采用编码器进行编码,所述编码器基于cnn和transformer模块构建,transformer模块能够捕获长序列的依赖和基于内容的全局交互信息,cnn能够有效利用局部特征,从而实现局部依赖建模和全局依赖建模。
39.使用cnn对transformer的编码器进行改进,得到改进后的conformer编码器,conformer编码器包括前馈模块、多头自注意力模块和卷积模块;其中,使用两个权重的前馈模块,且分别连接在多头自注意力模块之前和卷积模块之后,构成“三明治”结构,对输入的特征图经半步前馈模块(即权重的前馈模块)、多头自注意力模块、卷积模块、半步前馈模块后得到编码结果。
40.前馈(feed-forward)模块由两个线性变换和一个非线性激活函数swish组成,使用pre-norm残差单元进行连接,其中swish激活函数具备无上界有下界、平滑、非单调的特性,性能总体上由于relu激活函数,将经特征增强后的特征图x输入编码器后,首先使用前馈模块进行处理,前馈模块的输出结果计算方式如式(4)所示:(4)其中,,也就是sigmoid激活函数。
41.多头自注意力(multi-headed self-attentionx,mhsa)模块使用的是transformer-xl中的相对位置编码,对不同输入长度的语音更通用、更具有鲁棒性。对输入的对应的向量计算attention的过程为:首先计算的:(5)其中,分别代表的是查询向量、键值和权重,且都为维;然后利用缩放点积attention的方式计算attention:(6)最后将多个头计算得到的attention连起来,如式(7)所示:(7)在卷积模块(convolution module)之前先增加一个由逐点卷积和线性门控单元(gatedlinear unit,glu)组成的门控机制,其后接一个一维的深度分离卷积,然后增加一
个batchnorm来帮助训练更深的模型,其中使用两次激活函数,第一个是sigmoid激活函数,第二个是swish激活函数。
42.glu是卷积神经网络中的一种门控机制,与循环神经网络的门控循环单元(gru)不同的是更加容易进行梯度传播,不易造成梯度消失或梯度爆炸,而且在计算时间上也大幅度减少,此时的输入为多头自注意模块的输出结果经过层归一化和逐点卷积后的结果,为方便书写记为,glu的每一层由两个参数不同的卷积模块和门机制构成,两个卷积模块的输出经过运算作为门机制的输入,如式(8)所示:(8)其中,代表第层,是卷积模块需要学习的参数,表示sigmoid激活函数,为哈达玛积运算,也就是对应元素相乘。
43.在进行解码时需要考虑输入序列和输出序列间的对齐问题,对齐过程本身需要进行反复多次的迭代来保证对齐的准确性,由此本实施例构建基于ctc和attention的解码器,不需要对数据做对齐即可直接输出预测结果。
44.对于给定的编码结果和输出的序列标签,把编码结果x映射为,与其对应的序列标签映射为,将字符和音素对齐的操作就相当于在编码结果和序列标签之间建立一个准确的映射。ctc对于给定的,基于所有可能是准确映射的给出输出分布,在分布中最大化正确输出的概率,即计算:。
45.ctc在解决对齐问题时,扩展标签集合,添加空元素,空元素只表示一个占位,不对应任何字符,最后再移除重复的字符并移除空元素即可;例如,路径、都会被最终映射为序列。
46.对于给定的输入序列,中间结果对应路径,最终输出序列,则对的后验概率表示为:(9)假设不同时刻输出变量之间相互独立,则路径对的后验概率表示为:(10)其中,表示路径在时刻对应的输出字符,表示在时刻选取字符为;因此,综合式(9)-(10)得:
(11)可以理解的,语音是有时序关系的,在解码时需要使用到上一时刻的语音的识别结果。
47.由于发音、识别算法等问题,在最终的预测结果中不可避免的会存在各种小问题,例如单词拼写错误、同音词错误等情况,所以本实施例对解码结果根据编辑距离和出现频率进行纠错,从而得到更加准确的识别结果。
48.根据考试级别或常用单词等公知知识构建词典,且一同确定词典中单词的出现频率,根据词典中的单词构建bk树(burkhard kellertree),bk树基于编辑距离构建,编辑距离衡量的是两个字符串之间的相似度,也就是字符串转成字符串所需的最少编辑操作次数,如式(12)所示:(12)其中,分别代表字符串的下标,下标从1开始。
49.bk树是一种数据结构,核心思想是用表示字符串到字符串的编辑距离,其中需要的主要是:当且仅当;;;以{game, same,fame, gain, gate, gay, aim, frame}为例构建bk树,如图2所示,构建过程为:a)选择一个字符串作为根结点,例如game;b)继续选择下一个字符串same,计算他们之间的编辑距离为1,将same结点作为game根结点的分支结点;c)继续选择下一个字符串fame,仍从根结点game开始遍历,计算fame和game之间的编辑距离为1,此时编辑距离为1的分支same已存在,继续计算fame和same之间的编辑距离也为1,则fame称为same的新分支;d)依次选择余下的词语,按照步骤b和步骤c不断扩展,最终构造出bk树。
50.如图2所示,根结点game分支1下的所有子孙结点与它的编辑距离都为1,分支2下的所有子孙结点与它的编辑距离都为2,这个性质使得bk树在查询时可以减少计算量,并且可以将高频词放在bk树的顶部。
51.将字符串解码结果在词典中进行查比对,若词典中不存在字符串解码结果,则该字符串解码结果出现错误;然后,根据编辑距离,在bk树中筛选与字符串解码结果的编辑距离小于设定阈值的候选单词,以实现候选召回;例如当识别到game存在错误时,可以查bk树中所有与game编辑距离为1的单词,即same、fame和gate,从而实现候选召回。
52.由于传统基于bk树的纠错聚焦于编辑距离最短的若干候选单词,然而候选单词中常常出现生僻单词,这并不是所需要的,因此本实施例还引入出现频率;确定候选单词后,根据候选单词的出现频率以及其与字符串解码结果的编辑距离进行纠错,即编辑距离越小,得分越高,出现频率越高,得分越高,最终两者加权取总分最高的候选单词作为最终的识别结果。
53.实施例2本实施例提供一种英语口语评测的语音识别及纠错系统,包括:特征提取模块,被配置为对英语口语语音经时频转换后提取梅尔频率倒谱系数,以构成频谱图;特征增强模块,被配置为对频谱图通过扭曲和遮蔽的方式进行特征增强,得到特征图;编码模块,被配置为对特征图进行编码;解码模块,被配置为根据编码结果和上一时刻的字符串识别结果进行解码,得到当前时刻的字符串解码结果;纠错模块,被配置为对字符串解码结果根据预设词典进行校验,对解码错误的单词根据编辑距离在词典中筛选候选单词,并根据候选单词的出现频率以及其与解码错误的单词的编辑距离确定正确单词,从而得到正确的字符串识别结果。
54.此处需要说明的是,上述模块对应于实施例1中所述的步骤,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
55.在更多实施例中,还提供:一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例1中所述的方法。为了简洁,在此不再赘述。
56.应理解,本实施例中,处理器可以是中央处理单元cpu,处理器还可以是其他通用处理器、数字信号处理器dsp、专用集成电路asic,现成可编程门阵列fpga或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
57.存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
58.一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例1中所述的方法。
59.实施例1中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
60.本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是
软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
61.上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

技术特征:


1.英语口语评测的语音识别及纠错方法,其特征在于,包括:对英语口语语音经时频转换后提取梅尔频率倒谱系数,以构成频谱图;对频谱图通过扭曲和遮蔽的方式进行特征增强,得到特征图;对特征图进行编码;根据编码结果和上一时刻的字符串识别结果进行解码,得到当前时刻的字符串解码结果;对字符串解码结果根据预设词典进行校验,对解码错误的单词根据编辑距离在词典中筛选候选单词,并根据候选单词的出现频率以及其与解码错误的单词的编辑距离确定正确单词,从而得到正确的字符串识别结果。2.如权利要求1所述的英语口语评测的语音识别及纠错方法,其特征在于,对英语口语语音的时域信号通过高通滤波器进行预加重处理,对预加重处理后的时域信号进行分帧加窗处理,采用快速傅里叶变换,将每个窗口内的时域信号转为频域信号;将频域信号通过一组梅尔尺度的三角形滤波器组,然后经离散余弦变换提取梅尔频率倒谱系数。3.如权利要求1所述的英语口语评测的语音识别及纠错方法,其特征在于,所述扭曲为采用时间扭曲的方式,所述遮蔽采用频率遮蔽和时间遮蔽的方式。4.如权利要求1所述的英语口语评测的语音识别及纠错方法,其特征在于,对特征图采用编码器进行编码,所述编码器包括前馈模块、多头自注意力模块和卷积模块,所述前馈模块为两个权重的前馈模块,且两个权重的前馈模块分别连接在多头自注意力模块之前和卷积模块之后,将特征图经前馈模块处理后,采用多头自注意力机制提取注意力特征,然后将多头自注意力模块的输出结果经层归一化和逐点卷积后输入至卷积模块,最后经权重的前馈模块完全编码。5.如权利要求1所述的英语口语评测的语音识别及纠错方法,其特征在于,所述解码过程中添加空元素以对齐字符和音素。6.如权利要求1所述的英语口语评测的语音识别及纠错方法,其特征在于,预先构建词典且同时确定词典中单词的出现频率,根据词典中单词间的编辑距离构建bk树,所述候选单词基于bk树筛选。7.如权利要求1所述的英语口语评测的语音识别及纠错方法,其特征在于,对候选单词的编辑距离和出现频率所对应的得分进行加权后,取总分最高的候选单词作为正确单词。8.英语口语评测的语音识别及纠错系统,其特征在于,包括:特征提取模块,被配置为对英语口语语音经时频转换后提取梅尔频率倒谱系数,以构成频谱图;特征增强模块,被配置为对频谱图通过扭曲和遮蔽的方式进行特征增强,得到特征图;编码模块,被配置为对特征图进行编码;解码模块,被配置为根据编码结果和上一时刻的字符串识别结果进行解码,得到当前时刻的字符串解码结果;纠错模块,被配置为对字符串解码结果根据预设词典进行校验,对解码错误的单词根
据编辑距离在词典中筛选候选单词,并根据候选单词的出现频率以及其与解码错误的单词的编辑距离确定正确单词,从而得到正确的字符串识别结果。9.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-7任一项所述的方法。10.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-7任一项所述的方法。

技术总结


本发明公开一种英语口语评测的语音识别及纠错方法、系统、设备及介质,涉及语音识别技术领域,包括:对英语口语语音提取梅尔频率倒谱系数且经特征增强后,得到特征图;对特征图进行编码;根据编码结果和上一时刻的字符串识别结果进行解码,得到当前时刻的字符串解码结果;对字符串解码结果根据预设词典进行校验,对解码错误的单词根据编辑距离在词典中筛选候选单词,并根据候选单词的出现频率以及其与解码错误的单词的编辑距离确定正确单词,从而得到正确的字符串识别结果,提高识别结果的准确性。确性。确性。


技术研发人员:

许信顺 辛洁 马磊 陈义学

受保护的技术使用者:

山东山大鸥玛软件股份有限公司

技术研发日:

2023.02.21

技术公布日:

2023/3/27

本文发布于:2024-09-22 04:36:33,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/82463.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:单词   模块   特征   字符串
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议