一种基于深度学习的英语口语语音识别方法与流程



1.本发明涉及语音识别技术领域,更具体的说是涉及一种基于深度学习的英语口语语音识别方法。


背景技术:



2.近年来,随着模式识别与人工智能的飞速发展,以及机器学习,尤其是深度学习等技术的深度应用,语音识别技术的研究和应用领域越来越广泛。语音识别技术通过计算机把语音信号转写为相应的文本或命令,其本质是一种模式识别的过程。
3.语音识别领域初期最常用的模型是gmm-hmm,但其建模能力有限,无法完整准确地表征语音特征及结构,随着深度学习的发展,越来越多基于神经网络的语音识别模型出现。通过dnn代替gmm实现观察状态概率的建模,能够提升识别准确率,但dnn-hmm模型较难训练,训练数据中每一帧语音都需要标注,人工标注难度大。此外lstm-rnn因其能捕捉序列数据的前后依赖信息而在声学模型中被广泛采用,但rnn在每一个时刻的计算都需要上一个时刻的输出作为输入,因此只能串行计算,速度很慢,此外,rnn在训练时易受到梯度消失的影响,收敛得更慢,且需要更多的计算资源。
4.当前,将现有的基于神经网络的语音识别模型应用于英语口语考试的语音识别系统时,虽然能够满足英语口语考试的自动语音识别需求,但是现有的基于神经网络的语音识别模型存在的训练过程复杂、数据标注困难、以及占用计算资源大等缺陷,导致了当前的语音识别系统的语音转换流程非常复杂,且在进行考生英语口语考试的语音转写时,语音识别的正确率有待提高。


技术实现要素:



5.针对现有技术中存在的问题,本发明的目的在于提供一种基于深度学习的英语口语语音识别方法,采用基于transformer端到端的语音识别方法,并构建考生英语口语训练数据集,在训练过程中整体优化整个网络模型,保证全局最优,有效提升了识别正确率。
6.本发明为实现上述目的,通过以下技术方案实现:一种基于深度学习的英语口语语音识别方法,包括如下步骤:s1:设计基于transformer的英文语音识别模型;s2:通过训练数据集进行所述英文语音识别模型的模型结构调整和参数调优;s3:利用调整后的英文语音识别模型对实时采集的英语口语音频文件进行语音识别,并生成音频识别文本。
7.进一步,步骤s1包括:构建位置信息嵌入模块、多头自注意力模块、前馈神经网络和交叉注意力模块,并组合为基于transformer的英文语音识别模型。
8.进一步,步骤s2具体包括如下步骤:s21:采集与文本配对的音频和针对英语口语考试的人工标注音频数据 ,并构建
数据集;s22:对数据集进行预处理,并按照预设分配比例将数据集划分为训练集和测试集;s23:对数据集进行对数梅尔谱特征提取,并进行特征归一化将输入特征全局缩放到-1到1之间;s24:为模型训练设置量化器参数和超参数;s25:利用训练集对英文语音识别模型进行模型训练,得到预训练模型,并利用测试集对预训练模型进行微调,得到最终的模型model。
9.进一步,步骤s3具体包括如下步骤:s31:部署训练得到的模型model;s32:采集英语口语音频文件,采用lms自适应滤波器降噪方法对英语口语音频文件的噪声进行抑制,得到预处理后的音频序列x;s33:将预处理后的音频序列x重采样到16000hz,并截取为30秒片段,组成批量音频片段x;s34:对批量音频片段x进行对数梅尔谱特征提取,并对特征进行归一化处理;s35:将批量音频片段x的归一化特征序列f输入到模型model进行预测,得到识别文本的概率分布p;s36:将识别文本的概率分布p进行查表后得到音频识别文本。进一步,步骤s21具体为:采集时长为1.1万小时的与文本配对的音频和时长为0.15万小时的针对英语口语考试的人工标注音频数据,构建为数据集。
10.进一步,步骤s22具体为:对数据集中的所有音频数据进行重采样到16000hz,把重采样后的音频数据分割为时长30秒的片段并利用预设标签进行标识,以完成数据集的预处理;将预处理后的数据集按照8:2的比例划分为训练集和测试集。
11.进一步,步骤s24具体为:为用于模型训练的adam量化器设置量化器参数,并根据公式设置学习率learningrate;其中,d为512,warmup_steps为5000;为前馈神经网络设置6层感知机,将多头自注意力模块head数量设置为6;利用一个多头自注意力模块和一个前馈神经网络组成残差注意力模块;分别采用5个残差注意力模块组建编码器和解码器,并将参数丢弃率设置为0.1。
12.进一步,步骤s25具体为:利用训练集对英文语音识别模型进行300000步迭代,得到预训练模型;使用测试集中的人工标注音频数据对预训练模型进行微调,得到最终的模型model。
13.进一步,步骤s1还包括:
在词向量上通过位置信息嵌入方法形成有时间顺序的特征向量;使用正弦和余弦函数表达位置信息特征,位置信息嵌入公式如下:其中p表示位置,i表示维度,d为512。
14.进一步,步骤s31包括:采用onnx框架部署模型model,并对模型进行加密部署,使其能够在多种设备上运行0;加密部署时,采用的加密算法公式如下:其中,modelencrypt是加密后的模型,model是训练得到的模型model,i表示model中的第i个元素,key为生成的随机字符串,keylength表示key的长度。
15.对比现有技术,本发明有益效果在于:本发明提供了一种基于深度学习的英语口语语音识别方法,首先,构建了一种改进的基于transformer的英文语音识别模型。然后,对所设计的模型在训练集上进行模型结构与参数调优;其中,数据集是由互联网上的文本配对的音频和针对英语口语考试的人工标注音频数据组合而成,互联网音频数据的多样性可以帮助训练模型的健壮性,通过人工标注数据完成对训练的模型进行微调。最后,对所训练的最优模型在实际数据上进行部署应用,从而实现英语口语语音识别。
16.本发明采用改进的基于transformer端到端的语音识别方法,并构建考生英语口语训练数据集,训练过程中整体优化整个网络模型,保证全局最优,有效提升了识别正确率。由于此网络模型采用相对单一的网络结构,能够部署在低延时、高精度的设备上,计算效率高。模型部署后输入语音特征,输出英文单词,简化了语音识别流程。
17.由此可见,本发明与现有技术相比,具有突出的实质性特点和显著的进步,其实施的有益效果也是显而易见的。
附图说明
18.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
19.图1是本发明具体实施方式的方法流程图。
20.图2是本发明具体实施方式的模型结构示意图。
21.图3是本发明具体实施方式的残差注意力模块结构示意图。
具体实施方式
22.下面结合附图对本发明的具体实施方式做出说明。
23.如图1所示的一种基于深度学习的英语口语语音识别方法,包括如下步骤:s1:设计基于transformer的英文语音识别模型。
24.具体来说,构建位置信息嵌入模块、多头自注意力模块、前馈神经网络和交叉注意力模块,并组合为基于transformer的英文语音识别模型。
25.如图2所示,整体模型由位置信息嵌入、多头自注意力模块、前馈神经网络、交叉注意力模块等部分组成,能够解决英语口语考试音频识别的问题,在无需语言建模的情况下,在词向量上通过位置信息嵌入方法形成有时间顺序的特征向量,综合位置信息及注意力机制实现了音频识别整体流程。
26.在构建模型时,考虑到音频序列存在时间信息,因此,在词向量上通过位置信息嵌入方法形成有时间顺序的特征向量,使用正弦和余弦函数表达位置信息特征,位置信息嵌入公式如下:其中,p表示位置,i表示维度,d为512。
27.s2:通过训练数据集进行所述英文语音识别模型的模型结构调整和参数调优。
28.具体来说,本步骤包括以下五步:s21:采集与文本配对的音频和针对英语口语考试的人工标注音频数据 ,并构建数据集。
29.作为示例的,通过采集时长为1.1万小时的与文本配对的音频和时长为0.15万小时的针对英语口语考试的人工标注音频数据,完成数据集的构建。
30.s22:对数据集进行预处理,并按照预设分配比例将数据集划分为训练集和测试集。
31.作为示例的,对数据集中的所有音频数据进行重采样到16000hz,并把音频截取为30秒片段并对应标签。预处理后的数据集按照8:2的比例划分为训练集和测试集。
32.s23:对数据集进行对数梅尔谱特征提取,并进行特征归一化将输入特征全局缩放到-1到1之间。
33.s24:为模型训练设置量化器参数和超参数。
34.需要特别说明的是,在本方法中,模型训练采用adam量化器,将量化器参数设置为β1=0.9,β2=0.95,ε=10-8,并根据公式设置学习率,其中d为512,warmup_steps为5000。
35.设置模型训练超参数,具体如下:前馈神经网络设为6层感知机,多头自注意力模块head数量设为6,由一个多头自注意力模块和一个前馈神经网络组成残差注意力模块,编码器和解码器分别有5个残差注意力模块组成,参数丢弃率设为0.1。
36.其中,如图3所示,残差注意力模块由一个多头自注意力模块和一个前馈神经网络组成,其中多头自注意力模块扩展了模型关注不同位置的能力,每个权重矩阵被用来将输
入向量映射到不同的表示子空间,并将输出矩阵压缩作为前馈神经网络的输入。
37.s25:利用训练集对英文语音识别模型进行模型训练,得到预训练模型,并利用测试集对预训练模型进行微调,得到最终的模型model。
38.作为示例的,在数据集上训练模型,迭代300000步得到预训练模型,并在预训练模型的基础上使用人工标注的数据集进行微调得到最终的模型model。
39.s3:利用调整后的英文语音识别模型对实时采集的英语口语音频文件进行语音识别,并生成音频识别文本。
40.本步骤的目的在于实现模型的部署实施,具体可通过以下六步实现:s301:部署训练得到的模型model。
41.在本步骤中,模型部署采用onnx框架,并对模型进行加密部署,使其能够在多种设备上运行0,采用的加密算法公式如下:其中,modelencrypt是加密后的模型,model是所训练的最终模型,i表示model中的第i个元素,key为生成的随机字符串,keylength表示key的长度。
42.通过对onnx模型部署进行加密,使其能够在多种设备上运行,并保证模型的安全。
43.s302:对英语口语音频文件进行预处理,预处理过程采用lms自适应滤波器降噪方法对音频的噪声进行抑制,得到预处理后的音频序列x。
44.s303:将预处理后的音频序列x重采样到16000hz,并截取为30秒片段,组成批量音频片段x。
45.s304:对批量音频片段x进行对数梅尔谱特征提取,并对特征进行归一化处理。
46.s305: 将批量音频片段x的归一化特征序列f输入到模型model进行预测,得到识别文本的概率分布p。
47.s306:将得到的识别文本的概率分布p进行查表后得到音频识别文本。
48.作为示例的,本发明还提供了一个具体的实施方式对步骤s3的实现过程进行阐述。所用的实验环境为linux系统,系统配置为:inter(r) xeone5-2620 v4 @ 2.10ghz 内存128g和四个内存为48g 的nvidia a40 gpu显卡,模型构建训练过程是在模型正式使用之前,实施过程中不需要模型训练。选取各100条英语口语考试朗读题音频和开放题音频,每条时长为60秒。
49.具体实施步骤如下:s311:部署训练得到的模型model;s312:对各100条英语口语朗读音频和开放题音频文件进行预处理,预处理过程采用lms自适应滤波器降噪方法对音频的噪声进行抑制,得到预处理后的音频序列x;s313:将预处理后的音频序列x重采样到16000hz,并截取为30秒片段,组成批量音频片段x;s314:对得到的批量音频片段x进行对数梅尔谱特征提取,并对特征进行归一化处理;s315: 将批量音频片段x的归一化特征序列f输入到模型model进行预测,得到识别文本的概率分布p;
s316:将得到的识别文本的概率分布p进行查表后得到音频识别文本。
50.利用本发明提供的基于深度学习的英语口语语音识别方法,随机挑选的200名考生的某英语考试口语数据进行测试,并经过人工质检,识别结果如表1所示:表1:200名考生的某英语考试口语数据识别正确率统计表数据类型正确率朗读题0.930开放题0.875通过表1可知,基于本发明提供的基于深度学习的英语口语语音识别方法可有效的克服现有技术存在的缺点。
51.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
52.以上对本发明所提供的基于深度学习的英语口语语音识别方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

技术特征:


1.一种基于深度学习的英语口语语音识别方法,其特征在于,包括如下步骤:s1:设计基于transformer的英文语音识别模型;s2:通过训练数据集进行所述英文语音识别模型的模型结构调整和参数调优;s3:利用调整后的英文语音识别模型对实时采集的英语口语音频文件进行语音识别,并生成音频识别文本。2.根据权利要求1所述的基于深度学习的英语口语语音识别方法,其特征在于,所述步骤s1包括:构建位置信息嵌入模块、多头自注意力模块、前馈神经网络和交叉注意力模块,并组合为基于transformer的英文语音识别模型。3.根据权利要求2所述的基于深度学习的英语口语语音识别方法,其特征在于,所述步骤s2具体包括如下步骤:s21:采集与文本配对的音频和针对英语口语考试的人工标注音频数据 ,并构建数据集;s22:对数据集进行预处理,并按照预设分配比例将数据集划分为训练集和测试集;s23:对数据集进行对数梅尔谱特征提取,并进行特征归一化将输入特征全局缩放到-1到1之间;s24:为模型训练设置量化器参数和超参数;s25:利用训练集对英文语音识别模型进行模型训练,得到预训练模型,并利用测试集对预训练模型进行微调,得到最终的模型model。4.根据权利要求3所述的基于深度学习的英语口语语音识别方法,其特征在于,所述步骤s3具体包括如下步骤:s31:部署训练得到的模型model;s32:采集英语口语音频文件,采用lms自适应滤波器降噪方法对英语口语音频文件的噪声进行抑制,得到预处理后的音频序列x;s33:将预处理后的音频序列x重采样到16000hz,并截取为30秒片段,组成批量音频片段x;s34:对批量音频片段x进行对数梅尔谱特征提取,并对特征进行归一化处理;s35:将批量音频片段x的归一化特征序列f输入到模型model进行预测,得到识别文本的概率分布p;s36:将识别文本的概率分布p进行查表后得到音频识别文本。5.根据权利要求3所述的基于深度学习的英语口语语音识别方法,其特征在于,所述步骤s21具体为:采集时长为1.1万小时的与文本配对的音频和时长为0.15万小时的针对英语口语考试的人工标注音频数据,构建为数据集。6.根据权利要求3所述的基于深度学习的英语口语语音识别方法,其特征在于,所述步骤s22具体为:对数据集中的所有音频数据进行重采样到16000hz,把重采样后的音频数据分割为时长30秒的片段并利用预设标签进行标识,以完成数据集的预处理;将预处理后的数据集按照8:2的比例划分为训练集和测试集。
7.根据权利要求3所述的基于深度学习的英语口语语音识别方法,其特征在于,所述步骤s24具体为:为用于模型训练的adam量化器设置量化器参数,并根据公式设置学习率learningrate;其中,d为512,warmup_steps为5000;为前馈神经网络设置6层感知机,将多头自注意力模块head数量设置为6;利用一个多头自注意力模块和一个前馈神经网络组成残差注意力模块;分别采用5个残差注意力模块组建编码器和解码器,并将参数丢弃率设置为0.1。8.根据权利要求3所述的基于深度学习的英语口语语音识别方法,其特征在于,所述步骤s25具体为:利用训练集对英文语音识别模型进行300000步迭代,得到预训练模型;使用测试集中的人工标注音频数据对预训练模型进行微调,得到最终的模型model。9.根据权利要求2所述的基于深度学习的英语口语语音识别方法,其特征在于,所述步骤s1还包括:在词向量上通过位置信息嵌入方法形成有时间顺序的特征向量;使用正弦和余弦函数表达位置信息特征,位置信息嵌入公式如下:其中p表示位置,i表示维度,d为512。10.根据权利要求4所述的基于深度学习的英语口语语音识别方法,其特征在于,所述步骤s31包括:采用onnx框架部署模型model,并对模型进行加密部署,使其能够在多种设备上运行0;加密部署时,采用的加密算法公式如下:其中,modelencrypt是加密后的模型,model是训练得到的模型model,i表示model中的第i个元素,key为生成的随机字符串,keylength表示key的长度。

技术总结


本发明提出的一种基于深度学习的英语口语语音识别方法,属于语音识别技术领域。方法包括:设计基于Transformer的英文语音识别模型;通过训练数据集进行所述英文语音识别模型的模型结构调整和参数调优;利用调整后的英文语音识别模型对实时采集的英语口语音频文件进行语音识别,并生成音频识别文本。本发明采用基于Transformer端到端的语音识别方法,并构建考生英语口语训练数据集,在训练过程中整体优化整个网络模型,保证全局最优,有效提升了识别正确率。了识别正确率。了识别正确率。


技术研发人员:

马磊 陈义学 夏彬彬 侯庆

受保护的技术使用者:

山东山大鸥玛软件股份有限公司

技术研发日:

2023.03.03

技术公布日:

2023/3/27

本文发布于:2024-09-21 17:40:37,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/82058.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:模型   语音识别   音频   数据
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议