一种智能语音识别系统



1.本发明涉及智能语音领域,具体为一种智能语音识别系统。


背景技术:



2.智能语音,即智能语音技术,是实现人机语言的通信,包括》语音识别技术(asr)和语音合成技术(tts)。智能语音技术的研究是以语音识别技术为开端,可以追溯到20世纪50年代。随着信息技术的发展,智能语音技术已经成为人们信息获取和沟通最便捷、最有效的手段,但是,现有的自动语音识别技术应用在包含专业词汇的语音识别中存在一定的问题,由于专业词汇的特殊性及应用专业词汇的人员的特定性,具有相应专业领域知识的人员可能辨识某些词汇的含义,因此,通过普通的自动语音识别技术可能存在识别专业词汇不准确的情况,或者针对专业词汇的识别效率低的情况,为此我们提出了一种智能语音识别系统。


技术实现要素:



3.(一)解决的技术问题
4.针对现有技术的不足,本发明提供了一种智能语音识别系统,解决了上述的问题。
5.(二)技术方案
6.为实现上述所述目的,本发明提供如下技术方案:一种智能语音识别系统,包括语音采集模块、特征提取模块、数据处理模块、信息识别模块和提示对话模块,所述语音采集模块的数据输出端连接特征提取模块的数据输入端,所述特征提取模块的数据输出端连接数据处理模块的数据输入端,所述数据处理模块的数据输出端连接信息识别模块的数据输入端,所述信息识别模块的数据输出端连接提示对话模块的数据输入端。
7.优选的,所述语音采集模块采用麦克风,能够将采集客户语音数据信息,并将采集到的音频信号转换为电信号作为传输介质。
8.优选的,所述信息特征提取模块是根据语音数据信号的强弱等级,将语音数据信号分为若干字段,每个字段提取关键字。
9.优选的,所述特征提取模块包括加汉明窗模块、fft模块和提取模块;所述语音采集模块获取用户的语音,并将转换的音频信号传输至所述特征提取模块;在所述特征提取模块中,所述加汉明窗模块对所述音频信号进行加汉明窗处理,然后所述fft模块对加窗之后的音频信号进行快速傅氏变换转换成频域信号,再由所述提取模块对频域信号进行处理转换成频域波形图并从该频域波形图中提取特征点。
10.优选的,所述数据处理模块用于接收语音特征提取后信息并进行处理,得到识别信息,具体的步骤包括:
11.s51:接收位置信息和语音分析信息,获取语音信息中的正偏排序集和语音信息中的发接排序;
12.s52:利用公式获取语音的关联值,该公式为:
13.其中q
ql
表示为语音的关联值,η表示为预设的关联修正因子,b1、b2表示为不同的比例系数,zpk表示为正偏排序集,fjk表示为发接排序集,zpk0表示为正偏排序集的均值,fjk0表示为发接排序集的均值,k=1,2,3;
14.s53:将关联值与预设的标准关联范围进行匹配,若关联值属于标准关联范围,则判定该关联值为有效关联,并将该关联值对应的语音标记为有效语音,若关联值不属于标关联范围,则判定该关联值为无效关联,并将该关联值对应的语音标记为无效语音;
15.s54:获取有效语音对应的语音强度数据、语音振幅数据、语音内容数据以及语音坐标并进行组合,得到识别信息。
16.优选的,所述信息识别模块用于接收待识别的语音信号,对待识别的语音信号进行预处理,获得语音输入信号,将语音输入信号进行时域到频域的转换,提取语音特征参数,对语音特征参数进行随机取样,获得若干个样本特征参数,将样本特征参数输入至声学模型和语言模型,经过解码搜索获取识别结果,将识别结果输入至词汇分类模板,将识别结果中的词汇于所述词汇分类模板中的专业词汇进行比对,获得识别结果中的词汇中专业词汇的占比,判断占比是否超出预设值,若是,将语音特征参数输入至专业词汇声学模型和专业词汇语言模型,经过输出层的搜索对综合信息进行解码,输出对应的文本,专业词汇声学模型和专业词汇语言模型中对专业词汇的权重进行了重新匹配,提高获得专业词汇的概率,若否,将语音特征参数输入至声学模型和语言模型,经过解码搜索获取识别结果,并输出对应的文本。
17.优选的,所述词汇分类模板构建方法包括:
18.s71:获取大量分属于不同行业的专业词汇;
19.s72;将所述专业词汇采用卷积神经网络按照专业词汇所属的行业进行分类训练;
20.s73:获得分类结果,并将所述分类结果存储于分类数据库中,构成词汇分类模板
21.优选的,所述提示对话模块用于根据识别结果进行语音提示和对话,然后获取识别结果中的匹配文本以及匹配文本对应的文本回复,通过麦克风对有效坐标进行语音播放文本回复,并根据有效振幅和有效强度获取有效坐标发出的语音信息并进行识别和回复,直至与有效坐标之间的交流结束。
22.(三)有益效果
23.与现有技术相比,本发明提供了一种智能语音识别系统,具备以下有益效果:
24.1、该智能语音识别系统,通过数据传输将语音信息发送至数据处理模块;通过对语音强度、语音振幅、语音内容和语音持续时间进行综合分析,对语音的筛选和分析提供数据支撑,可以有效提高待识别语音筛选的准确性。
25.2、该智能语音识别系统,通过信息识别模块对数据处理模块中分析出的信息,可以提高对专业词汇识别的精确度和准确率,特别是增强专业领域中视频会议记录的准确性、精准性,特别是专业性,提高企业在相关专业领域的专业性,更重要的是减少因为对专业词汇的自动识别语音识别造成的专业误解,防止因为语音识别造成误解进而造成重大损失。同时,由于以词汇分类模板做基础,提高专业词汇的搜索速率,进而提高了针对专业词汇的自动语音的识别效率。
附图说明
26.图1为本发明结构示意图;
27.图2为本发明特征提取模块结构示意图;
具体实施方式
28.请参阅图1-2,一种智能语音识别系统,包括语音采集模块、特征提取模块、数据处理模块、信息识别模块和提示对话模块,语音采集模块的数据输出端连接特征提取模块的数据输入端,特征提取模块的数据输出端连接数据处理模块的数据输入端,数据处理模块的数据输出端连接信息识别模块的数据输入端,信息识别模块的数据输出端连接提示对话模块的数据输入端。
29.语音采集模块采用麦克风,能够将采集客户语音数据信息,并将采集到的音频信号转换为电信号作为传输介质。
30.信息特征提取模块是根据语音数据信号的强弱等级,将语音数据信号分为若干字段,每个字段提取关键字。
31.特征提取模块包括加汉明窗模块、fft模块和提取模块;语音采集模块获取用户的语音,并将转换的音频信号传输至所述特征提取模块;在特征提取模块中,加汉明窗模块对音频信号进行加汉明窗处理,然后fft模块对加窗之后的音频信号进行快速傅氏变换转换成频域信号,再由提取模块对频域信号进行处理转换成频域波形图并从该频域波形图中提取特征点。
32.fft,即为快速傅氏变换,是离散傅氏变换的快速算法,它是根据离散傅氏变换的奇、偶、虚、实等特性,对离散傅立叶变换的算法进行改进获得的。它对傅氏变换的理论并没有新的发现,但是对于在计算机系统或者说数字系统中应用离散傅立叶变换,可以说是进了一大步。
33.设x(n)为n项的复数序列,由dft变换,任一x(m)的计算都需要n次复数乘法和n-1次复数加法,而一次复数乘法等于四次实数乘法和两次实数加法,一次复数加法等于两次实数加法,即使把一次复数乘法和一次复数加法定义成一次“运算”(四次实数乘法和四次实数加法),那么求出n项复数序列的x(m),即n点dft变换大约就需要n2次运算。当n=1024点甚至更多的时候,需要n2=1048576次运算,在fft中,利用wn的周期性和对称性,把一个n项序列(设n=2k,k为正整数),分为两个n/2项的子序列,每个n/2点dft变换需要(n/2)2次运算,再用n次运算把两个n/2点的dft变换组合成一个n点的dft变换。这样变换以后,总的运算次数就变成n 2(n/2)2=n n2/2。继续上面的例子,n=1024时,总的运算次数就变成了525312次,节省了大约50%的运算量。而如果我们将这种“一分为二”的思想不断进行下去,直到分成两两一组的dft运算单元,那么n点的dft变换就只需要nlog2n次的运算,n在1024点时,运算量仅有10240次,是先前的直接算法的1%,点数越多,运算量的节约就越大,这就是fft的优越性。
34.汉明窗是语音信号进行加窗分帧的一种方法,语音信号是一种非平稳的时变信号,其产生过程与发声器官的运动紧密相关。而发声器官的状态变化速度较声音振动的速度要缓慢的多,因此语音信号可以认为是短时平稳的。研究发现,在10~30ms的范围内,语音频谱特征和一些物理特征参数基本保持不变。因此可以将平稳过程的处理方法和理论引
入到语音信号的短时处理中,将语音信号划分为很多短时的语音段,每个短时的语音段称为一个分析帧。这样,对一帧语音信号进行处理就相当于对特征固定的持续信号进行处理。帧既可以是连续的,也可以采用交叠分帧,一般帧长取10~30ms。
35.一般每秒的帧数约为33~100帧,视实际情况而定。分帧虽然可以采用连续分段的方法,但一般要采用交叠分段的方法,这是为了使帧与帧之间平滑过度,保持其连续性。前一帧和后一帧的交叠部分称为帧移。帧移与帧长的比值一般取为0~1/2。分帧是用可移动的有限长度窗口进行加权的方法来实现的,就是用一定的窗函数w(n)来乘s(n)。
36.数据处理模块用于接收语音特征提取后信息并进行处理,得到识别信息,通过对语音强度、语音振幅、语音内容和语音持续时间进行综合分析,对语音的筛选和分析提供数据支撑,可以有效提高待识别语音筛选的准确性,具体的步骤包括:
37.s51:接收位置信息和语音分析信息,获取语音信息中的正偏排序集和语音信息中的发接排序;
38.s52:利用公式获取语音的关联值,该公式为:
39.其中q
ql
表示为语音的关联值,η表示为预设的关联修正因子,b1、b2表示为不同的比例系数,zpk表示为正偏排序集,fjk表示为发接排序集,zpk0表示为正偏排序集的均值,fjk0表示为发接排序集的均值,k=1,2,3;
40.s53:将关联值与预设的标准关联范围进行匹配,若关联值属于标准关联范围,则判定该关联值为有效关联,并将该关联值对应的语音标记为有效语音,若关联值不属于标关联范围,则判定该关联值为无效关联,并将该关联值对应的语音标记为无效语音;
41.s54:获取有效语音对应的语音强度数据、语音振幅数据、语音内容数据以及语音坐标并进行组合,得到识别信息。
42.信息识别模块用于接收待识别的语音信号,对待识别的语音信号进行预处理,获得语音输入信号,将语音输入信号进行时域到频域的转换,提取语音特征参数,对语音特征参数进行随机取样,获得若干个样本特征参数,将样本特征参数输入至声学模型和语言模型,经过解码搜索获取识别结果,将识别结果输入至词汇分类模板,将识别结果中的词汇于所述词汇分类模板中的专业词汇进行比对,获得识别结果中的词汇中专业词汇的占比,判断占比是否超出预设值;
43.若判断结果为是,将语音特征参数输入至专业词汇声学模型和专业词汇语言模型,经过输出层的搜索对综合信息进行解码,输出对应的文本,专业词汇声学模型和专业词汇语言模型中对专业词汇的权重进行了重新匹配,提高获得专业词汇的概率;
44.若判断结果为否,将语音特征参数输入至声学模型和语言模型,经过解码搜索获取识别结果,并输出对应的文本。
45.信息识别模块的工作原理是通过对待识别语音信号提取的语音特征参数进行随机取样,并对采样的参数基于声学模型和语言模型获取识别结果,再次对识别结果基于词汇分类模板判断是否属于涉及专业词汇的语音识别,若是,则说明待识别的语音信号是与专业方面相关的语音,而对此类的语音的识别需要相对专业的词汇库提供基础支持。因此,将语音特征参数输入至专业词汇声学模型和专业词汇语言模型,经过输出层的搜索对综合信息进行解码,输出对应的文本;专业词汇声学模型和专业词汇语言模型中对专业词汇的
权重进行了重新匹配,提高获得专业词汇的概率。而对于判断不属于专业词汇的语音识别时,则进行普通的自动语音识别技术,即将所语音特征参数输入至声学模型和语言模型,经过解码搜索获取识别结果,并输出对应的文本。
46.需要说明的是,将语音输入信号进行时域到频域的转换,提取语音特征参数,可采用的方式包括梅尔频率倒谱的方式提取语音特征,通过梅尔频率倒谱获得声谱,然后将声谱通过滤波器进行滤波处理。
47.另外,语音特征的提取还可以采用深度卷积神经网络的原理进行语音特征的提取,获得语音特征参数
48.词汇分类模板构建方法包括:
49.s71:获取大量分属于不同行业的专业词汇;
50.s72;将所述专业词汇采用卷积神经网络按照专业词汇所属的行业进行分类训练;
51.s73:获得分类结果,并将所述分类结果存储于分类数据库中,构成词汇分类模板
52.提示对话模块用于根据识别结果进行语音提示和对话,然后获取识别结果中的匹配文本以及匹配文本对应的文本回复,通过麦克风对有效坐标进行语音播放文本回复,并根据有效振幅和有效强度获取有效坐标发出的语音信息并进行识别和回复,直至与有效坐标之间的交流结束。

技术特征:


1.一种智能语音识别系统,包括语音采集模块、特征提取模块、数据处理模块、信息识别模块和提示对话模块,所述语音采集模块的数据输出端连接特征提取模块的数据输入端,所述特征提取模块的数据输出端连接数据处理模块的数据输入端,所述数据处理模块的数据输出端连接信息识别模块的数据输入端,所述信息识别模块的数据输出端连接提示对话模块的数据输入端。2.根据权利要求1所述的一种智能语音识别系统,其特征在于:所述语音采集模块采用麦克风,能够将采集客户语音数据信息,并将采集到的音频信号转换为电信号作为传输介质。3.根据权利要求1所述的一种智能语音识别系统,其特征在于:所述信息特征提取模块是根据语音数据信号的强弱等级,将语音数据信号分为若干字段,每个字段提取关键字。4.根据权利要求3所述的一种智能语音识别系统,其特征在于:所述特征提取模块包括加汉明窗模块、fft模块和提取模块;所述语音采集模块获取用户的语音,并将转换的音频信号传输至所述特征提取模块;在所述特征提取模块中,所述加汉明窗模块对所述音频信号进行加汉明窗处理,然后所述fft模块对加窗之后的音频信号进行快速傅氏变换转换成频域信号,再由所述提取模块对频域信号进行处理转换成频域波形图并从该频域波形图中提取特征点。5.根据权利要求1所述的一种智能语音识别系统,其特征在于:所述数据处理模块用于接收语音特征提取后信息并进行处理,得到识别信息,具体的步骤包括:s51:接收位置信息和语音分析信息,获取语音信息中的正偏排序集和语音信息中的发接排序;s52:利用公式获取语音的关联值,该公式为:其中q
ql
表示为语音的关联值,η表示为预设的关联修正因子,b1、b2表示为不同的比例系数,zpk表示为正偏排序集,fjk表示为发接排序集,zpk0表示为正偏排序集的均值,fjk0表示为发接排序集的均值,k=1,2,3;s53:将关联值与预设的标准关联范围进行匹配,若关联值属于标准关联范围,则判定该关联值为有效关联,并将该关联值对应的语音标记为有效语音,若关联值不属于标关联范围,则判定该关联值为无效关联,并将该关联值对应的语音标记为无效语音;s54:获取有效语音对应的语音强度数据、语音振幅数据、语音内容数据以及语音坐标并进行组合,得到识别信息。6.根据权利要求1所述的一种智能语音识别系统,其特征在于:所述信息识别模块用于接收待识别的语音信号,对待识别的语音信号进行预处理,获得语音输入信号,将语音输入信号进行时域到频域的转换,提取语音特征参数,对语音特征参数进行随机取样,获得若干个样本特征参数,将样本特征参数输入至声学模型和语言模型,经过解码搜索获取识别结果,将识别结果输入至词汇分类模板,将识别结果中的词汇于所述词汇分类模板中的专业词汇进行比对,获得识别结果中的词汇中专业词汇的占比,判断占比是否超出预设值,若是,将语音特征参数输入至专业词汇声学模型和专业词汇语言模型,经过输出层的搜索对综合信息进行解码,输出对应的文本,专业词汇声学模型和专业词汇语言模型中对专业词汇的权重进行了重新匹配,提高获得专业词汇的概率,若否,将语音特征参数输入至声学模
型和语言模型,经过解码搜索获取识别结果,并输出对应的文本。7.根据权利要求6所述的一种智能语音识别系统,其特征在于:所述词汇分类模板构建方法包括:s71:获取大量分属于不同行业的专业词汇;s72;将所述专业词汇采用卷积神经网络按照专业词汇所属的行业进行分类训练;s73:获得分类结果,并将所述分类结果存储于分类数据库中,构成词汇分类模板。8.根据权利要求1所述的一种智能语音识别系统,其特征在于:所述提示对话模块用于根据识别结果进行语音提示和对话,然后获取识别结果中的匹配文本以及匹配文本对应的文本回复,通过麦克风对有效坐标进行语音播放文本回复,并根据有效振幅和有效强度获取有效坐标发出的语音信息并进行识别和回复,直至与有效坐标之间的交流结束。

技术总结


本发明涉及智能语音领域,且公开了一种智能语音识别系统,包括语音采集模块、特征提取模块、数据处理模块、信息识别模块和提示对话模块,所述语音采集模块的数据输出端连接特征提取模块的数据输入端,所述特征提取模块的数据输出端连接数据处理模块的数据输入端,所述数据处理模块的数据输出端连接信息识别模块的数据输入端,所述信息识别模块的数据输出端连接提示对话模块的数据输入端,该系统可以提高对专业词汇识别的精确度和准确率,特别是增强专业领域中视频会议记录的准确性、精准性,且以词汇分类模板做基础,提高专业词汇的搜索速率,进而提高了针对专业词汇的自动语音的识别效率。别效率。别效率。


技术研发人员:

柯芳 黄朝兵

受保护的技术使用者:

武汉理工大学

技术研发日:

2022.06.15

技术公布日:

2022/10/13

本文发布于:2024-09-22 17:29:32,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/26546.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语音   模块   词汇   所述
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议