一种提高专业领域语音识别率的方法



1.本发明涉及语音识别的技术领域,尤其是指一种提高专业领域语音识别率的方法。


背景技术:



2.在专业领域或特定行业的语音对话中,例如铁路、民航、银行、电力等部门,通常涉及大量的专业术语以及各个地方部门特有的地名、线路、站名、特定编号的设备名乃至人名,由于语言中大量同音词的存在,目前的语音识别技术往往把这些平时比较生僻的专用词汇识别成其它常见的普通词汇,因而错误率比较高,难以满足专业或行业的需要。因此,造成以上问题其主要原因在于:目前的语音识别技术是基于频率优先匹配,当语音变为拼音之后,会优先匹配那些平时出现频率较高的通用词汇、热门词汇。
3.有些文献提出加入专用的词汇,但还是存在3个问题:
4.1、本地部门的专用词汇不会在通用的词汇库中出现,需要各个地区的专业或行业部门根据自己部门的需要分别手工建立,要本地人员在大量本地文本资料中逐个筛选专用词汇,此外,这些专用词汇还要不断更新、替换和统计刷新频率,费时费力,而这些部门人员平时的日常任务繁重,难以分身。
5.2、目前的匹配都是以一个拼音串的首字母为起点,向后逐个开始转换为文字,因为噪声的干扰和同音字的存在,后面重要的专用词汇的某些拼音可能和前面的拼音提前组合转换成了其它词组,导致错误。例如铁路部门本来要xxx车站的车辆启动,结果变成了其它车站的车辆启动,造成严重的后果。相反,普通词汇的错误相对可以接受。
6.3、在词库中加入专用词汇和通用的热门词汇合一起,专用词汇出现频率较低,在拼音相同的情况下,仍然会优先热门词汇。


技术实现要素:



7.本发明的目的在于克服现有技术的缺点与不足,提出了一种提高专业领域语音识别率的方法,可以准确识别专业或行业语音,可用较小的代价识别专业或行业中的专用词汇,尤其是本地部门的专用词汇,例如本地特有的地名、线路、车站、电站、特定设备名乃至人名。
8.为实现上述目的,本发明所提供的技术方案为:一种提高专业领域语音识别率的方法,包括:
9.级别优先匹配:语音转拼音后得到字母和音调组成的一个拼音串,设其名为a,a变成文字的过程中,优先与差频专用词库的一级差频子库词汇的拼音匹配,匹配成功则a的部分拼音变成文字,匹配不成功再考虑二级差频子库,所述匹配即求a的一部分拼音和某个中文词组或字的正确拼音之间的相似度,也简称为拼音与文字或词汇的匹配;所述差频专用词库由本地专用词汇及其拼音组成一级差频子库,专业术语及其的拼音组成二级差频子库;一个词汇在差频子库中的排队顺序由其频率的差异决定,即在专用资料中出现的频率
越高该词汇排队顺序越前,而在通用资料中出现的频率越高该词汇排队顺序越后;所述词汇指中文词组,一个中文词组包括至少2个中文字,所述本地专用词汇指仅在本机、本地局域网、一个特定的地域、体或部门中使用的词汇,本地专用词汇和专业术语统称专用词汇,其它称为通用词汇,频率的差异简称差频;
10.频率优先匹配:在级别优先匹配完成之后,对a余下的拼音与通用词汇的拼音进行匹配,通用资料中出现的频率高的非专用词汇优先匹配,最后余下的拼音与单个中文字的拼音匹配。
11.进一步,得到字母和音调组成的一个拼音串的步骤包括:
12.s1、权限识别:对用户输入的唤醒语音进行声纹识别,若用户具有使用权限,则转入步骤s2,否则,退出;
13.s2、语音降噪:对用户语音进行语音降噪,以减少噪声对识别的干扰;
14.s3、语音转拼音:对步骤s2得到的降噪语音进行语音分析、识别,并获得语音对应的整句拼音串。
15.进一步,所述权限识别包括如下步骤:
16.s11、获取唤醒语音;
17.s12、提取步骤s11获取的语音中每一帧的fbank能量特征;
18.s13、将fbank能量特征输入一个预训练好的dnn模型中,并得到基于深度学习的高层次特征表达;
19.s14、将步骤s13中得到的高层次特征表达与用户登陆账号所绑定的用户语音特征进行余弦相似度匹配;若余弦相似度低于或等于设定值,则判断该用户与其登录账号中绑定的用户不匹配,无使用权限;若高于设定值,则判断该用户具有使用权限。
20.进一步,所述差频专用词库的构建包括以下步骤:
21.s1、采集与本地工作相关的文字资料,包括本机与本地局域网上的工作计划、工作档案、会议记录、设备记录和通话文本;
22.s2、对上一步所采集的文字资料进行清理、分词操作,并获得词汇列表,接着对词汇列表进行词汇频率统计,词汇频率简称词频,得到本地专用词频词典,其中,词频=该词重复的次数
×
该词长度/全部资料总字数,所述本地专用词频词典包含了本地文字资料中出现的全部词汇及其词频;
23.s3、搜索网络上的本专业学术文章,对获取的词汇列表进行词频统计,得到专业术语词频词典,包含了本专业学术文章中出现的全部词汇及其词频;
24.s4、对通用资料,包括人民日报语料库及新浪、搜狐、网易三大网站的新闻,进行文本词汇词频统计,得到通用词频词典,包含了通用资料中出现的全部词汇及其词频;
25.s5、对专业术语词频词典的每个词汇做一次差频操作,即:
26.一次差频值=一个词汇的专业术语词频-k1×
其通用词频,此处k1为设定的系数,专业术语词频和通用词频分别由专业术语词频词典和通用词频词典得到,词典中查不到的词汇,其词频计为0;
27.一次差频值小于或等于0词汇的舍去,大于0的存入二级差频子库,差频值越高的词汇在差频子库排队越前面;
28.s6、对本地专用词频词典的每个词汇做二次差频操作,即:
29.二次差频值=一个词汇的本地专用词频-k2×
其专业术语词频-k1×
其通用词频,此处k2为设定的系数,本地专用词频由本地专用词频词典得到;
30.二次差频值大于0的存入一级差频子库,否则舍去,差频值越高的词汇在差频子库排队越前面;
31.s7、为差频专用词库中每一个词汇关联其对应的拼音,最终形成面向专业领域的差频专用词库,所述差频专用词库由所述一、二级差频子库组成。
32.进一步,所述级别优先匹配的步骤包括:
33.逆向取词:在一级差频子库内未匹配过的词汇中取差频值最高词汇的拼音,设其名称为b,如果一级差频子库中的词汇的拼音都已经进行过匹配操作,则顺延到二级差频子库;
34.任意位置转换拼音:在a中搜索类似于b的子串c,如果b与c匹配成功,则将c转换为相应的中文词组;如果a中有多个类似于b的子串,则都要重复上面操作;所述子串c能够位于a的任意位置。
35.进一步,所述匹配包括如下步骤:
36.计算音素编辑距离:指两个拼音串之间,由一个转换成另一个所需的最少音素编辑操作次数;所述音素指拼音的声母或韵母,许可的编辑操作包括:插入一个声母/韵母、删除一个声母/韵母、将一个声母/韵母替换成另一个,一次模糊音之间的替换只算0.5次,以上操作不包含音调;
37.计算音调距离:|x-y|≥2则音调距离加1,否则不加,此处x,y分别为两个拼音串中对应的韵母后的音调,所有韵母后的音调都计算并累加则得到音调距离;
38.计算匹配值=音素编辑距离+音调距离;
39.如果匹配的是专用词汇,则当匹配值小于给定阈值时,输出匹配值和匹配成功信号,否则给出匹配失败信号;
40.如果匹配的是通用词汇,则输出匹配值。
41.进一步,根据词汇的长度,对匹配值进行进一步修正,设待匹配词汇的拼音对应j个文字,根据计算得到的匹配值d,则修正后的匹配值为
42.进一步,所述阈值按如下公式计算:
43.阈值=k3×
当前用户的平均匹配值,此处k3为设定的系数,当前用户的身份由权限识别得到,该用户使用过程中,每输出一个匹配后的文字句子,求该句子的所有词汇的平均匹配值,再累计该用户使用历史上的所有句子求其总平均值,并记录在该用户名下。
44.本发明与现有技术相比,具有如下优点与有益效果:
45.1、根据本发明提供的一种提高专业领域语音识别率的方法,语音识别系统可自动地区分通用普通词汇和专业或行业领域专用词汇,尤其是那些地区部门的专用词汇,从而不需要各个地区部门手工建库,系统将把这些专用词汇存入一个分级的差频专用词库中并不断刷新、更新和替换,从而节约了大量的时间和精力。
46.2、本发明的级别优先匹配以专用词汇为重点优先匹配,减少了现有语音识别方法因为优先热门通用词汇造成的错误,从而提高了专业或行业中的语音识别准确率,减少了调度指令识别的错误,可减少事故,提高效率,更好的实现地区部门的智能化。
附图说明
47.图1是本发明方法的流程图。
48.图2是声纹识别过程流程图。
49.图3是语音降噪过程流程图。
具体实施方式
50.下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
51.参见图1所示,本实施例公开了一种提高专业领域语音识别率的方法,具体实施步骤如下:
52.s1、权限识别:对用户输入的唤醒语音进行声纹识别,若用户具有使用权限,则转入步骤s2,否则,退出;
53.s2、语音降噪:对用户语音进行语音降噪,以减少噪声对识别的干扰;
54.s3、语音转拼音:采用公知的深度学习语音识别算法对s2得到的降噪语音进行语音分析、识别,并获得语音对应的整句拼音;
55.例如:当电力调度员的命令语音为:
[0056]“投入铁林站铁氮棠华石线1234接地刀闸”时,通过s3步骤的转化,会得到:[tou2ru4tie3lin2zhan4tie3dan4tang2hua2shi2xian4yao1liang3san1si4jie1di4dao1zha2]这一拼音串a;
[0057]
s4、级别优先匹配拼音与专用词汇,基于差频专用词库对a进行中文文本分级匹配;
[0058]
例如,铁林站、铁氮棠华石线、接地刀闸这些都是专用词汇,差频值排序:铁林站(1级)》铁氮棠华石线(1级)》接地刀闸(2级);
[0059]
a、逆向取词:从一级差频子库按差频值从大至小逐一取词,每取一个词就到a中查是否有匹配的子串,目前的匹配方法是从a取拼音,到词汇库查,本专利的方法与其相反,所以称之为逆向取词;
[0060]
b、任意位置转换:不同于目前的方法都是从第一个字母开始转换文字,本方法子串可以在a的任意位置转换,如匹配差距大于给定阈值就放弃,再取后一个词,直到铁林站拼音“tie3lin2zhan4”,可以匹配a中的部分,从而a变为[tou2ru4铁林站tie3dan4tang2hua2shi2xian4yao1liang3san1si4jie1di4dao1zha2],此处逆向取词和任意位置转换是专门针对差频专用词汇设计的,与目前公知的方法不同。同理,之后会将a余下的专用词汇转化:[tou2ru4铁林站铁氮棠华石线yao1liang3san1si4接地刀闸];
[0061]
s5、频率优先匹配拼音与通用词汇;当串a中的全部专用词汇都转换完,就按照公知的的频率优先法匹配通用词汇:按照从前至后的顺序,取tou2 ru4,查通用字典,得到“投入”,串a变为:[投入铁林站铁氮棠华石线yao1liang3san1si4接地刀闸];
[0062]
s6、余下的拼音匹配单个汉字,得到整句文本[投入铁林站铁氮棠华石线1234接地刀闸];
[0063]
s7、输出整句文字;
[0064]
s8、刷新词汇频率及差频值,刷新专用及通用词汇的频率,并重新计算差频值,即
刷新差频词汇“铁林站”、“铁氮棠华石线”、“接地刀闸”的频率,重新计算上述词汇的差频值并更新其排序,刷新通用库中的词汇“投入”频率,并更新其排序,未出现的词汇无需频繁刷新;
[0065]
s9、结束。
[0066]
图1的流程涉及的差频词库、匹配算法、权限识别、语音降噪的细节在下面分别阐述。
[0067]
上述流程中,级别优先匹配必须基于差频专用词库。差频专用词库依据本专利的下述原理自动构建:
[0068]
对于专业领域,专用词汇的重要性高于普通词汇,因此要优先保证其识别率,因而要建立专用词汇库,进一步,有噪声的环境影响匹配的相似度,因此匹配相似度相差不大的情况下,要优先匹配高级别的专用词汇,此外,系统应通过程序自动建库。要自动的将专用词汇与普通词汇区别出来,必须利用其差异。专用词汇,特别是本地专用词汇,如上文的专用词汇如“铁氮棠华石线”,一般不会出现在普通的新闻或文章中,而会出现在本地电力调度日志、工作票、设备记录及本地通话文本记录,相反,上文的通用词汇如“投入”在普通的文章或网文中会频繁出现,此外词汇“接地刀闸”则在本地文本和新闻报道中都可能出现,因此本专利提出:词汇的级别由其两个频率的差异决定,即在专用资料中出现的频率越高该词汇级别越高,而在通用资料中出现的频率越高该词汇级别越低。
[0069]
以某个地方电力调度部门为例,差频专用词库的自动构建方法如下:
[0070]
s1、语音识别系统采集本地局域网和本机上的电力调度日志、工作票、通话文本等文字资料;
[0071]
s2、对上一步所采集的文字资料进行清理、分词操作,并获得词汇列表,接着对词汇列表进行词频统计,得到本地专用词频和本地专用词频词典。所述词频=该词重复的次数
×
该词长度/全部资料总字数,本地专用词频词典中包含了本地资料的全部词汇(本地专用词汇、专业术语和通用词汇)及其词频;
[0072]
s3、语音识别系统搜索网络上的本专业学术文章,对词汇列表进行词频统计,得到专业术语词频和专业术语词频词典,包含了本专业学术文章中出现的全部词汇(专业术语、通用词汇)及其词频;
[0073]
s4、对通用资料(人民日报语料库及新浪、搜狐、网易三大网站的新闻)进行文本词汇词频统计,得到通用词频和通用词频词典,包含了通用资料中出现的全部词汇(通用词汇、部分专业术语)及其词频;
[0074]
s5、对专业术语词频词典的每个词汇做一次差频操作,即:
[0075]
一次差频值=一个词汇的专业术语词频-k1×
其通用词频,此处k1为设定的系数,可以通过统计得到,专业术语词频和通用词频分别由专业术语词频词典和通用词频词典得到,词典中查不到的词汇,其词频计为0;
[0076]
一次差频值小于或等于0词汇的舍去,大于0的存入二级差频子库,差频值越高的词汇在差频子库排队越前面;
[0077]
s6、对本地专用词频词典的每个词汇做二次差频操作,即:
[0078]
二次差频值=一个词汇的本地专用词频-k2×
其专业术语词频-k1×
其通用词频,此处k2为设定的系数,可以通过统计得到,本地专用词频由本地专用词频词典得到;
[0079]
二次差频值大于0的存入一级差频子库,否则舍去,差频值越高的词汇在差频子库排队越前面;
[0080]
s7、为差频专用词库中每一个词汇关联其对应的拼音,最终形成面向电力调度的差频专用词库。所述差频专用词库由一、二级差频子库组成。
[0081]
以上过程仍以上述电力语句“投入铁林站铁氮棠华石线1234接地刀闸”为例进行说明:“投入”是一个通用的词汇,会出现在本地调度日志、电力学术文章和新闻报道中,其一次差频值小于0,将存入通用词库,“接地刀闸”是一个电力专业词汇,会出现在在本地调度日志、电力学术文章,但在新闻报道中很少出现,其一次差频值大于0,但二次差频值小于0,将存入二级差频子库,“铁氮棠华石线”,会出现在在本地调度日志、但一般不会出现在电力学术文章和新闻报道,其一次、二次差频值都大于0,将存入一级差频子库。
[0082]
在图1的流程中,拼音与词汇及文字的匹配可以按照公知的方法,本发明提供一种优选的匹配方案包括如下步骤:
[0083]
s1、计算音素编辑距离:指两个拼音串之间,由一个转换成另一个所需的最少音素编辑操作次数,所述音素指拼音的声母或韵母,许可的编辑操作包括:插入一个声母/韵母、删除一个声母/韵母、将一个声母/韵母替换成另一个,一次模糊音之间的替换只算0.5次,以上操作不包含音调;
[0084]
s2、计算音调距离:|x-y|≥2则音调距离加1,否则不加,此处x,y分别为两个拼音串中对应的韵母后的音调,所有韵母后的音调都计算并累加则得到音调距离;
[0085]
计算匹配值=音素编辑距离+音调距离;
[0086]
s3、根据词汇的长度,对匹配值进行进一步修正,设待匹配的词汇含有j个字的拼音,根据步骤s2计算得到的匹配值d,则修正后的匹配值为例:假定因为噪声的干扰以及说话人的普通话不够标准等原因,得到与拼音串a有所差异的拼音串a0:
[0087]
[tou2ru4tie3ling1zhang1tie3dan4tang2hua2shi2xian4yao1liang3san1si4jie1di4dao1zha2]
[0088]
逆向取词:从一级差频子库按差频值从大至小逐一取词,每取一个词就到拼音串a0中查是否有匹配的子串,直到铁林站拼音“tie3lin2zhan4”,匹配拼音串a0中的部分“tie3ling1zhang1”,由s1计算音素编辑距离:用正确的in和an可以替换错误的ing和ang,虽然操作的次数为2,但此处是模糊音替换,音素编辑距离=0.5+0.5=1;由s2计算音调距离:lin2和ling1的音调差1,即|2-1|=1<2音调距离加0,但是zhan4和zhang1的音调差3,即|4-1|=3≥2则音调距离加1,音调距离=0+1=1,匹配值d=1+1=2;
[0089]
s4、根据词汇的长度,对匹配值进行进一步修正,子库中“tie3lin2zhan4”含有k=3个字的拼音,则修正后的匹配后为修正后的匹配值小于给定阈值1.7,给出匹配成功信号,并输出匹配值1.59。此处是考虑到词汇越长,出错概率越大。
[0090]
上述步骤中,给定阈值1.7是因人而异的,有的人普通话好,阈值可以设为1.2,准确度更高,有的人普通话差,可以设为2,提高容错性,所以给定阈值可以与用户绑定,其方法是:
[0091]
阈值=k3×
当前用户的平均匹配值,此处k3为设定的系数,当前用户的身份由权限识别得到,该用户使用过程中,每输出一个匹配后的文字句子,求该句子的所有词汇的平均
匹配值,再累计该用户使用历史上的所有句子求其总平均值,并记录在该用户名下。
[0092]
在图1的流程中涉及权限识别,其具体的细节请参见图2所示,过程如下:
[0093]
1)获取唤醒语音。其中语音是通过麦克风设备获取,并以.wav文件的格式存储在硬盘上。而计算机通过调用python中的wave模块实现语音的读取。
[0094]
2)提取步骤1)获取的语音中每一帧的fbank能量特征。在该部分中,采用了python的python_speech_features模块来获取语音的fbank能量特征。
[0095]
3)将fbank能量特征输入一个预训练好的dnn模型中,并得到基于深度学习的高层次特征表达。在该部分中,dnn模型架构包括了四层隐藏层,其实现是通过python的keras模块实现。
[0096]
4)将步骤3)中得到的高层次特征表达与用户登陆账号所绑定的用户语音特征进行余弦相似度匹配;若余弦相似度低于或等于阈值,则判断该用户与其登录账号中绑定的用户不匹配,无使用权限;若高于阈值,则判断该用户具有使用权限。
[0097]
在图1的流程中涉及语音降噪,其具体的细节请参见图3所示,过程如下:
[0098]
1)获取用户朗读的语音。
[0099]
2)用短时傅里叶变换(stft)提取1)获取的语音的振幅谱和相位谱。在该步骤中,将语音按照1s的窗口划分为若干个的小段。随后,利用python的librosa模块提供的短时傅里叶变换(stft)获取各小段的振幅谱和相位谱。
[0100]
3)将步骤2)中获取的振幅谱输入一个预先训练好的unet模型中,并得到基于深度学习的降噪后的振幅谱。在该步骤中,各小段的振幅谱都会通过unet模型转化为降噪后的振幅谱。其中,unet模型是通过python的keras模块实现的。
[0101]
4)将步骤3)获取的降噪后的振幅谱和步骤2)获取的相位谱通过逆短时傅里叶变换(istft)转化为降噪后的语音。通过该步骤,将获取2)所述每一小段语音所对应的降噪语音,随后,通过语音组合,将获得步骤1)中语音所对应的降噪语音。该步骤的具体功能是通过python的librosa模块实现。
[0102]
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

技术特征:


1.一种提高专业领域语音识别率的方法,其特征在于,包括:级别优先匹配:语音转拼音后得到字母和音调组成的一个拼音串,设其名为a,a变成文字的过程中,优先与差频专用词库的一级差频子库词汇的拼音匹配,匹配成功则a的部分拼音变成文字,匹配不成功再考虑二级差频子库,所述匹配即求a的一部分拼音和某个中文词组或字的正确拼音之间的相似度,也简称为拼音与文字或词汇的匹配;所述差频专用词库由本地专用词汇及其拼音组成一级差频子库,专业术语及其的拼音组成二级差频子库;一个词汇在差频子库中的排队顺序由其频率的差异决定,即在专用资料中出现的频率越高该词汇排队顺序越前,而在通用资料中出现的频率越高该词汇排队顺序越后;所述词汇指中文词组,一个中文词组包括至少2个中文字,所述本地专用词汇指仅在本机、本地局域网、一个特定的地域、体或部门中使用的词汇,本地专用词汇和专业术语统称专用词汇,其它称为通用词汇,频率的差异简称差频;频率优先匹配:在级别优先匹配完成之后,对a余下的拼音与通用词汇的拼音进行匹配,通用资料中出现的频率高的非专用词汇优先匹配,最后余下的拼音与单个中文字的拼音匹配。2.根据权利要求1所述的一种提高专业领域语音识别率的方法,其特征在于,得到字母和音调组成的一个拼音串的步骤包括:s1、权限识别:对用户输入的唤醒语音进行声纹识别,若用户具有使用权限,则转入步骤s2,否则,退出;s2、语音降噪:对用户语音进行语音降噪,以减少噪声对识别的干扰;s3、语音转拼音:对步骤s2得到的降噪语音进行语音分析、识别,并获得语音对应的整句拼音串。3.根据权利要求2所述的一种提高专业领域语音识别率的方法,其特征在于,所述权限识别包括如下步骤:s11、获取唤醒语音;s12、提取步骤s11获取的语音中每一帧的fbank能量特征;s13、将fbank能量特征输入一个预训练好的dnn模型中,并得到基于深度学习的高层次特征表达;s14、将步骤s13中得到的高层次特征表达与用户登陆账号所绑定的用户语音特征进行余弦相似度匹配;若余弦相似度低于或等于设定值,则判断该用户与其登录账号中绑定的用户不匹配,无使用权限;若高于设定值,则判断该用户具有使用权限。4.如权利要求1所述的一种提高专业领域语音识别率的方法,其特征在于,所述差频专用词库的构建包括以下步骤:s1、采集与本地工作相关的文字资料,包括本机与本地局域网上的工作计划、工作档案、会议记录、设备记录和通话文本;s2、对上一步所采集的文字资料进行清理、分词操作,并获得词汇列表,接着对词汇列表进行词汇频率统计,词汇频率简称词频,得到本地专用词频词典,其中,词频=该词重复的次数
×
该词长度/全部资料总字数,所述本地专用词频词典包含了本地文字资料中出现的全部词汇及其词频;s3、搜索网络上的本专业学术文章,对获取的词汇列表进行词频统计,得到专业术语词
频词典,包含了本专业学术文章中出现的全部词汇及其词频;s4、对通用资料,包括人民日报语料库及新浪、搜狐、网易三大网站的新闻,进行文本词汇词频统计,得到通用词频词典,包含了通用资料中出现的全部词汇及其词频;s5、对专业术语词频词典的每个词汇做一次差频操作,即:一次差频值=一个词汇的专业术语词频-k1×
其通用词频,此处k1为设定的系数,专业术语词频和通用词频分别由专业术语词频词典和通用词频词典得到,词典中查不到的词汇,其词频计为0;一次差频值小于或等于0词汇的舍去,大于0的存入二级差频子库,差频值越高的词汇在差频子库排队越前面;s6、对本地专用词频词典的每个词汇做二次差频操作,即:二次差频值=一个词汇的本地专用词频-k2×
其专业术语词频-k1×
其通用词频,此处k2为设定的系数,本地专用词频由本地专用词频词典得到;二次差频值大于0的存入一级差频子库,否则舍去,差频值越高的词汇在差频子库排队越前面;s7、为差频专用词库中每一个词汇关联其对应的拼音,最终形成面向专业领域的差频专用词库,所述差频专用词库由所述一、二级差频子库组成。5.如权利要求1所述的一种提高专业领域语音识别率的方法,其特征在于,所述级别优先匹配的步骤包括:逆向取词:在一级差频子库内未匹配过的词汇中取差频值最高词汇的拼音,设其名称为b,如果一级差频子库中的词汇的拼音都已经进行过匹配操作,则顺延到二级差频子库;任意位置转换拼音:在a中搜索类似于b的子串c,如果b与c匹配成功,则将c转换为相应的中文词组;如果a中有多个类似于b的子串,则都要重复上面操作;所述子串c能够位于a的任意位置。6.如权利要求1或5所述的一种提高专业领域语音识别率的方法,其特征在于,所述匹配包括如下步骤:计算音素编辑距离:指两个拼音串之间,由一个转换成另一个所需的最少音素编辑操作次数;所述音素指拼音的声母或韵母,许可的编辑操作包括:插入一个声母/韵母、删除一个声母/韵母、将一个声母/韵母替换成另一个,一次模糊音之间的替换只算0.5次,以上操作不包含音调;计算音调距离:|x-y|≥2则音调距离加1,否则不加,此处x,y分别为两个拼音串中对应的韵母后的音调,所有韵母后的音调都计算并累加则得到音调距离;计算匹配值=音素编辑距离+音调距离;如果匹配的是专用词汇,则当匹配值小于给定阈值时,输出匹配值和匹配成功信号,否则给出匹配失败信号;如果匹配的是通用词汇,则输出匹配值。7.如权利要求6所述的一种提高专业领域语音识别率的方法,其特征在于,根据词汇的长度,对匹配值进行进一步修正,设待匹配词汇的拼音对应j个文字,根据计算得到的匹配值d,则修正后的匹配值为
8.如权利要求6所述的一种提高专业领域语音识别率的方法,其特征在于,所述阈值按如下公式计算:阈值=k3×
当前用户的平均匹配值,此处k3为设定的系数,当前用户的身份由权限识别得到,该用户使用过程中,每输出一个匹配后的文字句子,求该句子的所有词汇的平均匹配值,再累计该用户使用历史上的所有句子求其总平均值,并记录在该用户名下。

技术总结


本发明公开了一种提高专业领域语音识别率的方法,主要用于识别专业领域或特定行业的语音。专业领域中通常涉及大量的专业术语以及该专业领域各个应用部门结合了本地特征的特有名词,如含有所在地点名称的设备名、工作段名称乃至专业者的人名,因而语音识别错误率比较高,本发明提出二次差频原理,自动建立差频专用词库,包含保存本地专用词汇的一级差频子库和保存专业术语的二级差频子库。以差频专用词汇为中心匹配拼音与文字,采用任意位置转换机制。通过这些步骤,可以提高语音识别的准确率,特别是能识别本地专业部门的专用词汇。特别是能识别本地专业部门的专用词汇。特别是能识别本地专业部门的专用词汇。


技术研发人员:

胡劲松 冯思铭 李文亮 贺妙玲

受保护的技术使用者:

华南理工大学

技术研发日:

2022.03.25

技术公布日:

2022/7/29

本文发布于:2024-09-20 17:43:01,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/19680.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:词汇   词频   拼音   语音
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议