基于语音特征的失语症患者语音识别算法及装置



1.本发明涉及语音识别技术领域,尤其涉及一种基于语音特征的失语症患者语音识别算法及装置。


背景技术:



2.失语症是因急性和晚期神经系统疾病、脑卒中、语言障碍等引起的语言表达和接受障碍的综合征。患者可能在认知、理解、识别、表达等功能受到损害,导致语言表达方式上困难。据调查,目前我国有六百万患有中风,平均二十一秒就有一个人死于中风,在20岁到64岁这个年龄段,中风的发病率已经达到了25%,并且不仅在老年人中发病,而且逐渐发展到了年轻人中,由于现在年轻人工作或者生活压力大,人们长期熬夜加班,熬夜打游戏,熬夜玩手机导致睡眠不足,容易引发中风,其中,每年新增的中风型失语症患者数量超过百万人。
3.失语症并不是长期存在的。如在康复的最佳时期,接受语言康复,将会有四分之一的患者在3个月短期时间之内,患者可以与其他人交流,比如自己开口讲话、理解其他人简单的手势和口头语言;还有四分之一的患者可以恢复写作、彼此简单的口语交流、阅读、书写等语言能力;失语症患者中存在极小概率是不通过任何,在语言功能方面完全康复,那是因为脑部的血液暂时性的中断,引起的失语,在这种情况下,经过几个小时、几天或者一个月,就能痊愈。但是绝大多数患者语言功能障碍遗留下来,需要通过剩余的语言能力来激发人际交流能力,需要后期长时间的训练,得到康复。如果患者不能及时接受语言康复,将无法回归正常学校及主流社会。人们对现在生活水平的不断提高,导致患者对言语功能康复训练需求越来越高。传统师或家属一对一的不能满足失语症患者的需求。现在急需一个家庭版的康复训练设备可以替代师或者家属的部分工作,设备的存储能力和运算能力远远超过人类,临床训练的数据有利于保存,并且可以无限次做重复的工作,实现与患者人机交互。同时也减少康复时的费用,患者的生活质量得到进一步的提升。
4.在国外,失语症的康复机构四分之三以上都是由计算机辅助设备进行,这些设备包含不同的康复,其核心是语音识别,其中就包含构音训练、听力训练、言语训练、阅读文章训练、书写训练等,并且用于不同文化程度、不同患病程度、不同地区、不同年龄的患者,拥有不同的版本设备。但是汉语与国外的语言完全不同,汉语每一个音节都有不同的声调,分别有轻声、一声、二声、三声和四声,比如“朱”、“竹”、“煮”和“住”,每一个声调对应不同的词,而且意义也不相同,再加上中国有56个民族,每个民族的语言也不相同,一共拥有80多种语言。因此国外的设备不能直接应用在国内,需要我们自己去研发,只能根据我国汉语的特点去研究设计。然而近十年,我国对失语症患者康复训练设备研发中,还没有研发出一款完善的设备,用于失语症患者的家庭中。
5.失语症康复设备的关键技术是语音识别。语音识别是多种领域的综合学科,包含心理学科、生理学科、语音信号处理学科、言语学科、声音学科、计算机学科。失语症康
复主要技术是语音识别。本技术主要将患者的语音进行识别,判断患者的发音康复情况,有助于患者康复。论文研究的方法可以用于康复设备中,具有很大的应用前景和意义,并且产生巨大的社会效应。
6.语音识别技术已经历经了半个多世纪,1988年李开复开发了第一个基于语音识别sphinx的系统。它主要是基于隐马尔可夫建模,用高斯混合模型(gmm)对语音的状态信息进行建模。国内在1993年至2009年,语音识别一直是gmm-hmm的时代,从2000年到2009年发展缓慢,识别的错误率很难降低到10%以下。2011年,微软研究院的俞栋、邓力等人,把dnn广泛地应用在连续的大量单个字词汇中,而且语音识别的效率也得到明显地提升,语音识别的框架已经转换成dnn-hmm时代,语音识别的准确率也有了很大幅度地提升。直到2015年端到端技术的引入和兴起,语音识别的方法也越来越多,都是需要训练一个更深、较复杂网络。2018年,一种深度全序列卷积神经网络(dfcnn)被科大讯飞提出。同年,阿里公司提出了流式多级截断注意力模型(smlta)。百度语音识别率高达97%。2019年是一个分界点,语音识别回归了体验,语音识别技术体验效果越来越好。
7.失语症康复目前根据患者在听方面、说方面、严重程度、地区、文化程度等方面进行具体。失语症传统的康复方法包括中医、音乐音调、中药、针灸、口腔操康复法。物理法包括高压氧、重复经颅磁刺激(rtms)、针灸、经颅直流电刺激(tdcs)、家庭和计算机辅助康复法。本技术主要研究的是计算机辅助康复法,这种方法的核心技术是语音识别。国外的语音识别技术在医疗方面相当成熟,在国内研究比较少见。2021年何小俊和李薇薇发表的脑卒中失语症言语康复训练研究进展的期刊中,运用了传统的方法一位师对应一位患者的形式,发展到一位师可以对多位患者同时进行训练,形成小组模式,但是最根本的人工训练模式没有改变,毕竟人的精力是有限的,师不可以照顾到每一位患者的康复情况,也照顾不到每一个患者的情绪变化,所以本技术运用计算机辅助康复。
8.失语症患者语音识别的难点:
9.语音识别尽管有半个世纪的历史,语音识别系统还不够完善,距离商用化还有一定的距离。主要来源于以下几点:
10.(1)输入因素输入语音是否标准,每个地区发音的习惯也不同,如发音时l和n不分、t和q发音不分、声调不同、卷舌和不卷舌,发音者带少许的方言等。
11.(2)噪音因素噪音是语音识别的重要干扰因素,也是公认的技术难题。语音识别就像人的耳朵一样,在安静的环境下,人耳听到的语音是非常清楚的,语音识别的准确率也特别高。如果周围环境比较嘈杂,人耳听到的语音非常模糊,语音识别分不清楚哪一个是有用信号,那一段是无用信号。语音识别的准确率会降低。
12.(3)模型因素语言模型中是否完善,能否覆盖所识别的领域。特定的领域和主题,有些不同领域的专业名词,对语音识别准确率有一定的影响,比如医学类的专业名词、高数里面的专业名词、电子与通信工程中的专业名词等,识别的准确率都不相同。
13.以上这些都会影响语音识别的准确性。
14.对于失语症患者语音识别,除了以上共同因素,还有失语症特有的因素,比如患者的严重程度、发音速度和发音重复等因素。
15.结合上述现有的技术方案,发明人分析发现在现有技术方案中存在语音识别效果
较差的技术问题。
16.现有技术问题及思考:
17.如何解决语音识别效果较差的技术问题。


技术实现要素:



18.本发明所要解决的技术问题是提供一种基于语音特征的失语症患者语音识别算法及装置,解决语音识别效果较差的技术问题。
19.为解决上述技术问题,本发明所采取的技术方案是:一种基于语音特征的失语症患者语音识别算法包括如下步骤s1构建失语症患者语料库,失语症患者语料库录制,失语症患者语料处理,失语症患者语料库标注,失语症患者语音特征分析,去除失语症患者重复发音,获得失语症患者语料库;s2语音识别,基于上一步骤获得的失语症患者语料库,识别语音。
20.进一步的技术方案在于:在步骤s1中,失语症患者语料的录制,在安静在环境下,拿着录音笔对失语症患者的发音进行录制;录音的采样率为16khz,单声道,文件格式是wav格式。
21.进一步的技术方案在于:在步骤s1中,录制完成后,统一格式;收集到的语料进行处理,即采集量化预加重、分帧加窗、去噪即语音增强、特征提取的操作,接下来进行语料切分。
22.进一步的技术方案在于:在步骤s1中,语料切分是指分为两步,第一步是端点检测,删减掉无音段和噪声,确定起始点和结束点;第二步语音段单字切分,根据端点检测进行分割。
23.一种基于语音特征的失语症患者语音识别装置包括如下程序模块,构建失语症患者语料库模块,用于控制器获得失语症患者语料库,处理失语症患者语料,标注失语症患者语料库,分析失语症患者语音特征,去除失语症患者重复发音,获得失语症患者语料库;语音识别模块,用于控制器基于失语症患者语料库,识别语音。
24.进一步的技术方案在于:构建失语症患者语料库模块,还用于录音的采样率为16khz,单声道,文件格式是wav格式。
25.进一步的技术方案在于:构建失语症患者语料库模块,还用于控制器处理语料,即采集量化预加重、分帧加窗、去噪即语音增强、特征提取的操作,接下来进行语料切分。
26.进一步的技术方案在于:构建失语症患者语料库模块,还用于语料切分是指分为两步,第一步是端点检测,删减掉无音段和噪声,确定起始点和结束点;第二步语音段单字切分,根据端点检测进行分割。
27.一种基于语音特征的失语症患者语音识别装置包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,所述处理器执行计算机程序时实现上述方法中相应的步骤。
28.一种基于语音特征的失语症患者语音识别算法及装置包括计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方法中相应的步骤。
29.采用上述技术方案所产生的有益效果在于:
30.一种基于语音特征的失语症患者语音识别算法包括如下步骤s1构建失语症患者语料库,失语症患者语料库录制,失语症患者语料处理,失语症患者语料库标注,失语症患者语音特征分析,去除失语症患者重复发音,获得失语症患者语料库;s2语音识别,基于上一步骤获得的失语症患者语料库,识别语音。该技术方案,其通过步骤s1和步骤s2等,实现语音识别效果较好。
31.一种基于语音特征的失语症患者语音识别装置包括如下程序模块,构建失语症患者语料库模块,用于控制器获得失语症患者语料库,处理失语症患者语料,标注失语症患者语料库,分析失语症患者语音特征,去除失语症患者重复发音,获得失语症患者语料库;语音识别模块,用于控制器基于失语症患者语料库,识别语音。该技术方案,其通过构建失语症患者语料库模块和语音识别模块等,实现语音识别效果较好。
32.详见具体实施方式部分描述。
附图说明
33.图1是本发明中的短时能量框图;
34.图2是本发明中的不同的矩形窗长n进行短时平均能量的截图;
35.图3是本发明中的平均过零率框架图;
36.图4是本发明中的短时过零率的截图;
37.图5是本发明中的两级判决法示意图;
38.图6是本发明中的语音分割的仿真图;
39.图7是本发明中的语音标注存储界面图;
40.图8是本发明中的重复性发音检测框图;
41.图9是本发明中的正常的文本汉字网络截图;
42.图10是本发明中的强制对齐汉字网络截图;
43.图11是本发明中的多跨度回环的强制对齐汉字网络截图。
具体实施方式
44.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本技术及其应用或使用的任何限制。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
45.在下面的描述中阐述了很多具体细节以便于充分理解本技术,但是本技术还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本技术内涵的情况下做类似推广,因此本技术不受下面公开的具体实施例的限制。
46.实施例1:
47.本发明公开了一种基于语音特征的失语症患者语音识别算法包括如下步骤:
48.s1构建失语症患者语料库
49.失语症患者语料库录制,失语症患者语料处理,失语症患者语料库标注,失语症患者语音特征分析,去除失语症患者重复发音,获得失语症患者语料库。
50.s2语音识别
51.基于上一步骤获得的失语症患者语料库,识别语音。
52.实施例2:
53.本发明公开了一种基于语音特征的失语症患者语音识别装置包括如下程序模块:
54.构建失语症患者语料库模块,用于控制器获得录制的失语症患者语料库,处理失语症患者语料,标注失语症患者语料库,分析失语症患者语音特征,去除失语症患者重复发音,获得失语症患者语料库。
55.语音识别模块,用于控制器基于失语症患者语料库,识别语音。
56.实施例3:
57.本发明公开了一种基于语音特征的失语症患者语音识别装置包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,所述处理器执行计算机程序时实现实施例1的步骤。
58.实施例4:
59.本发明公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现实施例1中的步骤。
60.技术方案说明:
61.3.1构建失语症患者语料库
62.3.1.1构建失语症患者语料库基本要求和原则
63.失语症患者语料库的构建是本技术语音识别研究的主要工作之一,建立有关失语症患者的语料和标注集合,是语音识别的前提和基础。虽然关于失语症患者可供研究的语料库在语料开源库和各大网络平台十分稀少,但是从fluencybank到了3.6k句数据口吃的语料集,口吃是失语症患者发音的一种,口吃的标注也是十分困难,其中标注了28k的语句,28k语句的语音时长大约有一共10个小时,目前这些语料还没有开源。为了方便文本研究,需要建立适合本技术语音识别失语症患者的语料库,后续建的语料库可能放到开源库中。本技术将建设失语症患者语音过程进行描述,包括语料库介绍、构建语料库的基本要求和原则、构建失语症患者语料数据库中样本录制和样本标注等过程。
64.语料库是按照一定的语言学规律,收集语音,并且建立电子文库构成电子语料库。语料库具有下面几个特征,第一个特征是研究目标,本技术建立语料库是为了识别失语症患者的语音,根据语言学规则进行建立和设计。第二个特征是收集语料,收集语料并不是单纯的把收集到的语料进行累加,应该按照随机抽样的方法进行收集。第三个是代表性,本技术的语料库必须能够代表失语症患者语言运用。第四个是存储方式,本技术采用一定容量的计算机进行存储。第五个是量化,量化研究,概率统计,数据驱动。
65.其中语料库是按照文件进行收集,每个文件需要特性描述。第一个是录音的时间、地点、通道和噪声环境等。第二个是发音人的姓名、性别、籍贯、年龄、文化程度和口语。第三个是发音的孤立、连续和口语语音。第四个是数据的采样频率、位数、通道数目和通道噪声。
66.构建语料库的要求,首先确定我们收集的语料库的作用,语料库既可以用在语音合成中,又可以应用在说话人识别中,甚至还可以应用在语音识别等方向。但是不同的方向,语料库是不相同的。其中语音合成中的语料库目的是输入文字输出语音,所以语料库注重的是语音的数量、语音的长度、语音的韵律包括能量、基频、停顿的时长等多个要素,可以
合成更贴近真实的语音;说话人识别的语料库更多的区分每一个人的发音特点和音,但是对于语音中的内容没有要求;语音识别的语料库为声学模型提供训练数据,主要涉及到语言学中的声学、语音学、发音学等更多的发音信息,这些可以充分体现声学特征。本技术是采用的是语音识别的语料库,因此按照构建语音识别的语料库要求。
67.语料库构建的原则应该依照科学性原则、实际应用性原则和可扩展性原则。科学性原则指的是借助目前信息技术以科学的方法构建语料库,得到客观和可靠的语料库,以便之后的优化和改进,方便继续研究。实际应用性指的是录制最少的语料内容和语音数量,最能反应失语症患者语音特点。可扩展性指的是语音要与时俱进,语言是不断扩展的,语料库也应该不断的扩展,因此在存储扩展和语料编码上留足空间,以便后续更新。
68.3.1.2失语症患者语料库内容选取
69.本课题是失语症患者的语音识别,主要针对失语症患者的发音,患者主要和其他人进行沟通,语料选取主要根据汉语标准失语症检查表中复述的名词、动词和句子等,其中名词有“自行车”、“空凋”、“西瓜”、“冰箱”、“加油”、“牙刷”、“钟表”、“鱼”、“椅子”、“火”等;其中动词有“坐”、“吃”、“住”、“吃饭”、“锻炼”、“运动”、“写”、“你好”、“敲”、“读书”等;其中句子有“妈妈/准备/给男孩/讲故事”、“男孩/洗/头”、“一个/学生/边读/边写”、“孩子们/堆了/一个/大雪人”、“门/开/了”、“小聪/的成绩/被/清华大学/录取了”、“男孩子/在湖上/划船”、“两个/孩子/在讨论/书上的/图画”、“男孩/付钱/买车”、“老人/挂着/拐杖/独自过/人行横道”等。
70.根据本课题的研究对象是失语症患者的语音识别,需要建立一个属于失语症患者使用的语音库。本技术对15名女性和15名男性的失语症患者,进行录制50个汉语词组语音,每一位患者对每一个汉语词组进行反复发音10次,前6次用于语音训练,中间2次用于验证,最后2次用于测试,共1.5k个语音样本。其中训练样本有9000个、3000个验证样本和3000个测试样本,来进行语音识别。其中15名志愿者对失语症患者进行采集,志愿者包括本人和实验室的同伴。
71.失语症患者语料数据库的构建分为失语症患者的预料选取,在日常用语、称呼、常用文字上进行语料扩展删除;语料录制,在安静的环境下进行录制,录制后进行核实语音、处理语音、整理语音和切割语音,最后生成多个语音语料;语料标注是语音语料和文本进行标注;最后语音进行存储,形成语料库。
72.3.1.3失语症患者语料库录制
73.失语症患者语料的录制,在安静在环境下,志愿者拿着录音笔对失语症患者的发音进行录制。录音的采样率为16khz,单声道,文件格式是wav格式。依照文本分类类别进行录制,按照要求完成录制。
74.3.1.4失语症患者语料处理
75.录制完成后,统一格式。收集到的语料进行预处理中采集量化预加重、分帧加窗、去噪即语音增强、特征提取等进行操作,在这里不再一一研究。接下来进行语料切分。
76.收集语音信号经过处理之后,再进行切分。汉语的语音切分分为人工切分,工作量大,费时费力,切分的误差特别大;另一种方法是自动切分;自动切分分为两步,第一步是端点检测,删减掉无音段和噪声,确定起始点和结束点。第二步语音段单字切分。可以根据端点检测进行分割。正确的端点检测对于语音识别有重要的意义,采集到的语音处理成有用
的语音信号的数据,可以减少数据量和运算量,并减少处理时间。
77.目前端点检测方法用的比较多的是双门限端点检测技术,双门限端点检测算法的实现方法是根据短时能量和过零率确定两个门限,当语音低于两个门限时进入语音的静音段;当语音超过低门限时,进入语音的过渡段;当语音超过高门限时,进入语音的语音段;从语音段低于高门限同时高于低门限时进入了过渡段;当从过渡段低于低门限时,进入了结束段。本技术介绍的是两级判决法,采用的双门限比较法,利用两级判决进行语音分割。
78.其中两级判决中的短时平均能量描述的是能量随时间而变化,一般浊音部分的能量比轻音部分的能量大,短时平均能量可以描述这些特征。
79.用数学表达式表达在n时刻收集到的语音的短时平均能力en是式(3-1)
[0080][0081]
短时平均能量为一帧样点值的加权平均和,公式(3-1)中的n为窗长,窗函数为矩形窗时,公式(3-1)变成了公式(3-2)
[0082][0083]
从冲激响应角度来解释,如公式(3-3)所示
[0084]
h(n)=w(n)2ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3-3)
[0085]
将(3-2)和(3-3)代入(3-1)得(3-4)
[0086][0087]
如图1所示,则短时能量框图短时能量可以看做各个样点值的平方,经过一个冲激响应h(n)的滤波器,输出为时间序列的短时能量。
[0088]
如图2所示,对语音信号进行仿真,对不同的矩形窗长n进行短时平均能量,从图中可以看出n为50、100短时平均能量不够平滑,当n为800时,短时平均能量细节变化过于平滑,而n为400时,短时平均能量曲线合适。
[0089]
其中两级判决中,短时过零率指的是每帧通过零值的次数,在这里不再进行赘述。本技术研究失语症患者的发音信号,属于连续的语音信号,语音信号波形通过时间轴的次数。短时平均过零率在某种程度上可以反映出信号的频谱特征,可以得到频谱特征的简单估计。短时平均过零率的如式(3-5)。
[0090][0091]
其中公式(3-5)中的sgn[
·
]为符号函数,表达式(3-6)所示。
[0092][0093]
w(n)为窗函数,当两个相邻样点产生过零时,根据公式(3-6)可得对应的符号函数相减为2,因此公式(3-7)中除以2n。当两个相邻样点符号相同,没有产生过零。
[0094][0095]
在矩形窗条件下,公式(3-7)可以化简为(3-8)。
[0096][0097]
如图3所示,则短时平均过零率的框架。
[0098]
如图4所示,对语音信号进行平均过零率进行仿真,可以看出清音和浊音的短时过零率的差距是非常大的。
[0099]
如图5所示,两级判决法采用双门限比较法。两级判决中分为第一级判决和第二级判决。
[0100]
第一级判决分为两步。
[0101]
1)根据短时能量的波形选择一个比较高的门限t1,进行粗略的判决。语音的起始点应该位于ab之外。
[0102]
2)根据噪声和短时能量确定一个比较低的门限t2,t2与短时能量的交界点,交界点与过零次数的相交于cd段,cd段就是语音段。
[0103]
第二级判决。
[0104]
以短时平均过零率为准,从d点向右,c点往左搜索,寻到了平均过零率低于门限t3的e、f两点,这是语音段的起点和结束点。噪声和平均过零率确定了门限t3。经过多次实验才能确定t1、t2和t3三个门限。
[0105]
两级判决的算法如下:
[0106]
采集到的失语症患者语音信号x(n)进行分帧处理,每一帧用si(n)表示,其中i是帧数,n是语音信号的时间序列,并且n的取值范围是1到n,n指的是帧长。
[0107]
根据公式(3-4)计算每一帧的短时能量得到(3-9)
[0108][0109]
根据公式(3-8)计算每一帧的过零率得到(3-10)
[0110][0111]
如图6所示,是语音分割的的仿真图。第一判决根据语音的平均能量确定一个高门限t1,代表语音的开始。然后根据噪声确定一个低门限t2,代表语音的结束。第二判决,依据噪声的平均过零率,设置一个门限t3,可以判定语音的清音和尾音。
[0112]
3.1.5失语症患者语料库标注
[0113]
如图7所示,是语料标注存储界面。经过采集处理及切分失语症患者语音之后,语
音标注是语料库构建的最后一步,语音标注每段语音对应的正确顺序文本。训练集和测试集正确的顺序标注,并按照单字、词组、短句和长句分类的方式,标注到文件中,作为训练集的字典。
[0114]
3.2失语症患者语音特征分析
[0115]
3.2.1失语症患者语音特征
[0116]
失语症患者是大脑的左半球受到损伤,削弱了语言表达和理解能力。失语症分类分为运动性、完全性、传导性、感觉性、丘脑性和命名性六种类型。
[0117]
(1)运动性失语症失语症患者可以发音,表现为表达障碍,失语症患者有理解语言的能力。但是患者在说话方面反应迟钝,常伴有结巴、命名上有困难、重复言语、构音和书写上都非常吃力;
[0118]
(2)感觉性失语症在听力正常的情况下,失语症患者不能理解词语的意义,听不懂语言,又被称为错语症;
[0119]
(3)传导性失语症失语症患者在发音、表达言语方面流畅,但是有明显重复言语,因素性错语,也有新语、特殊语言和一些空话;
[0120]
(4)完全性失语症又被称为球性失语症,是最严重的失语,失语症患者不能发音,语言功能受损,表达能力和理解能力完全丧失;
[0121]
(5)命名性失语症失语症患者能正常发音,并且语言流利,但是不能叫出人或者物体的名称;
[0122]
(6)丘脑性失语症语言区相连的后丘脑受损导致的,失语症患者可以回答问题。
[0123]
3.2.2失语症患者语音特征识别难点
[0124]
失语症患者的病情分类复杂,失语症的症状有许多种,虽然已经分为六类,但是每一类的各有特点,进行语音识别时没有针对性,因此本技术只研究失语症患者中的传导性失语和运动性失语,发音口齿不清、发音缓慢、停顿、语音断断续续、发音重复、阻断等特点,语音识别不完整或者识别为重复现象。
[0125]
失语症患者的语音识别准确率,还与患者的发音有关,比如患者发音为方言,所以语音识别患者发音做不到统一,每一个地区的方言不同,发音的习惯也不同,如地区发音的t和q发音不分、l和n不分、声调不同、卷舌和不卷舌。本技术只针对患者发音为普通话的汉语发音。失语症患者进行语音识别时,目前没有公开的失语症患者语料的数据库,因此上述构建了一个微小语料库。
[0126]
3.2.3去除失语症患者重复发音
[0127]
如图8所示,检测框图,本技术研究的失语症指的是传导性失语和运动性失语,本技术研究的失语症不包括先天的学习困难、听力受损、视觉、发音器官受损等引起的语言症状。研究的失语症患者语音包括的是口齿不清、发音缓慢、停顿、语音断断续续、发音重复、阻断等特点。其中对传导性失语症又做了进一步的研究,患者发音又分为连发性、往复性、中阻性、强直性和难发性;连发性和往复性占优很大的比例。针对这个特点提出了检测去除重复发音。检测是否是重复性失语症,可以通过失语症患者与正确的文本,基于hmm模型进行强制对齐,判断是否为重复发音的失语症患者。
[0128]
如图9所示,正常的文本格式,其中a、b、c、d等都代表一个汉字。其中文本中没有描述重复汉字的路径,而且也没有无音段。
[0129]
如果患者的发音与文本不一致,带有不当的重复,可以使用系统对检测到的重复和无音段进行强制对齐,可以使用线性对齐网络系统进行扩展为图10。
[0130]
如图10所示,图中a、b和c代表一个汉字,该网络结构给每一个汉字增加了一个回环结构,同时还可以跳过无音段。比如失语症患者的发音为“早早上好”则通过图10中的强制对齐音节网络处理,检测出“早”字的汉字有重复,则系统会保留一个“早”字,则语音成为“早上好”,之后再进行语音识别。
[0131]
经研究发现,失语症患者重复性发音,不仅仅重复一个汉字,可能会重复一组词,三个汉字或者四个汉字,只能对图10进行改进,得到图11多跨度回环的强制对齐汉字网络。图中a、b、c和d仅代表不同的汉字,改进后的网络可以去除失语症患者发音多个字重复的情况。
[0132]
如图11,利用支路惩罚因子和解码路径技术,滤除重复发音。本技术会在结束位置做出标记,当解码到结束节点时,会依据支路惩罚因子的值,修改对数积累概率,如公式(3-11)表达的是修正后的对数积累概率,s是修正前的概率,p是惩罚因子的值,并且p的取值在0到1之间。
[0133]sp
=s+logp
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3-11)
[0134]
解码路径二次判决,提出了gop算法,假设所有因素出现的先验概率都相等,gop算法对解码置信度核心部分(3-12)做了归一化处理得到(3-13),其中q是因素集,nf(p)是因素语音段o
(p)
的帧数。按照(3-13)计算置信度,进行了二次判决,同时可以降低误检。
[0135]
logp(p|o
(p)
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3-12)
[0136][0137]
3.3小结
[0138]
本技术介绍了语料库构建的基本要求和原则,构建了失语症患者的语音库。首先对失语症患者的发音进行采集,录制和预处理。其次进行语音分割。然后用端点检测的两级判决法进行语音切分,最后对语料进行标注。研究了失语症患者的语音特征,提出了失语症患者语音识别的难点,针对失语症患者中传导性失语类型的特点,运用了多跨度回环的强制对齐汉字网络进行对患者发音去重复处理。
[0139]
目前,本发明的技术方案已经进行了中试,即产品在大规模量产前的较小规模试验;中试完成后,在小范围内开展了用户使用调研,调研结果表明用户满意度较高;现在已开始着手准备产品正式投产进行产业化(包括知识产权风险预警调研)。

技术特征:


1.一种基于语音特征的失语症患者语音识别算法,其特征在于:包括如下步骤:s1构建失语症患者语料库,失语症患者语料库录制,失语症患者语料处理,失语症患者语料库标注,失语症患者语音特征分析,去除失语症患者重复发音,获得失语症患者语料库;s2语音识别,基于上一步骤获得的失语症患者语料库,识别语音。2.根据权利要求1所述的基于语音特征的失语症患者语音识别算法,其特征在于:在步骤s1中,失语症患者语料的录制,在安静在环境下,拿着录音笔对失语症患者的发音进行录制;录音的采样率为16khz,单声道,文件格式是wav格式。3.根据权利要求1所述的基于语音特征的失语症患者语音识别算法,其特征在于:在步骤s1中,录制完成后,统一格式;收集到的语料进行处理,即采集量化预加重、分帧加窗、去噪即语音增强、特征提取的操作,接下来进行语料切分。4.根据权利要求3所述的基于语音特征的失语症患者语音识别算法,其特征在于:在步骤s1中,语料切分是指分为两步,第一步是端点检测,删减掉无音段和噪声,确定起始点和结束点;第二步语音段单字切分,根据端点检测进行分割。5.一种基于语音特征的失语症患者语音识别装置,其特征在于:基于权利要求1的方法,包括如下程序模块,构建失语症患者语料库模块,用于控制器获得失语症患者语料库,处理失语症患者语料,标注失语症患者语料库,分析失语症患者语音特征,去除失语症患者重复发音,获得失语症患者语料库;语音识别模块,用于控制器基于失语症患者语料库,识别语音。6.根据权利要求5所述的基于语音特征的失语症患者语音识别装置,其特征在于:构建失语症患者语料库模块,还用于录音的采样率为16khz,单声道,文件格式是wav格式。7.根据权利要求5所述的基于语音特征的失语症患者语音识别装置,其特征在于:构建失语症患者语料库模块,还用于控制器处理语料,即采集量化预加重、分帧加窗、去噪即语音增强、特征提取的操作,接下来进行语料切分。8.根据权利要求7所述的基于语音特征的失语症患者语音识别装置,其特征在于:构建失语症患者语料库模块,还用于语料切分是指分为两步,第一步是端点检测,删减掉无音段和噪声,确定起始点和结束点;第二步语音段单字切分,根据端点检测进行分割。9.一种基于语音特征的失语症患者语音识别装置,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,其特征在于:所述处理器执行计算机程序时实现权利要求1至4任意一项方法中相应的步骤。10.一种基于语音特征的失语症患者语音识别算法及装置,包括计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至4任意一项方法中相应的步骤。

技术总结


本发明公开了基于语音特征的失语症患者语音识别算法及装置,涉及语音识别技术领域;算法包括S1构建失语症患者语料库,失语症患者语料库录制,失语症患者语料处理,失语症患者语料库标注,失语症患者语音特征分析,去除失语症患者重复发音,获得失语症患者语料库;S2语音识别,基于失语症患者语料库,识别语音;装置包括构建失语症患者语料库模块,用于控制器获得失语症患者语料库,处理失语症患者语料,标注失语症患者语料库,分析失语症患者语音特征,去除失语症患者重复发音,获得失语症患者语料库;语音识别模块,用于控制器基于失语症患者语料库,识别语音;其通过构建失语症患者语料库模块和语音识别模块等,实现语音识别效果较好。果较好。果较好。


技术研发人员:

李月凤 王向 闫慧聪 李金泽

受保护的技术使用者:

河北科技大学

技术研发日:

2022.05.20

技术公布日:

2022/9/2

本文发布于:2024-09-22 09:48:07,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/64746.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:失语症   患者   语料库   语音
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议