一种帕金森语音分类方法及系统、存储介质及终端

1.本发明涉及深度学习的技术领域，特别是涉及一种帕金森语音分类方法及系统、存储介质及终端。

背景技术：

2.帕金森疾病是中老年人的常见病，患者表现为中枢神经系统的器质性损害。嗓音作为人类大脑、神经系统及多种发声器官共同作用的结果，与人的健康状况息息相关，大约90％的帕金森患者会出现语音方面的构音障碍，并且这个构音障碍往往在帕金森患者被确诊之前就会出现。因此，近年来出现了大量基于语音的帕金森诊断的研究。
3.近年来，随着深度学习算法飞速发展，其广泛应用于帕金森病的语音分类。现有技术中建立了许多帕金森病的数据集，如帕金森病分类数据集(pdcd)，其将基频参数、谐波参数、重复周期密度熵(recurrence period density entropy，rpde)、去渲染波动分析(detrended fluctuation analysis，dfa)和基音周期熵(pitch period entropy，ppe)视为基准特征并且设计出可调q因子小波变换(tunable q-factor wavelet transform，twqt)特征。以athanasios tsanas博士为代表，peker采用了基于声音特征和神经网络的方法，准确率达到98.1％。guruler采用了基于聚类加权和复值神经网络的方法，即复值人工神经网络(cvann)，准确率达到99.5％。然而，由于每个受试者在数据集中有多个重复的语音记录，这些方法会导致实验结果的偏差。使用层叠波尔兹曼机组成深度神经网络的方法被称为深度信念网络，该网络常用于对于低维度上难以分离的数据进行分类。16年提出的应用于帕金森语音分类的深度信念网络同样也达到了较好效果。19年yunus korkmaz提出了基于遗传算法的元音分类，该数据集还是在小数据集上达到了接近100％的准确率。然而，虽然有许多基于元音的帕金森语音分类问题方面的研究，但是这些研究所基于的数据集，往往样本量很小。所得的实验结果很容易在小数据集上出现过拟合的现象，从而在实际情况下不能很好地发挥作用。

技术实现要素：

4.鉴于以上所述现有技术的缺点，本发明的目的在于提供一种帕金森语音分类方法及系统、存储介质及终端，基于共振峰聚类和mel频率倒谱系数(mel frequency cepstrum coefficient，mfcc)特征图，通过深度学习实现帕金森语音分类，准确度高，实用性强。
5.为实现上述目的及其他相关目的，本发明提供一种帕金森语音分类方法，包括以下步骤：获取语音信号对应的mfcc，并基于所述mfcc构建mfcc特征图；对所述mfcc特征图进行共振峰特征判定；对所述共振峰特征判定结果进行深度学习，获取所述语音信号的帕金森语音分类结果。
6.于本发明一实施例中，基于所述mfcc构建mfcc特征图包括以下步骤：
7.将所述mfcc的14个特征值在所述语音信号各时间点上的均值在二维坐标轴上进行描点，并用平滑曲线连接；
8.将所述mfcc的14个特征值在所述语音信号各时间点上的标准差在所述二维坐标轴上进行描点，并用平滑曲线连接。
9.于本发明一实施例中，所述mfcc的14个特征包括log_energy参数和0阶到12阶系数。
10.于本发明一实施例中，对所述mfcc特征图进行共振峰特征判定包括以下步骤：
11.获取共振峰参数；
12.基于所述共振峰参数对所述mfcc特征图进行共振峰特征判定。
13.于本发明一实施例中，获取共振峰参数包括以下步骤：
14.提取公有语音数据集中的三个共振峰及对应的三个带宽；
15.将所述三个共振峰的语音参数分别视为rgb三个通道的值，并将所述语音参数转换为rgb图像；
16.将所述三个共振峰对应的带宽分别视为空间直角坐标系中x轴、y轴和z轴上的深度信息；
17.将所述rgb图像按照rgb三个通道进行分离，以使每个像素点上携带有三个带宽对应的深度信息；
18.对所述像素点进行密度聚类，获取共振峰参数。
19.于本发明一实施例中，所述公有语音数据集采用帕金森病分类数据集。
20.于本发明一实施例中，对所述共振峰特征判定结果进行深度学习时，采用resnet神经网络，并添加有注意力模块和特征融合模块。
21.对应地，本发明提供一种帕金森语音分类系统，包括构建模块、判定模块和分类模块；
22.所述构建模块用于获取语音信号对应的mfcc，并基于所述mfcc构建mfcc特征图；
23.所述判定模块用于对所述mfcc特征图进行共振峰特征判定；
24.所述分类模块用于对所述共振峰特征判定结果进行深度学习，获取所述语音信号的帕金森语音分类结果。
25.本发明提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的帕金森语音分类方法。
26.本发明提供一种终端，包括：处理器及存储器；
27.所述存储器用于存储计算机程序；
28.所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行上述的帕金森语音分类方法。
29.如上所述，本发明的帕金森语音分类方法及系统、存储介质及终端，具有以下有益效果：
30.(1)基于共振峰聚类和mfcc特征图，通过深度学习实现帕金森语音分类，准确度高；
31.(2)只基于语音参数进行帕金森疾病分析，有效地保护了病人的隐私，且操作简单方便快捷；
32.(3)基于声音特征的帕金森语音分类模型非常符合联邦学习的应用场景，在一定程度上解决了数据不足的问题，有助于对帕金森病的筛查和早期诊断。
附图说明
33.图1显示为本发明的帕金森语音分类方法于一实施例中的流程图；
34.图2显示为本发明的mfcc特征图于一实施例中的示意图；
35.图3显示为本发明的共振峰参数于一实施例中的示意图；
36.图4显示为本发明的帕金森语音分类系统于一实施例中的结构示意图；
37.图5显示为本发明的终端于一实施例中的结构示意图。
38.元件标号说明
39.41
ꢀꢀꢀꢀ
构建模块
40.42
ꢀꢀꢀꢀ
判定模块
41.43
ꢀꢀꢀꢀ
分类模块
42.51
ꢀꢀꢀꢀ
处理器
43.52
ꢀꢀꢀꢀ
存储器
具体实施方式
44.以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。
45.需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。
46.共振峰是语音的一种频域特征，是一种非常重要的语音参数。利用已知的共振峰参数，能够实现区分不同的韵母、识别男女声、区分不同的方言口音、模拟声道条件等等功能。同样，基于人的听觉特性设计的mel频率倒谱系数(mel frequency cepstrum coefficient，mfcc)也是一个重要的用于分类的语音特征。mel频率是基于人耳听觉特性提出来的，与hz频率成非线性对应关系。mfcc则是利用这种非线性对应关系计算得到的hz频谱特征。
47.本发明的帕金森语音分类方法及系统、存储介质及终端通过采集mfcc特征图、共振峰聚类和深度学习等技术手段来实现帕金森语音的准确分类，快速高效，为帕金森病的诊断和早期提供了信息支持，极具实用性。
48.如图1所示，于一实施例中，本发明的帕金森语音分类方法包括以下步骤：
49.步骤s1、获取语音信号对应的mfcc，并基于所述mfcc构建mfcc特征图。
50.如图2所示，基于所述mfcc构建mfcc特征图包括以下步骤：
51.11)将所述mfcc的14个特征值在所述语音信号各时间点上的均值在二维坐标轴上进行描点，并用平滑曲线连接。
52.具体地，所述mfcc共有14个特征，包括log_energy参数和0阶到12阶系数c0～c12。将上述14个特征在所述整个语音信号上按时间顺序取均值，并将所述均值在二维坐标轴上
进行描点，并用平滑曲线连接。
53.12)将所述mfcc的14个特征值在所述语音信号各时间点上的标准差在所述二维坐标轴上进行描点，并用平滑曲线连接。
54.具体地，将所述mfcc的14个特征在所述整个语音信号上按时间顺序取标准差，并将所述标准差在二维坐标轴上进行描点，并用平滑曲线连接，从而得到所述mfcc特征图。
55.步骤s2、对所述mfcc特征图进行共振峰特征判定。
56.具体地，对所述mfcc特征图进行共振峰特征判定包括以下步骤：
57.21)获取共振峰参数。
58.在本发明中，基于公有语音数据集来获取所述共振峰参数，以作为共振峰特征判定的标准。其中，所述公有语音数据集采用帕金森病分类数据集。
59.具体地，获取共振峰参数包括以下步骤：
60.a、提取公有语音数据集中的三个共振峰(f1、f2和f3)及对应的三个带宽(b1、b2和b3)。
61.b、将所述三个共振峰的语音参数分别视为rgb三个通道的值，并将所述语音参数转换为rgb图像。
62.c、将所述三个共振峰对应的带宽(b1、b2和b3)分别视为空间直角坐标系中x轴、y轴和z轴上的深度信息。
63.d、如图3所示，将所述rgb图像按照rgb三个通道进行分离，以使每个像素点上携带有三个带宽(b1、b2和b3)对应的深度信息。
64.e、对所述像素点进行密度聚类，获取共振峰参数，以作为后续共振峰特征的判断依据。
65.具体地，聚类是通过数据进行数学建模简化数据的一种方法。本发明采用串联融合了f1、f2、f3、b1、b2、b3六维共振峰信息的节点，认为节点之间是条件独立的。
66.对所述像素点进行密度聚类具体包括以下步骤：
67.首先，构造六维共振峰信息的节点的相似矩阵。相似矩阵由节点之间的相似度构造，相似度为与节点间距离变化成反比的一个度量，此处选择距离的倒数来计算节点之间的相似度其中d
i,j
为节点i与节点j之间的距离。
68.接着，利用拉普拉斯矩阵的特性，在对拉普拉斯矩阵进行标准化之后做一个特征值分解，出它的最小特征值。拉普拉斯矩阵的每一行作为一个点的特征l
rw
＝d-1
l＝i-d-1
w。其中，d＝diag(d1,d2,d3,...,dn)，di为与节点i有连接的点所有权重之和，i从1到n依次放在对角线上。l为加入权重前的拉普拉斯矩阵，w为第一步中得到的相似值组成的相似矩阵，点之间越相似，则w矩阵中的值越大。i为单位矩阵。
69.然后，进行一个k-medoids(k中值)聚类。最小化构造的畸变测量其中xn为每一个随机采样点，μk为每一轮在这些采样点中选择的第k类的采样点的样本中心，v(xn,μk)为选择的距离度量方法，常用的距离度量方法有欧式距离、曼哈顿距离、切比雪夫距离、明考夫斯基距离等。本发明采用的是欧式距离。从样本点中随机抽取样本聚类中心，一定程度上减轻了干扰，有利于构建模型的鲁棒性。
70.最后，聚类结果最终再经过一个基于密度的epsoiln-neighborhood(密度空间)的聚类。
71.22)基于所述共振峰参数对所述mfcc特征图进行共振峰特征判定。
72.具体地，将所述mfcc特征图输入本发明的第一级网络中，根据所述共振峰参数即可得到对应的共振峰特征判定结果。
73.步骤s3、对所述共振峰特征判定结果进行深度学习，获取所述语音信号的帕金森语音分类结果。
74.具体地，将所述共振峰特征判定结果输入本发明的第二级网络进行深度学习，来获取所述语音信号的帕金森语音分类结果。其中，对所述共振峰特征判定结果进行深度学习时，采用resnet神经网络，并且实现了resblk的内部密集连接，通过添加注意力模块(arm)的注意机制和特征融合模块ffm有效地提高了模块的性能。arm模块和ffm模块都是基于bisenet中注意模块的网络结构。
75.具体地，所述深度学习的输出是待分类目标出现的概率，采用softmax归一化函数进行目标分类。通过近似求取加权平均的方法计算目标在各类中出现的概率，可表示为其中，p0和p1分别是检测出的属于健康人和帕金森病人的概率。假设隐藏层l输出是k维矩阵，是l层得到的k维矩阵第1个分量，是l层得到的k维矩阵第2个分量。最后，根据p0和p1的值的大小进行预测健康与帕金森病人的分类。将得到的结果与真实标签进行对比，得到最终正确率。表1为采用pdcd数据集构造的mfcc特征图使用不同方法的结果比对。
76.表1、不同方法下采用pdcd数据集构造的mfcc特征图的结果
[0077][0078]
其中，pre-trained表示直接使用下载的预训练参数进行微调，fine-tuned表示由使用1000类的imagenet12的原始图像数据训练得到的网络参数中进行微调。cropped表示只采用本发明中使用到的mfcc系数进行算法分类，未加cropped表示使用jabardi m h,al-fatlawi a h,ling s h.efficient diagnosis system for parkinson's disease using deep belief network[c]//evolutionary computation.ieee,2016和korkmaz y,boyac1,tuncer,t
ü
rker.turkish vowel classification based on acoustical and decompositionalfeatures optimized by genetic algorithm[j].applied acoustics,2019,154:28-35中的参数方法进行分类。
[0079]
结果表明，随着网络层数的增加，分类效果并不是越来越好，本发明采用的就是resnet18作为第二级神经网络的基本结构。另外，在有限数据的条件下，本发明由于使用了公开的语音共振峰数据进行聚类特征的构建，扩展了样本量，增强了泛化能力，采用的模型效果远远优于其他算法。
[0080]
因此，本发明的帕金森语音分类方法将构建的mfcc特征图作为分类神经网络的输入，通过基于土耳其语标准声学和感知参数数据库构建了共振峰偏最小二乘聚类空间特征判断指标，并且在加入了注意力机制的密集链接的resnet网络中加入了门结构，通过先验聚类将分类分为两个步骤，分类的结果与语谱图特征分类的结果进行对比，验证了该特征的有效性。与其他的流行的神经网络分类模型如遗传算法、深度信念网络等的分类效果进行对照，本发明的分类模型优于其他模型。由于pdcd数据集只含有语音参数而不含有原始语音样本，这给构建语谱图，分析语音共振峰带来了困难。但是通过实验验证可以发现，通过获取固定的语音参数已经能够获得足够的用于帕金森病理分析的信息，这不仅为大样本数据存储带来了方便，还保护了患者隐私，防止了患者声音数据等泄露，从而通过抽取使用者的声音特征，可以帮助初级医疗机构和普通使用者在日常工作中开展pd的筛查和早期诊断。
[0081]
另外，帕金森语音分类网络在获取到新数据集的基础上，经过特征对齐，还可以进行进一步的数据扩充，有助于模型的进一步优化。基于已有的语音学知识可知，即使是来自不同国家、不同民族、不同年龄、不同性别的人的声音分布都具有很多相似的特征。因此，几乎不存在特征分布倾斜的情况。并且对于这些声音分布的标签也不存在倾斜，因为只要被收集人的收集设备没有出现问题，被收集人能够发出声音，就可以轻松地获取语音信号。并且语音信号的采样和压缩已经是一个标准化的过程，只要知道采样频率等信息，从不同设备收集来的信息都是对称的，不存在无法对齐的情况。此外，元音还具有泛化能力强，没有歧义，在相同标签下一定具有相同的含义等等优点。并且，通过有效地选取语音特征，基本不存在获得特征完全相同，然而标签却不同的情况。如果进一步扩展应用场景，在知情和自愿的前提下，普通用户将通过手机、平板电脑、电脑等终端采集语音信号，待终端空闲时上传到，再由上传到云端。云端进行数据分析计算，将结果传送到终端，或直接将模型发送回终端，终端进行计算，直接获得风险预测或其他类型任务的结果。
[0082]
如图4所示，于一实施例中，本发明的帕金森语音分类系统包括构建模块41、判定模块42和分类模块43。
[0083]
所述构建模块41用于获取语音信号对应的mfcc，并基于所述mfcc构建mfcc特征图。
[0084]
所述判定模块42与所述构建模块41相连，用于对所述mfcc特征图进行共振峰特征判定。
[0085]
所述分类模块43与所述判定模块42相连，用于对所述共振峰特征判定结果进行深度学习，获取所述语音信号的帕金森语音分类结果。
[0086]
其中，构建模块41、判定模块42和分类模块43的结构和原理与上述帕金森语音分类方法中的步骤一一对应，故在此不再赘述。
[0087]
需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现，也可以全部以硬件的形式实现，还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如：x模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现。此外，x模块也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以
上x模块的功能。其它模块的实现与之类似。这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(application specific integrated circuit，简称asic)，一个或多个微处理器(digital singnal processor，简称dsp)，一个或者多个现场可编程门阵列(field programmable gate array，简称fpga)等。当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，如中央处理器(central processing unit，简称cpu)或其它可以调用程序代码的处理器。这些模块可以集成在一起，以片上系统(system-on-a-chip，简称soc)的形式实现。
[0088]
本发明的存储介质上存储有计算机程序，该程序被处理器执行时实现上述的帕金森语音分类方法。优选地，所述存储介质包括：rom、ram、磁碟、u盘、存储卡或者光盘等各种可以存储程序代码的介质。
[0089]
如图5所示，于一实施例中，本发明的终端包括：处理器51和存储器52。
[0090]
所述存储器52用于存储计算机程序。
[0091]
所述存储器52包括：rom、ram、磁碟、u盘、存储卡或者光盘等各种可以存储程序代码的介质。
[0092]
所述处理器51与所述存储器52相连，用于执行所述存储器52存储的计算机程序，以使所述终端执行上述的帕金森语音分类方法。
[0093]
优选地，所述处理器51可以是通用处理器，包括中央处理器(central processing unit，简称cpu)、网络处理器(network processor，简称np)等；还可以是数字信号处理器(digital signal processor，简称dsp)、专用集成电路(application specific integrated circuit，简称asic)、现场可编程门阵列(field programmable gate array，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0094]
综上所述，本发明的帕金森语音分类方法及系统、存储介质及终端基于共振峰聚类和mfcc特征图，通过深度学习实现帕金森语音分类，准确度高；只基于语音参数进行帕金森疾病分析，有效地保护了病人的隐私，且操作简单方便快捷；基于声音特征的帕金森语音分类模型非常符合联邦学习的应用场景，在一定程度上解决了数据不足的问题，有助于对帕金森病的筛查和早期诊断。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
[0095]
上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

技术特征：

1.一种帕金森语音分类方法，其特征在于：包括以下步骤：获取语音信号对应的mfcc，并基于所述mfcc构建mfcc特征图；对所述mfcc特征图进行共振峰特征判定；对所述共振峰特征判定结果进行深度学习，获取所述语音信号的帕金森语音分类结果。2.根据权利要求1所述的帕金森语音分类方法，其特征在于：基于所述mfcc构建mfcc特征图包括以下步骤：将所述mfcc的14个特征值在所述语音信号各时间点上的均值在二维坐标轴上进行描点，并用平滑曲线连接；将所述mfcc的14个特征值在所述语音信号各时间点上的标准差在所述二维坐标轴上进行描点，并用平滑曲线连接。3.根据权利要求2所述的帕金森语音分类方法，其特征在于：所述mfcc的14个特征包括log_energy参数和0阶到12阶系数。4.根据权利要求1所述的帕金森语音分类方法，其特征在于：对所述mfcc特征图进行共振峰特征判定包括以下步骤：获取共振峰参数；基于所述共振峰参数对所述mfcc特征图进行共振峰特征判定。5.根据权利要求1所述的帕金森语音分类方法，其特征在于：获取共振峰参数包括以下步骤：提取公有语音数据集中的三个共振峰及对应的三个带宽；将所述三个共振峰的语音参数分别视为rgb三个通道的值，并将所述语音参数转换为rgb图像；将所述三个共振峰对应的带宽分别视为空间直角坐标系中x轴、y轴和z轴上的深度信息；将所述rgb图像按照rgb三个通道进行分离，以使每个像素点上携带有三个带宽对应的深度信息；对所述像素点进行密度聚类，获取共振峰参数。6.根据权利要求1所述的帕金森语音分类方法，其特征在于：所述公有语音数据集采用帕金森病分类数据集。7.根据权利要求1所述的帕金森语音分类方法，其特征在于：对所述共振峰特征判定结果进行深度学习时，采用resnet神经网络，并添加有注意力模块和特征融合模块。8.一种帕金森语音分类系统，其特征在于：包括构建模块、判定模块和分类模块；所述构建模块用于获取语音信号对应的mfcc，并基于所述mfcc构建mfcc特征图；所述判定模块用于对所述mfcc特征图进行共振峰特征判定；所述分类模块用于对所述共振峰特征判定结果进行深度学习，获取所述语音信号的帕金森语音分类结果。9.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至7中任一项所述的帕金森语音分类方法。10.一种终端，其特征在于，包括：处理器及存储器；
所述存储器用于存储计算机程序；所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行权利要求1至7中任一项所述的帕金森语音分类方法。

技术总结

本发明提供一种帕金森语音分类方法及系统、存储介质及终端，包括以下步骤：获取语音信号对应的MFCC，并基于所述MFCC构建MFCC特征图；对所述MFCC特征图进行共振峰特征判定；对所述共振峰特征判定结果进行深度学习，获取所述语音信号的帕金森语音分类结果。本发明的帕金森语音分类方法及系统、存储介质及终端基于共振峰聚类和MFCC特征图，通过深度学习实现帕金森语音分类，准确度高，实用性强。实用性强。实用性强。