基于PSO动态搜索分类网络的帕金森语音识别方法及装置

基于pso动态搜索分类网络的帕金森语音识别方法及装置
技术领域
1.本发明是一种基于pso(粒子优化算法)动态搜索分类网络结构的帕金森语音识别方法，涉及智慧医疗技术。

背景技术：

2.帕金森氏症是一种神经系统疾病，由大脑中产生多巴胺的细胞丧失引起，从而损害大脑功能。随着患者病情的加重，大脑和身体不同部位的协调会出现问题。近90％的帕金森氏症患者在早期就表现出发声障碍的症状，而且，帕金森病患者的语音信号与正常人相比有很大的差异和变化。因此，语音信号被用来辅助诊断帕金森。目前，帕金森语音分类常见的方法有支持向量机、随机森林、多层感知机、神经网络等等。
3.上述方法在针对某一类语音信号的帕金森分类上取得了较大进展，但是，这些方法大都是根据某一类语音信号提取语音信号常见特征，针对性的设置分类器，方法并不具备普适性。

技术实现要素：

4.本发明所需要解决的问题在于不同语言、不同内容的语音信号给帕金森语音识别带来的困难，本发明提供一种基于pso动态搜索分类网络结构的帕金森语音识别方法。
5.技术方案：为解决上述技术问题，本发明采用的技术方案为：
6.第一方面，提供一种帕金森语音识别方法，包括：
7.步骤(1)、获取帕金森患者的语音数据；
8.步骤(2)、对获取的语音数据进行剪辑处理，得到剪辑后的语音数据；
9.步骤(3)、对剪辑后的语音数据提取语音特征，得到语音特征数据集；
10.步骤(4)、通过预设的动态搜索分类网络的参数，随机初始化生成分类网络粒子；
11.步骤(5)、利用语音特征数据集对分类网络粒子进行迭代训练、更新，得到训练更新好的动态搜索分类网络模型；
12.步骤(6)、将待识别的语音特征数据输入训练更新好的动态搜索分类网络模型，根据所述动态搜索分类网络模型的输出，确定帕金森语音识别结果。
13.在一些实施例中，所述步骤(1)，获取帕金森患者的语音数据，包括：
14.所述帕金森患者的语音数据，包括伦敦国王学院早期和晚期帕金森患者 (mdvr-kcl)语音数据集、健康对照者的语音数据集和/或意大利帕金森语音数据集；
15.其中所述mdvr-kcl早期和晚期帕金森患者和健康对照者的语音数据集语言为英语，内容为两段文本的朗读语音；
16.其中所述意大利帕金森语音数据集内容为单音节发音数据，包括
‘a’‘i’‘e’‘o’‘u’‘
ta
’‘
pa’音节的重复发音。
17.在一些实施例中，所述步骤(2)中，对获取的语音数据进行剪辑处理，包括：
18.对于mdvr-kcl早期和晚期帕金森患者和健康对照者的语音数据集，按照朗读文本的断句进行剪辑，同时剔除停顿的空白语音片段；
19.对于意大利帕金森语音数据集，剪辑每个音节发音片段，剔除暂停过程中的空白语音片段。
20.在一些实施例中，步骤(3)，对剪辑后的语音数据提取语音特征，得到语音特征数据集，包括：
21.所述语音特征数据集中包括26个语音基本特征、梅尔倒谱系数特征和13 个全局特征：
22.使用praat声学分析软件从每个语音信号中提取一组26个语音基本特征；
23.基于短时傅里叶变换，使用梅尔滤波器组提取语音信号的梅尔倒谱系数特征；
24.对于语音信号，提取包括平均值、中位数、均方根、平方、最大值、最小值、第一和第三个四分位数、四分位数范围、标准差、偏度和峰度13个全局特征。
25.在一些实施例中，步骤(4)，通过预设的动态搜索分类网络的参数，随机初始化生成分类网络粒子，包括：初始化种大小为20，迭代次数为10，分类网络层数范围为[3,10]，对于分类网络要求第一层必须是卷积层，最后一层必须是完全连接层，随机初始化分类网络粒子中每个分类网络的结构，分类网络粒子训练时，主循环次数为10。
[0026]
在一些实施例中，步骤(5)、利用语音特征数据集对分类网络粒子进行迭代训练、更新，得到训练更新好的动态搜索分类网络模型；
[0027]
利用语音特征数据集对每一代分类网络粒子中的分类网络进行训练，得到各个粒子的适应度函数值；根据各个粒子的适应度函数值更新分类网络粒子，循环迭代执行该步骤直至满足迭代停止条件，得到一个最优分类网络，作为动态搜索分类网络模型。
[0028]
进一步地，利用语音特征数据集对每一代分类网络粒子中的分类网络进行训练，得到各个粒子的适应度函数值，包括：
[0029]
使用所述语音特征数据集分别训练分类网络粒子中的各个分类网络，计算损失函数，并利用损失函数对分类网络粒子进行评估得到各个粒子的适应度函数值，根据各个粒子的适应度函数值与全局最佳分类网络和当前粒子最佳分类网络的适应度函数值比较的结果，更新全局最佳分类网络和当前粒子最佳分类网络，根据全局最佳分类网络和当前粒子最佳分类网络更新分类网络粒子。
[0030]
在一些实施例中，其中分类网络更新的方法包括：通过比较网络结构之间的差异，计算当前粒子的速度v，按照下面的公式更新分类网络结构：
[0031]
vi＝vi+c1×
rand()
×
(pbest
i-xi)+c2×
rand()
×
(gbest
i-xi)
[0032]
xi＝xi+vi[0033]
其中，gbesti是全局最佳分类网络，pbesti是当前粒子最佳分类网络，i＝1,2,
…
, n是该组中的粒子总数，vi是粒子的速度，xi是粒子的当前位置，c1和c2是学习因子，而rand()是(0，1)之间的随机数。
[0034]
第二方面，本发明提供了一种帕金森语音识别装置，包括处理器及存储介质；
[0035]
所述存储介质用于存储指令；
[0036]
所述处理器用于根据所述指令进行操作以执行根据第一方面所述方法的步骤。
[0037]
第三方面，本发明提供了一种存储介质，其上存储有计算机程序，所述计算机程序
被处理器执行时实现第一方面所述方法的步骤。
[0038]
本发明所达到的有益效果：
[0039]
本发明提出一种基于pso(粒子优化算法)动态搜索分类网络结构的帕金森语音识别方法。使用不同语言不同内容的公共数据集，从语音源文件中提取一套用于帕金森氏症语音识别的关键特征组合，构建语音特征数据集。基于粒子优化算法自动构建分类网络，针对不同的语音构建不同的分类网络，解决因语言不同而需要手动设计分类网络的困难，实现动态搜索分类网络进行帕金森语音识别。
附图说明
[0040]
图1是本发明实施例方法的流程图；
[0041]
图2是本发明实施例中基于pso动态搜索分类网络结构的细节图；
[0042]
图3是实施例针对意大利帕金森语音数据集所得最优分类网络结构图；
[0043]
图4是实施例针对mdvr-kcl早期和晚期帕金森患者和健康对照者的语音数据集所得最优分类网络结构图。
具体实施方式
[0044]
下面结合附图和实施例对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。
[0045]
在本发明的描述中，若干的含义是一个以上，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
[0046]
本发明的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0047]
实施例1
[0048]
一种基于pso动态搜索分类网络的帕金森语音识别方法，包括：
[0049]
步骤(1)、获取帕金森患者的语音数据；
[0050]
步骤(2)、对获取的语音数据进行剪辑处理，得到剪辑后的语音数据；
[0051]
步骤(3)、对剪辑后的语音数据提取语音特征，得到语音特征数据集；
[0052]
步骤(4)、通过预设的动态搜索分类网络的参数，随机初始化生成分类网络粒子；
[0053]
步骤(5)、利用语音特征数据集对分类网络粒子进行迭代训练、更新，得到训练更新好的动态搜索分类网络模型；
[0054]
步骤(6)、将待识别的语音特征数据输入训练更新好的动态搜索分类网络模型，根据所述动态搜索分类网络模型的输出，确定帕金森语音识别结果。
[0055]
在一些实施例中，所述步骤(1)，获取帕金森患者的语音数据，包括：
[0056]
所述帕金森患者的语音数据，包括伦敦国王学院早晚期帕金森病患者语音数据集(mdvr-kcl，mobile device voice recordings at king's college london) 和健康对照者的语音数据集和/或意大利帕金森语音数据集；
[0057]
其中所述mdvr-kcl早期和晚期帕金森患者语音数据集和健康对照者的语音数据集语言为英语，内容为两段文本的朗读语音；
[0058]
其中所述意大利帕金森语音数据集内容为单音节发音数据，包括
‘a’‘i’‘e’‘o’‘u’‘
ta
’‘
pa’音节的重复发音。
[0059]
在一些实施例中，所述步骤(2)中，对获取的语音数据进行剪辑处理，包括：
[0060]
对于mdvr-kcl早期和晚期帕金森患者和健康对照者的语音数据集，按照朗读文本的断句进行剪辑，同时剔除停顿的空白语音片段；
[0061]
对于意大利帕金森语音数据集，剪辑每个音节发音片段，剔除暂停过程中的空白语音片段。
[0062]
在一些实施例中，步骤(3)，对剪辑后的语音数据提取语音特征，得到语音特征数据集，包括：
[0063]
所述语音特征数据集中包括26个语音基本特征、梅尔倒谱系数特征和13 个全局特征：
[0064]
使用praat声学分析软件从每个语音信号中提取一组26个语音基本特征；
[0065]
基于短时傅里叶变换，使用梅尔滤波器组提取语音信号的梅尔倒谱系数特征；
[0066]
对于语音信号，提取包括平均值、中位数、均方根、平方、最大值、最小值、第一和第三个四分位数、四分位数范围、标准差、偏度和峰度13个全局特征。
[0067]
在一些实施例中，步骤(4)，通过预设的动态搜索分类网络的参数，随机初始化生成分类网络粒子，包括：初始化种大小为20，迭代次数为10，分类网络层数范围为[3,10]，对于分类网络要求第一层必须是卷积层，最后一层必须是完全连接层，随机初始化分类网络粒子中每个分类网络的结构，分类网络粒子训练时，主循环次数为10。
[0068]
在一些实施例中，步骤(5)、利用语音特征数据集对分类网络粒子进行迭代训练、更新，得到训练更新好的动态搜索分类网络模型；
[0069]
利用语音特征数据集对每一代分类网络粒子中的分类网络进行训练，得到各个粒子的适应度函数值；根据各个粒子的适应度函数值更新分类网络粒子，循环迭代执行该步骤直至满足迭代停止条件，得到一个最优分类网络，作为动态搜索分类网络模型。
[0070]
进一步地，利用语音特征数据集对每一代分类网络粒子中的分类网络进行训练，得到各个粒子的适应度函数值，包括：
[0071]
使用所述语音特征数据集分别训练分类网络粒子中的各个分类网络，计算损失函数，并利用损失函数对分类网络粒子进行评估得到各个粒子的适应度函数值，根据各个粒子的适应度函数值与全局最佳分类网络和当前粒子最佳分类网络的适应度函数值比较的结果，更新全局最佳分类网络和当前粒子最佳分类网络，根据全局最佳分类网络和当前粒子最佳分类网络更新分类网络粒子。
[0072]
在一些实施例中，其中分类网络更新的方法包括：通过比较网络结构之间的差异，计算当前粒子的速度v，按照下面的公式更新分类网络结构：
[0073]
vi＝vi+c1×
rand()
×
(pbest
i-xi)+c2×
rand()
×
(gbest
i-xi)
[0074]
xi＝xi+vi[0075]
其中，gbesti是全局最佳分类网络，pbesti是当前粒子最佳分类网络，i＝1,2,
…
, n是该组中的粒子总数，vi是粒子的速度，xi是粒子的当前位置，c1和c2是学习因子，而rand()是(0，1)之间的随机数。
[0076]
本实施例中根据各个粒子的适应度函数值更新分类网络粒子的pbest和 gbest，根据pbest和gbest更新分类网络，通过不断训练更新直至寻到对应语音特征数据集的最优的分类网络，针对不同的语音数据集到各自最优的分类网络用于帕金森识别，最终得到的分类网络结构图如图3和图4所示。
[0077]
在一些实施例中，基于上述最优分类网络，使用上述语音特征数据集中另一部分数据作为验证集进行帕金森识别。
[0078]
实施例2
[0079]
第二方面，本实施例提供了一种帕金森语音识别装置，包括处理器及存储介质；
[0080]
所述存储介质用于存储指令；
[0081]
所述处理器用于根据所述指令进行操作以执行根据实施例1所述方法的步骤。
[0082]
实施例3
[0083]
第三方面，本实施例提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现实施例1所述方法的步骤。
[0084]
本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0085]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/ 或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0086]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0087]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0088]
以上所述仅是本发明的实施示例，但并不限于上述的实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进
和变形，这些改进和变形也应视为本发明的保护范围。

技术特征：

1.一种帕金森语音识别方法，其特征在于，包括：步骤(1)、获取帕金森患者的语音数据；步骤(2)、对获取的语音数据进行剪辑处理，得到剪辑后的语音数据；步骤(3)、对剪辑后的语音数据提取语音特征，得到语音特征数据集；步骤(4)、通过预设的动态搜索分类网络的参数，随机初始化生成分类网络粒子；步骤(5)、利用语音特征数据集对分类网络粒子进行迭代训练、更新，得到训练更新好的动态搜索分类网络模型；步骤(6)、将待识别的语音特征数据输入训练更新好的动态搜索分类网络模型，根据所述动态搜索分类网络模型的输出，确定帕金森语音识别结果。2.根据权利要求1所述的帕金森语音识别方法，其特征在于，获取帕金森患者的语音数据，包括：所述帕金森患者的语音数据，包括伦敦国王学院mdvr-kcl早期和晚期帕金森患者语音数据集、健康对照者的语音数据集和/或意大利帕金森语音数据集；其中所述mdvr-kcl早期和晚期帕金森患者语音数据集、健康对照者的语音数据集语言为英语，内容为两段文本的朗读语音；其中所述意大利帕金森语音数据集内容为单音节发音数据，包括
‘
a
’‘
i
’‘
e
’‘
o
’‘
u
’‘
ta
’‘
pa’音节的重复发音。3.根据权利要求1所述的帕金森语音识别方法，其特征在于，对获取的语音数据进行剪辑处理，包括：对于mdvr-kcl早期和晚期帕金森患者和健康对照者的语音数据集，按照朗读文本的断句进行剪辑，同时剔除停顿的空白语音片段；对于意大利帕金森语音数据集，剪辑每个音节发音片段，剔除暂停过程中的空白语音片段。4.根据权利要求1所述的帕金森语音识别方法，其特征在于，对剪辑后的语音数据提取语音特征，得到语音特征数据集，包括：所述语音特征数据集中包括26个语音基本特征、梅尔倒谱系数特征和13个全局特征：使用praat声学分析软件从每个语音信号中提取一组26个语音基本特征；基于短时傅里叶变换，使用梅尔滤波器组提取语音信号的梅尔倒谱系数特征；对于语音信号，提取包括平均值、中位数、均方根、平方、最大值、最小值、第一和第三个四分位数、四分位数范围、标准差、偏度和峰度13个全局特征。5.根据权利要求1所述的帕金森语音识别方法，其特征在于，通过预设的动态搜索分类网络的参数，随机初始化生成分类网络粒子，包括：初始化种大小为20，迭代次数为10，分类网络层数范围为[3,10]，对于分类网络要求第一层必须是卷积层，最后一层必须是完全连接层，随机初始化分类网络粒子中每个分类网络的结构，分类网络粒子训练时，主循环次数为10。6.根据权利要求1所述的帕金森语音识别方法，其特征在于，步骤(5)、利用语音特征数据集对分类网络粒子进行迭代训练、更新，得到训练更新好的动态搜索分类网络模型；利用语音特征数据集对每一代分类网络粒子中的分类网络进行训练，得到各个粒子的适应度函数值；根据各个粒子的适应度函数值更新分类网络粒子，循环迭代执行该步
骤直至满足迭代停止条件，得到一个最优分类网络，作为动态搜索分类网络模型。7.根据权利要求6所述的帕金森语音识别方法，其特征在于，利用语音特征数据集对每一代分类网络粒子中的分类网络进行训练，得到各个粒子的适应度函数值，根据各个粒子的适应度函数值更新分类网络粒子，包括：使用所述语音特征数据集分别训练分类网络粒子中的各个分类网络，计算损失函数，并利用损失函数对分类网络粒子进行评估得到各个粒子的适应度函数值，根据各个粒子的适应度函数值与全局最佳分类网络和当前粒子最佳分类网络的适应度函数值比较的结果，更新全局最佳分类网络和当前粒子最佳分类网络，根据全局最佳分类网络和当前粒子最佳分类网络更新分类网络粒子。8.根据权利要求7所述的帕金森语音识别方法，其特征在于，其中分类网络更新的方法包括：通过比较网络结构之间的差异，计算当前粒子的速度v，按照下面的公式更新分类网络结构：v
i
＝v
i
+c1×
rand()
×
(pbest
i-x
i
)+c2×
rand()
×
(gbest
i-x
i
)x
i
＝x
i
+v
i
其中，gbest
i
是全局最佳分类网络，pbest
i
是当前粒子最佳分类网络，i＝1,2,
…
,n是该组中的粒子总数，v
i
是粒子的速度，x
i
是粒子的当前位置，c1和c2是学习因子，而rand()是(0，1)之间的随机数。9.一种帕金森语音识别装置，其特征在于，包括处理器及存储介质；所述存储介质用于存储指令；所述处理器用于根据所述指令进行操作以执行根据权利要求1至8任一项所述方法的步骤。10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。

技术总结

本发明公开了一种基于PSO动态搜索分类网络的帕金森语音识别方法及装置，方法包括：获取帕金森患者的语音数据，对语音数据进行剪辑，从剪辑好的语音数据中提取语音特征，制备语音特征数据集；初始化动态搜索分类网络的参数，随机初始化生成分类网络粒子；使用语音特征数据集训练每代分类网络粒子中的分类网络，得到各个粒子的适应度函数值，根据各个粒子的适应度函数值更新分类网络粒子，循环训练更新分类网络直至得到最优分类网络，基于训练所得的最优分类网络，对待识别的语音特征数据进行帕金森语音识别。数据进行帕金森语音识别。数据进行帕金森语音识别。