基于多模态癫痫数据智能融合分析与处理方法



1.本发明是属于便携式设备癫痫发作检测领域,涉及一种基于多模态信息处理的儿童癫痫智能检测辅助分析方法。


背景技术:



2.癫痫是最常见的神经系统疾病之一,影响全球约0.6%的人口。其中癫痫发作的不可预测性和明显的随机性是癫痫最令人烦恼的方面之一。能够检测癫痫发作的方法或设备可能有助于防止受伤甚至死亡,并显著提高生活质量。近70%的癫痫患者对适当的有反应,但要成功癫痫,医生需要知道癫痫是否以及何时发作。虽然现在通过便携式设备来采集生理信号来分析癫痫发作已经很普遍,但是仍然对于癫痫的发作难以精确识别诊断。其中主要原因包括:在硬件方面上,相关的便携式设备性能不佳以及没有有效的癫痫初期检查与智能辅助诊疗系统;所采用的生理信号类型较少,单一的生理信号无法全面刻画癫痫发作;在软件方面上,对多模态信号之间关联信息挖掘不够完善。因此,为便携式设备提出一种多模态癫痫数据智能融合分析与处理方法具有很强的社会现实意义与经济效益。
3.多模态生理信号能从多角度刻画癫痫发作,大部分儿童癫痫发作都会表现出肢体的异常抽搐,因此可以通过肌电信号以及姿态信号和皮肤电信号来进行检测和诊断。当前主要的研究集中关注在下列几个方向:
4.癫痫分期及检测:利用收集的癫痫患者的临床多模态信号,将多模态信号划分为不发作和发作期不同的阶段,在完成分期的基础上对患者的癫痫发作进行检测。
5.与癫痫发作脑电信号所需佩戴设备不同,便携式设备能提供信号采集的便利性以及采集生理信号的多样性,在相关癫痫的临床诊断和辅助分析有着巨大的潜力,在非脑电图癫痫监测设备中,结合多个传感器的系统最有希望提高癫痫检测灵敏度,此外通过多个传感器的生理数据能够从多角度刻画癫痫发作,为临床提供更多的数据支持。但当前对便携式设备的研究还存在以下几个主要问题:1)便携式设备所采集的信号较为单一,无法全面的刻画癫痫发作的特点以及准确识别癫痫发作;2)同时对于不同模态下信号下的特征组合,构建不够明确;3)已有的机器学习方法选用较为单一。另外,多模态信号组合间的关联信息也没有挖掘充分。


技术实现要素:



6.本发明提供一种基于便携式设备的癫痫数据智能分析和发作识别方法,以解决癫痫发作在临床中的具体应用问题。主要创新如下:
7.1)针对儿童的多模态癫痫信息,提出了一种多模态信号智能信息融合的特征筛选方法。
8.2)引入比较多种分类器和多模态信号组合模块,可以更好刻画儿童癫痫发作。
9.本发明中,首先对原始采集的多模态生理信号数据与脑电数据进行时间对标,使用检验癫痫发作的黄金标准——视频脑电图来检验后续发作的准确率,再对多模态生理信
号数据进行切分,截取发作时的生理信号,再分别采用不同的预处理得到干扰少的多模态生理信号。预处理过程包括:对于肌电数据使用中心化,然后使用带通滤波器选择20hz至60hz频段,再在使用间隔频率为4hz的梳妆滤波器消除设备所产生的干扰。对于皮肤电信号,首先使用中值滤波和平滑滤波器剔除外界的干扰使其变得平滑。对于6轴加速度信号,首先使其中心化,再使用中值滤波器去除干扰。再对各模态数据采样5s的滑动窗口以及0重叠率切割方法。计算每个窗口的特征,通过计算18个时域特征,5个频域特征,以及3个非线性特征。将各个模态的特征使用t检验、方差检验、箱线图等一系列统计方法来验证癫痫发作与否的差别,以及在儿童不同的年龄段发作差异,对于不同的性别下发作差异。通过实验得出的典型特征,再对其使用mrmr来去除冗余的特征。得到的特征作为输入分别导入不同的分类器支持向量机、决策树、朴素贝叶斯、集成学习等,比较结果最后得到分类结果。
10.本发明的技术方案主要包括以下几个步骤:
11.步骤1、对多模态数据与脑电数据进行对标,检索多模态数据缺失值进行插值,对多模态数据进行预处理;
12.步骤2、对多模态信号总共8通道(emg,eda,3轴加速度,3轴陀螺仪),分别以5s步长和0重复率的滑动窗口分割样本,再将所有样本计算时域、频域、以及非线性特征;然后通过t检验以及方差检验筛选出差异特征,最后使用mrmr来实现最优多模态特征组合。
13.步骤3、将得到不同模态信号的最优特征组合,排列组合后放置于不同的分类器:逻辑回归、贝叶斯、knn、支持向量机、集成学习以及决策树,通过改变分类器不同的核函数得到癫痫发作的分类结果。
14.所述步骤1的具体步骤如下:
15.将多模态信号与脑电信号进行时间对标,排除信号缺失成分较大的数据,截取发作期的多模态生理信号,首先将1通道、采样频率为200hz的emg信号;对于获取的emg信号,首先进行中心化,进行基准线校准,再使用带通滤波器选择20hz至60hz频段的emg数据,最后使用间隔为4hz的梳状滤波器剔除设备采集的信号干扰,最终得到干扰少的肌电信号。其次将一通道、采样频率为4hz的eda信号;对于获取的eda信号,首先使用1阶中值滤波器剔除奇异值,最后使用移动平滑滤波器窗口设置为5,最终得到干扰少的皮肤电信号。最后将6通道,采样频率为50hz的gyr以及acc信号,对于获取的gyr和acc信号,首先进行中心化,进行基准线校准,去除0hz分量,其次使用不同宽度的中值滤波器剔除干扰,最终得到干扰的6轴加速度信号。
16.所述步骤2的具体步骤如下:
17.2-1、将得到的多模态信号按每5s一段进行切分,首先考虑对加速度以及陀螺仪三个轴向的数据综合处理,对三通道的gyr以及acc数据求取2-范数,其定义如下:
[0018][0019]
然后对10通道信号在时域、频域、以及非线性域下提取特征,得到每个样本以mat文件格式储存。
[0020]
2-2、提了最大值、最小值、峰峰值、均值、方根幅值、标准差、有效均方根、峭度、偏度、波形因子、峰值因子、脉冲因子、裕度因子以及间隙因子等时域特征。其中最大值max和最小值min分别为信号幅值的最大值及最小值,p2p值是信号幅值在区间内极大值和极小值
的差异,平均值mean为多模态信号幅值趋势,公式如下:
[0021][0022]
其中,f(t)代表数据每个样本点的幅值大小、n表示每个样本所包含样本点的数量。下述公式中f(t)、n都表示相同含义。
[0023]
标准差sd反映每个采样点的幅值和平均值之间的差异,公式如下:
[0024][0025]
其中,表示该样本的平均值。
[0026]
峭度kur代表数据频率分布曲线的峰值水平,用于描述变量的分布,公式如下:
[0027][0028]
其中,μ表示总体样本均值,σ表示样本的方差。μ、σ下述公式表示相同含义。
[0029]
偏度skew表示多模态信号幅值不对称程度的特征,公式如下:
[0030][0031]
波形因子form factor表示多模态信号的有效值(rms)与整流平均值的比值,公式如下:
[0032][0033]
峰值因子peaking factor表示多模态信号在波形中的极端程度,公式如下:
[0034][0035]
其中,peak表示样本的区间内的极大值。
[0036]
脉冲因子pulse factor表示多模态信号峰值与整流平均值(绝对值的平均值)的比值,表示信号受到剧烈浮动,公式如下:
[0037][0038]
裕度因子margin factor表示多模态信号峰值与方根幅值的比值。公式如下:
[0039][0040]
接下提取多模态信号频域特征参数包括,平均频率,重心频率,均方根频率,以及频率标准差和平均功率谱密度。其中平均频率average frequency用来描述信号在频谱内的变化趋势,其公式如下:
[0041][0042]
其中,f(ω)表示样本经过傅里叶变换之后的幅值。下述公式中f(ω)都表示相同
含义。
[0043]
重心频率barycenter frequency描述信号在频谱中分量较大的信号成分的频率,反映信号功率谱的分布情况。其公式如下:
[0044][0045]
均方根频率rmsf表示信号频率平方的加权平均,同样以功率谱的幅值为权。
[0046][0047]
频率标准差fsd表示功率谱能量分布的分散程度频率标准差是重若重心附近的频谱幅值较大,则频率标准差较小;若重心附近的频谱较小,则频率标准差较大。其公式如下:
[0048][0049]
其中,fc表示样本的重心频率。
[0050]
平均功率谱密度apsd表示了多模态信号功率随着频率的变化情况,即信号功率在频域的分布状况,其公式如下:
[0051][0052]
其中,k表示切分的数据段数目,m表示每段数据的长度。u表示窗函数ω(n)的能量,xi(n)表示输入的多模态生理数据。其中apsd再对其求平均即可。
[0053]
最后提取多模态生理信号非线性特征参数包括,样本熵,近似熵,模糊熵。其中近似熵是一个随机复杂度,反应序列相邻的m个点所连成折线段的模式的互相近似的概率与由m+1个点所连成的折线段的模式相互近似的概率之差。用来描述复杂系统的不规则性,越是不规则的时间序列对应的近似熵越大。反应维数改变时产生的新的模式的可能性的大小。其公式如下:
[0054]
apen=φm(t)-φ
m+1
(t)
ꢀꢀ
(15)
[0055]
其中,φm(t)表示样本间的相似度量值。下述公式中φm(t)都表示相同含义。
[0056]
样本熵(sampen)是基于近似熵(apen)的一种用于度量时间序列复杂性的改进方法,样本熵的计算不依赖数据长度;样本熵具有更好的一致性,即参数m和r的变化对样本熵的影响程度是相同的.其公式如下:
[0057]
sampen=lnφm(t)-lnφ
m+1
(t)
ꢀꢀ
(16)
[0058]
模糊熵(fuzzyen)衡量的也是新模式产生的概率大小(fuzzy思想,给出概率而不是定论),测度值越大,新模式产生的概率越大,即序列复杂度越大。其公式如下:
[0059]
fuzzyen=lnφm(t)-lnφ
m+1
(t)
ꢀꢀ
(17)
[0060]
2-3、将获取多模态信号特征根据是否为发作数据分成两类样本,再将这两类样本进行正态检验采用w检验法,w检验法选取指标量为:
[0061][0062]
其中,n为样本容量,x
(k)
为样本升序排列,ak为计算系数,w检验法的拒绝域为w≤wa,α为显著性水平。
[0063]
接下来,采用两正态总体均值的t检验法对发作样本和不发作样本进行一致性分析,具体过程为:
[0064]
两正态总体均值的t检验:原假设h0:μ1=μ2,备择假设h1:μ1≠v2,检验统计量的计算公式如下:
[0065][0066]
其中检验水平α条件下的拒绝域为其中为t检验拒绝的临界点。已知检验水平α,查t分表得到若检验统计量t落在拒绝域内,则拒绝h0,认为仿真模型是不可信的;否则接受h0认为仿真模型是可信的。
[0067]
通过多模态信号特征进行t检验,根据t检验所得到p值,将获得两样本差异较大的特征进行筛选。组成新的特征表。
[0068]
2-4、将获得t检验后的多模态信号特征,使用最小冗余最大相关性(mrmr),选择与分类变量拥有最高相关度的前10个变量。互信息计算每一个所述指标数据,利用指标边缘概率密度与指标联合概率密度计算互信息,其公式如下:
[0069][0070]
其中,i(x,y)为特征变量x与y间的互信息量,x、y为数据变量,p(x)和p(y)分别是x和y的边缘概率分布函数,p(x,y)表示x和y的联合概率密度函数。
[0071]
利用前向排序法依次计算所述指标数据间的相关性与冗余性,其公式如下:
[0072][0073][0074]
其中,s表示特征变量的一个子集,c表示目标变量,fi为第i个指标变量,d(s,c)为互信息的平均值。r(s)为特征子集的最小冗余度量。
[0075]
计算所述指标数据与目标数据的mrmr特征值及排序包括,其公式如下:
[0076][0077]
其中,mrmr为综合最大互信息与最小冗余度的度量。
[0078]
步骤(3)具体方法如下:
[0079]
3-1、将提取时域、频域以及非线性特征的特征分为测试集和训练集,通过mrmr在eda、emg、acc与gyr信号中获得了10个最优特征。现在将上述4种多模态信号,进行排列组合后分别输入到不同的分类器中,通过测试逻辑回归,邻近算法,支持向量机,集成学习,决策树,朴素贝叶斯等机器学习分类器方法。通过训练上述分类器,综合准确率最高的作为最终的分类器。
[0080]
然后对训练集使用5折交叉验证,其步骤为:将所有训练集分为5份,不重复地每次取其中一份做测试集,用其他四份做训练集训练模型,之后计算该模型在测试集上的msei,然后不断重复实验,将5次的msei取平均得到最后的mse,其公式如下:
[0081][0082]
3-2、分类器训练效果采用precision、specificity展示。各参数计算公式如下:
[0083][0084][0085]
其中tp表示被模型预测为正类的正样本,tn表示被模型预测为负类的负样本,fp表示被模型预测为正类的负样本,fn表示被模型预测为负类的正样本。precision表示精确度,代表各个类别的识别率,针对单个样本而言。specificity表示特异度,数值越高,误诊率越低。
[0086]
本发明有益效果如下:
[0087]
采用便携式设备的儿童癫痫数据的智能分析方法,其优势主要包括,1)使用便携式设备对儿童的检测可以避免使用视频脑电图的诸多不利。2)使用多模态信号组合,可以充分挖掘信号之间的关联性,可以更好的发挥多通道多维度的价值。3)提供了一种针对癫痫检测的多模态信号特征筛选方法,该方法能有效提升检测的结果。
[0088]
本发明对原始多模态生理数据截取发作期多模态生理信号并分别进行了滤波等一系列预处理,提取了时域、频域以及非线性特征,并使用了正态检验、t检验以及rmrm来对特征进行降维和重组,再分布使用逻辑回归,邻近算法,支持向量机,集成学习,决策树,朴素贝叶斯等机器学习分类器方法。通过使用癫痫患者数据集进行实验,对于没有进行特征筛选的检测,其准确率相对提高了5%左右;对于传统的pca筛选特征方法,其准确率相对提高了2%左右。通过本发明能够实现对多模态癫痫数据进行智能融合分析,对各模态数据进行优化组合,以及筛选不同域的特征,从而达到了相比于常规特征筛选方法更好的癫痫检测效果。
附图说明
[0089]
图1为本发明实施例的流程图。
[0090]
具体实现方式
[0091]
下面结合附图详细说明本发明的具体实施方式。
[0092]
如图1所示,基于便携式设备的癫痫数据处理与智能分析,包括如下步骤:
[0093]
步骤1、对多模态数据进行与脑电数据进行对标,对多模态数据缺失值进行插值,对多模态数据进行预处理:
[0094]
将多模态信号与脑电信号进行时间对标,排除信号缺失成分较大的数据,截取发作期的多模态生理信号,首先将1通道、采样频率为200hz的emg信号;对于获取的emg信号,首先进行中心化,进行基准线校准,再使用带通滤波器选择20hz至60hz频段的emg数据,最后使用间隔为4hz的梳状滤波器剔除设备采集的信号干扰,最终得到干扰少的肌电信号。其次将一通道、采样频率为4hz的eda信号;对于获取的eda信号,首先使用1阶中值滤波器剔除奇异值,最后使用移动平滑滤波器窗口设置为5,最终得到干扰少的皮肤电信号。最后将6通道,采样频率为50hz的gyr以及acc信号,对于获取的gyr和acc信号,首先进行中心化,进行基准线校准,去除0hz分量,其次使用不同宽度的中值滤波器剔除干扰,最终得到干扰的6轴加速度信号。
[0095]
步骤2、对多模态信号总共8通道(emg,eda,3轴加速度,3轴陀螺仪),分别以5s步长和0重复率的滑动窗口分割样本,再将所有样本计算时域,频域,以及非线性特征;然后同过统计分析:t检验以及方差检验筛选出差异特征,最后使用mrmr来实现最优多模态特征组合:
[0096]
2-1、将得到的多模态生理数据按每5s一段进行切分,首先考虑对加速度以及陀螺仪三个轴向的数据综合处理,我们对三通道的gyr以及acc数据求取2-范数,其定义如下:
[0097][0098]
然后对10通道信号在时域,频域,以及非线性域下提取特征,得到每个样本以mat文件格式储存。
[0099]
2-2、进一步的,提取了最大值、最小值、峰峰值、均值、方根幅值,标准差,有效均方根,峭度、偏度、波形因子、峰值因子、脉冲因子、裕度因子以及间隙因子等时域特征。其中最大值max和最小值min分别为信号幅值的最大值及最小值,p2p值是信号幅值在区间内极大值和极小值的差异,平均值mean为多模态信号幅值趋势,公式如下:
[0100][0101]
标准差sd反映每个采样点的幅值和平均值之间的差异,公式如下:
[0102][0103]
峭度kur代表数据频率分布曲线的峰值水平,用于描述变量的分布,公式如下:
[0104][0105]
偏度skew表示多模态信号幅值不对称程度的特征,公式如下:
[0106][0107]
波形因子form factor表示多模态信号的有效值(rms)与整流平均值的比值,公式如下:
[0108][0109]
峰值因子peaking factor表示多模态信号在波形中的极端程度,公式如下:
[0110][0111]
脉冲因子pulse factor表示多模态信号峰值与整流平均值(绝对值的平均值)的比值,表示信号受到剧烈浮动,公式如下:
[0112][0113]
裕度因子margin factor表示多模态信号峰值与方根幅值的比值。公式如下:
[0114][0115]
接下提取多模态信号频域特征参数包括,平均频率,重心频率,均方根频率,以及频率标准差和平均功率谱密度。其中平均频率average frequency用来描述信号在频谱内的变化趋势,其公式如下:
[0116][0117]
重心频率barycenter frequency描述信号在频谱中分量较大的信号成分的频率,反映信号功率谱的分布情况。其公式如下:
[0118][0119]
均方根频率rmsf表示信号频率平方的加权平均,同样以功率谱的幅值为权。
[0120][0121]
频率标准差fsd表示功率谱能量分布的分散程度频率标准差是重若重心附近的频谱幅值较大,则频率标准差较小;若重心附近的频谱较小,则频率标准差较大。其公式如下:
[0122][0123]
平均功率谱密度apsd表示了多模态信号功率随着频率的变化情况,即信号功率在频域的分布状况,其公式如下:
[0124][0125]
其中,k表示切分的数据段数目,m表示每段数据的长度。u表示窗函数w(n)的能量,xi(n)表示输入的多模态生理数据。其中apsd再对其求平均即可。
[0126]
最后提取多模态生理信号非线性特征参数包括,样本熵,近似熵,模糊熵。其中近似熵是一个随机复杂度,反应序列相邻的m个点所连成折线段的模式的互相近似的概率与
由m+1个点所连成的折线段的模式相互近似的概率之差。用来描述复杂系统的不规则性,越是不规则的时间序列对应的近似熵越大。反应维数改变时产生的新的模式的可能性的大小。其公式如下:
[0127]
apen=φm(t)-φ
m+1
(t)
ꢀꢀ
(15)
[0128]
样本熵(sampen)是基于近似熵(apen)的一种用于度量时间序列复杂性的改进方法,样本熵的计算不依赖数据长度;样本熵具有更好的一致性,即参数m和r的变化对样本熵的影响程度是相同的.其公式如下:
[0129]
sampen=lnφm(t)-lnφ
m+1
(t)
ꢀꢀ
(16)
[0130]
模糊熵(fuzzyen)衡量的也是新模式产生的概率大小(fuzzy思想,给出概率而不是定论),测度值越大,新模式产生的概率越大,即序列复杂度越大。其公式如下:
[0131]
fuzzyen=lnφm(t)-lnφ
m+1
(t)
ꢀꢀ
(17)
[0132]
2-3、将获取多模态生理信号特征根据是否为发作数据分成两类样本,首先对这两类样本进行正态检验采用w检验法,w检验法选取指标量为:
[0133][0134]
其中,n为样本容量,x
(k)
为样本升序排列,ak为计算系数,w检验法的拒绝域为w≤wa,α为显著性水平。
[0135]
接下来,采用两正态总体均值的t检验法对发作样本和不发作样本进行一致性分析,具体过程为:
[0136]
两正态总体均值的t检验:原假设h0:μ1=μ2,备择假设h1:μ1≠μ2,检验统计量的计算公式如下:
[0137][0138]
其中检验水平α条件下的拒绝域为其中为t检验拒绝的临界点。已知检验水平α,查t分表得到若检验统计量t落在拒绝域内,则拒绝h0,认为仿真模型是不可信的;否则接受h0认为仿真模型是可信的。
[0139]
通过多模态信号特征进行t检验,根据t检验所得到p值,将获得两样本差异较大的特征进行筛选。组成新的特征表。
[0140]
2-4、将获得t检验后的多模态信号特征,使用最小冗余最大相关性(mrmr),选择与分类变量拥有最高相关度的前10个变量。互信息计算每一个所述指标数据,利用指标边缘概率密度与指标联合概率密度计算互信息,其公式如下:
[0141][0142]
其中,i(x,y)为特征变量x与y间的互信息量,x、y为数据变量,p(x)和p(y)分别是x和y的边缘概率分布函数,p(x,y)表示x和y的联合概率密度函数。
[0143]
利用前向排序法依次计算所述指标数据间的相关性与冗余性,其公式如下:
[0144][0145][0146]
其中,s表示特征变量的一个子集,c表示目标变量,fi为第i个指标变量,d(s,c)为互信息的平均值。r(s)为特征子集的最小冗余度量。
[0147]
计算所述指标数据与目标数据的mrmr特征值及排序包括,其公式如下:
[0148][0149]
其中,mrmr为综合最大互信息与最小冗余度的度量。
[0150]
步骤3、将得到不同模态信号的最优特征组合,排列组合后放置于不同的机器学习分类器:逻辑回归,贝叶斯,knn,支持向量机,集成学习以及决策树,通过改变分类器不同的核函数得到癫痫发作的分类结果:
[0151]
3-1、将提取时域、频域以及非线性特征的特征分为测试集和训练集,通过mrmr在eda、emg、acc与gyr信号中获得了10个最优特征。现在将上述4种多模态信号,进行排列组合后分别输入到不同的分类器中,通过测试逻辑回归,邻近算法,支持向量机,集成学习,决策树,朴素贝叶斯等机器学习分类器方法。通过训练上述分类器,综合准确率最高的作为最终的分类器。
[0152]
然后对训练集使用5折交叉验证,其步骤为:将所有训练集分为5份,不重复地每次取其中一份做测试集,用其他四份做训练集训练模型,之后计算该模型在测试集上的msei,然后不断重复实验,将5次的msei取平均得到最后的mse,其公式如下:
[0153][0154]
3-2、分类器训练效果采用precision、specificity展示。各参数计算公式如下:
[0155][0156][0157]
其中tp表示被模型预测为正类的正样本,tn表示被模型预测为负类的负样本,fp表示被模型预测为正类的负样本,fn表示被模型预测为负类的正样本。precision表示精确度,代表各个类别的识别率,针对单个样本而言。specificity表示特异度,数值越高,误诊率越低。
[0158]
本发明还提供基于便携式设备的癫痫数据处理与智能分析系统,具体包括多模态数据信号处理模块、特征提取模块和分类识别模块;
[0159]
所述的多模态信号数据信号处理模块具体实现:对多模态信号总共8通道(emg,eda,3轴加速度,3轴陀螺仪),分别以5s步长和0重复率的滑动窗口分割样本,再将所有样本计算时域,频域,以及非线性特征;将多模态信号与脑电信号进行时间对标,排除信号缺失
成分较大的数据,截取发作期的多模态生理信号,首先将1通道、采样频率为200hz的emg信号;对于获取的emg信号,首先进行中心化,进行基准线校准,再使用带通滤波器选择20hz至60hz频段的emg数据,最后使用间隔为4hz的梳状滤波器剔除设备采集的信号干扰,最终得到干扰少的肌电信号等操作。
[0160]
所述的特征提取模块具体实现:对多模态信号总共8通道(emg,eda,3轴加速度,3轴陀螺仪),分别以5s步长和0重复率的滑动窗口分割样本,再将所有样本计算时域,频域,以及非线性特征;然后同过统计分析:t检验以及方差检验筛选出差异特征,最后使用mrmr来实现最优多模态特征组合。
[0161]
所述的分类识别模块具体实现:将得到不同模态信号的最优特征组合,排列组合后放置于不同的机器学习分类器:逻辑回归,贝叶斯,knn,支持向量机,集成学习以及决策树,通过改变分类器不同的核函数得到癫痫发作的分类结果。
[0162]
本发明对原始多模态生理数据截取发作期多模态生理信号并分别进行了滤波等一系列预处理,提取了时域、频域以及非线性特征,并使用了正态检验、t检验以及rmrm来对特征进行降维和重组,再分别使用逻辑回归,邻近算法,支持向量机,集成学习,决策树,朴素贝叶斯等机器学习分类器方法。通过使用癫痫患者数据集进行实验,对于没有进行特征筛选的检测,其准确率相对提高了5%左右;对于传统的pca筛选特征方法,其准确率相对提高了2%左右。通过本发明能够实现对多模态癫痫数据进行智能融合分析,对各模态数据进行优化组合,以及筛选不同域的特征,从而达到了相比于常规特征筛选方法更好的癫痫检测效果。

技术特征:


1.基于多模态癫痫数据智能融合分析与处理方法,其特征在于包括如下步骤:步骤1、对多模态数据与脑电数据进行对标,检索多模态数据缺失值进行插值,对多模态数据进行预处理;步骤2、对多模态信号总共8通道,分别以5s步长和0重复率的滑动窗口分割样本,再将所有样本计算时域、频域、以及非线性特征;然后通过t检验以及方差检验筛选出差异特征,最后使用mrmr来实现最优多模态特征组合;步骤3、将得到不同模态信号的最优特征组合,排列组合后放置于不同的分类器:逻辑回归、贝叶斯、knn、支持向量机、集成学习以及决策树,通过改变分类器不同的核函数得到癫痫发作的分类结果。2.根据权利要求1所述的基于多模态癫痫数据智能融合分析与处理方法,其特征在于所述步骤1的具体步骤如下:将多模态信号与脑电信号进行时间对标,排除信号缺失成分较大的数据,截取发作期的多模态生理信号,首先将1通道、采样频率为200hz的emg信号;对于获取的emg信号,首先进行中心化,进行基准线校准,再使用带通滤波器选择20hz至60hz频段的emg数据,最后使用间隔为4hz的梳状滤波器剔除设备采集的信号干扰,最终得到干扰少的肌电信号;其次将一通道、采样频率为4hz的eda信号;对于获取的eda信号,首先使用1阶中值滤波器剔除奇异值,最后使用移动平滑滤波器窗口设置为5,最终得到干扰少的皮肤电信号;最后将6通道,采样频率为50hz的gyr以及acc信号,对于获取的gyr和acc信号,首先进行中心化,进行基准线校准,去除0hz分量,其次使用不同宽度的中值滤波器剔除干扰,最终得到干扰的6轴加速度信号。3.根据权利要求1所述的基于多模态癫痫数据智能融合分析与处理方法,其特征在于所述步骤2的具体步骤如下:2-1、将得到的多模态信号按每5s一段进行切分,首先考虑对加速度以及陀螺仪三个轴向的数据综合处理,对三通道的gyr以及acc数据求取2-范数,其定义如下:然后对10通道信号在时域、频域、以及非线性域下提取特征,得到每个样本以mat文件格式储存;2-2、提取最大值、最小值、峰峰值、均值、方根幅值、标准差、有效均方根、峭度、偏度、波形因子、峰值因子、脉冲因子、裕度因子以及间隙因子的时域特征;其中最大值max和最小值min分别为信号幅值的最大值及最小值,p2p值是信号幅值在区间内极大值和极小值的差异,平均值mean为多模态信号幅值趋势,公式如下:其中,f(t)代表数据每个样本点的幅值大小、n表示每个样本所包含样本点的数量;下述公式中f(t)、n都表示相同含义;标准差sd反映每个采样点的幅值和平均值之间的差异,公式如下:
其中,表示该样本的平均值;峭度kur代表数据频率分布曲线的峰值水平,用于描述变量的分布,公式如下:其中,μ表示总体样本均值,σ表示样本的方差;μ、σ下述公式表示相同含义;偏度skew表示多模态信号幅值不对称程度的特征,公式如下:波形因子表示多模态信号的有效值与整流平均值的比值,公式如下:峰值因子表示多模态信号在波形中的极端程度,公式如下:其中,peak表示样本的区间内的极大值;脉冲因子表示多模态信号峰值与整流平均值的比值,表示信号受到剧烈浮动,公式如下:裕度因子margin factor表示多模态信号峰值与方根幅值的比值;公式如下:接下提取多模态信号频域特征参数包括,平均频率,重心频率,均方根频率,以及频率标准差和平均功率谱密度;其中平均频率用来描述信号在频谱内的变化趋势,其公式如下:其中,f(ω)表示样本经过傅里叶变换之后的幅值;下述公式中f(ω)都表示相同含义;重心频率描述信号在频谱中分量较大的信号成分的频率,反映信号功率谱的分布情况;其公式如下:均方根频率rmsf表示信号频率平方的加权平均,同样以功率谱的幅值为权;
频率标准差fsd表示功率谱能量分布的分散程度频率标准差是重若重心附近的频谱幅值较大,则频率标准差较小;若重心附近的频谱较小,则频率标准差较大;其公式如下:其中,fc表示样本的重心频率;平均功率谱密度apsd表示了多模态信号功率随着频率的变化情况,即信号功率在频域的分布状况,其公式如下:其中,k表示切分的数据段数目,m表示每段数据的长度;u表示窗函数ω(n)的能量,x
i
(n)表示输入的多模态生理数据;其中apsd再对其求平均即可;最后提取多模态生理信号非线性特征参数包括样本熵、近似熵、模糊熵;其中近似熵公式如下:apen=φ
m
(t)-φ
m+1
(t)
ꢀꢀꢀꢀ
(15)其中,φ
m
(t)表示样本间的相似度量值;下述公式中φ
m
(t)都表示相同含义;样本熵公式如下:sampen=lnφ
m
(t)-lnφ
m+1
(t)
ꢀꢀꢀꢀ
(16)模糊熵公式如下:fuzzyen=lnφ
m
(t)-lnφ
m+1
(t)
ꢀꢀꢀꢀ
(17)2-3、将获取多模态信号特征根据是否为发作数据分成两类样本,再将这两类样本进行正态检验采用w检验法,w检验法选取指标量为:其中,n为样本容量,x
(k)
为样本升序排列,a
k
为计算系数,w检验法的拒绝域为w≤w
a
,α为显著性水平;然后采用两正态总体均值的t检验法对发作样本和不发作样本进行一致性分析,具体过程为:两正态总体均值的t检验:原假设h0:μ1=μ2,备择假设h1:μ1≠μ2,检验统计量的计算公式如下:其中检验水平α条件下的拒绝域为其中为t检验拒绝的临界点;已知检验水平α,查t分表得到若检验统计量t落在拒绝域内,则拒绝h0,认为仿真模型是不可信的;否则接受h0认为仿真模型是可信的;
通过多模态信号特征进行t检验,根据t检验所得到p值,将获得两样本差异较大的特征进行筛选;组成新的特征表;2-4、将获得t检验后的多模态信号特征,使用最小冗余最大相关性,选择与分类变量拥有最高相关度的前10个变量;互信息计算每一个所述指标数据,利用指标边缘概率密度与指标联合概率密度计算互信息,其公式如下:其中,i(x,y)为特征变量x与y间的互信息量,x、y为数据变量,p(x)和p(y)分别是x和y的边缘概率分布函数,p(x,y)表示x和y的联合概率密度函数;利用前向排序法依次计算所述指标数据间的相关性与冗余性,其公式如下:利用前向排序法依次计算所述指标数据间的相关性与冗余性,其公式如下:其中,s表示特征变量的一个子集,c表示目标变量,f
i
为第i个指标变量,d(s,c)为互信息的平均值;r(s)为特征子集的最小冗余度量;计算所述指标数据与目标数据的mrmr特征值及排序包括,其公式如下:其中,mrmr为综合最大互信息与最小冗余度的度量。4.根据权利要求1所述的基于多模态癫痫数据智能融合分析与处理方法,其特征在于所述步骤3的具体步骤如下:3-1、将提取时域、频域以及非线性特征的特征分为测试集和训练集,通过mrmr在eda、emg、acc与gyr信号中获得10个最优特征;然后将上述4种多模态信号,进行排列组合后分别输入到不同的分类器中,通过测试逻辑回归、邻近算法、支持向量机、集成学习、决策树、朴素贝叶斯训练分类器,综合准确率最高的作为最终的分类器;然后对训练集使用5折交叉验证,其步骤为:将所有训练集分为5份,不重复地每次取其中一份做测试集,用其他四份做训练集训练模型,之后计算该模型在测试集上的mse
i
,然后不断重复实验,将5次的mse
i
取平均得到最后的mse,其公式如下:3-2、分类器训练效果采用precision、specificity展示,各参数计算公式如下:2、分类器训练效果采用precision、specificity展示,各参数计算公式如下:
其中tp表示被模型预测为正类的正样本,tn表示被模型预测为负类的负样本,fp表示被模型预测为正类的负样本,fn表示被模型预测为负类的正样本;precision表示精确度,代表各个类别的识别率,针对单个样本而言;specificity表示特异度,数值越高,误诊率越低。

技术总结


本发明公开了一种基于多模态癫痫数据智能融合分析与处理方法。本发明步骤:1、对多模态数据与脑电数据进行对标,检索多模态数据缺失值进行插值,对多模态数据进行预处理;2、对多模态信号总共8通道,分别以5s步长和0重复率的滑动窗口分割样本,再将所有样本计算时域、频域、以及非线性特征;然后通过T检验以及方差检验筛选出差异特征,最后使用mRMR来实现最优多模态特征组合;3、将得到不同模态信号的最优特征组合,排列组合后放置于不同的分类器,通过改变分类器不同的核函数得到癫痫发作的分类结果。本发明能够实现对多模态癫痫数据进行智能融合分析,对各模态数据进行优化组合,以及筛选不同域的特征,从而达到了更好的癫痫检测效果。测效果。测效果。


技术研发人员:

曹九稳 葛炀彬 郑润泽 蒋铁甲 高峰

受保护的技术使用者:

杭州电子科技大学

技术研发日:

2022.09.23

技术公布日:

2022/12/19

本文发布于:2024-09-24 06:20:28,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/45584.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:信号   样本   多模   特征
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议