一种基于影像组学的阿尔兹海默症风险预测平台



1.本发明涉及一种阿尔兹海默症风险预测技术,特别涉及一种基于影像组学的阿尔兹海默症风险预测平台。


背景技术:



2.阿尔兹海默症(alzheimer’s disease,ad)是一种不可逆的脑神经系统退化性疾病,也是我国老年人第四大致死疾病。临床上以记忆障碍、失语、失用、失认、视空间技能损害、执行功能障碍以及人格和行为改变等全面性痴呆表现为特征,病因迄今未明。该病易发于老龄期。第七次人口普查数据,我国已经正式进入老龄化社会,可见我国未来几年的阿尔兹海默症易感人将快速增多。
3.目前,仍然没有有效的医疗技术可以阿尔兹海默症,所以目前对于阿尔兹海默症的预防和早期十分重要。在阿尔兹海默症和健康人之间存在一个过渡过程称为轻度认知障碍,所以如何早期诊断轻度认知障碍是对阿尔兹海默症预防的主要方法。
4.本系统将结合患者基因信息融合患者影像特征结合机器学习的方法从而实现高效准确分类健康人,阿尔兹海默症患者,轻度认知障碍患者。


技术实现要素:



5.针对背景技术中提到的问题,本发明的目的是提供一种基于影像组学的阿尔兹海默症风险预测平台,将基因信息融合患者影像特征结合机器学习的方法来实现对于阿尔兹海默症的预测分类。
6.本发明的上述技术目的是通过以下技术方案得以实现的:一种基于影像组学的阿尔兹海默症风险预测平台,包括如下步骤:
7.步骤1、对于影像的预处理获得标准化影像,然后对样本数据进行主成分分析,然后分别以三组smri的均值表型样本的年龄、性别、受教育程度和前10个主成分分析值作为协变量通过线性回归的方法进行全基因组关联分析,然后根据24段与ad相关的基因段结合全基因组关联分析的结果获得与ad先关snp(单核苷酸多态性)和其对应的p值,然后根据p值组成矩阵并求其最大特征值,然后依靠最大特征值分别差异化阿尔兹海默症组、轻度认知障碍组、健康对照组的影像数据;最后通过模板提取特征数据;
8.步骤2、将步骤1获得的影像特征数据的80%对六个机器学习模型进行训练调参,六个模型为支持向量机、bp神经网络、基于cart分类树的adaboost模型、提升决策树gbdt、逻辑回归模型、多项贝叶斯模型;然后通过步骤1获得的剩余的20%的影像数据对六个机器学习模型进行验证并通过roc曲线和准确率对六个模型的准确率和稳定度进行分析比对,通过比对分析得到支持向量机模型准确率较高,稳定度最好。
9.作为优选,模型在分类预测中会出现四种情况,如下所示:
10.(1)true positive,真正,tp:将正类预测为正类数;
11.(2)true negative,真负,tn:将负类预测为负类数
12.(3)false positive,假正,fp:将负类预测为正类数误报;
13.(4)false negative,假负,fn:将正类预测为负类数

漏报;
14.准确率的公式可以记为公式(2.1)
[0015][0016]
通过情况可以获得假正率fpr和真正率tpr,可以表示为公式(2.2)和公式(2.3);
[0017][0018][0019]
roc曲线是以假正率和真正率为轴的曲线,roc曲线下面的面积叫做auc,auc越大则说明模型的准确率越高。
[0020]
作为优选,所述的步骤一具体包括:首先是对于影像的预处理从而获得影像的灰质图,然后融合基因信息和影像并提取特征,然后通过特征训练六个机器学习,最后通过roc曲线和准确率评价比对六个训练完成得模型最后选择最优模型;
[0021]
对于数据集的具体分析如下:
[0022]
本设计采用了adni数据集的阿尔兹海默症、健康对照、轻度认识障碍的t1加权smri影像;
[0023]
然后对影像进行预处理,包括ac校正,分割,配准到标准空间,调制,最后的处理结果;
[0024]
接着对样本数据进行主成分分析和全基因组关联分析,在全基因组关联中,以每个smri影像的均值,样本的年龄,性别,受教育程度和前10个主成分分析值作为协变量,采用线性回归的方法;
[0025]
采用曼哈顿图进行有关全基因组关联分析研究;
[0026]
通过对于阿尔兹海默症基因层次的研究分析发现abca7,apoe,app,bin1,cass4,cd2ap,cd33,celf1,clu,cr1,dsg2,epha1,fermt2,inpp5d,mef2c,nme8,picalm,ptk2b,rin3,slc24a4,sorl1,zcwpw1,ms4a6,hla-drb1这24段基因片段是阿尔兹海默症的易感基因,根据这24段易感染基因它们对应的snp值和p值,然后将p值组成矩阵,然后求出最大特征值,然后通过最大特征差异化三组的影像特征,最后通过模板提取影像特征;然后采用提取的80%的特征数据训练调参六个模型。
[0027]
作为优选,六个模型中svm核函数采用线性函数,逻辑回归模型采用常规的模型,朴素贝叶斯模型采用多项式,提升决策树算法的迭代次数为50次,bp神经网络模型采用4层,输入层单元个数210个,隐含层个数分别为24个和12个,输出层单元个数为2个,其中隐含层的激活函数为relu,输出层的激活函数为sigmoid,两个激活函数;基于cart分类树的adaboost算法中的决策分类树最大层数为5层,adaboost中的迭代次数为100次;
[0028]
输入影像特征对模型进行训练,如果模型未达到训练次数或者训练的精度不符合规范则调整权值和阀值重新训练网络模型;同时本设计训练提升决策树时,采用了feature importance方法和permutation importance计算影像在训练提升决策树时的特征重要性。
[0029]
作为优选,所述adaboost模型的框架如下,影像特征输入,adaboost模型初始化样
本的权值和阀值,将影像特征数据和初始化得到的权值和阀值带入训练,训练过后将加权后的影像特征数据带入到下一个决策树内训练,依次迭代100次,最后根据每个决策树的权重和决策树集合成一个强学习器;训练完成模型后采用剩余20%的影像作为验证集验证模型。
[0030]
综上所述,本发明主要具有以下有益效果:
[0031]
(1)整体界面清晰明了,对于各种功能操作简便,适合各种年龄段的人使用;
[0032]
(2)本次设计选用的数据集中的样本具有普遍性,同时融合了基因信息和影像数据;
[0033]
(3)本次设计所采用了六种常见的机器学习模型,并通过两种方式比对,最终的到支持向量比较优秀;
[0034]
(4)本设计完全属于公益性的项目,社会各层次的人员皆可进行使用,将繁杂的数据可视化从而有利于提高全社会对于老年痴呆病的防范意识。
附图说明
[0035]
图1为登陆注册模块的流程图;
[0036]
图2为用户注册的时序图;
[0037]
图3为主页面;
[0038]
图4为roc曲线图;
[0039]
图5为设计流程图;
[0040]
图6为原始图像和标准化后图像;
[0041]
图7为hc的曼哈顿图;
[0042]
图8为hc的曼哈顿图;
[0043]
图9为ad的曼哈顿图;
[0044]
图10为sigmoid函数和relu函数图;
[0045]
图11为bp神经网络的结构图;
[0046]
图12为bp神经网络流程图;
[0047]
图13为ad组和hc组分类的准确度和损失值示意图一;
[0048]
图14为ad组和hc组分类的准确度和损失值示意图二;
[0049]
图15为aad组和hc组分类的准确度和损失值示意图三;
[0050]
图16为hc组和lmic分类组在两种方法下的前五重要特征图;
[0051]
图17为hc组和lmic分类组在两种方法下的前五重要特征图;
[0052]
图18为ad组和lmic分类组在两种方法下的前五重要特征图;
[0053]
图19为adaboost算法的框架图示意图;
[0054]
图20为ad和hc准确率直方图;
[0055]
图21为ad和lmci准确率直方图;
[0056]
图22为hc和lmci准确率直方图;
[0057]
图23为六种模型关于ad和hc的roc曲线图;
[0058]
图24为六种模型关于ad和lcmi的roc曲线图;
[0059]
图25为六种模型关于hc和lcmi的roc曲线图。
具体实施方式
[0060]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0061]
本设计web端通过flask实现,可以实现用户的登录,用户注册和阿尔兹海默症预测信息展示。
[0062]
研究发现,阿尔兹海默症患者的脑部结构会出现较为明显的病理学特征,部结构中海马体萎缩、脑沟增宽以及脑室扩大。随着对ad研究的不断深入,有研究表明ad受遗传因素影响很大,目前,已有大量与ad相关的遗传变异位点被报导出来,探寻ad相关的遗传生物标志物有助于利用基因测序较早识别出有认知下降风险的受试者,为ad的预防和干预提供帮助。ad遗传生物标志物研究具有重要的临床意义,所以本系统将基因信息融合患者影像特征结合机器学习的方法来实现对于阿尔兹海默症的预测分类。
[0063]
在具体实施时,创建用户模型,用户属性将包括自增的数字id和字符串username记录用户的用户名和字符串password记录用户的密码。
[0064]
用户将首先进入登陆了注册页面。左侧为登录模块,右侧为注册模块,在左侧输入对应的用户名和用户密码时,如果密码正确和用户账号存在,则用户可以进入主页面。
[0065]
如果用户没有账号,用户可以点击右侧的注册按钮,注册按钮点击后,注册模块会左移,出现注册页面的链接;
[0066]
如图1所示是登陆注册模块的流程图,首先用户在登录模块内输入相应的内容,如果没有账号,那就需要注册账号,注册成功后用户返回登录页面,在登录时,用户密码错误时,那么用户则无法登录,用户返回登录页面。
[0067]
用户在注册时,用户需要填的信息框会相应的跳转出,如果没有填写会提示错误,信息填写完会跳转出提交按钮,用户注册的时序图如图2。
[0068]
用户登录成功后会进入主页面,左侧为导航栏模块,右侧为信息展示模块。如图3所示。
[0069]
算法介绍:
[0070]
本设计将主要进行对于阿尔兹海默症的分险预测研究。该研究分为两个重要部分,第一部分是对于影像的预处理获得标准化影像,然后对样本数据进行主成分分析,然后分别以三组smri的均值表型样本的年龄、性别、受教育程度和前10个主成分分析值作为协变量通过线性回归的方法进行全基因组关联分析,然后根据24段与ad相关的基因段结合全基因组关联分析的结果获得与ad先关snp(单核苷酸多态性)和其对应的p值,然后根据p值组成矩阵并求其最大特征值,然后依靠最大特征值分别差异化阿尔兹海默症组、轻度认知障碍组、健康对照组的影像数据。最后通过模板提取特征数据。
[0071]
将第一部分获得的影像影像特征数据的80%对六个机器学习模型进行训练调参,六个模型为支持向量机、bp神经网络、基于cart分类树的adaboost模型、gbdt(提升决策树)、逻辑回归模型、多项贝叶斯模型。然后通过第一部分获得的剩余的20%的影像数据对六个机器学习模型进行验证并通过roc曲线和准确率对六个模型的准确率和稳定度进行分析比对,通过比对分析比对分析得到支持向量机模型准确率较高,稳定度最好。
[0072]
模型在分类预测中会出现四种情况,如下所示。
[0073]
(1)true positive(真正,tp):将正类预测为正类数
[0074]
(2)true negative(真负,tn):将负类预测为负类数
[0075]
(3)false positive(假正,fp):将负类预测为正类数误报(type i error)
[0076]
(4)false negative(假负,fn):将正类预测为负类数

漏报(type ii error)准确率的公式可以记为公式(2.1)。
[0077][0078]
通过情况可以获得假正率(fpr)和真正率(tpr),可以表示为公式(2.2)和公式(2.3)。
[0079][0080][0081]
roc(receiver operatingcharacteristic)曲线是以假正率(false positive rate)和真正率(true positive true)为轴的曲线,roc曲线下面的面积叫做auc,如图4所示。auc越大则说明模型的准确率越高。
[0082]
如图5所示是本设计的流程图,首先是对于影像的预处理从而获得影像的灰质图,然后融合基因信息和影像并提取特征,然后通过特征训练六个机器学习,最后通过roc曲线和准确率评价比对六个训练完成得模型最后选择最优模型。
[0083]
对于数据集的具体分析如下:
[0084]
本设计采用了adni(alzheimer’s disease neuroimaging initiative)数据集(https://adni.loni.usc.edu/)的阿尔兹海默症、健康对照、轻度认识障碍的t1加权smri影像。
[0085]
本文将主要进行阿尔兹海默症组(ad)和晚期轻度认知障碍组(lmci),阿尔兹海默症组(ad)和健康对照组(hc),阿尔兹海默症组(ad)和晚期轻度认知障碍组(lmci)的分类预测研究。所以本文从andi获取的为ad,lmci,hc的smri数据影像,下载格式为nii格式。其中男性的mri影像数量为527,女性mri影像数量为469。阿尔兹海默症(ad)患者个数为297,轻度认知障碍者为391,健康对照组人数为311。
[0086]
然后对影像进行预处理,包括ac校正,分割,配准到标准空间,调制。最后的处理结果如6图所示。
[0087]
接着对样本数据进行主成分分析和全基因组关联分析,在全基因组关联中,以每个smri影像的均值,样本的年龄,性别,受教育程度和前10个主成分分析值作为协变量,采用线性回归的方法。
[0088]
曼哈顿图的名字来源是因为其形如曼哈顿的天际线:高耸在较低高度的“建筑物”上方的摩天大楼的轮廓。主要用于gwas结果的展示。采用曼哈顿图进行有关全基因组关联分析研究。
[0089]
通过图7至9的曼哈顿图可以发现7号染体、14号染体、19号染体与ad关联密切。
[0090]
现阶段,科研人员通过对于阿尔兹海默症基因层次的研究分析发现abca7,apoe,app,bin1,cass4,cd2ap,cd33,celf1,clu,cr1,dsg2,epha1,fermt2,inpp5d,mef2c,nme8,picalm,ptk2b,rin3,slc24a4,sorl1,zcwpw1,ms4a6,hla-drb1这24段基因片段是阿尔兹海默症的易感基因,所以本设计将根据这24段易感染基因它们对应的snp值和p值,然后将p值组成矩阵,然后求出最大特征值,如表2-1所示。
[0091]
表2-1三组的最大特征值
[0092][0093]
然后通过最大特征差异化三组的影像特征,最后通过模板提取影像特征。
[0094]
然后采用提取的80%的特征数据训练调参六个模型。
[0095]
六个模型中svm核函数采用线性函数,逻辑回归模型采用常规的模型,朴素贝叶斯模型采用多项式,提升决策树算法的迭代次数为50次,bp神经网络模型采用4层,输入层单元个数210个,隐含层个数分别为24个和12个,输出层单元个数为2个,其中隐含层的激活函数为relu,输出层的激活函数为sigmoid,两个激活函数如图10所示。基于cart分类树的adaboost算法中的决策分类树最大层数为5层,adaboost中的迭代次数为100次。
[0096]
bp神经网络的结构图,如图11所示,流程如图12所示。
[0097]
如图13所示输入影像特征对模型进行训练,如果模型未达到训练次数或者训练的精度不符合规范则调整权值和阀值重新训练网络模型。
[0098]
图13至15是三组每组训练是bp神经网络的准确度和损失值示意图。
[0099]
同时本设计训练提升决策树时,采用了feature importance方法和permutation importance计算影像在训练提升决策树时的特征重要性。
[0100]
从图16至18中可以发现在健康对照和轻度认知障碍分类组的分类中通过两种方法,特征139和特征142都排进了前五,说明在在健康对照组和轻度认知障碍分类组的分类中这两个特征的影响较大。在健康对照和阿尔兹海默症分类组的分类中,特征98和特征135都在前五的范围内,表明特征98和特征135在健康对照和阿尔兹海默症分类组的分类中影响相较其他特征影像比较大。在阿尔兹海默症组和轻度认知障碍组中,特征136和特征198在两种方法中影响都较大。然后本设计将绘制上述的小提琴图。
[0101]
通过小提琴图可以很直观地观察到上述的影像特征在三组中的差异,分别明显地不同。
[0102]
如图19所示,adaboost算法的框架图所示,影像特征输入,adaboost模型初始化样本的权值和阀值,将影像特征数据和初始化得到的权值和阀值带入训练,训练过后将加权后的影像特征数据带入到下一个决策树内训练,依次迭代100次,最后根据每个决策树的权
重和决策树集合成一个强学习器。训练完成模型后采用剩余20%的影像作为验证集验证模型。
[0103]
通过roc曲线分析发现支持向量机、逻辑回归模型和基于cart分类树的adaboost模型在三组的准确率综合上发挥较为出。
[0104]
通过对准确率求均值可以得出bp神经网络的准确率均值为0.85,多项朴素贝叶斯的准确率均值为0.63,基于cart分类树的adaboost模型的准确率均值为0.82,逻辑回归模型的准确率均值为0.85,svm模型的准确率均值为0.86,dbdt模型的准确率均值为0.81。由此可以得出,svm稳定度最高,逻辑回归和bp神经网络模型的稳定度较高。
[0105]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

技术特征:


1.一种基于影像组学的阿尔兹海默症风险预测平台,其特征在于,包括如下步骤:步骤1、对于影像的预处理获得标准化影像,然后对样本数据进行主成分分析,然后分别以三组smri的均值表型样本的年龄、性别、受教育程度和前10个主成分分析值作为协变量通过线性回归的方法进行全基因组关联分析,然后根据24段与ad相关的基因段结合全基因组关联分析的结果获得与ad先关snp(单核苷酸多态性)和其对应的p值,然后根据p值组成矩阵并求其最大特征值,然后依靠最大特征值分别差异化阿尔兹海默症组、轻度认知障碍组、健康对照组的影像数据;最后通过模板提取特征数据;步骤2、将步骤1获得的影像特征数据的80%对六个机器学习模型进行训练调参,六个模型为支持向量机、bp神经网络、基于cart分类树的adaboost模型、提升决策树gbdt、逻辑回归模型、多项贝叶斯模型;然后通过步骤1获得的剩余的20%的影像数据对六个机器学习模型进行验证并通过roc曲线和准确率对六个模型的准确率和稳定度进行分析比对,通过比对分析得到支持向量机模型准确率较高,稳定度最好。2.如权利要求1所述的基于影像组学的阿尔兹海默症风险预测平台,其特征在于,模型在分类预测中会出现四种情况,如下所示:(1)true positive,真正,tp:将正类预测为正类数;(2)true negative,真负,tn:将负类预测为负类数(3)false positive,假正,fp:将负类预测为正类数误报;(4)false negative,假负,fn:将正类预测为负类数

漏报;准确率的公式可以记为公式(2.1)通过情况可以获得假正率fpr和真正率tpr,可以表示为公式(2.2)和公式(2.3);通过情况可以获得假正率fpr和真正率tpr,可以表示为公式(2.2)和公式(2.3);roc曲线是以假正率和真正率为轴的曲线,roc曲线下面的面积叫做auc,auc越大则说明模型的准确率越高。3.如权利要求1所述的基于影像组学的阿尔兹海默症风险预测平台,其特征在于,所述的步骤一具体包括:首先是对于影像的预处理从而获得影像的灰质图,然后融合基因信息和影像并提取特征,然后通过特征训练六个机器学习,最后通过roc曲线和准确率评价比对六个训练完成得模型最后选择最优模型;对于数据集的具体分析如下:本设计采用了adni数据集的阿尔兹海默症、健康对照、轻度认识障碍的t1加权smri影像;然后对影像进行预处理,包括ac校正,分割,配准到标准空间,调制,最后的处理结果;接着对样本数据进行主成分分析和全基因组关联分析,在全基因组关联中,以每个smri影像的均值,样本的年龄,性别,受教育程度和前10个主成分分析值作为协变量,采用
线性回归的方法;采用曼哈顿图进行有关全基因组关联分析研究;通过对于阿尔兹海默症基因层次的研究分析发现abca7,apoe,app,bin1,cass4,cd2ap,cd33,celf1,clu,cr1,dsg2,epha1,fermt2,inpp5d,mef2c,nme8,picalm,ptk2b,rin3,slc24a4,sorl1,zcwpw1,ms4a6,hla-drb1这24段基因片段是阿尔兹海默症的易感基因,根据这24段易感染基因它们对应的snp值和p值,然后将p值组成矩阵,然后求出最大特征值,然后通过最大特征差异化三组的影像特征,最后通过模板提取影像特征;然后采用提取的80%的特征数据训练调参六个模型。4.如权利要求1所述的基于影像组学的阿尔兹海默症风险预测平台,其特征在于,六个模型中svm核函数采用线性函数,逻辑回归模型采用常规的模型,朴素贝叶斯模型采用多项式,提升决策树算法的迭代次数为50次,bp神经网络模型采用4层,输入层单元个数210个,隐含层个数分别为24个和12个,输出层单元个数为2个,其中隐含层的激活函数为relu,输出层的激活函数为sigmoid,两个激活函数;基于cart分类树的adaboost算法中的决策分类树最大层数为5层,adaboost中的迭代次数为100次;输入影像特征对模型进行训练,如果模型未达到训练次数或者训练的精度不符合规范则调整权值和阀值重新训练网络模型;同时本设计训练提升决策树时,采用了feature importance方法和permutation importance计算影像在训练提升决策树时的特征重要性。5.如权利要求1所述的基于影像组学的阿尔兹海默症风险预测平台,所述adaboost模型的框架如下,影像特征输入,adaboost模型初始化样本的权值和阀值,将影像特征数据和初始化得到的权值和阀值带入训练,训练过后将加权后的影像特征数据带入到下一个决策树内训练,依次迭代100次,最后根据每个决策树的权重和决策树集合成一个强学习器;训练完成模型后采用剩余20%的影像作为验证集验证模型。

技术总结


本发明涉及一种阿尔兹海默症风险预测技术,特别涉及一种基于影像组学的阿尔兹海默症风险预测平台,包括如下步骤:步骤1、对于影像的预处理获得标准化影像,然后对样本数据进行主成分分析,然后分别以三组sMRI的均值表型样本的年龄、性别、受教育程度和前10个主成分分析值作为协变量通过线性回归的方法进行全基因组关联分析;最后通过模板提取特征数据;步骤2、将步骤1获得的影像特征数据的80%对六个机器学习模型进行训练调参,六个模型为支持向量机、BP神经网络、基于CART分类树的AdaBoost模型、提升决策树GBDT、逻辑回归模型、多项贝叶斯模型;通过比对分析得到支持向量机模型准确率较高,稳定度最好。稳定度最好。稳定度最好。


技术研发人员:

孟祥莲 顾澧沅 王子巍 刘文杰

受保护的技术使用者:

常州工学院

技术研发日:

2022.08.25

技术公布日:

2023/1/2

本文发布于:2024-09-22 01:39:21,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/51802.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:模型   影像   特征   阿尔
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议