基于聚类与分类相结合的疾病危险因素提取方法[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910484068.4
(22)申请日 2019.06.05
(71)申请人 南京理工大学
地址 210094 江苏省南京市玄武区孝陵卫
200号
(72)发明人 沈兴鑫 姚澜 徐雷 
(74)专利代理机构 南京理工大学专利中心
32203
代理人 马鲁晋
(51)Int.Cl.
G16H  10/20(2018.01)
G16H  50/70(2018.01)
(54)发明名称基于聚类与分类相结合的疾病危险因素提取方法(57)摘要本发明公开了一种基于聚类与分类相结合的疾病危险因素提取方法。该方法包括以下步骤:根据用户调查问卷,构建用户信息矩阵与标签向量;将用户信息矩阵进行属性分割,获得若干个用户信息矩阵子集与原始用户信息矩阵;对每
个用户矩阵进行标准化处理;对标准化用户矩阵进行降维处理,获得降维矩阵;对降维矩阵进行聚类,获得不同类别的聚类人;对每一类聚类人构造一棵决策树,并采用集成的思想对所有决策树进行统计,之后依据层次系数大小获得疾病危险因素。相较于目前医学领域中危险因素提取方法中的回归统计方法,本发明通过结合聚类与分类两种方法,不仅能充分利用原始数据,同时降低了由单独一棵决策树得出结论的错误
率。权利要求书2页  说明书10页  附图2页CN 110189803 A 2019.08.30
C N  110189803
A
1.一种基于聚类与分类相结合的疾病危险因素提取方法,其特征在于,包括以下步骤:
步骤1、根据某种疾病的用户调查问卷,构建用户信息矩阵与标签向量;
步骤2、对所述用户信息矩阵进行属性分割,获得若干个用户信息矩阵子集与原始用户信息矩阵;
步骤3、对属性分割后的每个用户信息矩阵进行标准化处理,获得若干个标准化用户信息矩阵;
步骤4、对每个标准化用户信息矩阵进行特征降维,获得若干个降维用户信息矩阵;
步骤5、对每个降维用户信息矩阵进行高斯混合聚类,获得相应的聚类人;
步骤6、对每个聚类人构建分类决策树,统计决策树特征节点信息,根据决策树得分进行加权统计,计算所有特征节点的层次系数,对层次系数进行降序排列,之后根据实际需求自定义选取排名前列的若干个层次系数作为疾病危险因素。
2.根据权利要求1所述的基于聚类与分类相结合的疾病危险因素提取方法,其特征在于,步骤1所述根据某种疾病用户调查问卷,构建用户信息矩阵与标签向量,具体为:步骤1-1、收集若干份针对某种疾病的用户调查问卷,该问卷包括用户问卷ID号、若干问题及对应的选项,由所有用户调查问卷构建用户信息矩阵I,矩阵I的维度为N*(M+1),N为参与调查的用户数目,M为调查问卷中问题特征的数量;
所述用户信息矩阵I中,第i行第1列的特征为用户问卷ID号;
所述用户信息矩阵I中,第i行第j列为第i个用户问卷对第j个问题的答案,其中1≤i≤N,2≤j≤M+1;
步骤1-2、构建N*1的标签向量target,标签向量target中的第i个值表示第i个用户卷对应的用户是否患病,其中0表示用户未患病,1表示用户患病。
3.根据权利要求1或2所述的基于聚类与分类相结合的疾病危险因素提取方法,其特征在于,步骤2所述对用户信息矩阵进行属性分割,获得若干个信息矩阵子集与原始用户信息矩阵,具体为:
根据用户信息矩阵维度特征,针对根据疾病自定义选取的若干特征中的每个特征,将用户信息矩阵按照该特征的取值分为若干个矩阵,获得若干个N*M的用户信息矩阵子集,同时保留原始N*(M+1)的用户信息矩阵。
4.根据权利要求3所述的基于聚类与分类相结合的疾病危险因素提取方法,其特征在于,步骤3所述对属性分割后的每个用户信息矩阵进行标准化处理,获得若干个标准化用户信息矩阵,具体为:
利用Z-score标准化算法对用户信息矩阵进行标准化处理以使每个维度的数据服从均值为0、方差为1的分布,由此获得若干个N*M的标准化用户信息矩阵子集与N*(M+1)的原始标准化用户信息矩阵。
5.根据权利要求4所述的基于聚类与分类相结合的疾病危险因素提取方法,其特征在于,步骤4所述对每个标准化用户信息矩阵进行特征降维,获得降维用户信息矩阵,具体为:对每个标准化用户信息矩阵进行主成分分析降维,获得若干个降维用户信息矩阵子集与原始降维用户信息矩阵。
6.根据权利要求5所述的基于聚类与分类相结合的疾病危险因素提取方法,其特征在于,步骤5所述对每个降维用户信息矩阵进行高斯混合聚类,获得相应的聚类人,具体为:
对每个降维用户信息矩阵进行高斯混合聚类,假设聚类类别为K,获得K个内簇;并根据标签向量target对用户进行标记,获得若干个带有患病与否标签的聚类人。
7.根据权利要求6所述的基于聚类与分类相结合的疾病危险因素提取方法,其特征在于,步骤6所述对每个聚类人构建分类决策树,统计决策树特征节点信息,根据决策树得分进行加权,计算所有特征节点的层次系数,具体为:
步骤6-1、根据决策树分类预测结果与真实标签值计算决策树得分,将其作为该决策树权重系数,并将多棵决策树进行集成,获得第m棵决策树权重系数weight m为:
式中,P m代表第m棵决策树标签为正常人的数量,N m代表第m棵决策树标签为患者的数量,rank i代表标签为正常人的记录中第i条记录的排名,positive m代表第m棵决策树中的标签为正常人的所有记录;
步骤6-2、获取第m棵决策树层次系数,具体为:
式中,L mi为第m棵决策树特征节点i的层次系数,feature_m为第m棵决策树的特征节点集合,Y ij表示特征节点i在决策树第j层的出现次数,h代表该决策树的高度;
步骤6-3、结合决策树权重系数和决策树层次系数,获取特征节点层次系数L x为:
式中,x为所有决策树特征节点集合的并集中的某一个特征节点,L mx为特征节点x在第m 棵决策树的层次系数,L x为集成所有决策树后特征节点x的层次系数。
基于聚类与分类相结合的疾病危险因素提取方法
技术领域
[0001]本发明属于大数据技术与医学领域,特别是一种基于聚类与分类相结合的疾病危险因素提取方法。
背景技术
[0002]胃食管反流疾病是指胃反流物反流入食管,引起不适症状和并发症的一种疾病,作为一种消化系统临床常见病,普遍存在于亚洲和西方各个国家,且发病率呈逐年升高的趋势。据研究发现,胃食管反流疾病与个人生活、饮食习惯、精神状况等多方面因素相关,且病情容易发生变化。因此,通过大数据技术探究引起胃食管反流疾病发病的危险因素对于该疾病的与预防有重要意义。
[0003]目前针对引起胃食管反流等疾病的危险因素,各医学杂志根据临床经验以及理论知识总结出了可能引发该疾病的危险因素,但是这些方法往往存在一些弊端,一方面,大多数分析与研究往往存在样本量少,分析因素少,使得最终结果不具有泛化能力,人为分析需要大量的经验知识积累,缺乏权威性与科学性;另一方面,分析方法单一,大多基于统计学方法以及临床研究与医学经验相结合,当面临样本数足够多,疾病涉及因素广的情况时,此类方法往往导致效率低下,分析出的结果对于疾病的预防与诊治没有太大的帮助。[0004]目前所存在的危险因素提取方法大多是基于传统统计学的统计推断方法,从对人医学数据的分析中生成关于总体参数即致病因素的可能命题,估计由该因素引起患病的结果为偶然引发的概率。该类方法往往受到计算资源匮乏的限制,且计算方法单一,大多是基于t检验或卡方检验等方法对数据集进行验证。
[0005]在大数据分析技术中,聚类分析是处理复杂数据集的数值分类技术,是在缺乏划分标准或外在基准的情况下,根据事物本身的特性对所研究的对象进行分类。当前对于疾病危险因素的提取采用的聚类方法大多是层次聚类,在划分类簇时往往需要专业的医学知识对类簇特征进行确定,且计算量大。
发明内容
[0006]本发明的目的在于提供一种从高维度医学疾病数据中提取关键致病因素的提取方法。
[0007]实现本发明目的的技术解决方案为:基于聚类与分类相结合的疾病危险因素提取方法,包括以下步骤:
[0008]步骤1、根据某种疾病的用户调查问卷,构建用户信息矩阵与标签向量;
[0009]步骤2、对所述用户信息矩阵进行属性分割,获得若干个用户信息矩阵子集与原始用户信息矩阵;
[0010]步骤3、对属性分割后的每个用户信息矩阵进行标准化处理,获得若干个标准化用户信息矩阵;
[0011]步骤4、对每个标准化用户信息矩阵进行特征降维,获得若干个降维用户信息矩
阵;
[0012]步骤5、对每个降维用户信息矩阵进行高斯混合聚类,获得相应的聚类人;[0013]步骤6、对每个聚类人构建分类决策树,统计决策树特征节点信息,根据决策树得分进行加权统计,计算所有特征节点的层次系数,对层次系数进行降序排列,之后根据实际需求自定义选取排名前列的若干个层次系数作为疾病危险因素。
[0014]本发明与现有技术相比,其显著优点为:1)利用特征降维方法解决了处理医学数据大样本、高维度的难题;2)对原始数据进行数据分割,充分利用了原始数据中的信息,尤其适用于数据量较小,但特征维度较多的数据集;3)将聚类技术与分类技术相结合,构建大量决策树,降低了分类决策树数量少带来的误差。
[0015]下面结合附图对本发明作进一步详细描述。
附图说明
[0016]图1为本发明基于聚类与分类相结合的疾病危险因素提取方法流程图。
[0017]图2为本发明实施例中划分人的示意图。
[0018]图3为本发明实施例中构建的一棵决策树实例示意图。
具体实施方式
[0019]结合图1,本发明基于聚类与分类相结合的疾病危险因素提取方法,包括以下步骤:
[0020]步骤1、根据某种疾病的用户调查问卷,构建用户信息矩阵与标签向量;
[0021]步骤2、对所述用户信息矩阵进行属性分割,获得若干个用户信息矩阵子集与原始用户信息矩阵;
[0022]步骤3、对属性分割后的每个用户信息矩阵进行标准化处理,获得若干个标准化用户信息矩阵;
[0023]步骤4、对每个标准化用户信息矩阵进行特征降维,获得若干个降维用户信息矩阵;
[0024]步骤5、对每个降维用户信息矩阵进行高斯混合聚类,获得相应的聚类人;[0025]步骤6、对每个聚类人构建分类决策树,统计决策树特征节点信息,根据决策树得分进行加权统计,计算所有特征节点的层次系数,对层次系数进行降序排列,之后根据实际需求自定义选取排名前列的若干个层次系数作为疾病危险因素。
[0026]进一步地,步骤1中根据某种疾病用户调查问卷,构建用户信息矩阵与标签向量,具体为:
[0027]步骤1-1、收集若干份针对某种疾病的用户调查问卷,该问卷包括用户问卷ID号、若干问题及对应的选项,由所有用户调查问卷构建用户信息矩阵I,矩阵I的维度为N*(M+ 1),N为参与调查的用户数目,M为调查问卷中问题特征的数量;
[0028]用户信息矩阵I中,第i行第1列的特征为用户问卷ID号;
[0029]用户信息矩阵I中,第i行第j列为第i个用户问卷对第j个问题的答案,其中1≤i≤N,2≤j≤M+1;
[0030]步骤1-2、构建N*1的标签向量target,标签向量target中的第i个值表示第i个用

本文发布于:2024-09-22 03:52:23,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/402850.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:用户   信息   疾病
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议