基因的分类与癌症基因识别

基因的分类与癌症基因识别
2008高教社杯全国大学生数学建模竞赛
瓜棚女杰承诺书
我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。
我们参赛选择的题号是(从A/B/C/D中选择一项填写): D 我们的参赛报名号为(如果赛区
设置报名号的话):
所属学校(请填写完整的全名):
参赛队员(打印并签名) :1.
2.
少林拳术秘诀3.
指导教师或指导教师组负责人(打印并签名):
日期: 2010 年 8 月 15 日赛区评阅编号(由赛区组委会评阅前进行编号):
基因的分类与癌症基因识别
摘要克疣淋
本论文旨在通过分析基因的表达水平建立模型,并能通过模型对癌症患者与健康者在基因水平上进行分类,直观表现两者区别。同样也能通过模型对未知个体做出癌症的诊断。
第一问,此问题的特殊性在于样本信息之间的关联性,我们首先采用Fuzzy 聚类的方法对癌症患者与健康者分类,建立Fuzzy分类模型[2]作为模型一。最后在不同的相似水平下得出了不同的分类结果,此结果较为模糊,我们只将作为进一步研究数据的参考。
通过对所有样本基因表达水平的进一步研究,使用matlab作图工具箱[7],将所有样本的基因表达信息分别反映到图表上,观察图像发现,每个基因其实都有一定的正常表达范围,那么由此建立作图模型作为来确定这一范围。得到这一判定范围,就可以拿来对样本分类和诊断了。若基因表达超出该基因正常范围的样本,可以被确定为癌症患者。
通过作图模型对样本只能做粗略判断,且缺少精确的标准。因此,我们建立了概率模型,即为模型三。实际中,每个基因的客观表达水平的概率分布服从正态分布,那么就可以通过建立模型,利用样本信息估计出每个基因表达的概率分布参量,即期望和方差[3],确定其分布函数。再将样本在某基因上的表达水平在概率分布中标出,得出概率值,不考虑此值概率意义,将其作为判断的依据。值越小,此基因致病可能性越大。
概率模型给出解决问题的依据只反映在单个基因上,不能在将对每个基因的表达水平值求出后来判断总体,即基因与基因之间缺少可做累加的标准。为解决此问题,我们建立了Fu
施雪华
zzy集模型[2]作为模型四。Fuzzy集此模型的建立灵感来源于模糊数学中一般形式的综合评判模型。即将每个样本在某基因上的表达水平理解为在此基因上的一种打分值。那么最终得到此基因的Fuzzy集[8],即为所有样本对此基因的综合评判。
古代建筑名称第二问,待检测样本的分析,联合应用前面四个模型,首先的做简单分类,将数据作为资料的扩展信息。诊断样本即模糊识别,利用Fuzzy集模型将待检测样本的平均隶属水平求出,根据此值的大小来做出诊断结果。根据模糊集模型,对比不同类样本的平均隶属水平得出,平均隶属水平在0.85以上者为正常人,0.8~0.85之间的为癌症子类,0.8之下的为癌症患者。通过以上依据最后得出的结果为:在癌症样本中:1,3,4,7,8,11,13,14,17,19,20号样本为癌症子类。在待检测样本中:42,45,57号样本为正常人;41,50,51,54,55,56,58,59号样本为癌症患者;43,44,46,47,48,49,52,53,60为癌症子类。最后的直观图示可将样本经作图模型来将图示信息标出。56样本经作图我们得出,其54,56,62,85,87,94,101,102号基因最有可能致使其患病。
【关键字】Fuzzy聚类分析相似系数正态分布模糊集模糊识别平均隶属水平
一、问题重述
3721网络实名
附件中的文件给出了一个114个基因, 60个人的基因表达水平的样本. 其中前20个是癌症病人的基因表达水平的样本(其中还可能有子类), 其后的是20个正常人的基因表达信息样本, 其余的20个是待检测的样本(未知它们是否正常).
(1).试设法出描述癌症与正常样本在基因表达水平上的区别, 建立数学模型,及识别方法,去预测待检测样本是癌症还是正常样本.
(2).设计图示 (可视化) 方法,使得在你的数学模型下, 尽量清楚地表现癌症与正常样本在基因表达水平上的区别, 以及癌症样本中是否有子类.
二、问题分析
癌症是危机人类健康与生命头号杀手,时至今日,可以说人类仍然没有彻底根治癌症的有效方法。但是我们依然可以通过现代医学手段预防癌症。现代医学研究表明,癌症的病发,不单是外部环境刺激引起,还与人的基因表达有关,实际上任何病症都可以从人类基因方面出或多或少的牵连关系。
此题的实质也就是从基因表达水平上分析癌症与健康人的区别,并通过科学的建模方式,
有效地对待检测人进行癌症的诊断,即问题一。
根据医学理论,某一或某些基因的异常表达,可能会引起癌症及其他病症的病发。此题中已给出114个基因的表达水平,有理由相信每个基因的表达水平都是在统一的标准上进行的数字化处理。因此可以根据个体基因表达水平之间的差别进行分类,将癌症患者与健康人分开,即典型的聚类分析问题。对于聚类分析,现有的比较好的方法有Fuzzy聚类分析和人工神经网络模型。
在对正常个体之间一种基因表达水平的差别分析中,可以看出基因的表达水平分布在了一定的范围,但是再与癌症病人的基因进行比较,并不能看出癌症与健康人在基因表达水平上明显的划分。显然直接在癌症与健康人之间建立精确的模型将二类完全分隔是不可能的,也是不科学的(见下文分析)。对于有精确分类模式的人工神经网络显然是不合适的,同样在接下来的分析中,我们也会看到神经网络解决此问题的不足。对于有这样模糊关系的集合进行分类,使用Fuzzy聚类分析的方法求解就比较合适了。
我们已讲到建立精确的模型进行分类是不科学的,原因在于有这样的事实:体中,某个基因的表达水平是不确定性的以及一种癌症多基因控制的可能性。同时,由于所给样本数
量有限和样本个体是否患有除癌症之外的其他病症并未可知,这就对某些基因的异常表达所产生的病症的判断带来了复杂性和不确定性。对于有些癌症可能是有潜伏期的,在这我们也看到了Fuzzy分类的不足,即正常人中是否也会存在癌症隐患的人也是未知的,从而对分类中模糊程度的确定带来了困难。但在此题中,可以忽略这种情形。

本文发布于:2024-09-24 04:25:06,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/344817.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:基因   样本   癌症   表达
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议