GEO数据挖掘生物信息文章解读(直肠癌)

GEO数据挖掘⽣物信息⽂章解读(直肠癌
GEO数据库全称GENE EXPRESSION OMNIBUS,是由美国国⽴⽣物技术信息中⼼NCBI创建并维护的基因表达数据库。它创建于2000年,收录了世界各国研究机构提交的基因表达数据(主要包括芯⽚表达数据,也包含⼀些⾼通量测序表达数据)。这⾥含有海量的公开的免费的数据,我们可以利⽤这些数据借助⽣物信息学⼯具再次挖掘这些数据,发表SCI论⽂。下⾯介绍⼀篇2019年发表的GEO数据挖掘套路⽂章。
⽂献
⽂章今年(2019)发表在:Gene 上IF=2.6分左右。该⽂章发表的杂志影响因⼦虽然不⾼,分析的内容呢也会少⼀些,但是对于⽣信数据挖掘刚刚⼊门的⽣物汪来说却是⼀个⾮常好的⼊门级别的⽂章。
⽂章的⽬的是通过⽣物信息分析的⽅法,挖掘GEO和TCGA数据库当中的公开数据,从⽽发现与直肠癌预后相关的biomarker,为直肠癌的诊断和提供分⼦诊断依据。
1.GEO和TCGA数据差异分析
作者在GEO数据库当中到三个直肠癌相关的数据GSE32323, GSE74602, and GSE113513,分别做差异分析。然后,⼜下载TCGA当中的直肠癌相关的转录组数据做差异分析,差异分析结果绘制⽕⼭图(下图 A)。对于4组数据当中的差异基因按照上调基因(下图B)和下调基因(下图C)分别做韦恩图,最终得到共有的上调基因57个和下调基因150个。
2.功能注释富集分析
通过DAVID数据库对差异基因进⾏功能注释和富集分析。GO富集分析发现,其中注释到⽣物过程(BP)⼤类的差异基因主要富集的功能term包括:extracellular matrix (ECM) organization, platelet degranulation, response to wounding and extracellular matrix
disassembly(下图A)等等。KEGG通路分析发现差异基因主要集中在以下通路:Complement and coagulation cascades, ECM-receptor interaction and Sphingolipid metabolism(下图D)。这些通路或者富集的功能很多都与直肠癌的发⽣发展相关。
基因调控网络3.蛋⽩互作⽹络分析发现hub gene
将以上得到的共有的差异基因上传到STRING蛋⽩互作数据库,利⽤cytoscape软件当中的cytoHubba插件寻 hub基因,最后取其中连通性最⾼的top10个基因构建⽹络,分别是:CCL19, CXCL1, CXCL5, CXCL11, CXCL12, GNG4, INSL5, NMU, PYY, SST(下图)。
分析上⾯hub基因对直肠癌的诊断作⽤:再利⽤TCGA中的临床数据,作者通过ROC分析发现这些hub基因对直肠癌的诊断具有很⾼的准确
性,10个基因(CCL19, CXCL1,CXCL5, CXCL11, CXCL12, GNG4, INSL5, NMU, PYY, and SST)的AUC值分别是:0.900, 0.927,
0.869, 0.863, 0.980, 0.682, 0.903, 0.790, 0.995, and 0.989。
4.⽣存分析及预后分析
通过单因素Cox回归分析,作者共发现了 32个基因与直肠癌的预后相关,再通过多因素Cox分析,最终确定9个基因与直肠癌的预后强烈相关,可以作为直肠癌预后的标志分⼦并建⽴预后模型 (-0.1068×
SLC4A4) +(-0.2564×NFE2L3)+(0.2082×GLDN) +(0.0834×PCOLCE2) + (0.3424×TIMP1)+(0.1149×CCL28) +(-0.0991×SCGB2A1) +(-0.1080×AXIN2) +(-0.1516×MMP1)。Kaplan-Meier曲线显⽰,模型预测的低风险组与⾼风险组相⽐,⾼风险组患者的死亡风险明显⾼于低风险组(下图A),ROC曲线对于5年⽣存预测风险评分的AUC值为
0.741(下图B),模型对直肠癌的预后效果很好。
5.⽅法总结
⽂章中使⽤的数据来源有两个,⼀个是GEO当中的直肠癌相关的芯⽚数据,第⼆个是TCGA数据库当中直肠癌的转录组测序数据。两个数据集分别做差异分析,然后取交集得到最终的差异基因集,将这些差异基因提交到DAVID数据库做差异基因的功能富集分析,发现差异基因所在通路或者功能与直肠癌相关。通过蛋⽩互作⽹络分析到hub基因,与直肠癌的诊断相关,最后通过Cox回归分析到与直肠癌预后相关的基因,并建⽴预后模型,并检验该模型具有很好的预后准确性。
⽂章套路很简单,没有做任何的实验,分析内容也不多,对于刚刚⼊门的⽣信⼩⽩来说是很好的练⼿范例。数据挖掘发⽂是投⼊产出⽐最⾼的发⽂思路了,可以说只要你会⽣物信息投⼊的成本就只有时间了。
更多技能学习链接
更多⽣物信息课程:
1. ⽂章越来越难发?是你没发现新思路,基因家族分析发2-4分⽂章简单快速,学习链接:基因家族分析实操课程、基因家族⽂献思路解读
2. 转录组数据理解不深⼊?图表看不懂?点击链接学习深⼊解读数据结果⽂件,学习链接:转录组(有参)结果解读;转录组(⽆参)结果解读
3. 转录组数据深⼊挖掘技能-WGCNA,提升你的⽂章档次,学习链接:WGCNA-加权基因共表达⽹络分析
4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘、转录组⽂献解读
5.微⽣物16S/ITS/18S分析原理及结果解读、OTU⽹络图绘制、cytoscape与⽹络图绘制课程
6. ⽣物信息⼊门到精通必修基础课,学习链接:linux系统使⽤、perl⼊门到精通、perl语⾔⾼级、R语⾔画图
7. 医学相关数据挖掘课程,不⽤做实验也能发⽂章,学习链接:TCGA-差异基因分析、GEO芯⽚数据挖掘、GSEA富集分析课程、TCGA临床数据⽣存分析、TCGA-转录因⼦分析、TCGA-ceRNA调控⽹络分析
8.其他课程链接:⼆代测序转录组数据⾃主分析、NCBI数据上传、⼆代测序数据解读。

本文发布于:2024-09-23 02:24:10,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/387341.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:分析   基因   数据   直肠癌   链接
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议