差异表达基因变化倍数_【其他】差异基因筛选方法

差异表达基因变化倍数_【其他】差异基因筛选⽅法
⼤家拿到基因数据,⼀头雾⽔不知如何下⼿,别急,咱们从差异基因筛选开始,⼀步步掀开数据分析的那层神秘⾯纱!本⽂特别感谢GCBI 算法⼯程师DoctorWang的倾情解答!
对于基因的差异表达分析,能够发现⼀组在正常样本和患病样本中表达不同的基因,这为⽣物⼯作者进⾏实验验证提供了较好的候选基因。
通常的检测是对两种不同实验条件下的差异基因表达的问题进⾏模式化,⼀种检验对应⼀种基因,如果基因的表达值是零假设,那么它是⽆差异的。差异基因的筛选⽅法有很多,最简单的是阈值法,⽤倍数分析基因表达⽔平差异,即计算基因在两个条件下表达⽔平的⽐值,确定⽐值的阈值,将绝对值⼤于此阈值的基因判断为差异基因。另外还有些⽅法包括统计学的T检验法和SAM等⽅法。
倍数变化法
倍数变化法(Foldchange),计算患病组和正常组的表达值的差异倍数,是⽤于检测差异表达基因的最基本的⽅法,由于其简单,易理解和不错的实验结果,使得其成为差异表达直观分析的⾸要选择。
整体⽽⾔,FoldChange ⽅法在探测差异表达基因时,能够直接的得到差异变化值,因此在与差异表达绝对值相关的研究时具有优势。但是其较难选定其所需的阈值,在缺少假阳性的控制的情况下,其检测
的基因假阳性结果⽐率相对较⾼。
缺省
T检验法
T-test 检验是差异基因表达检测中常⽤的统计⽅法,通过合并样本间可变的数据,来评价差异表达,⽤于判断某⼀基因在两个样本中是否有差异表达。
由于芯⽚实验成本较⾼,样本量较少,从⽽对总体⽅差的估计不很准确,T检验的检验效能降低。
SAM算法
SAM算法就是通过控制FDR值纠正多重假设检验中的假阳性率。SAM⽅法检验差异表达,通过对分母增加⼀个常量T 检验过程减⼩了假阳性发⽣的概率。根据⽂献记载,相⽐较其他算法,SAM算法更为稳定,筛选出的结果也更为准确。
SAM⽅法以q-value<0.05作为筛选差异表达基因的标准,从公式上来看,p-value和q-value较为相似,⽽差异筛选是⼀个典型的多重假设检验过程。对于多重假设检验,单次检验中差异显著基因的假阳性率(p-value较⼩)可能会较⼤,⽽q-value和FDR值较常见的BH校正⽅法得到的FDR值⽽⾔,改进了其对假阳性估计的保守性。
其实什么算法、软件好烦⼈,还是GCBI简单⽅便,导⼊数据-设置参数-运⾏,分分钟拿到结果。
为了得到可验证性的⾼质量差异结果,GCBI实验室推荐每个分组(Each Group)的样本数不少于3,当样本重复数少于3个使⽤倍数法,样本重复数⼤于等于3使⽤SAM法。
前⽅⾼能请注意:
1、如何设置参数?
答:在GCBI进⾏差异筛选,通过选择(q-value/差异倍数、差异数量)和设置差异参数,筛选样本中的差异基因。
2001年南充案(1) q-value越⾼,筛选出差异基因越多。q-value=0.05认为结果良好,可根据具体情况适当调整。
(2) 差异倍数常⽤:1.2、1.5、2,其中1.5最常⽤。
2、为什么GCBI采⽤q-value过滤差异结果?q-value较FDR有哪些好处?
答:差异筛选是⼀个典型的多重假设检验过程。对于多重假设检验,单次检验中差异显著基因(p-value较⼩)的假阳性率可能会较⼤,⽽我们期望得到具有⾼可验证性的合适数量的差异结果,那么q-value或FDR更合适于⽤来过滤差异结果。FDR值与q-value都是⽤来衡量多重检验中的误判率的,⽽q-value较常见的BH校正⽅法得到的FDR值⽽⾔,改进了其对假阳性估计的保守性,即q-value⼀般会较FDR更低,从⽽提⾼了部分差异分析的可⾏性。
3、差异基因数量太多或太少,怎么办?
答:可以在适当范围内调整参数设定,可参考下⼀个问题。
糖化酶4、当q-value⼤于0.05还有意义吗?
答:从q-value的定义与意义可知,q-value衡量地是某个基因假阳性的概率。显然如果q-value越低,那么挑选该基因出现假阳性的概率就越低,可验证性就越⾼。也就是说q-value从概率的⾓度对差异的结果进⾏了⼀个整体的可验证性判断,所以在差异很⼤的情形下,我们可以适当地减⼩q-value的过滤阈值,⽽在差异较⼩的情况下,我们完全可以适当增⼤q-value的过滤阈值。对于差异较⼩的情况,q-value⼤于0.05仍然具有意义,如q-value=0.3,就是说这个基因30%的可能性出现假阳性,即它的可验证性的概率(70%)仍然远⾼于不可验证性(30%)。
靖江市城北小学
5、为什么有些差异分析结果中的q-value全部相等?饲料级氧化锌
答:说明差异结果从假阳性⽅⾯看具有⼀致性,即使存在某些基因的p-value较⼩,但是其假阳性的概率与其他基因⼀致,就是说其验证差异的风险⼏乎相同。如果结果的q-value较⼤,那么说明输⼊的基因数据整体的差异不⼤,这种情形我们推荐采⽤合适的差异基因总数(即控制Rank值或dScore值)或者控制q-value来得到期望的可⾏性结果;如果得到的q-value较⼩,说明差异较⼤,可以通过更加严格的q-value 或者差异倍数过滤来得到合理的差异结果。
英联邦成员国6、为什么有时候通过调整q-value进⾏差异基因过滤,⽽差异结果没有变化?
答:⼀般来讲,我们⾸先建议⽤户对默认参数的结果进⾏查看(通过数据栏查看),通过对结果的预览做到“⼼中有数”,然后有针对性的进⾏q-value调整或差异总数的调整。举例来讲,如q-value变化区间较⼤时,通过微调可能就达不到预期结果;如果q-value全部相等(见Q5),那么过前端调整q-value的⽅法来过滤基因将不再会有效果。
7、基因差异倍数⼤于2才是有意义的?
答:对于1vs1样本,差异倍数⼤于2是⼀个较好的先验选择,但仍然不满⾜部分差异过⼤结果的分析要求。在样本数较多的条件下,判断⼀个基因是否有差异,不单单是通过差异倍数来判断,⽽是结合其他统计学参数(如p-value、q-value)来判断。
8、为什么GeneSymbol的有些单元格时空⽩的?
答:因为这段序列在NCBI上是没有正式基因名,可以通过查结果中的Accession列中的编号,来得到该序列的信息。
更多关于功能通路分析、⽹络分析的内容,请注意以后的⽂章推送。

本文发布于:2024-09-21 00:38:23,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/75157.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:差异   基因   表达   结果   检验   分析   阳性
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议