转录组入门(7):差异表达分析

转录组⼊门(7):差异表达分析
这个步骤推荐在R⾥⾯做,载⼊表达矩阵,然后设置好分组信息,统⼀⽤DEseq2进⾏差异分析,当然也可以⾛⾛edgeR 或者limma的voom流程。
基本任务是得到差异分析结果,进阶任务是⽐较多个差异分析结果的异同点。
⽬录
数据填坑
理论基础:线性模型, 设计矩阵和⽐较矩阵
标准化⼀⼆事
探索性分析⼀⼆事
使⽤DESeq2进⾏差异基因分析
使⽤edgeR进⾏差异基因分析
使⽤limma进⾏差异基因分析
建筑法规
彩视错觉不同软件包分析结果⽐较
使⽤GFOLD进⾏⽆重复样本的差异基因分析
不同差异表达分析的⽐较
数据填坑
原先三个样本的HTSeq-count计数的数据可以在我的GitHub中到,但是前⾯已经说过Jimmy失误让我们分析的⼈类就只有3个样本, 另外⼀个样本需要从另⼀批数据获取(请注意batch effect),所以不能保证每⼀组都有两个重复。
我⼀直坚信”你并不孤独“这⼏个字,遇到这种情况的⼈肯定不⽌我⼀个,于是我到了⼏种解决⽅法
使⽤edgeR,指定dispersion值
⽆重复转录组数据推荐⽤同济⼤学的GFOLD
以上⽅法都会在后续进⾏介绍,但是我们DESeq2必须得要有重复的问题亟待解决,没办法我只能⾃⼰瞎编了。虽然是编,我们也要有模有样,不能直接复制⼀份,要考虑到⾼通量测序的read是默认符合泊松分布的。我是这样编的。
计算KD重复组的均值差,作为泊松分布的均值
奥古斯都
使⽤概率函数rpois()随机产⽣⼀个数值,前⼀步的均值作为lambda,
对⼀些read count 低于均值的直接加上对应KD重复组之间的差值
这是最简单的单因素⽅差分析,每⼀个结果都可以看成 yij = ai + u + eij, 其中u是总体均值,ai是每⼀个处理的差异,eij是随机误差。
正来学堂
image
注:⽅差分析(Analysis of Variance, ANAOVA)名字听起来好像是检验⽅差,但其实是为了判断样本之间的差异是否真实存在,为此需要证明不同处理内的⽅差显著性⼤于不同处理间的⽅差。
线性回归 ⼀般是⽤于量化的预测变量来预测量化的响应变量。⽐如说体重与⾝⾼的关系建模:
image
湖南百科全说
当然线性回归也可⽤处理名义型或有序型因⼦(也就是离散变量)作为预测变量,如果要画图的话,就是下⾯这个情况。
image
如果我们需要通过⼀个实验到不同处理后对照组和控制组的基因变化,那么基因表达可以简单写成, y = a + b · treament + e。 和之前的yij = ai + u + eij 相⽐,你会发现公式是如此的⼀致。 这是因为线性模型和⽅差分析都是⼴义线性模型(generalizing linear models, GLM)在正态分布的预测变量的特殊形式。⽽GLM本⾝只要采⽤合适的连接函数是可以处理对任意类型的变量进⾏建模的。
⽬前认为read count之间的差异是符合负⼆项分布,也叫gamma-Possion分布。那么问题来了,如何⽤GLM或者LM分析两个处理件的差异呢?其实可以简单的⽤上图的拟合直线的斜率来解释,如果不同处理之间存在差异,那么这个拟合线的斜率必定不为零,也就是与X轴平⾏。但是这是⼀种便于理解的⽅式(虽然你也未必能理解),实际更加复杂,考虑因素更多。
神经节苷脂钠注1 负⼆向分布有两个参数,均值(mean)和离散值(dispersion). 离散值描述⽅差偏离均值的程度。泊松分布可以认为是负⼆向分布的离散值为1,也就是均值等于⽅差(mean=variance)的情况。
注2 这部分涉及⼤量的统计学知识,不懂就⽤⼀个个查清楚。
聊完了线性模型和⽅差分析,下⾯的设计矩阵(design matrix)就很好理解了, 其实就是⽤来告诉不同的差异分析函数应该如何对待变量。⽐如说我们要研究的KD和control之间变化,设计矩阵就是
样本处理
sample1control
sample2control
sample3KD
sample4KD
那么⽐较矩阵(contrast matrix)就是告诉差异分析函数应该如何对哪个因素进⾏⽐较, 这⾥就是⽐较不同处理下表达量的变化。
标准化⼀⼆事
其实read count如何标准化的⽅法有很多,最常⽤的是FPKM和RPKM,虽然它们其实是错的--FPKM/RPKM是错的。
我推荐阅读 Comparing the normalization methods for the differential analysis of Illumina high-throughput RNA-Seq data , 了解不同标准化⽅法之间的差异。
有⼀些⽅法是要求原始数据,有⼀些则要求经过某类标准化后的数据,记得区分。

本文发布于:2024-09-21 04:31:59,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/475609.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:分析   差异   变量   处理   数据   均值   分布   预测
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议