RNA-seq(转录组学)的分析流程和原理

RNA-seq(转录组学)的分析流程和原理
在开始详细讲解RNA测序之前,我们先来了解一下它的基本步骤:
1.建库:提取RNA,富集mRNA或消除rRNA,合成cDNA和构建测序文库。
2.测序:然后在高通量平台(通常是Illumina)上进行测序(每个样本测序reads在DNA测序中,读数是对应于单个DNA片段的全部或部分的碱基对(或碱基对概率)的推断序列。深度为10-30 Million reads。)
3.分析:先比对/拼装测序片段到转录本,通过计数、定量,样本间过滤和标准化,以进行样本组间基因/转录本统计差异分析。
大致了解这个过程之后,我们就先从建库开始了解
铝钉机建库的难点在于提纯出mRNA, 一般在我们抽离出的RNA中rRNA占比很大,其他还会有tRNA、microRNA等。我们需要从抽离出的RNA中提取出mRNA,并建立cDNA文库。
这里以应用最广泛的Illumina公司的Truseq RNA的建库方法为例来进行介绍。首先,利用高等生物的mRNA通常有poly(A)尾的(使mRNA更稳定,翻译不容易出错)特点,用带有poly(T)探针的磁珠与总RNA进行杂交,这样磁珠就和带poly(A)尾巴的mRNA结合在一起了。
陶粒混凝土墙板
接下来,就回收磁珠,把这些带poly(A)的mRNA从磁珠上洗脱下来。再用镁离子溶液(或者超声波)进行处理,把mRNA打成小段。
然后,利用这些被打断的mRNA片段,以随机引物进行逆转录,得到第一链cDNA。
破窗器原理再根据第一链cDNA合成出ds-cDNA。
对cDNA在平末端进行3’端加A碱基(腺苷酸)(adapter接头上带了T碱基头,为了和adapter配对)
在双链cDNA的两端加分别上Y型接头
再经PCR扩增经筛选的目的基因,就得到可以上机的测序文库了。
这个建库方法对RNA的完整度有较高的要求。也就是说,只有在mRNA大部分是完整的状态下,才能得到比较好的效果。按键板
因为带Poly(T)的磁珠,它所吸附的是带有Poly(A)的那些序列。那么如果mRNA 发生了降解,也就是mRNA断掉了,那么磁珠所吸附下来的片段,都是那些靠近3'端的那些断片,而那些5'端的断片,是吸附不下来的。会在富集过程中被洗脱掉。这样进行数据分析的时候,就会发生一定的数据偏差。
同时,为了保证能够测到尽可能完整的mRNA序列,Illumina公司建议:先对总RNA进行一次质量检测。云母带
一般是用Agilent公司出品的Bioanalyzer 2100毛细管电泳仪,对总RNA样本进行一次电泳质检。根据18S和28S这两个核糖体RNA的电泳峰是否高、是否尖,来判断RNA的质量。这两个峰越高、越尖,也就说明RNA的降解就越少,完整度就越高。
同时系统会自动打分。这个分值,叫“RIN”值。也就是RNA的完整度评分值。是“RNA Integrity Number”的英文首字母缩写。这两个峰越高、越尖,那么打分,也会越高。(之前说过,越高越尖说明RNA完整度越好)RIN值最高是10分,最低是0分。
Illumina公司推荐用RIN值在8.0以上的RNA进行建库和测序。
Illumina测序即二代测序技术通常是RNA-seq测序中最常用的。接下来,我们简单了解一下它的原理。先说flow cell ,它是含有管道的一片玻璃,是测序反应发生的位置。
然后在接上接头之后,我们首先要进行桥式PCR。
首先是右图第一步接好接头,然后将DNA样品调整到合适的浓度加入到flowcell 中,再加入特异的化学试剂。就可以使得序列的一端与flowcell上面已经存在的短序列通过化学键十分强健地相连。如左图。
图中不同的颜表示的是两种不同的接头,分别对应序列之前加入的两种接头。
连接以后就正式开始桥式PCR。首先进行第一轮扩增,将正向链序列补成双链。加入NaOH强碱性溶液破坏DNA的双链,并洗脱。留下从固定的接头上延续出来的反向链,正向链被洗脱。得到右图的第二步。
加入缓冲溶液,这时候序列自由端的部分就会和旁边的接头进行配对,形成桥状。得到右图的第三步。
进行一轮PCR,在PCR的过程中,序列是弯成桥状,所以叫桥式PCR,一轮桥式PCR可以使得序列扩增1倍。也就是右图的第四步。
然后用碱液进行解链,由于合成是各有一端是延续在接头上的,不会被洗脱。从而得到两条固定好的序列。如右图的第五步
我们一直重复第3步到第5步,就可以得到就会得到一个具有完全相同序列的簇,一般叫cluster。就是第6步
利用多个序列进行桥式PCR就会得到多个簇。
形成簇之后,加入带不同荧光标记的含有叠氮基团的dNTP和聚合酶,由于叠氮基团的存在(又称为可逆阻断终止技术),一个循环只能延长一个碱基,即一个碱基结合到测序链上为一个循环,当结合上一个碱基后,把其他dNTP和酶用水冲掉,然后进行激光扫描,根据激光扫描颜判断是哪个碱基,根据互补原则反推出结果。再切掉叠氮基团,进入新的循环,加入新的dNTP和酶,再延长碱基,冲掉dNTP和酶,再激光扫描。如此往复,就可以测出序列的内容。如图,我们每轮读一个碱基,将每一轮的碱基按顺序组合,就可以得到待测序列了。
我们回到文中的图片。这个流动池图,就是刚才我们所说的原理,不同颜代表不同碱基。我们根据颜就可以读出这一轮循环所接上去的碱基。
说完了测序,我们回到数据分析。第一步,一般需要进行Data Cleaning。就是把从原始数据(Raw Data)到干净数据(Clean Data)的过程。Illumina测序仪下机的数据通常为Bcl格式,是将同一个测序通道(Lane)所有样品的数据混杂在一起的,所以公司一般不会提供Bcl文件。测序公司使用Illumina官方出品的Bcl2FastQ软件,根据Index序列分割转换成每个样品的FastQ文件,打开长这样:每一条序列(read)包含四行,第一行是read的ID,第二行是序列,第四行是序列中每个碱基的测序质量。
原始数据没法直接分析,是因为部分reads测序质量较低,可能会误导后续结果,因此需要对低质量碱基太多或N(未能识别的碱基)太多的reads进行去除;
此外,部分测序文库的插入片段太短,导致测到的是两侧的接头序列,这些序列接头也需要从reads中去除。最后,我们也会对清洗前后的Raw Data和Clean Data进行评估,评估内容包括碱基质量、序列长度、碱基比例、GC含量、重复序列等。一般测序公司都会提供clean data。就不详细赘述了。
然后呢,需要把测到的RNA片段,先mapping(比对)到基因组上。
这张图我们可以看到,在外显子表达的时候,由于中间有内含子存在,使得两端外显子表达之后再连接。这个带有junction site 的部分,我们再测序后称为junction reads。了解到的几种mapping方法,都是先放置non-junction reads 部分再根据对junction reads进行处理(根据junction Library或切断为seed)。也就是我们最后看到的这样,把序列比对上基因组。
可是对于用于分析没有参考基因组和基因注释的物种,我们是没法进行比对的。所以我们需要进行序列组装。以Cufflinks软件为例。
首先,先不要看下面的三个转录本,假设只知道上面的已经比对好的reads。Cufflinks会识别这些不会出现在同一个转录本的reads即不相容。例如比较清晰的蓝和黄,如果在一个转录本,那么,黄应该在相同的位置断开,而不是跨过去。如图中所示,经识别不同颜片段两两互不相容的,同一颜的片段,
人脸识别数据标注
彼此是相容的。
那么,通过将每个相容的片段作为节点并和它最近且相容的片段相连。就可以得到所谓的重叠图。
在此基础上,我们基于精简原则。Cufflinks在能够覆盖所有reads的路径中选择出互不相连且最少的一组路径,作为最优路径。我们怎么理解这个最优路径呢,互不相连且最少。那不符合这个原则,我们可以走出什么样的路径呢?比如这样的,这样的。路径就会变得很复杂,没有这个必要。选择最优途径,即覆盖了所以reads,又减少了不必要的重复工作。
最终呢,我们就得到了这样的三个转录本集合。
我们可将序列组装想像成从大量片段的文字中拼凑出一整篇文章的过程:被测序的分子就是那篇文章,而测序片段就是那段文章中,随机切取出来的句子。其中一种重建出这段文章的方式,就是到句子中重叠的部分,因为一旦到够多重叠的部分,我们就有机会将每个句子连接到一起,进而得到原始的文章。
好了,说完组装之后呢,我们回到这个数据分析。
那么在比对或者是组装完了之后,可以先看一下,有多少的RNA片段,是在靠近基因的5'端的位置,又有多少片段在是靠近基因的3'端的位置。
那么这张图上,就是把所有的基因,都按其外显子的长度,拉直。然后来看,比对上的片段。
这样一个比对的结果,就可以让我们看见前面Poly(T)磁珠在抓mRNA的时侯。捕获下来的这些mRNA是不是完整的,如果捕获下来的这些mRNA大部分是完整的话,那么这个图形靠近5'端的曲线就会显得比较饱满。它的高度会和3'端的高度差不多。

本文发布于:2024-09-21 12:40:38,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/285627.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:测序   序列   进行
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议