RNA-seq名词解释

RNA-seq 名词解释
诺禾致源转录调控研究部
2014.03.21
空气净化风扇基本概念
站台信息RNA-seq:基于二代测序技术,研究特定细胞在某一功能状态下所有RNA的功能,主要包括mRNA和非编码RNA。能够全面快速地获得某一物种特定组织或器官在某一状态下的几乎所有转录本序列信息,已广泛应用于基础研究、临床诊断和药物研发等领域。
Q20,Q30:Phred 数值大于20、30的碱基占总体碱基的百分比,其中Phred=-10log10(e).
gene:具有编码蛋白质或决定某一性状作用的一段核酸序列。intron:内含子,是真核生物细胞DNA中的间插序列。这些序列被转录在前体RNA中,经过剪接被去除,最终不存在于成熟RNA分子中。术语内含子也指编码相应RNA内含子的DNA中的区域。exon:外显子,是真核生物基因的一部分,它在剪接(Splicing)后仍会被保存下来,并可在蛋白质生物合成过程中被表达为蛋白质。外显子是最后出现在成熟RNA中的基因序列,又称表达序列。既存在于最初的转录产物中,也存在于成熟的RNA分子中的核苷酸序列。术语外显子也指编码相应RNA外显子的DNA中的区域。
intergenic:基因间区,指基因与基因之间的间隔序列,不属于基因结构,不直接决定氨基酸,可能通过转录后调控影响性状的区域。UTR:Untranslated Regions, 非翻译区域。是信使RNA(mRNA)分子两端的非编码片段。5'-UTR从mRNA起点的甲基化鸟嘌呤核苷酸
烟道蝶阀
帽延伸至AUG起始密码子,3'-UTR从编码区末端的终止密码子延伸至多聚A尾巴(Poly-A)的前端。
transcript:转录本,是由一条基因通过转录形成的一种或多种可供编码蛋白质的成熟的mRNA。一条基因通过内含子的不同剪接可构成不同的转录本。电极箔
isoform:同一个基因经可变剪切或内含子选择机制产生不同的转录本,这些不同转录本即称isoform。
reconstruction:重组,由于不同DNA链的断裂和连接而产生DNA 片段的交换和重新组合,从而形成新DNA分子。
plus strand/minus strand:正链/负链。对于一个基因来说,DNA的两条链中有一条链作为RNA合成时的模板,这条链叫负链,另一条叫正链。
antisense strand/sense strand:无义链/有义链。模板链在双链DNA 中,用来转录mRNA的DNA链称为模板链(template strand),不用于转录的链则称为非模板链(nontemplate strand)。根据碱基互补
配对原则,转录出的mRNA链的碱基序列与非模板链的碱基序列一致,惟一不同的是,非模板链中的T在mRNA链中全部置换成了U。正是由于非模板链的碱基序列实际上代表了mRNA的碱基序列(只不过在mRNA中T换成了U),因此非模板链又被称为编码链(coding strand),有义链(sense strand)和克里克链(crick strand),而用来转录mRNA的DNA链被称为非编码链(anticoding strand)或无义链(antisense strand)或沃森链(watson strand)。
gene family:基因家族。真核细胞中,许多相关的基因常按功能成套组合,被称为基因家族。它们来源于同一祖先,由一个基因通过基因重复产生两个或更多的拷贝而构成的一组基因,它们在结构和功能上具有明显的相似性,编码相似的蛋白质产物。
gtf/gff:基因结构注释文件。gtf(gene transfer format)指包含基因特征的注释文件,而gff(general feature format)是指包含基因组特征的注释文件。
ORF:open reading frame,开放阅读框或开放读码框。是结构基因的正常核苷酸序列,从起始密码子到终止密码子的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。
reference genome/ reference:参考基因组。RNA-seq有参分析的基础。small RNA:是长度大约在18-30bp的非编码RNA分子,包括micro RNAs、siRNAs和pi RNAs,是生命活动重要的调控因子,在基因表达调控、生物个体发育、代谢及疾病的发生等生理过程中起着重要作用。
ncRNA:non-coding RNA,非编码RNA。指不编码蛋白质的RNA。其中包括rRNA,tRNA,snRNA,snoRNA 和microRNA 等多种已知功能的RNA,及未知功能的RNA。其共同特点是都能从基因组上转录而来,不需要翻译成蛋白即可在RNA 水平上行使各自的生物学功能。
lncRNA:long noncoding RNA,长链非编码RNA。长度在200-100000nt 之间,不具有编码蛋白功能的转录本。根据与编码基因的位置关系可
分为:Antisense lncRNA (反义长非编码RNA)、Intronic lncRNA (内含子长非编码RNA)、Long intergenic noncoding RNA (基因间区长非编码RNA)、Sense lncRNA(正义长非编码RNA)、Bidirectional lncRNA (双向长非编码RNA)。
建库测序相关
library construction:文库构建,高通量测序前准备步骤。针对不同的研究目的建库方法不同。通常包括核酸样品检测、片段化、(扩增)、加接头、片段选择、纯化、浓度检测等步骤。
insert size:插入片段大小,决定测序的长度。
adaptor:接头,用于上机测序。建库时引入的接头序列与测序芯片(flow cell)上固定的接头相互识别。
strand specific:链特异性。链特异性建库,可以确定转录本来自正链还是负链。以便更加准确的获得基因的结构以及基因表达信息。并且可以更好的发现新的基因。(研究表明:很多基因组区域具有正负链的转录本,反义转录是真核基因的一个特征,是一种重要的调控方式。对于原核以及低等真核生物的基因组,常常具有重叠基因。)SE:Single End单端。测序策略的一种。
PE:Paired End 双端。测序策略的一种。
泊车系统index:测序的标签,用于测定混合样本,通过每个样本添加的不同标签进行数据区分,鉴别测序样品。
Run:一台测序仪运行一个完整周期所产生的所有数据量。
真空过滤装置flow cell:一种含有接头的芯片,测序仪中使用的器材,通常一台测序仪可放1-2张;测序时将样品、试剂等注入flow cell的通道中,发送测序反应,并可以通过拍照等手段从中捕获测序信号。
lane:flow cel中的通道;通常Hiseq2500 flow cell中有2个通道,可产生数据约150M/lane,Hiseq2000 flow cell中有8个通道,可产生数据约180M/lane;每个通道中只限制数据量,不限制样品数目。fragment:实验中样品total RNA/DNA随机打断后产生的片段。sequencing depth:测序深度。测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M,测序深度为10X,那么获得的总数据量为20M。
Illumina/HiSeq MiSeq:Illumina二代测序仪顶级提供商,Hiseq与Miseq为其两款测序仪。Miseq相比于Hiseq每个run测序速度更快,序列更长,但数据量较少。
拼接相关
assembly:组装/拼接,为得到原始序列,依据重叠关系将段片段融合成长序列的过程
N50(或N90):按照长度将拼接得到的转录本从大到小排序,依次累加转录本的长度,到不小于总长50%/90%的拼接转录本的长度就是N50(或N90)。
kmer:在reads上逐碱基截取一定长度的序列,得到的每个短序列即为一个kmer。

本文发布于:2024-09-24 03:16:13,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/285582.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:测序   基因   转录   序列   编码
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议