测序数据质量控制

测序数据质量控制
  基于边合成边测序(Sequencing By Synthesis,SBS)技术,Illumina HiSeq2500⾼通量测序平台对cDNA⽂库进⾏测序,能够产出⼤量的⾼质量Reads,测序平台产出的这些Reads或碱基称为原始数据(Raw Data),其⼤部分碱基质量打分能达到或超过Q30。Raw Data通常以FASTQ格式提供,每个测序样品的Raw Data包括两个FASTQ⽂件,分别包含所有cDNA⽚段两端测定的Reads。
FASTQ格式⽂件⽰意图如下:
FASTQ格式⽂件⽰意图
注:FASTQ⽂件中通常每4⾏对应⼀个序列单元:第⼀⾏以@开头,后⾯接着序列标识(ID)以及其它可选的描述信息;第⼆⾏为碱基序列,即Reads;第三⾏以“+”开头,后⾯接着可选的描述信息;第四⾏为Reads每个碱基对应的质量打分编码,长度必须和Reads的序列长度相同。
测序碱基质量值
碱基质量值(Quality Score或Q-score)是碱基识别(Base Calling)出错的概率的整数映射。通常使⽤的Phred碱基质量值公式为:
公式中,P为碱基识别出错的概率。下表给出了碱基质量值与碱基识别出错的概率的对应关系:
表1 碱基质量值与碱基识别出错的概率的对应关系表
Phred Quality Score Probability of Incorrect Base Call Base Call Accuracy
陈宝成事件
Q101/1090%
Q201/10099%理论月刊
Q301/100099.9%
Q401/1000099.99%
碱基质量值越⾼表明碱基识别越可靠,碱基测错的可能性越⼩。⽐如,对于碱基质量值为Q20的碱基识别,100个碱基中有1个会识别出错;对于碱基质量值为Q30的碱基识别,1,000个碱基中有1个会识别出错;Q40表⽰10,000个碱基中才有1个会识别出错。
以测序循环为单位,对单个样品所有Reads平⾏测序的碱基质量值做分布图,可以查看单个样品各个测序循环及整体的测序质量。
碱基质量值分布图
注:横坐标为测序碱基在Reads上的位置,纵坐标为碱基质量值。颜⾊深浅表⽰碱基⽐重,颜⾊越深,说明该位置测定的碱基中为对应质量值的碱基所占的⽐重越⼤,反之亦然。
测序质量控制爱与恨的千古愁
FASTQ⽂件中测序Reads需要与指定的参考基因组进⾏序列⽐对,定位cDNA⽚段在基因组或基因上的位置。在序列⽐对之前,⾸先需要确保这些Reads有⾜够⾼的质量,以保证后续分析的准确。测序质量控制⽅式如下:
  (1) 去除测序接头以及引物序列;
  (2) 过滤低质量值数据,确保数据质量。
  经过上述⼀系列的质量控制之后得到的⾼质量Reads或碱基,称为Clean Data。Clean Data同样以FASTQ格式提供。
测序数据产出统计
某项⽬各样品数据产出统计见下表:
表2 样品测序数据评估统计表
Samples ID Read Number Base Number GC Content%≥Q30
P1T0138,244,5609,634,612,09356.51%88.21%
P2T0235,589,3838,965,818,24355.97%89.17%
M1T03107,654,18727,121,886,59656.14%88.29%
M2T04105,334,10626,537,613,61656.48%89.13%
注:Samples:样品信息单样品名称;ID:样品编号;Read Number:Clean Data中pair-end Reads(双末端测序)总数;Base Number:Clean Data总碱基数;GC Content:Clean Data GC含量,即Clean Data中G和C两种碱基占总碱基的百分⽐;%≥Q30:Clean Data质量值⼤于或等于30的碱基所占的百分⽐。
转录组数据与参考基因组序列⽐对
获得Clean Reads后,将其与参考基因组进⾏序列⽐对,获取在参考基因组或基因上的位置信息,以及测序样品特有的序列特征信息。
TopHat2是⼀个⾼效的序列⽐对软件。它以⾼通量Reads⽐对软件Bowtie为基础,将转录组测序Reads⽐对到基因组上,然后通过分析⽐对结果识别外显⼦之间的剪接点(Splicing Junction)。这不仅为可变剪接分析提供了数据基础,还能够使更多的Reads⽐对到参考基因组,提⾼了测序数据的利⽤率。
转录组测序数据中,只有⽐对到参考基因组上的数据才能⽤于后续分析。因此,将⽐对到指定的参考基因组上的Reads称为Mapped Reads,对应的数据称为Mapped Data。
⽐对效率统计
⽐对效率指Mapped Reads占Clean Reads的百分⽐,是转录组数据利⽤率的最直接体现。⽐对效率除了受数据测序质量影响外,还与指定的参考基因组组装的优劣、参考基因组与测序样品的⽣物学分类关系远近(亚种)有关。因此,通过⽐对效率,可以评估所选参考基因组组装是否能满⾜信息分析的需求,及后期数据分析的可靠性。
羊城电子各样品测序数据与所选参考基因组的序列⽐对结果统计见下表:
表3 Clean Data与参考基因组⽐对结果统计表
BMK-ID Total Reads Mapped Reads Mapped Ratio Uniq Mapped Reads Uniq Mapped Ratio
T0176,489,12058,156,11276.03%53,604,92070.08%
T0271,178,76653,874,31075.69%50,672,24471.19%
T03215,308,374158,709,12773.71%149,083,98969.24%
T04210,668,212156,816,03774.44%147,663,07070.09%
注:ID:样品编号;Total Reads:Clean Reads数⽬,按单端计;Mapped Reads:⽐对到参考基因组上的Reads数⽬;Mapped Ratio:⽐对到参考基因组上的Reads在Clean Reads中占的百分⽐;Uniq Mapped Reads:⽐对到参考基因组唯⼀位置的Reads数⽬;Uniq Mapped Ratio:⽐对到参考基因组唯⼀位置的Reads在Clean Reads中占的百分⽐。
⽐对结果作图万方数据库资源系统
将⽐对到不同染⾊体上Reads进⾏位置分布统计,绘制Mapped Reads在所选参考基因组上的覆盖深度分布图。
样品T01的Mapped Reads在参考基因组部分染⾊体上的覆盖深度分布图如下:
Mapped Reads在参考基因组上的位置及覆盖深度分布图
注:横坐标为染⾊体位置;纵坐标为覆盖深度以2为底的对数值,以10kb作为区间单位长度,划分染⾊体成多个⼩窗⼝(Window),统计落在各个窗⼝内的Mapped Reads作为其覆盖深度。
理论上,来⾃成熟mRNA的Reads应该⽐对到外显⼦区。但是,由于以下原因⼀部分Reads会⽐对到内含⼦区和基因间区:
  (1) 样品提取时将含有Ploy(A)尾⽽内含⼦没有切除完全的mRNA(即mRNA前体)提出,使得来⾃内含⼦⽚段的Reads⽐对到了内含⼦区;
  (2) 基因组注释错误,原来为外显⼦的区域注释成了内含⼦区,或者相反;
  (3) 基因组注释⽔平低,对于使⽤转录组测序数据进⾏的基因组注释,由于转录组测序不能遍历所有的时间和空间点,使得⽤于注释的转录组测序数据中不表达或低表达的基因刚好在该项⽬的样品中检测到较⾼丰度时,来⾃这类基因的Reads就⽐对到了被注释的基因间区,这也是新基因和新转录本发掘的基础之⼀;
  (4) 测序样品与参考基因组存在差异,⽐如测序样品中突变形成新的转录组起始位点形成样品特有的新基因,或者剪接位点差异形成新的转录本,这也是新转录本发掘的基础之⼀。
统计Mapped Reads在指定的参考基因组不同区域(外显⼦、内含⼦和基因间区)的数⽬,绘制基因
组不同区域上各样品Mapped Reads 的分布直⽅图,如下:
卡曼奇4
基因组不同区域Reads分布直⽅图
注:图中每个直⽅柱表⽰⼀个样品,粉⾊区域为外显⼦区、绿⾊区域为基因间区、蓝⾊区域为内含⼦区,区域的⾼度表⽰⽐对到该区域的Mapped Reads在所有Mapped Reads中所占的百分⽐。

本文发布于:2024-09-21 10:58:24,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/297660.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:测序   碱基   基因组   质量   样品
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议