二代测序文库构建-概述与挑战(1)

⼆代测序⽂库构建-概述与挑战(1)
⾼通量测序⼜称NGS,重新定义了基因组学研究。近年来,NGS技术稳步发展,伴随着成本下降以及测序应⽤呈指数增加。本⽂,我们研究了影响测序⽂库质量的关键因素,以及,在DNA来源和RNA来源⽂库准备过程中存在的挑战。这些因素包括,DNA/RNA材料的定量和物理性质以及潜在应⽤(⽐如,基因组测序、靶向测序、RNA-seq、ChIP-seq、RIP-seq和甲基化),在制备⾼质量测序⽂库的内容中将提到。另外,我们也会讨论制备单细胞来源的⽂库的⽅法。
在过去的5年⾥,NGS技术在⽣命科学领域的研究⼈员中得到了⼴泛应⽤。与此同时,随着测序技术的发展和进步,衍⽣了⼀些核酸提取和⽂库制备的⽅法。⽐如,已经可以成功利⽤来⾃单细胞的RNA和DNA进⾏⽂库的制备. NGS⽂库制备的基础是将靶向的核酸、RNA或DNA 改造成测序仪可以使⽤的形式(Fig 1)。在这⼉,我们对⽐了多个⽂库制备策略以及NGS应⽤,主要着眼于与illumina测序技术兼容的⽂库。但是,需要指出⼀点,本⽂讨论的⼏乎所有原则只要稍加修饰便可应⽤于其他NGS平台,⽐如,Life Technologies、Roche和Pacific Biosciences。
汽车电动踏板
翻边image.png
⽚段化/⽚段筛选
防砸鞋⼀般来说,⽂库制备的核⼼步骤包括:1)⽚段化及或选出特定长度的⽚段,2)将其转化为双链的形式,3)将寡核苷酸接头连接⾄⽚段末尾以及4)对⽂库进⾏定量;⽬标DNA⽚段的⼤⼩是NGS⽂库构建的关键因素。对核酸进⾏⽚段化的⽅法主要包括物理、酶切和化学的⽅法。物理⽅法包括声波剪切(代表:Covaris)和超声(代表:BioRuptor),酶切⽅法包括⾮特异性内切酶和转座酶⽚段化;我们实验室中,Covaris, Woburn, MA主要⽤于获得100-5000bp范围的DNA⽚段,⽽Covaris g-TUBEs主要⽤于mate-pair⽂库所必需的6-20kb范围的DNA⽚段。酶切的⽅法包括DNase I或⽚段化酶的消化,⼀个两种酶的混合(New England Biolabs, Ipswich MA)。两种⽅法都很有效。但是,⽚段化酶相⽐物理⽅法会产⽣更多的假indel。另⼀种酶切⽅法是Illumina的Nextera,利⽤转座酶进⾏随机⽚段化并把接头序列插⼊双链DNA中。 这种⽅法有⼏个优势,包括,减少样品处理和制备的时间。
⽂库⼤⼩是由插⼊⽚段(指的是接头序列之间的⽂库部分)⼤⼩决定的,因为接头序列的长度是不变的。反过来说,最佳插⼊⽚段长度是有NGS 设备以及特定测序应⽤决定的。⽐如, illumina中,最佳⽚段⼤⼩是受簇⽣成过程影响的,这个过程包括,⽂库编写、稀释以及分布⾄芯⽚表⾯进垂直风道机箱
扩增。虽然,短⽚段扩增更加有效,长⽚段⽂库能够产⽣更⼤、更弥散的簇。我们⽤illumina测序的
⽂库最⼤为1500bp。
最佳⽂库⼤⼩也是由测序应⽤决定的。对于外显⼦测序来说,80%以上的⼈类外显⼦长度⼩于200bp。我们测试PE100bp,外显⼦⽂库⼤⼩约为250bp,这样可以匹配⼤多数外显⼦的平均⼤⼩,结果中没有重叠的读对。 RNA-seq⽂库⼤⼩也是由应⽤决定的。对于基因表达分析我们采⽤SE100的测序。但是对于,可变剪切或转录起始终⽌位点的判定,我们选择PE100的⽅案。⼤多数应⽤中,RNA在⽚段化之前会逆转录成cDNA 的形式。⼀般是利⽤⼆价⾦属离⼦(镁或锌)对RNA进⾏可控的热消化。⽂库⽚段⼤⼩可以通过调节消化反应的时间来控制,重复性很好。
在最近对7个RNA-seq⽂库制备⽅法的研究中,⼤多是先对RNA进⾏⽚段化然后进⾏加接头。有两种⽅法,不利⽤随机引物,或者说在SMARTer Ultra Low RNA试剂盒中,合成具有固定3',5'序列的全长cDNA序列。全长的cDNA⽂库(平均2kb)可以通过长距离PCR(LD-PCR)进⾏扩增。这种扩增的双链cDNA再通过声波剪切⾄合适的长度,⽤在标准的illumina⽂库准备过程中(包括,末端修复和补平,加A和接头连接,再通过PCR进⾏扩增。)
另⼀种⽂库构建后对⽂库⼤⼩处理步骤是⽚选以及去除接头⼆聚体或其他⽂库制备的副产物。接头⼆聚体是接头⾃连的结果。这些⼆聚体成簇效率⾮常⾼,⽽且会消耗掉珍贵的芯⽚空间,但不产出任何有效数据。因此,我们通常利⽤磁珠法或切胶回收。磁珠法适⽤于起始材料⽐较充⾜的情况。若样本
投⼊有限,就会⽣成更多的接头⼆聚体。我们的经验是,磁珠为基础的⽅法在这种情况下不适⽤,需要结合磁珠和切胶回收的⽅法。
在microRNA/small RNA⽂库制备过程中,⽬的产物通常只⽐120bp的接头⼆聚体长20-30bp。因此,必须使⽤切胶回收的⽅法获得尽可能多的⽬的序列。这种分离精度对于磁珠来说就不适⽤。另外,我们经常需要建⼤插⼊⽚段(1kb)的⽂库,结合更长的读长PE300以及⽆PCR步骤,⽤于细菌基因组的从头组装。为了尽可能获得可⽤于组装的数据,就必须要⼩⼼地进⾏切胶回收以获得⼤⼩较为⼀致的插⼊⽚段。
利⽤⽚段化或⽚选D NA进⾏⽂库构建
在利⽤DNA样本进⾏⽂库构建过程中有⼏个考虑,包括起始材料的量以及该⽂库是⽤于重测序(有可⽤于⽐对的参考序列)还是从头测序(需要利⽤此次下机数据组装出新的参考序列)。⽂库制备容易存在bias,这是由于基因组存在⾼GC或低GC的区域,⽬前已经开发了解决这些问题的⽅法,包括仔细选择⽤于扩增的聚合酶、循环数、条件以及缓冲液等。
DNA样本的⽂库制备,不管是⽤于WGS、WES、ChIP-seq还是PCR扩增⼦,⼀般都遵循相同的流程。总的来说,对于任何应⽤,⽬标都是使⽂库尽可能的复杂。
DNA建库试剂盒⽬前有多个品牌。竞争也促使价格迅速下降以及质量的提升。这些试剂盒能够处理DNA起始量从ug到pg多个级别。但是,我们需要记住⼀点,起始量⼤可以降低扩增循环数,因此⽂库复杂度更⾼。除Nextera外,⽂库制备步骤通常包括:1)⽚段化,2)末端修复,3)5端磷酸化,4)3端加A,5)接头连接,6)⼏个cycle的PCR以富集加了接头的产物。Ion Torrent流程的主要不同在于平末端连接不同的接头序列。
起始DNA被⽚段化后,会使⽤3个酶的混合物(T4 多聚核苷酸激酶、T4 DNA聚合酶以及 Klenow⼤⽚段)进⾏末端补平和5端磷酸化。3端加A 尾利⽤Taq聚合酶或Klenow⽚段(exo-)。Taq在加A尾上更有效率,但Klenow在不能⽤加热⽅法时,⽐如mate-pair⽂库可以适⽤。在接头连接过程中,最适的接头:⽚段⽐例⼤约为10:1,以摩尔数为单位。接头太多会形成难以分离的⼆聚体,这些⼆聚体在随后的扩增中会占主导地位。末端修复和加A反应后,磁珠或胶回收的⽅法都适⽤,但连接反应后我们发现,磁珠的⽅法能够更有效地去除接头⼆聚体。
为了便于多样本混合,可以对不同样本使⽤不同barcode的接头。另外barcode也可以由PCR扩增过程经不同barcode的引物加⼊。可以从多个供货商购买⾼质量的带barcode的接头和PCR引物。 ⽬前DNA⽂库构建的所有组分,从接头到酶,都有详细的⽂字说明,可以组装成⾃制的⽂库制备试剂盒。
另⼀种⽅法是Nextera⽅法,利⽤转座酶对DNA进⾏随机打断,并在⼀个单管中对其加标签(⼜称tag
mentation)。这种⼯程化的酶有两个功能,对DNA进⾏⽚段化,并将特定的接头加到⽚段化DNA的两端。 这些接头序列在接下来的PCR过程中⽤于扩增插⼊⽚段。PCR反应会加⼊barcode。这个制备过程相对传统⽅法的优势在于,将⽚段化、末端修复和接头连接合并成⼀步。这种⽅法相对于机械⽚段化的⽅法来说,对DNA的起始量更加敏感。为了实现在合适的距离进⾏⽚段化,转座酶相对样本的⽐例⾮常关键。因为⽚段⼤⼩依赖于反应效率,所有反应的参数,⽐如,温度和反应时间,都⾮常关键,需要严格控制。
image.png
热压设备
⼀些课题组发表了对单个细胞基因组进⾏测序的结果。现在的策略采⽤多重链置换(MDA)对整个基因组进⾏扩增。MDA主要是利⽤了随机引物和phi29,⼀种⾼度进⾏性的链置换聚合酶。虽然这个技术能够产⽣⾜够的量⽤于测序⽂库的构建 ,但它的⼀个问题在于⾮线性扩增造成的⼤量的bias。最近有研究认为通过加⼊⼀个半线性的预扩增步骤能够减少bias。Fluidgm基于单细胞分离和微流控技术⽤于单细胞⽂库制备,每次运⾏可获得最多96个单细胞。
RNA⽂库构建
对于RNA⽂库,我们需要根据测序⽬的来进⾏⽂库构建⽅案的筛选。如果⽬的是发现复杂全⾯的转录事件,⽂库需要覆盖整个转录组,包括,编码、⾮编码、反义以及基因间RNA,⽽且需要尽可能的完整。但是,很多场合,⽬的只是研究能够翻译成蛋⽩质的编码mRNA的转录本。另⼀种情况只涉及small RNA,⼤多miRNA,也包括snoRNA,piRNA,snRNA以及tRNA。虽然,我们想要详述RNA测序⽂库的原则,但⽆法⼀⼀列举。感兴趣的读者可以⾃⾏研究。
image.png
生物三节律NGS应⽤到RNA-seq最初成功的例⼦之⼀是miRNA。制备miRNA测序⽂库⾮常简单,通常是⼀步反应。事实上,miRNA在5端有天然磷酸修饰,这允许连接酶选择性地靶向miRNA。
illumina步骤的第⼀步,3端阻断,5端腺苷化的DNA接头通过截断的T4 RNA连接酶2被连接⾄RNA样本。这个酶经过修饰,能够对3端接头底物进⾏腺苷化。结果是,其他RNA⽚段在这个反应中不会连接在⼀起。只有腺苷化的寡核苷酸可以连接到游离的RNA的3端末端。由于接头3端是阻断的,⽆法进⾏⾃连。下⼀步,在ATP和RNA连接酶1的作⽤下加⼊5端RNA接头。 只有5端磷酸化的RNA分⼦能够在连接反应中作为有效的底物。第⼆步连接反应后,逆转录引物杂交到3端接头,开始启动RT-PCR 扩增(⼀般是12个循环)。由于⼩且⽚段⼤⼩可预测(120bp 接头序列加上20-30bp miRNA插⼊⽚段),⽂库或多个barcode混合样本通常⼀起进⾏切胶回收。 由于存在接头⼆聚体以及⾮miRNA的连接(tRNA和snoRNA),切胶回收⾮常重要。这种⽂库制备⽅法导致⽂库的测序具有⽅向性,总是从原始RNA的5端到3端。Ion Torrent 的miRNA测序原则也是相似的。Ion Torrent利⽤两种不同的接头连接⾄miRNA 3端和5端,随后进⾏RT-PCR。⼀般,⽂库构建步骤可以将任何RNA材料构建成有⽅向性的RNA-seq⽂库。
miRNA⽂库的⼀⼤限制在于RNA的起始量低(<200ng 总RNA);短接头⼆聚体在RT-PCR反应中与
⽬的产物、接头和miRNA进⾏竞争。 当存在太多⼆聚体时,他们会在⽚段筛选时充斥整个凝胶,污染产物条带。为了尽量避免这种情况,很多试剂盒采取了各种⽅式来避免⼆聚体的形成。
对于mRNA测序⽂库,⽅法主要包括利⽤随机引物或oligo-dT引物进⾏cDNA合成或在mRNA⽚段上加接头后进⾏某种形式的扩增。mRNA可以由随机引物或oligo-dT起始产⽣⼀链cDNA。如果使⽤随机引物,必须先将rRNA去除或减少。rRNA可以通过寡核苷酸探针为基础的试剂,⽐如,Ribo-Zero和RiboMinus,进⾏去除。另外,polyA RNA可以通过oligo-dT磁珠进⾏正向筛选。
通常希望⽂库能够留有原始⽬的RNA的链的⽅向性。⽐如,逆转录产⽣的反义RNA在调节基因表达中发挥作⽤。实际上,lncRNA分析依赖于定向RNA测序。制备定向RNA-seq⽂库的⽅法有⼏种。逻辑时,进⾏cDNA反应,将两条链中的1条有选择地移除,通过,在第⼆条cDNA链合成时加⼊dUTP。尿嘧啶包含的链可以被响应的酶消化掉或者扩增的时候⽤不识别尿嘧啶的聚合酶。 另外,加⼊actinomycin D可以减少⼀链cDNA合成过程中假义链的合成。
另⼀种杂交⽅法利⽤随机或锚定oligo-dT引物的接头序列起始第⼀链cDNA的合成。接下来,在模板转换步骤,3端接头序列添加到cDNA分⼦。这种⽅法的明显优势在于第⼀链cDNA分⼦可以利⽤3端的唯⼀序列标签⽆需进⾏第⼆链合成,直接通过PCR进⾏扩增。5端唯⼀序列标签在第⼀链合成过程中引⼊。
⽤于cDNA合成的引物设计对于RNA-seq⽂库⾮常重要。⽐如,rRNA序列可以通过设计靶向rRNA的引物(不⽤于进⼀步扩增)进⾏去除。NuGEN Ovation RNA-seq结合SPIA(Single primer isothermal amplification)核酸扩增技术以及⽤于第⼀链cDNA合成的引物来抑制rRNA的扩增。另⼀种⽅法中利⽤4096种六聚体来抑制rRNA序列(识别并消除完美匹配)。749种六聚体保留并⽤于起始第⼀链cDNA合成反应。结果是,rRNA reads从78%降⾄13%。还有⼀种⽅法叫,DP-seq,利⽤44个7聚体引物扩增了⼤部分的⼩⿏转录本。这种引物设计选择性地抑制了⾼表达转录本的扩增,包括rRNA,并提供了胚胎发育模型中低丰度转录本的估计。
最近发表了⼀些制备单细胞RNA⽂库的⽅法。⼀种⽅法利⽤第⼀链cDNA的多聚核苷酸尾巴,结合模板转换反应。结果是第⼀链cDNA产物可以通过通⽤PCR引物进⾏扩增。如图,Figure4B所⽰,且已并⼊是试剂盒中。另⼀种⽅法叫CEL-Seq,在cDNA 5端合成T7启动⼦序列,随后在体外转录过程中进⾏现象扩增。
单个细胞的总RNA⼀般为10pg,但polyA RNA只有0.1pg。因此,这些⽅法某种程度上需要全转录本扩增以产⽣⾜够的建库所需起始量。这样⼤量扩增的弊端就在于⼤量技术噪⾳的产⽣,这⼀问题⽬前尚未解决。(?)
最后,核糖体印记能够反应翻译的任何节点上细胞mRNA转录本的混合。这种⽅法涉及到利⽤RNase
对细胞进⾏裂解,只留下被核⼩体保护的30个核苷酸的区域。核⼩体经蔗糖梯度密度离⼼进⾏纯化,接着mRNA被从核⼩体中提取出来。另⼀种新的RNA测序的应⽤是 SHAPE-Seq,通过酰化试剂来偏向性地修饰未配对的碱基以探索RNA的⼆级结构。通过对修饰的RNA和未修饰的对照进⾏逆转录,对得到的cDNA⽚段进⾏测序,⽐较后能够揭⽰核苷酸⽔平的碱基配对信息。

本文发布于:2024-09-21 00:40:56,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/114059.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:接头   测序   扩增   序列   制备   包括   反应
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议