16S微生物组研究的“最佳共识”

德国表现画派16S微生物组研究的“最佳共识”
高通量测序平台的出现彻底改变了对复杂微生物落的研究。最常见的是,标记基因(例如16S rRNA和18S rRNA基因)的扩增和测序,提供定性和定量(即相对丰度)数据。可用于进行标记基因分析的方法多种多样。
从抽样到数据分析的每个方法阶段都会引入偏差。这种误差可能会通过引入观察到的相对丰度的变化而改变数据集,并且会影响菌多样性的认知。
本文总结了当前文献中关于样品收集、样品储存和处理、测序和数据分析的关键信息,尤其是专门用于细菌16S rRNA基因扩增子测序的研究。通过整理这些领域的基础研究,旨在确保进入这一领域的研究者能够更好地了解16srRNA基因测序研究的实验设计。
1
- S A MP LE C O LLEC T IO N -
样品采集
采样方法取决于样本类型,可能导致偏差的因素在不同类型的微生物组研究之间也会有所不同。
采样
首先,采样点非常重要。微生物细菌落在不同的生态位和环境点的丰度构成都不太相同,例如,在胃肠道内(不同位点)和呼吸道不同,不同深度的土壤等。
个体间差异的大小在很大程度上取决于采样位点,这可能对实验结果产生重要影响,最好同一个研究平行样本能采用一致的采样点。
收集方
其次,关于不同样本收集方法所引入的变化,文献中存在矛盾的结果。例如,有人试图用微创方法代替有创取样;在比较来自人体肠道的拭子和活检样本、呼气冷凝液和肺刷时,以及通过口腔胃管和瘘管获得的瘤胃液样本发现微生物种存在显著差异。
然而,其他研究与这些发现相矛盾,两项研究表明,当使用各种取样方法研究牛的瘤胃微生物时,没有统计学上的显著差异。此外,在鼻腔拭子和活检样本和直肠拭子和粪便样本的比较中,微生物组成没有明显差异。文献中这种冲突的结果并不少见,这导致缺乏共识和标准化。
均质
最后要考虑的是样品是否应均质化,这在肠道含量和土壤研究中似乎最为关键,因为在不同的粪便组分和不同粒径的土壤中观察到了不同的微生物组成。尽管有关抽样方法的文献通常存在冲突,但重要的是要考虑应避免比较使用不同方法获得的数据。
- S A MP LE S T O RA G E -
样品储存
不同的储存条件是否会对微生物落研究产生影响,存在着相互矛盾的证据。从新鲜样本中提取D NA通常是不实际的;因此,在提取D NA之前,样本一般要存放不同的时间。
课程标准是什么理论上快速冷冻至−80°C是最佳选择,但这并不适用于所有研究设计,例如,在没有低温存储的偏远站点。本节将对已经开展的几项研究进行总结,以评估储存条件对研究结果的影响。
新鲜的冷冻样品
一些研究表明,与新鲜样品相比,冷冻样品的厚壁菌/拟杆菌的比率增加。相反,在Fouhy等人的研究中,新鲜和速冻粪便样品之间唯一差异表达的细菌是Faecalibact erium和Leuconost oc属,在门或科上没有显著差异。
在提取D NA之前冷藏24 h或72 h的粪便样品中,未观察到对微生物组成或多样性的显著影响。
各种研究也探讨了贮藏时间的影响。Lauber 等人,在不同温度下储存土壤、粪便和皮肤样本,发现储存时间对细菌落结构或多样性没有显著影响。
在−80°C下保存2年的样品中,乳酸杆菌和杆菌的丰度增加,而O T U的总数减少了。
一般来说,用文献中提供的数据处理新鲜样品是最好的方法,但如果无法做到这一点,则应将样品冷冻不同时间,并在一个批次中进行处理,或者冷冻相同时间并分多个批次进行处理。
无论采用何种处理方法,都应记录储存时间和D NA提取批次,以便在后面的分析过程中考虑到这一变量。
低温保护剂的使用
Mc Kain等人探索了使用冷冻保护剂(即甘油/磷酸盐缓冲盐水)存储瘤胃消化液样品的效果,通过定量P C R检测16srRNA基因检查,发现不加冷冻保护剂的冷冻样品的拟杆菌
(B act eroidet es)显著下降。因此,作者认为,简单地在没有低温保护剂的情况下储存样本,并在以后进行D NA提取,会影响有关古细菌和细菌落组成结果。
C hoo等人探索了使用几种常见防腐剂缓冲液的效果(例如, RNA lat er, O MNIgene.G UT,
and T ris-ED T A)相较于在−80°C下干燥储存的粪便微生物组成的样品。储存在
O MNIgene.G UT缓冲液中的样品与在-80°C下干燥储存的样品差异最小,而从T ris-ED T A 中提取的样品的结果差异最大,与Escherichia-S higella 大肠杆菌、C it robact er 柠檬酸杆菌、肠杆菌等重要菌的相对丰度变化有关。
此外,RNA lat er 先前已被证明不适合储存进行微生物落分析的样品,储存在RNA lat er中的样品与新鲜样品和在−80°C下立即冷冻的样品最不相似。因此,在考虑使用冷冻保护剂进行存储时,重要的是要确保所有样品都以相同的方式存储。
- D NA EX T RA C T IO N -
D N A提取
在提取D NA的过程中,重要的是要考虑到某些微生物细胞对裂解的抵抗力更高,例如细菌内生孢子和革兰氏阳性细菌,它们会对D NA提取效率产生影响。
抑制剂inhibit ors 的存在会直接影响D NA的提取效率(例如,环境样品中的碎屑以及土壤和粪便中的有机物),并且会影响下游的P C R效率。
常见的抑制剂包括无机材料(例如钙离子),大多数抑制剂是有机物,例如腐殖酸,胆汁盐和多糖。这些问题将根据样本类型而有所不同。因此,作为16S rRNA基因扩增子实验的一部分,应优化基质特异性D NA提取方案。
4
- S EQ UENC ING S T RAT EG Y -
这片土地是神圣的教学设计
测序策略
引物选择和文库构建
由于无法使用short-read 第二代测序平台对16S rRNA整个基因全长进行测序,因此必须选择该基因的一小片段用于P C R扩增和测序。目前尚没有关于最合适的可变区片段的共识,并且已经进行了数项研究来确定每种片段的优缺点。sl
重要的是,高变区的选择和“通用” P C R引物的设计对系统发育的解析有影响。事实上,没有一套引物是真正通用的。
目前针对扩增子测序可选择的测序平台和方案很多,不同平台的读长和适用的测序区段以及优势各有不同。cae
16s测序主要的测序区段包括v4、v3v4,v1v2,v6,此外还有全长等不同的区段选择,不同可变区或全长由于引物的不同以及不同种属相应区段内的变异多样性差异,对菌属的丰度评估会有一定的差异。
从长度来看,全长16s长度为1.5kb左右,单菌落的16s全长sanger一代测序仍然是菌种鉴定的主要手段,纳米孔和pacbio的三代测序可以高通量的获得全长序列,对于希望更高分辨率的分析菌种的研究有一定优势。
三代的测序准确度目前逐渐改进,直接测序准确度可以在90%以上,纠错后可以提高到
97~99%以上,已足够提供高精度的分类。三代目前主要问题在于建库成本相对较高,通过使用barcode可以降低部分但仍然偏高,此外普遍测序深度相对于二代测序要低许多。
目前最主要的可变区选择是V4区和V3V4区,V4区长度为256bp左右,加上两侧引物长度为290bp左右,使用双端2x250bp或2x150bp可以测通,此外如454、lif e、illumina hiseq 4000的测序平台读长也可以主要涵盖该区段读长。例如采用illumina hiseq测序平台对该项目进行双端测序(paired-end),测序得到了f ast q格式的原始数据(样本对应一对序列
s_1.f ast q和s_2.f ast q)。
再配对拼接成单条序列。其引物通用性相对是所有可变区中最高的,大量的大规模菌调查研究都采用v4区作为检测区域,包括人体菌研究如:HMP,肠道菌如美国肠道计划
A G P,欧洲的F G F P等,以及全球土壤菌调查,目前仍然是国际研究中使用最广泛和认可的检测区域。
P C R
由于存在P C R抑制剂(如上文D NA提取中所述),P C R循环数和高保真聚合酶的使用也会对结果产生影响,因此在P C R扩增过程中可能会引入其他偏差。当最高浓度的不完全延伸引物与原始引物竞争时,嵌合体的形成发生在随后的P C R周期中。因此,通过减少P C R循环的数量可以降低嵌合体形成的可能性。
先前发现细菌丰富度随着P C R循环数的增加而增加,但是该循环数对落结构没有显着影响。
与标准聚合酶相比,使用高保真聚合酶时发现的P C R伪影数量较少。使用不同的聚合酶会显着影响特定细菌和总体细菌落结构的P C R效率。
最后,P C R中输入D NA的数量对观察到的细菌落结构有重要影响。
总之,没有用于16S测序的“金标准”的可变区片段,但重要的是要考虑到P C R试剂和P C R条件应在整个研究过程中进行优化并保持一致。
测序平台
Illumina技术(主要是MiS eq系统)已成为16S rRNA基因元条形码的最常见测序平台。因为MiS eq系统通常可产生最准确的最长读取,并且比其他平台具有更高的通量,从而可以以更高的深度或更低的成本对更多样品进行测序。
事实上,在很长一段时间里,罗氏454测序仪是16S研究中最常用的平台。这种技术潜在的更长的读长有一些优点;但是,由于罗氏(Roche)在2013年淘汰了该产品,因此该产品现已不再可用。不幸的是,454测序仪由于聚合物的错配而导致错误率上升。
P ac B io和牛津纳米孔技术能够对16S基因的全长进行测序,这当然非常强大。但是,两种技术的错误率仍然是一个问题,范围在5%到15%之间,这可能会导致后续分析中的后续错误。尽管长读长的单分子测序系统的错误率很高,但研究似乎开始显示它们可用于16S rRNA基因测序。
例如,S chloss等能够将P ac B io数据的V1到V9区域的观察到的错误率从0.69降低到
0.027%,这与Illumina,454和Ion Torrent系统的相差无几。P ac B io技术的缺点之一是它的通量,即可以在平台上同时以合理的成本运行的样品数量要比MiS eq系统低得多。
illumina的miseq提供了长达2x300bp以及hiseq2500和最近的novoseq提供有2x250bp的测序方案,为进一步利用读长,目前有相当一部分研究选择v3v4区,该区段长度在460bp左右,相较于v4度多出了v3区段约100bp左右的片段,在少部分菌属中可以增加一定分辨率。
经过对比,v3v4区的检测结果和v4区在绝大部分菌属中的丰度一致,但由于引物不同,在少量菌属中丰度会有不同偏向,v3v4从O T U层面上并未发现较v4区有明显增加。引物的选择和提取、储存方法是影响菌检测丰度构成的主要因素,不同研究之间的比较需要考虑到实
验方案的一致,相同的方案可以直接比较。
测序数据量
在计划16S测序研究时,三个关键的考虑因素是序列数据的质量、测序的成本和生成的读长的长度。最后一个因素是每次测序运行可以分析的样品数量。使用Illumina平台时,可以通过实现唯一的单索引或双索引(或条形码)引物用于文库制备。
如果每次运行的样本数增加,则与每个样本的覆盖率较低(或生成的序列数)相关。如果每个样品的
覆盖率太低,则被研究的微生物落的多样性可能会被低估,因为会漏掉该落中的稀有成员。因此,应从小型试验研究(以及观察所得稀疏曲线)或已发表的文献中获得有关每次运行中样本数量的指导。在较大型的研究中,可能需要进行多个测序操作。
另一个关键考虑因素是测序覆盖率及其与要运行的样品数量的关系。在研究微生物落的核心构成时,通过增加测序过程中的样本数量来降低覆盖率可能是降低成本的有效方法。然而,如果一个样本中包括比较稀有的成员感兴趣,那么较低的样本数量更大的测序深度可能更合适。
一般研究中,测序序列理论上越多越好,不过一般达到饱和之后数据量增加的价值就没那么大,绝大部分的物种构成或基因的信息已经获得,更高的测序深度可能检出非常低丰度的物种序列,但受限于测序本身的错误率,非常高的测序深度也可能引入更多的测序错误,一般会选择合适的测序深度。另外在数据分析时也会过滤极低丰度的测序序列。
5
- MO C K B A C T ERIA L C O MMUNIT IES -
长翅膀的绵羊细菌落模型
作为16S微生物组研究的一部分,包括一个模拟落对照是有用的,该对照由来自不同细菌物种的预
定比例的D NA组成。这不仅可以量化测序误差,还可以识别在采样和文库准备过程中引入的偏差。例如,模拟菌可以用来计算这些分类法在样本中的代表性是否可能过高或过低。
与模拟落类似,标准峰值spike-in st andards也可用于分析偏差和方法的可重复性。但是,与模拟落不同,这些标准是直接添加到样本中的。因此,可以在每个样本的基础上执行质量控制。
但是,标准中所含的16S rRNA基因序列与样品中的16S rRNA基因序列之间可能存在交叉的风险。因此,必须注意选择在目标样品中极不可能发生的细菌,或者是经过计算机设计的并且与16S数据库中发现的序列不同的细菌。
有多种来源可提供模拟细菌落供研究使用。但是,一些研究人员选择在内部创建自己的模拟落,以更准确地反映出感兴趣的细菌和具有科学重要性的细菌。预先准备的细菌落有两种不同的形式:D NA模拟落: D NA mock communit ies和全细胞模拟落 whole-cell mock communit ies。全细胞模拟落可用于确定D NA提取步骤的效率,而D NA模拟落将仅评估P C R,纯化,测序和分析步骤的效率。

本文发布于:2024-09-25 08:23:46,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/268098.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:测序   研究   样品   群落   样本   细菌   可能   进行
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议