(19)中华人民共和国国家知识产权局
(12)发明专利
(10)授权公告号 (45)授权公告日 (21)申请号 202110043700.9(22)申请日 2021.01.13
(65)同一申请的已公布的文献号
申请公布号 CN 112481413 A (43)申请公布日 2021.03.12
(73)专利权人 南京集思慧远生物科技有限 210000 江苏省南京市栖霞区仙林街
道仙林大学城纬地路9号F7栋545室
专利权人 南京鑫普华生物科技有限公司(72)发明人 高海东 周向阳 徐雷 (74)专利代理机构 广州科粤专利商标代理有限
公司 44001
代理人 刘明星(51)Int.Cl.
C12Q 1/6895(2018.01)C12Q 1/6869(2018.01)(56)对比文件
CN 105506103 A ,2016.04.20CN 109280700 A ,2019.01.29
CN 107287333 A ,2017.10.24CN 105637099 A ,2016.06.01WO 2020056451 A1,2020.03.26US 2020370110 A1,2020.11.26CN 109411014 A ,2019.03.01Yancai Shi等.Assembly and comparative analysis of the complete mitochondrial genome sequence of Sophora japonica "JinhuaiJ2".《PLoS One》.2018,第13卷(第3期),第1-18页.
Shuaibin Wang等.Evolution and Diversification of Kiwifruit Mitogenomes through Extensive Whole-Genome Rearrangement and Mosaic Loss of Intergenic Sequences in a Highly Variable Region.《Genome Biol Evol》.2019,第11卷(第4期),1192–1206.(续)
审查员 谢庆宁
(54)发明名称
本发明公开了一种基于二代和三代测序技术的植物线粒体基因组组装方法,对样品DNA进行二代测序和三代测序,利用二代测序数据进行三代数据的校正;利用构建好的植物线粒体编码基因数据库,使用此植物线粒体编码基因数据库中所有参考序列比对第(3)步校正得到的三代序列数据集,获取seed序列进行下一步分析;对seed序列进行延伸,获取全长的线性线粒体基因组DNA序列,对线性线粒体基因组DNA序列进行环化,获取环状线粒体基因组DNA序列。本发明组装方法能够快速地从三代测序数据中得到完整的植物线粒体基因组序列,适用于大部分植物线粒 体基因组。
权利要求书2页 说明书4页 附图2页
CN 112481413 B 2022.02.15
C N 112481413
B
(56)对比文件
穆易青.叶绿体基因组_二代测序组装.《CSND-blog》.2020,
Jian-Jun Jin等.GetOrganelle:a fast and versatile toolkit for accurate de novo assembly of organelle genomes.《Genome Biol》.2020,第21卷(第1期),1-31.
Hyun-Oh Lee.Assembly of the Mitochondrial Genome in the Campanulaceae Family Using Illumina Low-Coverage Sequencing.《Genes(Basel)》.2018,第9卷(第8期),
Nicolas Dierckxsens等.NOVOPlasty:de novo assembly of organelle genomes from whole genome data.《Nucleic Acids Res.》
.2016,第45卷(第4期),
2/2页
[接上页]
CN 112481413 B
1.一种基于二代和三代测序技术的植物线粒体基因组组装方法,其步骤包括:
(1)对样品DNA进行二代测序,所述样品DNA含有该样品的线粒体基因组序列,得到Clean reads;
(2)对样品DNA进行三代测序,所述样品DNA含有该样品的线粒体基因组序列,得到Clean reads;
(3)利用二代测序数据进行三代数据的校正;
(4)利用已发表的植物线粒体基因组基因构建植物线粒体编码基因数据库,使用上述植物线粒体编码基因数据库中所有参考序列比对第(3)步校正得到的三代序列数据集,使用的比对软件是blast,evalue阈值设置为10‑10、相似度和覆盖度均大于70%,记录比对上的编码基因名称信息,挑选比对上的最长的一条序列作为seed序列,进行下一步分析;
(5)对seed序列进行延伸,得到候选的线粒体基因组DNA序列,再使用mumer将步骤(4)获取的植物线粒体编码基因序列数据比对候选的线粒体基因组DNA序列,查看比对上的基因数量以及比对上的完整度,判断标准:比对上的编码基因数量不能有缺失,编码基因长度要完整;如果基因数量有缺失,则把包含缺失基因的最长三代测序数据序列进行单独延伸,然后融合到已有的候选序列中,如果无法融合,则遗弃该基因;对候选的线性线粒体基因组DNA序列进行环化,获取环状线粒体基因组DNA序列,称为pseudo genome序列;
(6)检查步骤:将校正后的三代测序数据使用minimap2比对到pseudo genome序列上,然后筛选比对上的长度大于3kb的测序数据,然后使用mumer查看比对上的三代测序数据和pseudo genome的共线性情况,判断所有比对上的三代测序数据是否均出现在pseudo genome路径上,如果是,则线粒体基因组
组装完整;如果在pseudo genome同一位置存在三代测序数据某些序列前端无法比对上、且同时存在三代测序数据某些序列后端无法比对上,则上述pseudo genome位置存在由于多结构导致的片段丢失,需要对上述pseudo genome位置存在的序列使用三代测序数据进行延伸,填补缺失的序列。
(7):使用NextPolish软件用三代测序数据对步骤(6)得到的植物线粒体基因组DNA序列进行polish,然后使用pilon软件用二代测序数据对三代测序数据校正完成的植物线粒体基因组DNA序列进一步polish,得到最终的基因组组装结果。
2.根据权利要求1所述的基于二代和三代测序技术的植物线粒体基因组组装方法,其特征在于:步骤(5)中延伸方法为:设置overlap>600,相似度>95,延伸过程中如果遇到分支,保留所有分支情况,并对分支进行延伸,得到多条contig序列,然后使用测序的reads和contig之间有overlap进行连接,将所有contig连接成一条序列,从而获取完整的植物线粒体基因组序列。
3.根据权利要求1所述的基于二代和三代测序技术的植物线粒体基因组组装方法,其特征在于:步骤(5)中环化方法为:检测到植物线粒体基因组序列末尾延伸的过程中与序列开头有重叠,即可判断该序列成环状,将该序列的首尾相连,生成环状结构。
4.根据权利要求1所述的基于二代和三代测序技术的植物线粒体基因组组装方法,其特征在于:还包括步骤(8):如果测序数据量达到标准,且线性线粒体基因组DNA序列无法环化,则判定此物种为线性基
因组序列。
5. 根据权利要求1‑4中任一项所述的基于二代和三代测序技术的植物线粒体基因组组装方法,其特征在于: 步骤(1)中二代测序采二代Novaseq6000平台,并用fastp软件去除
二代数据中的低质量序列。
6.根据权利要求5所述的基于二代和三代测序技术的植物线粒体基因组组装方法,其特征在于:步骤(3)中使用LorDEC软件用二代测序数据进行三代数据的校正。
基于二代和三代测序技术的植物线粒体基因组组装方法
技术领域
[0001]本发明涉及一种基于二代和三代测序技术的植物线粒体基因组组装方法。背景技术
[0002]随着二代和三代测序技术的发展,通量提高和测序成本的快速下降,极大的推动了线粒体基因组学的发展。[0003]植物线粒体(mitochondrion )是一种存在于大多数植物细胞中的由两层膜包被的细胞器,是细胞进行有氧呼吸的主要场所,被称为"power house"。[0004]植物线粒体基因组结构和大小是高度变化的,通常植物线粒体基因组是一个单链环状DNA分子结构,如拟南芥、西瓜;也有植物线粒体
基因组以线性DNA分子存在,如水稻等;此外线粒体基因组中存在多元环状的情况,例如蝇子草中存在59个环状DNA序列,包括1个主环和58个小环。高等植物在所有已知的高等生物中拥有最大的线粒体,从200kb到11M变化不等。同一物种线粒体基因组大小差异主要是由重复序列尤其是基因区的非编码序列引起的。线粒体基因组的进化方式主要靠内部重组和外部重组,内部重组即是由于复杂而引起的内部重排,是序列获得和缺失的主要原因;外部重组是指核、叶绿体、类质体以及未知来源的序列整合到植物线粒体基因组导致的重组。
[0005]传统的获取线粒体基因组的方法是通过Long ‑range PCR对植物线粒体基因组进行扩增和Sanger测序,最后对测序得到的不同片段进行拼接得到完整的植物线粒体基因
组。但该方法成本高,
效率低。[0006]而现有的通过高通量测序方法进行植物线粒体基因组组装的软件和方法,只能解决一部分的高等生物线粒体组装问题,比如使用目前已开发的线粒体组装工具,只能获取高等植物线粒体基因组线性序列,不能成环,而且得到的序列普遍存在不完整的现象。发明内容
[0007]本发明的目的在于提供一种基于二代和三代测序技术的植物线粒体基因组组装方法,拼接完整度高,可以获取完整的环状植物线粒体基因组序列。[0008]本发明的目的通过以下技术方案实现:
[0009]一种基于二代和三代测序技术的植物线粒体基因组组装方法,其步骤包括:[0010](1)对样品DNA进行二代测序,得到Clean reads;[0011](2)对样品DNA进行三代测序,得到Clean reads;[0012](3)利用二代测序数据进行三代数据的校正;[0013](4)利用构建好的植物线粒体编码基因数据库,使用此植物线粒体编码基因数据库中所有参考序列比对第(3)步校正得到的三代序列数据集,使用的比对软件是blast (v2.10.1+),evalue阈值设置为10‑10、相似度和覆盖度均大于70%,记录比对上的编码基因名称信息,挑选比对上的最长的一条序列作为seed序列,获取得到的seed序列进行下一步分析;其中植物线粒体基因数据库是从美国国家生物技术信息中心(NCBI )中下载目前已发
说 明 书
1/4页
CN 112481413 B