一种系统进化树的重建方法[发明专利]

(10)申请公布号 (43)申请公布日 2013.05.08C N  103093118 A (21)申请号 201310049516.0
(22)申请日 2013.02.07
G06F 19/14(2011.01)
(71)申请人中国科学院计算机网络信息中心
地址100190 北京市海淀区中关村南四街4
(72)发明人黎建辉  孟珍  周园春  邵靖
曹巍
(74)专利代理机构北京君尚知识产权代理事务
所(普通合伙) 11200
代理人
余长江
(54)发明名称
一种系统进化树的重建方法
(57)摘要
本发明属于应用生物信息学技术领域,涉及
一种系统进化树的重建方法。该方法首先选定特
定的序列标记片段进行检索并筛选相关的序列数
据并组织成.fasta 格式文件作为基础数据集;随
后对基础数据集进行基础系统发育树的构建并生
成.XML 系统发育树文件,同时构建基础BLAST 库;
然后综合基础数据集和新输入的自测序列数据进
行系统发育树的重建并生成.XML 文件,然后可视
化和标注自测序列数据代表的样本物种在整棵大
树中的位置等信息。该方法是一种基于初始大
树构建和同源相似性比对的快速算法相结合的方
法,可以用于生物系统发育、生物条形码、生物物
种鉴定等相关领域的大系统发育树重建和web 应
用。
(51)Int.Cl.
权利要求书1页  说明书9页  附图2页
(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书1页  说明书9页  附图2页(10)申请公布号CN 103093118 A
*CN103093118A*
1/1页
1.一种系统进化树的重建方法,其步骤包括:
A 、选定特定的序列标记片段进行检索,并筛选相关的序列数据组织成.fasta 格式文件;
B 、对步骤A 所述.fasta 文件进行基础系统发育树的构建并生成.XML 系统发育树文件;
C 、对步骤A 所述.fasta 文件进行格式化并构建BLAST 库;
D 、根据所述.XML 系统发育树文件和所述BLAST 库,对综合基础数据集和新输入的自测序列数据进行系统发育树的重建并生成.XML 文件;
E 、对重建的系统发育树进行可视化。
2.如权利要求1所述的方法,其特征在于:所述序列标记片段是核酸序列片段或者蛋白序列片段。
3.如权利要求1所述的方法,其特征在于,步骤B 所述基础系统发育树的构建方法为:
(1)对步骤A 所述.fasta 文件进行多重序列比对并生成.aln 文件;
(2)对所述.aln 文件进行系统发育树的构建并生成.tree 文件;
(3)对所述.tree 文件进行格式转换并生成XML 格式文件。
4.如权利要求3所述的方法,其特征在于:对于序列长度差异较大的.fasta 数据集,在所述多重序列比对后进行文件的修剪。
5.如权利要求1所述的方法,其特征在于:步骤C 所述构建BLAST 库是对所述.fasta 文件进行格式化并生成BLAST 算法的库文件。
6.如权利要求1所述的方法,其特征在于,步骤D 所述系统发育树的重建方法为:
(1)以所述自测序列数据作为输入,以所述BLAST 库作为比对的标准库,进行BLAST 同源相似性比对,得到比对报告;
(2)对比对报告进行分析并提取物种学名相关信息;
(3)生成自测序列数据代表的样本物种的插入节点数据;
(4)检索步骤B 中所述的.XML 文件,确定插入位置并插入所述节点数据,从而重建完成系统发育树文件。
7.如权利要求6所述的方法,其特征在于:所述自测序列数据是.fasta 格式,所述样本物种的插入节点数据是.XML 格式,重建完成的系统发育树文件为XML 格式。
8.如权利要求6所述的方法,其特征在于:应用Megablast 进行BLAST 同源相似性比对。
9.如权利要求1所述的方法,其特征在于:在所述可视化时标注所述自测序列数据代表的样本物种在整棵大树中位置信息。
10.如权利要求1所述的方法,其特征在于:应用Archaeopteryx 软件进行所述可视化。权  利  要  求  书CN 103093118 A
一种系统进化树的重建方法
技术领域
[0001] 本发明属于应用生物信息学技术领域,具体涉及一种系统进化树的重建方法,主要应用于生物系统发育、生物条形码、生物物种鉴定等相关领域的针对大数据的系统发育树重建并可视化。
背景技术
[0002] 系统发育树也称系统进化树(phylogenetic tree),它是用类似树状分支的图来表示各种(类)生物之间的亲缘关系,通过对生物序列的研究来推测物种的进化历史。主要是通过DNA序列、蛋白质序列、蛋白质结构等来构建系统发育树,或者通过蛋白质结构比较包括刚体结构叠合和多结构特征比较等方法建
立结构进化树。研究系统发育树的目的可以重建祖先序列P性状;估计来自于同一个祖先的不同生物之间的分歧时间;识别和疾病关联的突变等。基于分子的进化研究已经应用到许多方面,如基因进化、物划分、交配系统、物种鉴定、父亲身份测试,环境监视以及已经转移物种的疾病源的研究等(Francesca D.Ciccarelli,et al.,"Toward Automatic Reconstruction of a Highly Resolved Tree of Life,"SCIENCE,vol.311,p.1283,2006.;I.Wapinski,et al.,"Automatic genome-wide reconstruction of phylogenetic gene trees,"Bioinformatics,vol.23,pp. i549-i558,2007.;Zhen Meng,et al.,"Construction of the Platform for Phylogenetic Analysis,"Data Driven e-Science,pp.507-514,2011.)。
[0003] 以生物材料样本快速鉴定为目的的DNA条形码技术(Schindel,D.and S.E.Miller,DNA barcoding a useful tool for taxonomists.Nature,2005.)的发展业已积累了丰富的数据,如按照BOLD system(Schindel,D.and S.E.Miller,DNA barcoding a useful tool for taxonomists.Nature,2005.)2012年11月份的数据,以动物为例,如选用COI片段,其样本测序序列的量为247,479,是其在传统的描述的动物物种120,612的2倍多,差不多每个动物物种有2条甚至更多的序列信息;其从国际核算序列数据库联盟(International Nucleotide Sequence Database Collaboration,INSDC)成员之一的GenBank(Michael Y.Galperin.The Molecular Biology Database Collection:2011update[J].Nucl.Acids Res.2011,35:D3-D4)提取检索的初始相关序列也达625,341之多,并且每天也有将近200条的释放量。
[0004] 数据的积累为包含所有生物物种的系统进化树的构建做好了数据上的准备,也为怎样快速确定样
本序列在系统发育树上的位置提出了需求。然而,现在的系统进化树的重建方法往往受到数据数量的限制,在兆的数量级上进行计算时,甚至有些方法根本不能完成,即使有些方法用上并行的方法、在集式计算机上进行计算也需要几天甚至上月的时间才能完成(S.Guindon,et al.,"New Algorithms and Methods to Estimate Maximum-Likelihood Phylogenies:Assessing the Performance of PhyML3.0,"Systematic Biology,vol.59,pp.307-321,2010.;A.Stamatakis,"RAx ML-VI-HPC:maximum likelihood-based phylogenetic analyses with thousands
of taxa and mixed models,"Bioinformatics,vol.22,pp.2688-2690,2006.;M.N.Price,et al.,"FastTree2"Capproximately maximum-likelihood trees for large alignments,"PLoS One,vol.5,p.e9490,2010.)。这与系统发育树的快速重建及可视化的需求相去甚远,远不能满足在web交互的可忍受时间范围内去快速确定自测的样本序列在以目标mark(Barcode)为度量标准的大树上的位置并可视化。
[0005] 所以就需要提供一种针对大数据(兆以上的)的系统发育树重建方法,在web交互环境下,满足物种快速鉴定、系统发育树的自动增长等的需要。
发明内容
[0006] 从上面的分析可以看出,随着数据量的积累,特别是DNA条形码技术的发展,数据量的不断攀升,
以兆级以上单位序列进行系统发育树重建的要求越来越普遍,并且基于Web 交互的要求去快速重建系统发育树以确定自测的样本序列在以目标mark(Barcode)为度量标准的大树上的位置并可视化的需求也越来越突出。本发明提供一种基于初始大树构建和同源相似性比对的算法相结合的快速系统进化树重建方法。
[0007] 本发明的系统进化树的重建方法,其步骤包括:
[0008] A、基础数据集组织:选定特定的序列标记片段(Mark)进行检索并筛选相关的序列数据并组织成.fasta格式文件,接下来执行步骤B、C;
[0009] B、基础系统发育树构建:对步骤A所述.fasta文件进行基础系统发育树的构建并生成.XML系统发育树文件,接下来执行步骤D;
[0010] C、基础BLAST(Basic Local Alignment Search Tool)库构建:对步骤A所述.fasta文件进行格式化并构建BLAST库,接下来执行步骤D;
[0011] D、系统发育树重建:对综合基础数据集和新输入的自测序列数据进行系统发育树的重建并生成.XML文件,接下来执行步骤E;
[0012] E、系统发育树的可视化:对步骤D重构的系统发育树进行可视化。
[0013] 上述步骤A中基础数据集的组织是针对特定序列片段标记(Mark)的数据组织;其Mark可以是核酸序列片段,也可以是蛋白序列片段;在D中新输入的序列片段也是相对应的同种标记的序列。
[0014] 上述步骤B中基础系统发育树的构建方法为:(1)对步骤A所述的.fasta文件进行多重序列比对(Multiple sequence alignment)并生成.aln文件;(2)对所述的.aln 文件进行系统发育树的构建(Phylogenetic tree construction)并生成.tree文件;(3)对所述的.tree文件进行格式转换(Format conversion)并生成XML格式文件。在第(2)步系统发育树的构建之前,如选用的步骤A所述生成的.fasta数据集中的序列长度差异较大,需要进行比对后文件的修剪(trim)。
[0015] 上述步骤C中基础BLAST库的构建是针对A所述的.fasta文件进行格式化并生成BLAST算法的库文件。
[0016] 上述步骤D中系统发育树的重建方法为:(1)由自测序列数据作为输入,由步骤C 所述的BLAST库作为比对的标准库,进行BLAST同源相似性比对,得到比对报告;(2)对比对报告进行分析并提取物种学名(Scientifc name)相关信息;(3)生成自测序列数据代表的样本物种的插入节点数据;(4)检索步骤B中所述的.XML文件,确定插入位置并插入(3)
中所述的节点数据,从而重建完成系统发育树文件。
[0017] 本发明中的自测序列数据是.fasta格式;自测序列数据代表的样本物种的插入节点数据是.XML格式;重建完成的系统发育树文件为XML格式。
[0018] 上述步骤E所述的系统发育树的可视化,是针对步骤D中所述系统发育树重建的XML进行可视化,并标注自测序列数据代表的样本物种在整棵大树中的位置信息。[0019] 本发明的基于初始大树构建和同源相似性比对的算法相结合的快速系统进化树重建方法,可以针对大数据(兆以上的)的单位序列进行系统发育树的重建,并基于Web交互的要求去快速重建系统发育树以确定自测的样本序列在以目标mark(Barcode)为度量标准的大树上的位置,能够在web交互环境下,满足物种快速鉴定、系统发育树的自动增长等的需要。
附图说明
[0020] 图1是实施例中系统进化树的重建方法的工作流程图;
[0021] 图2是实施例中针对陆地植物系统发育分析所需MatK基因(rbcL)进行系统发育树重建的处理流程图。
具体实施方式
[0022] 下面通过具体实施例,并配合附图,对本发明做进一步的说明。
[0023] 参见附图1,本实施例所述的系统进化树的重建方法的具体过程为:
[0024] A、基础数据集组织:本实施例选定特定的序列标记为rbcL的核酸序列片段序列数据并组织成.fasta格式文件,接下来执行步骤B、C;
[0025] B、基础系统发育树构建:对步骤A所述.fasta文件进行基础系统发育树的构建生成.XML系统发育树文件,接下来执行步骤D;
[0026] C、基础BLAST库构建:对步骤A所述.fasta文件进行格式化构建BLAST库,接下来执行步骤D;
[0027] D、系统发育树重建:对综合基础数据集和新输入的自测序列数据进行系统发育树的重建并生成.XML文件,接下来执行步骤E;
[0028] E、系统发育树的可视化:对步骤D重构的系统发育树进行可视化。
[0029] 本实施例所述步骤A的具体过程为:
[0030] 首先,其初始数据检索通过调用NCBI(National Center for Biotechnology Information)的API得到,其检索词是:(rbcL[Gene Name]AND"Embryophyta"[Organism]) AND"ddbj embl genbank"[Filter],得到相关的数据集;
[0031] 随后,通过GSQCT(Zhen Meng,Jianhui Li,Yunchun Zhou,Wei Cao,Xiao Xiao,Jing Zhao,Hui Dong and Shouzhou Zhang,"GSQCT:A solution to screening gene sequences for phylogenetics analysis,"20129th International Conference on Fuzzy Systems and Knowledge Discovery,vol.6,pp.2941-2945,2012.)的方法进行筛选,参数设置是:(1)目标序列Pi<0.01(i=N,R,K,M,S,Y,W);并且(2)目标基因序列6个阅读框检测不含有“TAG”、“TAA”、“TGA”任一字符串;并且(3)blap的Identities>93%;设定阀值evalue<1.0×10-10;

本文发布于:2024-09-21 15:48:32,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/466173.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:序列   数据   进行   方法   物种   文件   生物   自测
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议