一种多基因家族鉴定及进化分析的方法[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202010251773.2
(22)申请日 2020.04.01
(71)申请人 广州基迪奥生物科技有限公司
地址 510000 广东省广州市广州国际生物
岛螺旋三路6号第五层501、502单元
(72)发明人 高川 陶勇 夏昊强 周煌凯 
艾鹏 石悦 
(74)专利代理机构 广州容大专利代理事务所
(普通合伙) 44326
代理人 刘新年
(51)Int.Cl.
G16B  30/10(2019.01)
G16B  15/20(2019.01)
(54)发明名称
一种多基因家族鉴定及进化分析的方法
(57)摘要
本发明提供一种多基因家族鉴定及进化分
析的方法,是针对目标物种以及同源物种的独立
分析技术或者联合分析技术,其中独立分析方法
包括:蛋白基因家族鉴定、蛋白基因家族结构信
息分析、家族基因成员染体分布分析、预测复
制基因事件、Motif分析、蛋白基因家族进化树分
析这几个分析过程。联合分析方法包括:蛋白基
因家族鉴定、蛋白基因家族进化树分析、Ka/Ks分
析、基因选择进化分析、共线性分析这几个分析
过程。本发明的方法无需设计引物、进行PCR扩
增、构建基因组文库,分析流程成熟,周期短,产
出快,分析结果用Pfam和SMART两个数据库进行
确认,准确率较高,且对DNA测序数据或蛋白质序
列都适用。权利要求书2页  说明书14页  附图8页CN 111445954 A 2020.07.24
C N  111445954
A
1.一种多基因家族鉴定及进化分析的方法,是针对目标物种或者同源物种单个物种内的蛋白基因家族,其特征在于:包括以下步骤:
步骤1,统计基因序列或蛋白质序列信息;
根据目标物种或者同源物种的基因家族成员的基因序列或蛋白质序列信息进行分析;如果没有基因或蛋白质序列信息,可只提供基因名称;
步骤2,针对目标物种或近源物种开展蛋白基因家族鉴定及进化分析;
步骤2.1,蛋白基因家族鉴定;
步骤2.2,蛋白基因家族结构信息分析;
步骤2.3,家族基因成员染体分布分析;
步骤2.4,预测复制基因事件;
步骤2.5,Motif分析;
步骤2.6,蛋白基因家族进化树分析。
2.根据权利要求1所述的一种多基因家族鉴定及进化分析的方法,其特征在于:所述步骤2.1蛋白基因家族鉴定,具体包括:
2.1-1,从Pfam数据库获得要分析的目标物种或近源物种的基因家族的保守结构域信息,比如,结构域的Pfam序列号;
2.1-2,采用HMMER软件包中的hmmsearch命令构建已知蛋白质家族的保守结构域的隐马尔科夫模型(Hidden Markov Model,HMM);
2.1-3,通过隐马尔科夫模型,将目标物种或近源物种的蛋白质氨基酸序列与结构域信息进行比对,比对过程中,domE设置为1e-3;
2.1-4,对HMMER序列比对的结果进行筛选,去除比对长度低于HMM模型结构域长度45%的蛋白质序列,同时仅保留可变剪切中蛋白序列长度最长的序列;
2.1-5,用SMART数据库对Pfam数据库鉴定的结果进行验证,2个数据库均鉴定到的基因,鉴定为家族基因进行后续分析。
3.根据权利要求1所述的一种多基因家族鉴定及进化分析的方法,其特征在于:所述步骤2.2蛋白基因家族结构信息分析,至少包括:分析蛋白家族成员的基因结构。
4.根据权利要求1所述的一种多基因家族鉴定及进化分析的方法,其特征在于:所述步骤2.4预测复制基因事件,具体包括:
2.4-1,使用blastp软件两两比对参考基因组上所有的编码蛋白的基因序列;
2.4-2,利用MCScanX软件的duplicate gene classifier program程序针对上一步的比对结果进行分析,预测基因复制事件;
2.4-3,预测过程中,设置参数e-value<1e-5或e-value<1e-10的结果为复制基因,得到的结果分为片段复制(Segmental)、串联复制(Tandem)、近端复制(Proximal)、单拷贝(Singleton)和分散复制(Dispersed)基因。
5.根据权利要求1所述的一种多基因家族鉴定及进化分析的方法,其特征在于:所述步骤2.5Motif分析,是利用MEME软件预测蛋白基因家族的motif,motif的最大数量是15,最优化的motif宽度为10-100个氨基酸残基,其余为默认参数。
6.一种目标物种与近源物种的物种间蛋白基因家族的联合分析方法,其特征在于:包括以下步骤:
步骤1,蛋白基因家族鉴定;
步骤2,蛋白基因家族进化树分析;
步骤3,Ka/Ks分析;
步骤4,基因选择进化分析;
步骤5,共线性分析。
7.根据权利要求6所述的一种目标物种与近源物种的物种间蛋白基因家族的联合分析方法,其特征在于:所述步骤2蛋白基因家族进化树分析,是利用MEGA7.0软件,将目标物种的基因家族成员与近源物种的所有基因家族成员的全长氨基酸序列进行比较分析,构建进化树,进而研究物种分化机制。
8.根据权利要求6所述的一种目标物种与近源物种的物种间蛋白基因家族的联合分析方法,其特征在于:所述步骤3Ka/Ks分析,是采用KaKs_calculator软件的Nei and Gojobori模型,对目标物种的基因家族成员与近源物种的基因家族成员的基因编码序列进Ka/Ks分析,Ka/Ks分析即非同义替换率(Ka)和同义替换率(Ks)的比例分析,用来判断基因家族在物种进化过程中,是否经历自然选择压力。
9.根据权利要求6所述的一种目标物种与近源物种的物种间蛋白基因家族的联合分析方法,其特征在于:所述步骤4基因选择进化分析,是根据Ka/Ks比值,判断进化过程中,目标物种和近源物种的基因家族成员是受到强烈的正向选择、弱正向选择、还是负向选择(纯化选择)。
10.据权利要求6所述的一种目标物种与近源物种的物种间蛋白基因家族的联合分析方法,其特征在于:所述步骤5共线性分析,是利用McScanX软件,将目标物种的基因家族成员与近源物种的基因家族成员进行共线性分析,结果通过circos软件作图进行可视化展示。
一种多基因家族鉴定及进化分析的方法
技术领域
[0001]本发明涉及基因序列信息蛋白质序列的生物信息分析领域,具体涉及一种跨物种、多维度、全方面的多基因家族鉴定及进化分析的系统性方法。
背景技术
[0002]基因家族(gene family),是来源于同一个祖先,由一个基因通过基因复制而产生两个或更多的拷贝而演变成的一组基因,它们在结构和功能上具有明显的相似性,编码相似的蛋白质产物。同一家族的基因的外显子序列具有相关性,因此,这些基因编码的蛋白质具有相似的氨基酸序列、结构域和功能,这些蛋白质称为蛋白质家族。目前多数常用的基因家族分析方法,只针对基因结构、复制类型或进化树分析等某一方面进行分析,尚未有一套系统全面的生物信息学分析流程涵盖所有分析方向。如果进行多项分析,需要分别使用不同的分析工具,反复多次上传数据和下载分析结果,操作繁琐费时费力,而且频繁地手动操作过程中也容易出错。
[0003]某些方法通过分析已知的基因家族的成员之间序列的同源性,到序列保守的区域。根据这些区域设计引物,通过PCR扩增检测是否能扩增出新的基因,来发现同家族的新基因成员。或者,根据已知基因的同源性序列设计探针,利用探针与基因组文库进行杂交,检测同家族的新基因成员。这些方法分析范围有限,只能用于发现新基因家族成员,并未对已知基因家族成员进行全面深入分析,也没有利用现有技术和数据库挖掘更多信息,造成了一定程度的数据浪费。且,这些方法需要使用探针杂交筛选、PCR引物扩增等方法,事先还要构建好基因组文库,成本较高、操作繁琐、投入与产出比较低、周期较长。
发明内容
[0004]有鉴于此,有必要针对现有技术存在的问题,提供一种低成本、低要求、产出高、周期短、适用性范围广、全面整合已有技术和数据库(Pfam数据库和SMART数据库)的多基因家族鉴定及进化分析的系统性方法。本发明不仅能鉴定和分析单个物种的蛋白基因家族的信息,而且能进行多物种间的蛋白基因家族联合分析。本发明的技术方案为:
[0005]第一个方面,本发明提供一种多基因家族鉴定及进化分析的方法,是针对目标物种或者同源物种单个物种内的蛋白基因家族,包括以下步骤:
[0006]步骤1,统计基因序列或蛋白质序列信息;
[0007]根据目标物种或者同源物种的基因家族成员的基因序列或蛋白质序列信息进行分析;如果没有基因或蛋白质序列信息,可只提供基因名称;
[0008]步骤2,针对目标物种或近源物种开展蛋白基因家族鉴定及进化分析;
[0009]步骤2.1,蛋白基因家族鉴定;
[0010]步骤2.2,蛋白基因家族结构信息分析;
[0011]步骤2.3,家族基因成员染体分布分析;
[0012]步骤2.4,预测复制基因事件;
[0013]步骤2.5,Motif分析;
[0014]步骤2.6,蛋白基因家族进化树分析。
[0015]进一步的,所述步骤2.1蛋白基因家族鉴定,具体包括:
[0016]  2.1-1,从Pfam数据库获得要分析的目标物种或近源物种的基因家族的保守结构域信息,比如,结构域的Pfam序列号;
[0017]  2.1-2,采用HMMER软件包中的hmmsearch命令构建已知蛋白质家族的保守结构域的隐马尔科夫模型(Hidden Markov Model,HMM);
[0018]  2.1-3,通过隐马尔科夫模型,将目标物种或近源物种的蛋白质氨基酸序列与结构域信息进行比对,比对过程中,domE设置为1e-3;
[0019]  2.1-4,对HMMER序列比对的结果进行筛选,去除比对长度低于HMM模型结构域长度45%的蛋白质序列,同时仅保留可变剪切中蛋白序列长度最长的序列;
[0020]  2.1-5,用SMART数据库对Pfam数据库鉴定的结果进行验证,2个数据库均鉴定到的基因,鉴定为家族基因进行后续分析。
[0021]进一步的,所述步骤2.2蛋白基因家族结构信息分析,至少包括:分析蛋白家族成员的基因结构,如:基因的编码区(CDS)、开放阅读框(ORF)、内含子、外显子分析。
[0022]进一步的,所述步骤2.3家族基因成员染体分布分析,具体包括:将家族成员基因与参考基因组进行比对,根据基因组的注释文件确认家族基因在染体上分布的位置,用Perl语言SVG包根据基因的位置信息进行绘图。
[0023]进一步的,所述步骤2.4预测复制基因事件,具体包括:
[0024]  2.4-1,使用blastp软件两两比对参考基因组上所有的编码蛋白的基因序列;[0025]  2.4-2,利用MCScanX软件的duplicate gene classifier program程序针对上一步的比对结果进行分析,预测基因复制事件;
[0026]  2.4-3,预测过程中,设置参数e-value<1e-5或e-value<1e-10的结果为复制基因,得到的结果分为片段复制(Segmental)、串联复制(Tandem)、近端复制(Proximal)、单拷贝(Singleton)和分散复制(Dispersed)基因。
[0027]进一步的,所述步骤2.5Motif分析,是利用MEME软件预测蛋白基因家族的motif,motif的最大数量是15,最优化的motif宽度为10-100个氨基酸残基,其余为默认参数。[0028]家族基因的序列具有同源性,即有序列保守性的区域。将这种序列保守的区域定义为motif(一段短的DNA或蛋白质序列),基因的motif序列可能对应某个蛋白质结合位点,蛋白质的motif序列可能对应某个酶的活性位点或某个蛋白质正确折叠所必须的结构单元,是分子进化的基本功能单元。
[0029]进一步的,所述步骤2.6蛋白基因家族进化树分析,是以物种为单位进行分析,利用MEGA7.0软件以邻位相连算法(neighbor-joining,NJ),分别对目标物种或近源物种的基因家族进行系统发育分析,利用蛋白全长氨基酸序列构建有根进化树,bootstrap值设为1000。
[0030]第二个方面,本发明还提供目标物种与近源物种的物种间蛋白基因家族的联合分析方法,包括以下步骤:
[0031]步骤1,蛋白基因家族鉴定;
[0032]步骤2,蛋白基因家族进化树分析;

本文发布于:2024-09-22 13:32:09,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/458030.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:基因   分析   物种   序列   蛋白   进行
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议