钟杨-生物信息学

各种blast的定义:
1)、BLASTP蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。
2)、BLASTX核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。
3)、BLASTN是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。
4)、TBLASTN是蛋白序列到核酸库中的一种查询。与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。
5)、TBLASTX是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。
双向BLAST:用物种A的基因序列搜索(BLAST)物种B的基因序列,搜到的最高相似的序列反过来再BLAST物种A的基因组(阈值E小于1 e一20)。如果两条序列在这两个BLAST中均是最相似的,称为“双向BLAST最高相似蛋白”,则认为是直系同源关系。
Mega-Blast可用于搜索近似完全的匹配, 可以处理一批核苷酸查询,比标准BLAST查询速度快,NCBI进行基因组BLAST查询时的默认程序。
PSI-BLAST:位置特定的迭代 BLAST(Position Specific Iterated BLAST)搜索数据库以出与查询序列同一蛋白质家族的成员,揭示亲缘关系较远的蛋白质间的关系。
两个序列间的查询
比较两个序列的相似性,不需要传统BLAST的数据库查询
BLAST2
局部对位排列,获得结构域或序列内重复信息
建议不超过150 kb
Blast流程Blast---Basic Local Alignment Search Tool
在浏览器中输入NCBI网址即可进入BLAST的主页,根据目的选用相应的blast类别进行搜索。进入搜索页面后,把查询序列粘贴到“search”编辑框中。在database选择项中,有若干数据库可以选择,BLAST的缺省数据库是nr数据库,如果有特别需要可以选别的数据库。点击BLAST之后,程序就会把序列提交给BLAST服务器,服务器会返回给用户一个re
questID,用于搜索BLAST 结果。输入ID,点击相应按钮,浏览器就会弹出新的窗口显示BLAST结果。
BLAST结果通常包括三个部分:
1、序列在数据库中搜索得到的Hits分布图,把用户序列在数据库中能到的匹配序列从高到底用不同颜的线条图形表示出来。
手提把
2、在数据库中检索到的匹配序列的从高到低的排序,BLAST显示所有E值小于设定的E值的匹配序列。这个部分包括三个数据:
  ------第一列:序列的名称
  ------第二列:Score(分值),用户序列和数据库序列中命中序列比对之后的相似性打分,打分越高则序列相似性越高。
------第三列:E值,是随机产生一个比所得分值高的对位排列的概率。是衡量分值可靠性的测度,E值越小, 所得相似序列的可靠性越高。
二维力传感器固体水
如果用户有大量的数据,则需要将BLAST程序下载到用户本地的计算机中,进行本地化分析。
举例:
恐龙蛋化石中的18s rDNA
对从恐龙蛋提取出来的18S rDNA进行BLAST,得出多个分值较高同时E值很小的结果,根据此值做出与恐龙蛋基因的遗传树
发现
DA18s1类似于真菌
DA18s7类似于被子植物
DA18s1 DA18s7与鸭、人、鳄鱼和其他动物的序列差异很大
鸟类与爬行类是恐龙现存的最近的物种; DA18s1/7都不是真正的恐龙DNA
麻黄碱类化合物的起源假说
背景介绍:Dopamine能神经元与学习,记忆,运动及药物成瘾有关
麻黄碱与人体内肾上腺素受体(AD)及多巴胺转运蛋白(DAT)结合
解释:
麻黄碱是麻黄的一种防御物质,其作用之一是抵抗镰孢菌的侵染
麻黄碱对镰孢菌的防御与麻黄碱和镰孢菌中的FG07634蛋白结合有关
FG07634蛋白与人体神经系统中主管奖励机制的一种蛋白----Dopamine transporter (DAT)具有同源性 (由于这种同源性,使麻黄碱类化合物能够干扰人体奖励系统的正常运转,从而发生效应)
推测:
推测FG07634蛋白的功能,因同源同功,推测其为转运蛋白
推测被FG07634蛋白转运的物质
---与Dopamine、Serotonin、Adrenaline、GABA、Proline等神经介质的功能及结构相似
---可能与镰孢菌对植物的侵害有关
进一步得出:Fusaric Acid—可能被FG07634转运的物质
Fusaric AcidDopamine的相似性
基因组分析与进化基因组学
1、基因组
一个基因组(genome)是指一种生物体中的整套遗传信息,一般为一个受精卵或一个体细胞的细胞核中所有DNA分子的总和。如植物有核基因组、线粒体基因组和叶绿体基因组。
基因组学研究通常包括: 基因组作图, 基因组测序, 基因组注释, 基因功能鉴定
2、功能基因组学 (functional genomics):
    利用结构基因组学研究所得的各种来源的信息,建立与发展各种技术和实验模型来测定基因及基因组非编码序列的生物学功能
3、比较基因组学 (comparative genomics):
    通过模式生物基因组之间或模式生物基因组与人类基因组之间的比较与鉴别,为研究生物进化和分离人类遗传病的候选基因以及预测新的基因功能提供依据。其中,着重研究生物进化的领域亦称为进化基因组学 (evolutionary genomics)
4、基因组与生物信息学:
基因组信息学: 存储、获取、处理、分配、分析和注释有关基因组的信息
基因组分析的难度:
1)基因组分析的信息量比单基因要高几个数量级
2)一些基因组的数据尚不完备, 质量也有待提高
3)基因组分析的方法学研究还处于起步阶段
5、基因组注释
定位所有已知基因
预测新的基因
提供功能注释
为基因组提供尽量多的其它信息
数据统计及分布
高硅氧布
6、基因识别
检测在一段DNA序列中是否存在ORF
判明基因结构, 包括起止位置, 外显子/内含子边界, 启动子, polyA区域, 非转译区(UTR)等
预测真基因,  “假基因 pseudogene)及可能的剪切位点
7、基于序列相似性的基因预测
将基因组序列与EST(表达序列标签) cDNA等相比较 (Sim4等方法), 出与 mRNA相对应的区域
将基因组序列与蛋白质数据库相比较 ( BLASTX等方法),出可能的编码区
将预测得到的多肽与蛋白质数据库相比较
将基因组序列与同源性相近物种的基因组相比较, 出保守区域
8、从头开始法基因预测
隐马尔可夫模型(Hidden Markov Model, HMM
人工神经网络(Neural Network
动态规划法
决策树
语言学方法
线性判别法
分子进化与进化基因组分析
1、核苷酸置换模型
Jukes – Cantor 单参数模型
Kimura 双参数模型
Equalinput模型
Tamura模型
HKY模型
…...
2、分子系统发育分析的主要方法
美发镜台
(1). 距离矩阵法 (Distance Matrix)
横向线性马达(2). 最大简约法 (Maximum Parsimony)
(3). 最大似然法 (Maximum Likelihood)
3、基因组进化
基因组排列 (genome arrangement): 是指基因序列的变化(序列插入,转座等)
基因组含量 (genome content): 基因的获得(序列的趋异、复制、重组、水平转移)和基因丢失
4、直系同源体簇(COG)
      直系同源基因(orthologous gene)是指在不同物种之间同源相似的基因,而并系同源基因(paralogous gene)是指一个物种内的同源基因。一个生物物种的基因组中,两个基因或开放读码在各自全长的60%以上范围内,同一性不少于30%时,称为同源体。研究直系同源基因之间或并系同源基因之间的功能关系,可以为基因组分析提供很大的帮助。
例如,比较8个已完成测序的整个基因组所编码的蛋白质序列,可以发现代表不同系统发育关系并反映了不同物种的直系同源体簇(cluster of orthologous groups, COG)
5、基于基因含量的基因组系统发育分析
计数基因组共享直系同源基因的数量
以共享直系同源基因的数量除以较小基因组的基因数得到一个相似性矩阵

本文发布于:2024-09-21 14:39:43,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/213911.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:序列   基因组   基因   蛋白   核酸   同源
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议