原核生物翻译起始区的序列特征及基因间的关联特性

内蒙古大学
声环境硕士学位论文什么是散文
原核生物翻译起始区的序列特征及基因间的关联特性
姓名:加顺花
厦航高郡
申请学位级别:硕士
专业:生物物理学
指导教师:***
20040415
内蒙古大学硕士学位论文枕部
序言
生命信息的载体是分子序列、基因序列和蛋白质序列。基因序列中包含了丰富的信息内容,因此,DN
A测序是生化研究的重点。到目前为止,已完成了数十个原核生物和数个真核生物基因组DNA全序列的测定工作,如:细菌、酵母、线虫、果蝇、人类等,而且到2008年人们对小鼠的全基因组序列的测序工作也将完成。但是要读懂这些基因序列中的信息,需要各个学科领域交叉作大量的实验和科研工作,如运用信息论、物理学、化学、数学等的理论和方法来分析研究所得到的基因序列,从而了解生命的现象和机理。
从基因组DNA测序数据中确定编码区,这一研究已经进行很多年,并建立了多神方法。概括起来分为两种,一种是基于编码区的碱基组成不同于非编码区,如:非均匀指数Ⅲ,关联谱分析法等【2】{31,另一种是基于编码区所具有的独特信号,比如起始密子、终止密码子等。第一ATG规则【4】就是根据后一种来确定编码区的。在以前工作中,发现第一ATG规则用于确定起始密码子的结构模式,几乎100%的酵母基因服从这一模式;大肠杆菌和枯草杆菌的基因中,绝大多数都服从这一模式。也就是说L.Ter与起始密码子之间存在着密切关系。本文从L.Ter到起始密码子之间的距离进行分析和研究,得到一些有意义的结果;同时发现其距离分布出现双峰现象,进一步研究得出:可能与SD序列有关。
我们知道,在原核生物中,SD序列(Shine—Dalgarnoregion)是转译起始区的一段序列,是由起始密码子上游一些特定的碱基模式构成,它与16SrRNA的3。一OH尾的九个碱基互补,是核糖体结合的重要位点。文献[5,6]研究了大肠杆菌与基因表达水平的关系,
发现sD序列到起始密码子的距离以及SD区域的碱基片段模式等与基因表达水平有明显的关系,文献【7】则发现SD区域的单碱基的保守性以及相邻双碱基与三碱基的关联性同基因表达水平成正相关性。为了进一步研究SD序列对基因的表达和调控方面所扮演的角,我们通过研究SD序列特征的强弱,发现它也影响着基因的结构和基因的表达水平。
随着人类基因组计划进行,基因组的研究也迅猛推进。生命科学也随着进入到了一个新纪元——后基因时代。这时其研究的重点发生了很大的变化:从对单个因素影响的分析,转移到对多因素的研究。从对单基因中的碱基关联的研究,转移到对多基因间相互作用的分析;从结构基因问的研究转向功能基因间的研究。也就是说,对于基因组来说,其内部的基因之间存在着复杂的相互作用关系,不仅仅表现在多个基因的简单叠加,而是体现在基因之间、
塑茎主苎兰堡主兰堡丝墨
基因与蛋白质之间的复杂的相互作用【8]。因此,单单研究基因中的信息是不够的,还必须研究基因之间的关联。本文运用信息论的方法,以基因为单位具体分析了大肠杆菌不同表达水平基因间的关联强度和所存在的关联模式,可能对人们准确预测原核生物中的操纵子和了解基因问的调控等有所帮助。
内蒙古大学硕士学位论文
(--)、引言第一章大肠杆菌和枯草杆菌的L-Ter到起始密码子的距离分析
近年来,人们对编码基因起始位置的确认大都从起始密码子邻近的核苷酸序列的特征入手,如:起始密码子邻近的核苷酸保守区【9】o或者是按照Kozak规则口】:即从mRNA的5’端向下游搜寻,所遇到的第1个ATG就是起始密码子。Kozak规则对真核生物有较高的准确率,对原核生物不理想,另外他是以mRNA序列为研究基础的,而转录起始位点的确认仍然是一个非确定论的问题,这就限制了识别起始密码子的准确性。随着许多原核和真核生物全基因组测序的完成,基于DNA序列确认起始密码子显得尤为重要。本文基于DNA序列提出了一个确认起始密码子的方法,它不去研究起始密码子邻近核苷酸序列的特征,而是根据编码序列与非编码序列的特征结构来确定起始密码子的。这个方法基于我们提出的第一ATG规则【4】【∞],在此基础上又提出了第一GTG规则。所谓的第一ATG(或第一GTG)规则,就是在DNA序列中,同相位的以终止密码子后面的诸多ATG中以第一个ATG(或第一GTG)作为ORF(opellReadingFrame)的起始密码子。我们用编码序列上游(同相位)遇到的第一个终止密码子(记为L.Ter)为基准点,研究L,Ter到起始密码予(ATG、GTG或TTG)的距离和L.Ter到其它ATG、GTG或TTG的距离分布特点,从而给出起始密码子的特征和以GTO起始的密码子的结构特征。
(二)、数据的选取
选用从网上最新得到的大肠杆菌晖colO和枯草杆菌(占.sub)全基因组数据,网址:(ftp://ftp.ncbi.nih.gov/genomes)。为了提高可靠性,把数据库中给出的所有ORF分为已确定的基因和理论预测的基因。所谓理论预测的基因是没有在实验上完全确定的基因,它
内蒙古夫学硕士学住论文
们包括在基因的注释中带有诸如“putative,possible,probable,probably,hypothetical,predicted,like,orf,uncharacterized,similarto”之类说明的ORF,又把理论预测的基因分为标有基因名称的和标有orf(或ORF)的基因;而确定基因就是在实验上得到完全确认的基因。
在E.coli全部4279个ORF中,得到已确定基因1792个(记为Real基因),理论预测的ORF中,有基因名称的有1158个(记为的Fgene),Orf的有1304个。其他注释不规范的和不是以ATG、GTG或TTG起始的基因有25个,我们没有考虑。在Bsub全部4112个ORF中,得到Real基因2268个,Fgene基因1817个,因为Off基因太少,把它们都归在Fgene中。其他注释不规范的和不是以ATG、GTG或TTG起始的基因有27个,本文不与考虑,具体数目见表l-l。它给出了大肠杆菌和枯草杆菌中Real、Fgene和Off~=种类型的基因分别以ATG、GTG和TTG作为起始密码子的基因数目。
表1-1分别以ATG、GTG和TTG起始的三种类型的基因数目
Tablel-1ThenumberofthreesortsofgenesstartingwithATG、GTGandTTG
(三)、L-Ter到起始密码子距离的统计金昌市政府工作报告
我们知道编码区与其上游非编码区存在着的联系,那么L—Ter到起始密码子的距离是否与起始密码子位置有关?本着这个思路,对大肠杆菌和枯草杆菌的L—Ter到起始密码子的距离进行分析和研究,得到了一些有意义的结果。
南山集团神秘王国1、基因数目随距离的分布
把大肠杆菌和枯草杆菌的真实基因分成以ATG和GTG起始的基因,对它们的L—Ter到起始密码子的距离和L-Ter到起始密码子下游紧邻ATG钓距离分布进行分析,见图1一l。
从图中我们发现,大肠杆菌和枯草杆菌的L—Ter到起始密码子ATG的长度分布有明显的偏置,80%左右的基因分布在20个氨基酸以内,而L.Ter到起始密码子下游紧邻的ATG的长度分布非常的散,它一直延伸到100—200a.a之间,基本接近随机分布;以GTG为起始密码

本文发布于:2024-09-25 04:37:40,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/200735.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:基因   起始   密码子   序列   研究   距离
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议