基因组学分析

第八章 基因组学分析
基因组(Genome)指一个生物体中所有的遗传信息的载体DNA。原核生物基因组与真核生物基因组有着很大的区别,原核生物的基因组比较简单,一般由一条染体(有些细菌有多条染体)和若干个质粒组成。除少数细菌外,细菌的染体一般由一条环状双链DNA组成。染体高度折叠、盘绕聚集在一起,形成致密的类核 (nucleoid),类核无核膜与胞浆分开,类核的中央部分由RNA和支架蛋白组成,外围是双链闭环的DNA超螺旋(图8-1)。染体DNA链上与DNA复制、转录有关的信号区域优先与细胞膜结合,连接点的数量随细菌生长状况和不同生活周期而异。这种连接有助于细胞膜对染体的固定,并在细胞分裂时将染体均匀的分配到子代细胞中。
图8-1:大肠杆菌染体DNA的类核结构,中间实心圆为中央类核,四周的为DNA环。
从1995年美国基因组研究所(The Institute for Genomic Research, TIGR发表第一株细菌——流感嗜血杆菌(Haemophilus influenzae RD)的全基因组序列以来,现已发表了150多株细菌的基因组全序列(表8-1),其中包括古细菌和真细菌,既有病源微生物也有非病源微生物。这些已完成全基因组测序的细菌很具代表性,有在极端条件下生长的嗜热菌,耐盐菌,耐酸菌;有厌氧菌,兼性厌氧菌和需氧菌;有营养要求不高的大肠杆菌,较难培养的枝原体,只在活细胞内生存的衣原体和立克次体。在未来的几年时间里,还将有更多株原核生物的基因组全序列被测序,预示着原核生物基因组研究将对21世纪的生命科学研究中起着推波助澜的作用。
第一节  微生物基因组概述
1、基因组大小
曾经有很多方法用于细菌基因组大小的研究,包括比法、DNA复性动力学、酶切片段的二维胶电泳,这些方法现在都已经被脉冲场电泳(Pulsed Field Gel Electrophoresis, PFG
E)技术所取代。虽然原核生物的基因组大小相对比真核生物要小,但是最大的原核生物基因组碱基数与最小的真核生物基因组碱基数大小有部分重叠(图8-2)。细菌的基因组大小相差也很大,目前已知完成全基因组序列测定的细菌中,基因组最小的生殖道支原体(Mycopalsma genitalium)只有0.58 Mb,最大的日本慢生根瘤菌(Bradyrhizobium japonicum USDA 110)有9.11 Mb(表8-1)。
2、编码密度高
与真核生物不同,原核生物基因组的编码序列占基因组总序列的比率很高,达90%左右。如果基因的平均大小为1 kb,在一个基因组大小为1000 kb的原核生物,基因数接近900个,上下偏差一般不会超过20%,如基因组最小的生殖道枝原体(Mycoplasma genitalium G-37B0),其基因组大小为580 kb,编码523个基因,基因组中等大小的李斯德菌(Listeria innocua Clip11262)和根瘤土壤杆菌(Agrobacterium tumefaciens C58-DuPont),它们基因组的大小分别为3011 kb和4915 kb,编码3626和5482个基因,基因组较大的Mesorhizobium loti MAFF303099,基因组大小为7036 kb,编码6752个基因。两个已全基因组测序的低等真核生物,酿酒酵母(Saccharomyces cerevisiae) 和裂殖酵母
Schizosaccharomyces pombe),基因组大小分别为12069和14000 kb,编码6294和4820个基因,编码序列只占基因组的57%和70%;秀丽隐杆线虫(Caenorhabditis elegans)和拟南芥(Arabidopsis thaliana)的基因组大小分别为97000和115428 kb,编码19099和25498个基因,拟南芥的编码区(CDS)的平均大小为 430 bp,编码序列占基因组的28.9%(29)。而人类的基因组有3000000 kb,仅编码31000多个基因,编码序列(编码外显子的序列)占基因组的比率不到2%。由此可见,不同生物,不但基因组大小差异显著,而且编码序列占总基因组的比率相差也非常悬殊。
图8-2 古细菌、真细菌和真核生物这三界生物基因组大小分布图。古细菌和真细菌的基因
组大小是根据PFGE数据,真核生物的基因组大小是根据PFGE和复性动力学实验两个结果。
3、基因组拓扑结构
约50种细菌的基因组拓扑结构是已知的,比较常见的是一个或多个封闭的环状染体,但是也有些关于线状染体的报道。关于线性染体在复制阶段是否有一个环化过程,目前还不太清楚,但是已知有些细菌的染体在复制时改变其拓扑结构。细菌基因组中比较多见的是一条环状染体,关于有些细菌中存在多个染体的报道很多,大家可能认为染体越多基因组越大,其实基因组的大小与是否存在多个染体没有什么直接关联。如基因组大小为9.4 Mb(Megabase,百万碱基对)的Myxococcus xanthus就只有一条环状染体。多条染体的存在,其实反应了细菌基因组的流动性特点。细菌基因组的同源重组频率很高,同源重组既能使染体由一条分成多条,也可以使多条染体重组合并成一条大的染体。如Bacillus cereus的基因组大小基本在5 Mb,但是比较不同菌株的物理图谱发现,基因组的大部分经常会发生重排。在其中一种中,最大的染体是2.4 Mb,另外的2.6 Mb分散成多个染体。
金熙俊
4、原噬菌体(Prophages)和隐性原噬菌体(Cryptic Prophages)
噬菌体又称细菌病毒,是一种完全的细胞内寄生生活,利用宿主的生物合成系统在细菌体内繁殖。噬菌体分为温和噬菌体和烈性噬菌体,一些噬菌体的DNA可以通过位点特异性重组或转座作用插入到细菌染体上,称为溶源生长。在溶源生长时期噬菌体的病毒功能被抑制,这时噬菌体又称为原噬菌体(Prophage),噬菌体的基因组随着细菌的染体一起复制、遗传到下一代。由于在生长过程中,溶源菌的经常发生突变或原噬菌体部分缺失,导致溶菌生长的一些功能基因丧失,这时原噬菌体称为隐性原噬菌体(Cryptic Prophages)。从自然界分离的细菌也经常有原噬菌体,这些原噬菌体作为细菌基因组的一部分组成而存在,有时也难以发现它们的病毒起源性。
图8-3:大肠杆菌O157:H7 Sakai株、O157:H7 EDL933株、K-12株、CFT03株(由里到外)中的原噬菌体分布图及同源性比较。圆环表示各株菌染体基因组,小方框表示那部分为原噬菌体,连线表示不同菌株间具有同源性的原噬菌体。
在病原细菌的基因组中,存在着众多的原噬菌体DNA,许多原噬菌体编码着细菌毒力因子。原噬菌体编码的各种细菌毒力因子:胞外毒素蛋白、侵袭素、粘附素、三型分泌系统的效应蛋白、血清抗性、宿主适应必需的酶类。如大肠杆菌O157 一种肠出血性(enterohemorrhagic)细菌,对人强毒。在由由非致病性大肠杆菌进化成O157的过程中,后者积累了24个原噬菌体(图8-3),编码着许多重要毒力因子:LEE III型分泌系统,Shiga 毒素,SOD酶,溶血素,血清抗性。诺基亚9500
5、插入序列(Insertion Sequence,IS)和转座子(Transposons)
插入序列在是在1968年,大肠杆菌的半乳糖酶操纵元基因表达的分子遗传学研究中发现的。随着越来越多的细菌的全基因组序列测定,被鉴定插入序列的种类也越来越多,插入序列不仅是细菌基因组的构成组分,也存在与质粒和原噬菌体中。这些可移动元件可以从基因组的一个位点转移到另一个位点,促进了基因组的重排、改变了基因的表达,同时使
基因组以一个不停改变的动态状态存在。
不同的插入序列大小不等,在0.7~7 bp之间,比较常见的一般在1~1.5 kb之间。插入序列的两端一般是两个短的方向中方序列(图8-4),这两个重复序列只是具有同源性而不是完全一样,大小在9~41 bp不等,对于插入序列的转座是非常重要的。插入序列只编码转座所需的蛋白。已经在很多细菌的染体鉴定出插入序列,在大多数细菌中一般至少有5到8个拷贝,在不同的细菌中插入序列的拷贝数相差很大,同一个插入序列在某一个细菌中可能只有1个拷贝,但是在另一种细菌中可能有上百个拷贝。
转座子是一种比较复杂的可移动遗传元件,转座子除编码转座功能所需的蛋白外,还编码会导致显著表型改变的功能蛋白,如抵抗药物的功能蛋白。转座子的转座机制可分为三种:复制转座、非复制转座、保守转座。对于复制和非复制转座,在交叉打断靶DNA生成粘末端,转座子先与突出的单链连接,然后通过复制修复填补缺口。这解释了为什么会复制靶DNA产生重复。复制转座是先复制一个新的转座子,然后插入到靶DNA区段,原来的转座子并没有移动。非复制转座时,先将转座子从染体上剪切下来后,再插入靶DNA区域,复制修复填补缺口。保守转座也是一种非复制转座,但是在转座过程中不需要任何DNA合成。
图8-4 插入序列结构示意图。
6、DNA链组成的不对称性
6.1 GC偏斜(GC skew)
Lobry于1996年通过对3种原核生物基因组:大肠杆菌(Escherichia coli)、枯草芽孢杆菌(Bacillus subtilis )和流感嗜血杆菌 (Haemophilus influenzae )的分析,发现它们DNA链不同区域的碱基组成非对称,前导链含有较多的G而后随链含有较多的C(GC skew)。GC skew的计算公式为(nG-nC)/(nG+nC),其中nG(nC)为一特定大小DNA片段(窗口)内G或C的含量,窗口的大小一般设为10 kb,20 kb 或50 kb。对于大多数原核生物来说,它们先导链的G都多于C,(nG-nC)/(nG+nC)为正值,而后随链的G少于C,(nG-nC)/(nG+nC)为负值(8-5)。所以,在复制的终点和起点,会发生(nG-nC)/(nG+nC)的正圣格
负值之间转变当以基因组的长度为横坐标,GC skew为纵坐标作图时,起点在负值向正值转变处,接近或相当于0的位置;而终点在正值向负值转变处, 同样接近或相当于0的位置。网络平台建设GC skew在大多数原核生物如大肠杆菌、枯草芽孢杆菌、生殖道枝原体(Mycoplasma genitalium)、沙眼衣原体(Chlamydia trachomatis结核分枝杆菌(Mycobacterium tuberculosis梅毒螺旋体(Treponema pallidum服务质量)普氏立克次体(Rickettsia prowazekii)、流感嗜血杆菌、肺炎枝原体(Mycoplasma pneumoniae)和幽门螺杆菌(Helicobacter pylori )等中存在,并可据此对这些真细菌的单一复制起点和终点进行定位。而在已测序的11种(株)古细菌中,通过GC skew 预测存在单一复制起点的只有嗜酸热原体(Thermoplasma acidophilum)。另外,硫磺矿硫化叶菌(Sulfolobus solfataricus)也籍此预测了一个复制起点(其可能有多个复制起点);但其它古细菌如加氏甲烷球菌(Methanococcus jannaschii热自养甲烷杆菌(Methanococcus thermoautotrophicum发光古球菌( Archaeoglobus fulgidus)和火球菌(朱古亭Pyrococcus horikoshii 等没有明显的链内GC skew,可能有多个复制起点,不能用此法进行复制起点定位。

本文发布于:2024-09-23 15:25:02,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/293878.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:基因组   细菌   染色体   复制   生物   噬菌体   转座   编码
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议