人类蛋白编码基因局部GC水平相关性分析

中国经济硬着陆
HEREDITAS (Beijing)  2008年9月,  30(9): 1169―1174 ISSN 0253-9772    www.chinagene  研究报告
收稿日期:
2007−12−26; 修回日期: 2008−01−18
基金项目: 四川省应用基础研究项目(编号: 03JY029-041)资助[Supposed by Applied Basic Research Projects of Sichuan Province (No. 03JY029-
041)]
作者简介: 陈祥贵(1967−), 男, 四川人, 教授, 硕士生导师, 专业方向:疾病分子生物学、药物筛选。E-mail: chenxianggui@tom
DOI: 10.3724/SP.J.1005.2008.01169
人类蛋白编码基因局部GC 水平相关性分析
陈祥贵, 胡军, 杨潇
西华大学生物工程学院, 成都610039
摘要: GC 含量是基因组DNA 序列碱基组成的重要特征, 蕴涵基因结构、功能和进化信息。文中通过从公共数据库提取7 992个非冗余的人类蛋白质编码基因DNA 序列, 分析了基因序列不同区域的局部GC 含量和相关性。结果表明: 基因局部GC 含量呈现不均一性, 5′非翻译区GC 水平最高, 为62.56%; 而3′非翻译区GC 水平最低, 为43.97%。3′侧翼序列的GC 含量能较好地代表基因所在区域DNA 长片段的GC 水平。虽然开放阅读框的GC 含量比内含子、3′非翻译区和3′侧翼序列的GC 含量高, 但4个区域的GC 含量之间均存在较高的相关性。密码子第三位置的平均GC 含量(GC3)为58.09%, 显著高于密码子第一位置和第二位置的GC 含量, 且与开放阅读框的GC 水平高度相关, 相关系数高达0.91。GC3与内含子、3′非翻译区、3′侧翼序列的GC 水平相关性也较高, GC3对3′侧翼序列的GC 含量的直线回归斜率为1.25。因此, GC3可作为基因所在区域GC 水平变化的敏感性指标。而密码子第一位置和第二位置以及5′侧翼序列和5′非翻译区GC 水平与基因其他区域的GC 水平的相关性较弱。该研究结果提示: 基因蛋白编码区密码子第三位置、内含子、3′非翻译区和3′侧翼序列的碱基可能经历了相近的进化过程, 而
蛋白编码区密码子第一位置和第二位置、5′侧翼序列和5′非翻译区由于功能的需要而经历了不同的突变和选择。
关键词: 局部GC 含量; 相关; 人类蛋白编码基因
Analysis of correlation of local GC level in human protein coding genes
CHEN Xiang-Gui, HU-Jun, YANG Xiao
School of Bioengineering , Xihua University , Chengdu 610039, China
Abstract: GC level is an important feature of genomic composition, which significantly improve our understanding of structure, function and evolution of genes. In this paper, the nonredundant DNA sequence of 7 992 human protein coding genes were retrieved from public database and the local GC level of different sequence regions and correlation between GC levels were analyzed.. The results showed that the GC levels of different sequence regions were strikingly nonuniform. 5′ untranslated regions were of richest GC, with average GC content being 62.5%. 3′-untranslated regions were of poorest GC, with average GC content being 43.97%. GC contents of 3′ flanking sequences profoundly matched the GC levels of DNA large fragments where the genes were located.
Although the GC contents of open reading frames (ORFs) were higher than that of intron, 3′ non-translated region and 3′ flanking sequences, high correlation existed among the GC contents of the four regions. Average GC content of the third codon position (GC3) was 58.9%, higher than that of the fist and second posi-tion, and showed high correlation to GC contents of ORFs, with correlation coefficients being 0.91, besides of its significant association with GC contents of intron, 3′-untranslated region and 3′ flanking sequences. Moreover, the linear regression of GC3 against GC contents of 3′ flanking sequences yielded a slope of 1.25. Thus, GC3 was a sensitive indicator for GC
1170 HEREDITAS
(Beijing)  2008第30卷
change of local genome. As for 5′ flanking sequences, 5′ untranslated regions, fist and second codon position, however, their
GC level exhibited weaker correlation with that of other regions. These results suggest that the third codon positions, introns,
3′-untranslated regions and 3′ flanking sequences may evolve similarly while first and second codon positions, 5′ flanking sequences and 5′ untranslated region were expected to bear more selective stress for holding their functions.
Keywords: local GC level; correlation; human protein coding genes
GC含量是基因组DNA序列碱基组成的重要特征, GC水平的变化与基因密度、重复元件分布、甲基化谱和同义密码子的相对使用频率等有密切关系[1,2]。在细菌等低等生物中, 不同种属间基因组DNA 的GC含量可有较大差异, 而基因组内GC含量变化较小[3]; 在高等哺乳动物物中, 不同物种间基因组GC含量差异不大, 但是基因组内GC含量存在明显的不均匀性。目前对高等生物基因组GC含量不均匀性产生的原因还不完全清楚, 一般认为是突变和选择共同作用的结果。
在人类基因组中, 基因的编码序列只占基因组序列很小的比例, 基因组大部分区域是基因的内含子序列和基因间序列。对于某一特定的蛋白编码基因位点, 大致可以分为上游间隔序列、5′非翻译区, 开放阅读框、内含子、3′非翻译区和下游间隔序列。在生物进化的过程中, 不同的DNA序列或由于突变偏好, 或面临不同的选择压力, 导致碱基组成的差异。因此, 基因位点DNA序列碱基组成的状况蕴藏着丰富的关于基因序列结构、功能和进化的信息。人类基因组计划的完成和大量的功能基因的克隆, 为进一步大规模分析基因位点不同区域DNA序列碱基组成特点提供了基础。
1材料和方法黑障区
通过Internet查询UCSC(genome.ucsc. edu/), 利用Genesorter工具分别提取蛋白编码基因各部分DNA序列。对于同一基因的不同isoforms, Genesorter只返回其中一条最长的转录本序列记录, 即UCSC数据库KnownCanonical Table所包含的数据记录, 因此保证了提取序列的非冗余性[4]。我们分别提取各基因的2 000 bp的5′侧翼序列(5′-flank)代表基因上游间隔区, 提取  2 000 bp 3′侧翼序列(3′- flank)代表下游基因间隔区; 对于基因转录区, 我们分别提取5′非翻译区序列(5′-UTR), 开放阅读框(ORF)、内含子(Intron)、3′非翻译区 (3′-UTR)等序列。每个基因所有内含子序列合并计算。提取的各条DNA序列采用本室自编的软件计算GC含量, 采用SPSS11.0进行统计分析。相关性分析采用pearson 相关系数。
2结果与分析
2.1人类基因不同区域GC含量特征
采用Genesorter工具提取序列时发现有少数基因的同一个序列被重复提取, 于是采用自编写软件淘汰了重复提取的序列, 最终获得了19 605条蛋白编码基因DNA序列。由于目前数据库基因序列注释信息还不完全, 还很难判断每一基因两侧非翻译区的完整性, 甚至对于ORF可能也还有不少错误的注释。为保证基因序列各区域GC含量计算的相对准确性, 参考相关文献, 我们按照如下标准对序列进行筛选: 5-
UTR大于100 bp , ORF大于300 bp, Intron 大于300 bp, 3-UTR大于300 bp, 由此我们获得了7 992条有内含子基因。
分析表明(表1), 基因不同区域GC含量有显著差异。基因的3-UTR GC 含量(G C3-U T R)最低(43.97%), 3′侧翼序列GC含量(GC3-flank)和内含子的GC含量(GC intron)接近并稍高于GC3-UTR。ORF的GC 含量(GC ORF)达到52.3%, 但不同密码子位置差异很大。密码子第三位置GC含量(GC3)最高, 并显示最
表1  7 992个基因不同区域的GC含量
Table 1  GC contents of various parts of 7 992 gene (mean ±  SD)
基因区域
Parts of gene
GC 含量
GC content(%)
5-flank 50.03±7.65
5-UTR  62.56±11.77
ORF 52.24±8.55
Condon Position 1 55.65±7.08
Condon Position 2 42.96±7.55
Condon Position 3 58.09±16.33
Intron  45.29±7.69
3-UTR 43.97±10.05
3-flank  45.23±8.41
第9期
陈祥贵等: 人类蛋白编码基因局部GC 水平相关性分析 1171
大的变异, 而密码子第二位置GC 含量(GC 2)较低, 甚至低于GC 3-UTR 。5-UTR 的GC 含量(GC 5-UTR )最高, 达62.51%, 而5′侧翼序列GC 含量(GC 5-flank )为50.03%, 高于GC 3-flank 。
这可能是由于基因5′-端有富含GC 的元件, 如CpG 岛。频数分析表明, 大部分的基因(74%)的GC 3-flank 为36%~56%, 其频率分布非常接近于人类基因组计划报告的人类基因所在的基因组局部GC 含量的分布[5](图1)。 2.2  ORF 和基因各区域GC 含量的相关性
在基因进化过程中, ORF 序列较基因其他部分可能经历了更强的选择。分析表明, GC ORF 与基因位点各区域GC 含量具有不同程度的相关性(图2)。由于样本量较大, 本文分析的所有相关系数均达到统计学显著 水平。我们可从相关系数比较相关性的强弱。GC ORF 与GC intron 、GC 3-UTR 和GC 3-flank 的相关系数分别为0.76, 0.74和0.64, 显著高于与位于基因5′侧的序列的相关性。GC ORF 与不同密码子位置GC 含量的相关性也不
同, 与GC3 的相关系数达到0.91, 而与GC1和 GC2的相关系数分别是0.81和0.66。因此, GC3与基因编码序列的GC 水平有较好的线形关系。
图1  3′侧翼序列GC 含量频数分析
Fig. 1  Frequency of GC contents of 3′flank sequences
图2  编码区GC 水平对基因不同区域GC 水平散点图
Fig. 2  Plots of GC levels of coding regions (CDS) from human genes against GC levels of various parts of genes
2.3  密码子不同位置GC 水平和基因位点局部GC
含量的相关性
ORF 中密码子不同位置的GC 含量与内含子、 3′- UTR 和3-flank 的GC 水平的相关性不同(图3), GC3与内含子、3′-UTR 和3-flank 的GC 水平相关系 数分别是0.75、0.74和0.64, 非常接近于GC ORF 与这3个区域GC 含量的相关系数。GC 1和GC 2与这3个区域GC 含量的相关系数相对较小, 其中GC 2与这3个区域GC 含量的相关系数为0.3~0.4, 反映了进
化过程中密码子不同位置经历不同的突变和选择。 2.4  内含子GC 水平和基因位点局部GC 含量的相
关性
内含子是真核生物大多数蛋白编码基因的典型结构元件, 其进化和功能尚不很清楚。分析表明, 基因内含子的GC 含量与基因3′端区域(3-UTR 和3- flank)GC 含量具有较大的相关系数, 而与5′侧的区域(5-UTR 和5-flank)GC 含量的相关系数相对较小(图4)。
1172 HEREDITAS (Beijing)  2008 第
30卷
图3
密码子不同位置GC 水平对基因不同区域GC 水平散点图
Fig. 3  Plots of GC levels of different position of codons against GC levels of various parts of genes
图4  内含子GC 水平对基因侧翼序列GC 水平散点图
Fig. 4  Plots of GC level of introns against GC levels of flanking sequences of genes
2.5  基因侧翼序列和非翻译区GC 水平间的相关性
与基因5′侧翼序列相比, 3′侧翼序列可能经受了相对较小的自然选择, 更能代表基因位点的GC 含量背景。图5表明, GC 3-flank 水平与GC 3-UTR 有较好的相关性, 而与GC 5-flank 和GC 5-UTR 的相关性较小, 表明在基因蛋白编码区域两侧的序列碱基组成经历了不同的进化过程。
3  讨 论
已经有很多研究观察到人类基因组GC 含量的
不均匀性和长程变化, GC 含量的不均匀性导致基因
组不同G C 含量的长片段性质和功能的差异。Bernardi 等[6]认为真核基因组是由一些组分均一的区域镶嵌而成, 称之为GC 含量的等容线(Isochores)。人类基因组计划的研究结果表明, 除了由于转座等因素引起局部GC 含量的剧烈变化外, 人类基因组 GC 含量的长程变化呈现连续性, 并不存在严格意 义上的等容线, 因此建议采用“G C 含量域(G C content domains)”来表征基因组GC 含量的不均一 性。GC 含量域的GC 水平背景对人类蛋白编码的分 布、GC 水平、基因结构都有重要的影响。大多数人
第9期
陈祥贵等: 人类蛋白编码基因局部GC 水平相关性分析 1173
图5  3′侧翼序列GC 水平对5′侧翼序列和非翻译区GC 水平散点图 Fig. 5  Plots of GC level of 3′flanking sequences against GC level of 5′flanking and untranslated region of genes
类基因分布在GC 丰富区和极端丰富区。GC 贫乏的区域通常含很少的基因。在GC 丰富的区域通常富含紧凑的基因, 而GC 贫乏的区域通常分布蔓生基因。对于一个基因而言, 其结构和功能上不同的区域的局部GC 含量存在不均一性, 为研究基因进化、结构和功能的提供了线索。
已有的研究表明, 人类基因GC 含量特别是GC3
水平与基因所在的区域的背景GC 水平(也就是GC
含量结构域)密切相关。在本研究中, 我们分别提取了蛋白编码基因两侧翼各2 000 bp 的基因组DNA 用以表示基因所在区域的GC 背景, 结果显示, 7 992个基因 3′侧翼GC 含量(平均为45.23%)和频率分布非常接近于人类基因组计划报告的人类基因所在的基因组局部GC 含量的分布。而5′侧翼比3′侧翼GC 含量高约5%, 表现为基因上游和下游间隔区GC 含量不对称分布, 可能是因为基因上游区域具有较丰富的富含GC 的表达调控序列。相关性分析表明, 基因GC ORF 、GC intron 、GC 3-UTR 与GC 3-flank 有较好的相关性, 而与GC 5-flank 的相关性显著下降, 表明GC 3-flank 能较好的反映的基因所在区域DNA 长片段的总的GC 含量及其特征, 这与Clay 的小样本研究结果一致[7]。
作为基因的蛋白质编码区, ORF 序列在进化过程中经历更为严格的突变和选择, 编码蛋白的氨基酸组成、蛋白质的性质和功能与ORF 的碱基组成都有不同程度的关联[8]。尽管如此, ORF 的GC 含量与3′侧翼序列和内含子序列仍然有较好的相关性, 反映了基因组GC 背景对ORF 有较大的影响。由于存在密码子简并性, 不同物种对同义密码子存在使用偏好[9]。密码子不同位置所面临的选择压力不同, 在多数情况下, 第三个位置的碱基突变不改变编码氨基酸的种类。相对于其他区域, GC3具有最大的变异度。相关性分析表明, GC3和GC ORF 高度相关, 相关系数达到0.91, 可以认为不同基因的ORF 的GC 含量的差
异一定程度上决定于GC3水平的差异。人类基因GC3平均为58%, 显著高于GC1、GC2、GC ORF 、GC intron 、GC 3-UTR 和GC 3-flank , 表明人类基因对以G 和C 结尾的同义密码子使用偏好, 这与已
有研究结果一致[10]。GC3与GC 3-flank 、GC 3-UTR 、GC intron 的相关性较高(相关系数大于0.64), 远高于GC1、GC2与这些序列GC 水平的相关性; GC3对GC 3-flank 的直线回归斜率为  1.25, 远高于其他局部GC 含量对GC 3-flank 的直线回归斜率, 因此GC3不仅和基因所在的序列GC 背景密切相关, 而且可作为基因所在的序列GC 含量变化的敏感性指标。基因所在区域的DNA 序列GC 背景可能是GC3水平的最主要的决定因素, 但是GC3在进化过程中保持比内含子、3′侧翼序列等区域更高的GC 含量和更大的变异程度, 暗示其他因素对第三碱基的GC 水平的影响。目前的研究认为, GC3可能与基因表达水平[11,12]、保证翻译的准确性[10]、编码氨基酸的功能重要性[13]等因素相关。
三联体密码子中的GC2水平最低, 它与内含子和3′侧翼序列的GC 含量的相关系数也最小, 对GC 3-flank 的直线回归斜率仅0.28, 提示密码子第二位置可能经历了更强烈的选择, 其碱基组成对基因组背景的敏感性较小。一般认为, 密码子第一位置碱基种类与其编码的氨基酸生物合成前体有关, 密码子第二位置的碱基种类与其编码的氨基酸的疏水性相关[14]。对于蛋白质的生物学功能来说, 氨基酸的疏水性是维持其功能性构象的关键因素。一般认为, 密码子第二位置的碱基发生GC →AT 的转换虽然会导致氨基酸种类的变化, 但经常是产生一个性质非常相似的氨基酸, 将突变的有害效应降低到最低的程度。因此, 我们推测, 密码子的第二位碱基组成的GC 水平特征可能与密码子的识别和蛋白翻译过程有关, 这有待进一步证实。
基因内含子、3-UTR 与3′侧翼序列具有相近的
1174 HEREDITAS
(Beijing)  2008第30卷
GC含量, 而GC3要高的多, 但它们之间具有较好的相关性。进一步的分析还表明, 当基因外显子数目增加, GC intron和GC3的相关性增加, 其相关系数可达到0.9左右(未发表的结果), 暗示至少在部分基因中, 内含子与外显子在起源或功能方面存在关联。傅强等通过对3-tuple分布特征的研究认为部分内含子和编码序列有共同的起源[15]。作为真核生物基因的元件, 内含子的起源、进化和功能都尚未阐明。早内含子假说认为, 内含子与它所在的基因一样古老, 在装配第一个这样的基因时, 内含子就已存在。原核生物和少数低等的真核生物, 由于它们需要进行快速的DNA复制从而进行快速的细胞分裂, 因而失去了内含子[16]; 晚内含子假说认为, 内含子不是基因原有的, 而是在进化的某一过程中通过某些机制如转座作用插入到连续基因中去的, 内含子在较高级的功能基因或在真核生物出现之后才产生[17]。两种假说都面临不同的生物学证据的挑战。目前认为, 内含子的存在使真核生物基因转录产物出现可变剪接, 增加的蛋白产物的多样性。另一方面, 内含子把基因编码区域分为多个外显子, 使得通过外显子改组的方式产生新基因成为可能, 有利于生物的进化[18]。内含子可能参与了基因表达调控, 并与基因上游的转录调控具有关联性[19,20]。因此, 进一步深入研究内含子和外显子碱基组成的特征, 可能为阐明内含子的起源和功能提供线索。
参考文献(References):
[1] Abbari K, Bernardi G. CpG doublets, CpG islands and Alu re-
peat elements in long human DNA sequences from different isochores families. Gene, 1998, 224(1-2): 123−128.[DOI]
[2] Galtier N, Piganeau G, Mouchiroud D, Duret, L. GC-
content evolution in mammalian genomes: the biased gene conversion hypothesis. Genetics, 2001, 159(2): 907−911. [3] Rolfe R, Meselson M. The relative homogeneity of microbial
DNA. Proc Natl Acad Sci USA, 1959, 45 (7): 1039−1043.[DOI] [4] Hsu F, Kent WJ, Clawson H, Kuhn RM, Diekhans M,
Haussler D. The UCSC known genes. Bioinformatics,
2006, 22(9): 1036−1046. [DOI]
[5] International Human Genome Sequencing Consortium
(Lander ES, Linton LM, Birren B, et al) Initial sequencing
时域 频域>水乡的日子and analysis of the human genome. Nature,2001,
409(6822): 860−921.[DOI]
[6] Bernardi G, Filipski J. The mosaic genome of warm- blooded
vertebrates. Science, 1985, 228(4702): 953−958.[DOI]
[7] Clay O, Caccio S, Zoubak S. Human coding and noncod-
ing DNA: compositional correlations. Mol Phylogenet Evol, 1996, 5(1): 2−12.[DOI]
[8] ZHU Wei, ZHENG Zuo-Hua, YUAN You-Zhong, ZHOU
Zong-Xiang, MAO Yu-Min. Correlation analysis of (G+C)% of coding sequence and thermostability of xylose isomerase
of thermophiles. Acta Genetica Sinica, 1999, 26(4): 418−424.
朱蔚, 郑佐华, 袁有忠, 周宗祥, 毛裕民. 编码序列的
(G+C)%与蛋白质的耐热性相关性分析. 遗传学报, 1999, 26(4): 418−424.
[9] WU Xian-Ming, WU Song-Feng, REN Da-Ming, ZHU
Y un-Ping, HE Fu-Chu. The analysis method and progress in the
study of codon bias. Hereditas(Beijing), 2007, 29(4): 420−426.
吴宪明, 吴松锋, 任大明, 朱云平, 贺福初. 密码子偏性的
分析方法及相关研究进展. 遗传, 2007, 29(4): 420−426. [10] SHI Xiu-Fan, HUANG Jing-Fei, LIU Shu-Qun, LIU Ci-
Quan. The features of synonymous codon bias and gc- content relationship in human genes. Progress in Bio-
chemistry and Biophysics, 2002, 29(3): 411−414.
石秀凡, 黄京飞, 柳树, 刘次全. 人类基因同义密码
子偏好的特征以及与基因 GC 含量的关系. 生物化学
与生物物理进展, 2002, 29(3): 411−414.
[11] Urrutia AO, Hurst LD. Codon usage bias covaries with
expression breadth and the rate of synonymous evolution
in humans, but this is not evidence for selection. Genetics,
2001, 159(3): 1191−1199.
[12] Sueoka N, Kawanishi Y. DNA G+C content of the third
codon position and codon usage biases of human genes.
王士伟Gene, 2000, 261 (1): 53−62.[DOI]
[13] Epstein RJ, Lin K, Tan TW. A functional significance for
醉公主codon third bases. Gene, 2000, 245(2): 291−298.[DOI] [14] Copley SD, Smith E, Morowitz HJ. A mechanism for the.
association of amino acids with their codons and the ori-
gin of the genetic code. Proc Natl Acad Sci USA,2005,
102(12): 4442−4447.[DOI]
[15] FU Qiang, QIAN Min-Ping, CHEN Liang-Biao, ZHU
Yu-Xian. Features of coding and noncoding sequences based on 3-tuple distributions. Acta Genetica Sinica,2005, 32(10): 1018−1026.
傅强, 钱敏平, 陈良标, 朱玉贤. 编码序列和非编码序列
的3-tuple分布特征. 遗传学报, 2005, 32(10): 1018−1026. [16] Gilbert W, de Souza SJ, Long M. Origin of genes. Proc
Natl Acad Sci USA, 1997, 4(15): 7698−7703. [DOI]
[17] Stoltzfus A, Spencer DF, Zuker M, Logsdon JM Jr, Doolittle
WF. Testing the exon theory of genes: the evidence from protein structure. Science,1994, 265(5169): 202−207.[DOI] [18] Fedorova L, Fedorov A. Introns in gene evolution. Ge-
netica, 2003, 118(2-3): 123−131.[DOI]
[19] ZHANG Kun-Lin, ZHANG Jing, LUO Jing-Chu. Possible
short- and long-range transcriptional synergistic regula-
tion between upstream regions and introns in yeast genes.
Acta Biophysica Sinica, 2005, 21(4): 277−283.
张昆林, 张静, 罗静初. 酵母基因上游区与内含子可能
的短程和长程转录协同增效作用. 生物物理学报, 2005,
21(4): 277−283.
[20] ZHANG Jing, SHI Xiu-Fan, YANG Heng-Fen. Transcrip-
tion rates of yeast genes are influenced by the distribution
of introns. Progress in Biochemistry and Biophysics, 2003, 30(6): 945−949.
张静, 石秀凡, 杨恒芬. 酵母内含子在基因序列中的分
布对基因转录效率的影响. 生物化学与生物物理进展,
2003, 30(6): 945−949.

本文发布于:2024-09-21 01:53:23,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/485471.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:基因   含量   序列   水平   编码
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议