DNA编码序列的图形表示及相似度计算

V o l.23高等学校化学学报  N o.7 2002年7月       CH E M I CAL JOU RNAL O F CH I N ESE UN I V ER S IT IES         1255~1258 
D NA编码序列的图形表示及相似度计算
张庆友,许 禄
(中国科学院长春应用化学研究所,长春130022)
摘要 将DNA编码序列转化为图,然后计算得图的不变量2分子连接性指数,由所得的拓扑指数对DNA编码序列进行相似度比较以确认其同源性,得到了较好的结果.
关键词 DNA序列;图论法;分子连接性指数;相似度比较
中图分类号 Q78    文献标识码 A    文章编号 025120790(2002)0721255204
DNA是遗传的信息基础,是遗传信息的储库,主宰着细胞的各种功能.它是一种线性多聚脱氧核糖核苷酸,由碱基、戊糖与磷酸组成.参与DNA组成的有4种碱基:腺嘌呤(A),鸟嘌呤(G),胞嘧啶(C),胸腺嘧啶(T).一切DNA的主链均是相同的,所不同的仅是4种碱基的排列顺序.它的遗传信息是由碱基顺序体现的,碱基顺序略有改变,即可引起遗传信息的显著变化.不同生物的DNA碱基组成不同,有严格的物种特
异性,即不同生物的DNA具有自己独特的碱基排列顺序.为进行DNA序列的比较,已有的方法[1]一般都基于对序列本身的比较,即仅限于由A,G,C和T字符所组成字符串本身的处理.而DNA的分子量很大,且不同物种的序列长短亦不同,这样就给序列本身比较带来很大困难.为了克服该类方法的不足,本文将DNA序列转化为结构图,并由图的不变量来进行DNA编码序列的比较.
1 实验部分
DNA中与碱基相对应的核苷或核苷酸也常用略写A,G,C和T表示.而核苷酸间的连接方式及排列顺序即为DNA的一级结构,即DNA的一级结构是由字符A,G,C和T所组成的字符串来表示的.本文选取8个物种(包括人类、山羊、鼠等)的Β2球蛋白基因的第一个外显子(Exon)作为研究对象,并将它们列于表1[2,3],其所含碱基介于86~94之间.
Table1 The f irst exon of theΒ-globi n genes of differen t spec ices
A hum anΒ2globin92bases
A T GGT GCA CCT GA CTCCT GA GGA GAA GTCT GCCGT TA CT GCCCT GT GGGGCAA GGT GAA CGT GGA T GAA GT T GGT GGT GA GGCCCT GGGCA G
B goat alanineΒ2globin86bases
A T GCT GA CT GCT GA GGA GAA GGCT GCCGTCA CCGGCT TCT GGGGCAA GGT GAAA GT GGA T GAA GT T GGT GCT GA GGCCCT GGGCA G
C opo ssumΒ2hemoglobinΒ2M2gene92bases
A T GGT GCA CT T GA CT TCT GA GGA GAA GAA CT GCA TCA CTA CCA TCT GGTCTAA GGT GCA GGT T GA CCA GA CT GGT GGT GA GGCCCT T GGCA G
D gallus gallusΒ2globin92bases
A T GGT GCA CT GGA CT GCT GA GGA GAA GCA GCTCA TCA CCGGCCTCT GGGGCAA GGTCAA T GT GGCCGAA T GT GGGGCCGA
A GCCCT GGCCA G
E lem urΒ2globin92bases
A T GA CT T T GCT GA GT GCT GA GGA GAA T GCTCA T GTCA CCTCTCT GT GGGGCAA GGT GGA T GTA GA GAAA GT T GGT GGCGA GGCCT T GGGCA G
收稿日期:2001208220.
基金项目:国家自然科学基金(批准号:20077026)资助.
联系人简介:许 禄(1941年出生),男,研究员,博士生导师,从事计算机化学方面的研究.E2m ail:luxu@
Continued
F
mouse Β2a 2globin 94bases
A T GGT T GCA CCT GA CT GA T GCT GA GAA GTCT GCT GTCTCT T GCCT GT GGGCAAA GGT GAA CCCCGA T GAA GT T GGT GGT G
A GGCCCT GGGCA GG
G
rabbit Β2globin
90bases
A T GGT GCA TCT GTCCA GT GA GGA GAA GTCT GCGGTCA CT GCCCT GT GGGGCAA GGT GAA T GT GGAA GAA GT T GGT GGT GA
GGCCCT GGGC
H
rat Β2globin
92bases
A T GGT GCA CCTAA CT GA T GCT GA GAA GGCTA CT GT TA GT GGCCT GT GGGGAAA GGT GAA CCCT GA TAA T GT T GGCGCT GA
GGCCCT GGGCA G
  程序的编写在Pen tium  系列微机上用V C ++完成,其中包括分子连接性指数和相似度指数程序的编写.
2 原理与算法
DNA 的分子量很大(一般为几万至几百万),即使是一个DNA 片断也是非常长的,如人类Β2球蛋白基因中的DNA 含1424个碱基,其第一个外显子(Exon )就含92个碱基(见表1),而且不同物种的
Β2球蛋白基因中的外显子长度不同,如山羊的外显子为86个碱基(见表1),因此给比较带来了困难.通过增加或减少碱基甚至空格等方法进行匹配比较[4],可以大大增加进行相似比较的能力,但是这种方法比较复杂.因此,本文采用将DNA 编码序列转化为图形的方法,其步骤是:(1)先通过2.1节的规则将DNA 编码序列转化为结构图的形式;(2)由图抽取数学不变量,如“分子连接性指数”;(3)用欧式距离法求其相似度,并由相似度的大小来衡量两物种相近程度.2.1 D NA 的图形表示
采用直角坐标系中的二维(22D )图形,分别用4种碱基(A ,G ,C ,T )表示DNA 中的脱氧核糖核F ig .1 Graph ic plot for e ight bases (TGCCCGTAA )
苷酸编码顺序.假设A ,G ,C ,T 分别为沿坐标轴的4个方向移动的矢量,DNA 的编码顺序就被“翻译”成在x 2y 平面内的图.其中A ,G 分别沿x 轴的负和正的方向移动,而T ,C 分别沿着y 轴的负和正的方向移动,并且每个碱基仅移动一个单位[5],即A (-1,0),G (1,0),T (0,-1),C (0,1).若给定一序列T GCCCGTAA ,则所得的坐标为(0,-1),(1,-1),(1,0),(1,1),(1,2),(2,2),(2,1),(1,1),(0,1),与之对应的平面图示于图1.此类图类同于分子的结构图,由此可借助化
学计量学方法在经转换所得图的基础上衍生出诸多图的不变量(即参数).为了比较表1中8种不同的
DNA 系列的相似性,本研究计算了分子连接性指数m
X t .2.2 相似度的计算
相似度系数的计算方法有多种[6,7],如海明距离、欧式距离、数尔格距离、塔尼莫特系数、迪斯系数和余弦系数等[8],本文采用欧式距离法.
若样本A 和B 的第j 个属性分别用P j A 和P j B 表示,其属性总数用n 表示,欧式距离用D AB 表示,则
D AB =
n
j =1
(P j A -P j B )
2
1 2
(1)
  在本文中,样本的属性是指每个物种的Β2球蛋白基因的首段编码序列所转化成的分子连接性指数
0X p ~6
X p ,显然共有7个属性,即n =7.由公式(1)可以看出,D AB 表征的是两样本的距离,即距离越小,两样本越相似.
6
521   高等学校化学学报V o l
.23
3 结果与讨论
3.1 D NA 的图形表示
根据原理部分的规则,可以把表1中的8个物种的Β2球蛋白基因的首段编码转化成为22D 的平面
图形的形式[如图2(A )~(H )]
.
F ig .2 Graph ical represen t ation of the f irst exon of Β-globi n genes i n Table 1
图形表示的好处是把DNA 编码序列转化为可视的形式,很直观.例如从图2中可以明显看出,(C )和其它的物种不同,而在后边的计算中也验证了它和其它物种的差距最大.当然在转化为图的过
程中会有一些信息损失,其中包括仅能表达出两点的连接,不能表达出连接的先后顺序.3.2 分子连
接性指数
由前述可知,图形表示是由物种的DNA 编码序列决定的,而图形表示虽然可见,但并不是量化的数值.得到图的不变量的最为简单的方法为拓扑指数法.现在,拓扑指数已愈百种,其中分子连接性指数因可以较好地表征图的结构而得到广泛的应用[9~11],本文中8种DNA 序列由转换图所得分子连接性指数示于表2.
Table 2 A ll the connectiv ity i ndies of the f irst D NA sequence
DNA sequence
X p
1
X p
2
X p
3
X p
4
X p
5
X p
6
X p
 H um an (A )36.6524.4722.277.466.7611.058.32 Goat (B )
38.6624.2020.4114.879.536.324.53 Opo ssum (C )23.5716.3516.058.407.0215.6313.84 Gallus (D )37.2624.8423.418.989.1212.499.07 L em ur (E )35.8422.9019.4514.3410.026.974.24 M ouse (F )32.9121.9021.297.247.3511.669.15 R abbit (G )38.4124.9121.2216.3511.577.955.40 R at (H )
34.48
23.03
20.88
7.01
6.99
10.46
7.71
  用数学的不变量代替DNA 的编码序列,解决了编码序列的长度不等的问题,由此,可以借助所得参数直接计算不同长度的DNA 序列.3.3 相似度结果
采用欧式距离算法,所得的相似度数据见表3.由表3可见,由于自身的DNA 序列是完全相同的,故对角线上各元素的欧式距离都是0.比较两物种之间的相似性发现,F (m ou se )和H (rat )同为鼠,其DNA 序列应有最大的相似性.由表3可以看出,两者所得D AB 数值最小,即相似度最大,与实际相符.而C (
oppo ssum )与所有的其它物种的D AB 均是最大的,这与上述的图形特征是一致的.
在DNA 编码序列转化为图的形式时会产生信息损失,从而影响所得结果.由于这个内在的缺陷,在给出结果时,最好能够与其它的表征相似信息的方法相结合.如A 和H 的数值较小,使得本来亲缘关系较远的DNA 序列较为相似,这是该种方法有待改进之处.虽然如此,本文提出的由DNA 编码序
7
521N o .7张庆友等:DNA 编码序列的图形表示及相似度计算   
8521   高等学校化学学报V o l.23
列转化为图的不变量2分子连接性指数的方法,成功地解决了DNA编码序列长短不一,直接比较十分困难的问题,比较过程简单,速度快,并且对于亲缘关系较近的物种(H和F)能够得到符合实际的结果,表明该方法对于研究DNA的同源性较有价值.
Table3 Si m ilar ity dissi m ilar ity t ables for the e ight D NA sequences i n Table1based on euclidean dist ance
DNA sequence R at(H)Goat(B)Oppo ss m(C)Gallus(D)L em ur(E)M ouse(F)R abbit(G)H um an(H)
R at(H)0.0010.7015.915.649.552.7511.793.12 Goat(B)10.700.0023.0210.243.4012.323.3210.34 Oppo ssum(C)15.9123.020.0018.7420.4113.5923.1118.11 Gallus(D)5.6410.2418.740.0010.246.2410.023.51
L em ur(E)9.553.4020.4110.240.0010.804.7510.12
M ouse(F)2.7512.3213.596.2410.800.0012.964.79
R abbit(G)11.793.3223.1110.024.7512.960.0011.16
H um an(A)3.1210.3418.113.5110.124.7911.160.00
参 考 文 献
[1] K ruskal J..S I AM R ev.[J],1983,25:201—237
[2] R andic M..J.Chem.Inf.Comput.Sci.[J],2000,40:50—56
[3] R andic M.,V racko M.,N a l..J.Chem.Inf.Comput.Sci.[J],2000,40:1235—1244
[4] R andic M.,V racko M..J.Chem.Inf.Comput.Sci.[J],2000,40:599—606
[5] Roy A.,R aychaudhary C.,N andy A..J.B i o sci.[J],1998,23:55—71
[6] YAN G J ia2A n(杨嘉安),XU L u(许 禄).Chem.J.Ch inese U niversities(高等学校化学学报)[J],1997,18(6):880—882
[7] YAN G J ia2A n(杨嘉安),XU L u(许 禄).Chem.J.Ch inese U niversities(高等学校化学学报)[J],1999,20(11):1692—1696
[8] W illett P.,Barnard J.M.,Dow ns G.M..J.Chem.Inf.Comput.Sci.[J],1998,38:983—996
[9] Q I Yu2H ua(齐玉华),XU L u(许 禄),YAN G J ia2A n(杨嘉安).Ch inese J.A pp lied Chem.(应用化学)[J],1999,16(6):17—
20
[10] Q I Yu2H ua(齐玉华),XU L u(许 禄),ZHAN G Q ing2You(张庆友).Comput.A pp l.Chem.(计算机与应用化学)[J],2002,19
(1):32—34
[11] ZHAN G W en2Jun(章文军),XU L u(许 禄),Q I Yu2H ua(齐玉华).Ch inese J.A nal.Chem.(分析化学)[J],2001,29(2):
178—181
Graph ica l Represen ta tion and the Si m ilar ity of D NA Pr i m ary Sequences
ZHAN G Q ing2You,XU L u3
(Chang chun Institu te of A pp lication Che m istry,Ch inese A cad e m y of S ciences,Chang chun130022,Ch ina)
Abstract In th is article,graph ical rep resen tati on s of DNA p ri m ary sequences w ere generated.Topo2 logical indices and m o lecu lar connectivity indices w ere calcu lated and u sed fo r the com parison of si m i2 larities am ong eigh t differen t DNA segm en ts.T he satisfacto ry resu lts w ere ach ieved by th is analysis. Keywords DNA p ri m ary sequence;Graph ical m ethod;M o lecu lar connectivity index;Si m ilarity com p arison
(Ed.:A,G)

本文发布于:2024-09-20 16:38:37,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/97238.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:碱基   相似   指数   编码序列   方法   分子   所得   表示
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议