新型冠状病毒(SARS-CoV-2)的密码子偏爱性分析

2021,37(1
专题学习网站
)中国人兽共患病学报
C h i n e s e J o u r n a l o f Z o o n o s e s
D O I :10.3969/j
.i s s n .1002-2694.2020.00.186 新冠专题
新型冠状病毒(S A R S GC o V G2
)的密码子偏爱性分析尚方建1,2,石哲芳1,2,王㊀聪1,2,刘㊀奇1,
国家自然科学基金资助项目(N o .81660337,N o .81703573)㊁大理大学创新团队(N o .Z K L X 2019105)联合资助通讯作者:刘㊀奇,E m a i l :Q i l i u @a l i y
u n .c o m ;O R C I D :0000G0003G4152G2561
作者单位:1.
云南省昆虫生物医药研发重点实验室(大理大学),大理㊀671000;
2.大理大学基础医学院病原生物学综合实验室,大理㊀671000摘㊀要:目的㊀分析S A R S GC o V G2密码子使用的偏爱性及不同国家和地区流行株的密码子之间的聚类关系.方法㊀使
用C o d o n W ㊁E M B O S S ㊁S i g m a P l o t 14.0㊁S P S S22.0等软件分析S A R S GC o V G2的密码子偏爱性及其影响因素,在此基础上对不同国家毒株的密码子偏爱性进行聚类分析.结果㊀S A R S GC o V G2的各蛋白E N C 值在26.60~57.81之间;密码子以A /U 结尾
(R S C U>1),约占84.98%.A C A ㊁A C U ㊁A G A ㊁A U U ㊁C C U ㊁C U U ㊁G C U ㊁G G U ㊁G U U ㊁U C A ㊁U C U ㊁U U A 为多数基因共有的高频密码子,O R F 10基因没有偏爱密码子.E N C GP l o t ㊁中性分析㊁P R 2绘图分析显示,S A R S GC o V G2的各蛋白密码子使用偏爱性受不同因素影响,但是主要因素是自然选择,突变次之.基于密码子偏性的聚类分析发现,来源全球20多个国家和地区的S A R S GC o V G2密码子偏爱性有明显差异.部分蛋白的密码子偏爱性聚类分析显示,西班牙㊁法国㊁韩国㊁美国和越南等国家单独聚类.S 和O R F 1a b 的聚类分析显示,中国S A R S GC o V G2流行株与美国的流行株的密码子使用偏性分属不同聚类.结论㊀S A R S GC o V G2的密码子使用偏性在发生变化,
目前主要受环境选择影响.这种改变可能是病毒的跨物种传播造成的,需对其加强动态监控,并对其密码子偏爱性改变的意义进行深入研究.
关键词:S A R S GC o V G2;
密码子偏爱性;聚类分析中图分类号:R 373.1㊀㊀㊀文献标识码:A ㊀㊀㊀文章编号:1002-2694(2021)01-0015-07
A n a l y s i s o f S A R S GC o V G2c o d o nu s a g
e p r e
f e r e n c e S H A N GF a n
g Gj i a n 1,
2,S H I Z h e Gf a n g 1,
2,WA N GC o n g 1,
2,
L I U Q i 1,
(1.Y u n n a nP r o v i n c i a lK e y L a b o r a t o r y o f E n t o m o l o g i c a lB i o p h a r m a c e u t i c a lR&D (D a l iU n i v e r s i t y )
,D a l i 671000,C h i n a ;2.I n t e g r a t e dL a b o f P a t h o l o g y B i o l o g y ,C o l l e g e o f B a s i cM e d i c a l ,D a l iU n i v e r s i t y ,广西历任主席
D a l i 671000,C h i n a )A b s t r a c t :T h i sw o r k a i m e d t o r e s e a r c h t h e c o d o nu s a g e p r e f e r e n c e o f S A R S GC o V G2a n d t h e c o d o n c l u s t e r i n g r e l a t i o n s h i p o
f e p i d e m i c s t r a i n s i n d i f f e r e n t c o u n t r i e s .C o d o n W ,E M B O S S ,S i
g m a P l o t 14.0a n dS P S S 22.0w e r e u s e d t o a n a l y z e t
h e c o d o n u s a g e p r e f e r e n c e o f S A R S GC o V G2a n d t h ec o d o nc l u s t e r
i n g r e l a t i o n s h i p o f e p i d e m i cs t r a i n s i nd i f f e r e n t c o u n t r i e s .T h eE N Cv a l u eo f S A R S GC o V G2w a s f o u n d t ob e b e t w e e n 26.60a n d 57.81.A p p r o x i m a t e l y 84.98%o f t h e c o d o n p r e f e r e n c e i n v o l v e d c o d o n s e n d i n g
w i t hA /U.A C A ,A C U ,A G A ,A U U ,C C U ,C U U ,G C U ,G G U ,G U U ,U C A ,U C U ,U U A w e r e t h e h i g h Gf r e q u e n c y c
核糖体结合位点o d o n s u s e d i nm o s t p r o t e i n s ,a n dO R F 10h a dn oh i g h Gf r e q u e n c y c o d o n s .E N C GP l o t ,n e u t r a l i t y a n dP R 2a n a l y s e s s h o w e d t h a t t h e c o Gd o nu s a g e p r e f e r e n c e o f S A R S GC o V G2w a s a f f e c t e db y d i f f e r e n t f a c t o r s .T h em a i n f a c t o rw a s n a t u r a l s e l e c t i o n ,f o l l o w e db y m
u Gt a t i o n .A c c o r d i n g t oc l u s t e ra n a l y s i s ,t h ec o d o n p r e f e r e n c eo fS A R S GC o V G2i n20c o u n t r i e sh a sc h a n g e ds i g n i f i c a n t l y .S p a i n ,F r a n c e ,S o u t hK o r e a ,t h eU n i t e dS t a t e s ,a n dV i e t n a mc l u s t e r e d s e p a r a t e l y .C l u s t e r a n a l y s i s o f S a n dO R F 1a b i n d i c a t e d t h a t t h e u s a g e b i a s o f S A R S GC o V G2s t r a i n s i nC h i n a a n d i n t h eU n i t e dS t a t e s b e l o n g e d t o d i f f e r e n t c l u s t e r s .T h u s ,t h em a i n f a c t o r a f f e c t Gi n g t h e c o d o nu s a g e p r e f e r e n c eo fS A R S
GC o V G2i sn a t u r a l s e l e c t i o n .T h e c o d o nu s a g e p r e f e r e n c eo fS A R S GC o V G2h a sc h a n g e d s i g n i f i c a n t l y ,p o s s i b l y b e c a u s eo fc r o s s Gs p e c i e st r a n s m i s s i o n .D y n a m i c m o n i t o r i n g o fS A R S GC o V G2c o d o n u s a g
e m u s tb e s t r e n g t h e n e d ,a n d
f u r t h e r s t u d y t h e s i
g n i f i c a n c e o f c o d o n c
h a n g
e s i sn e e d e d .K e y
w o r d s :S A R S GC o V G2;c o d o n p r e f e r e n c e ;c l u s t e r a n a l y s i s S u p p o r t e db y t h eN a t i o n a lN a t u r a l S c i e n c eF o u n d a t i o n o f C h i Gn a (N o .81660337,N o .81703573)a n dD a l iU n i v e r s i t y I n n o v a Gt i o nT e a m (N o .Z K L X 2019105
)C o r r e s p o n d i n g a u t h o r :L i uQ i ,E m a i l :Q i l i u @a l i y
u n .c o m 5
㊀㊀2019年12月,中国武汉报道了一种由新型冠状病毒(2019Gn C o V)导致的肺炎流行,随后该病毒在全球各地陆续发现.国际病毒分类委员会(I n t e rGn a t i o n a lC o mm i t t e eo n T a x o n o m y o fV i r u s e s,I CGT V)将该病毒命名为严重急性呼吸综合征冠状病毒2(S e v e r ea c u t er e s p i r a t o r y s y n d r o m ec o r o n a v i r u s 2,S A R SGC o VG2)[1].同时,世界卫生组织(WHO)将该病毒引起的肺炎命名为C O V I DG19(C o r o n a v i rGu sD i s e a s e2019)[2].截止2020年7月,作为第7种能感染人类的冠状病毒,S A R SGC o VG2已经导致全世界15581009人确诊感染,累计导致635173人死亡,死亡率4.07%[3].
在蛋白质编码过程中,某一物种或某一基因通常倾向于使用一种或几种特定的同义密码子,这种现象被称为同义密码子的使用偏爱性(S y n o n y m o u s c o d o n c s a g e b i a s)[4G5].特异性的核酸偏倚与病毒的致病性有关,可增强其复制能力以及逃避适应性免疫[6].因此,研究密码子使用模式的差异,有助于提供病毒进化的证据,丰富理解病毒与宿主相互之间的关系[7].
因此,本研究分析了S A R SGC o VG2影响密码子使用偏性的因素,并在密码子偏爱性的基础上,分析来源于全球20多个国家和地区的S A R SGC o VG2的进化关系.从而了解S A R SGC o VG2
的基因动态变化,为其预防和监控提供新的依据.
1㊀材料与方法
1.1㊀材料
1.1.1㊀材料序列来源㊀本研究选用S A R SGC o VG2的基因编码序列C D S均来源于N C B I(h t t p s:// p u b m e d.n c b i.n l m.n i h.g o v/).截止至2020年3月末,共下载931条序列,宿主均来源于人.经过筛选,用于国家和地区分析的分别是:澳大利亚7条㊁巴西1条㊁中国95条㊁哥伦比亚1条㊁芬兰1条㊁法国1条㊁希腊4条㊁印度4条㊁伊朗17条㊁以列2条㊁伊拉克1条㊁秘鲁1条㊁南非1条㊁菲律宾1条㊁韩国4条㊁西班牙24条㊁意大利7条㊁日本3条㊁马来西亚3条㊁尼日利亚1条㊁巴基斯坦3条㊁泰国2条㊁土耳其1条㊁美国722条㊁越南6条㊁瑞典1条㊁3条.
1.1.2㊀软件㊀E M B O S S(h t t p://e m b o s s.t o u l o u s e.i n r a.f r/?t d s o u r c e t a g=s_p c q q_a i o m s g)子程序C U S P计算各密码子F r e q u e n c y值,C o d o n W1.4.2用于计算密码子各位置的G C含量及有效密码子数(E f f e c t i v en u m b e ro fc o d o n s,E N C),使用S i g m aGP l o t14.0绘制E N CGP l o t,奇偶规则分析㊁中性分析, S P S SS t a t i s t i c s22.0绘制聚类分析.1.2㊀方㊀法
1.2.1㊀有效密码子数E N C(E f f e c t i v e n u m b e r o f c oGd o n s)㊀E N C[8G9]被用来描述某个基因的密码子偏好程度,E N C的取值在20~61范围之间.20表示极端偏倚,即基因只使用每组同义密码子中的一个,61表示每个密码子均被使用,该值的大小与密码子使用偏性的强弱成负相关.当E N C>35,表示该基因密码子使用偏性弱,反之,则确定密码子偏性强.1.2.2㊀相对同义密码子使用度R S C U(R e l a t i v e s y n o n y m o u s c o d o nu s a g e)㊀R S C U[10]是指某一特定的密码子在编码对应氨基酸的同义密码子间的相对使用概率.其计算方法为某一密码子使用频率与其在无偏好性使用时预期频率之间的比值.若某一密码子的R S C U值=1,表示该密码子使用模式无偏好性;反之,提示该密码子使用存在偏好性.当R S C U>1时,表示该密码子为偏爱密码子;当R S C U值ȡ1.5,说明该密码子的使用频率高,被称为高频密码子.
1.2.3㊀E N CGP l o t分析㊀E N CGP l o t关联分析以G C3s为自变量㊁E N C为因变量构建散点图,分析E N C和G C3s之间的相关性[11].同时,按照密码子使用偏性在只受突变压力影响而不受选择压力影响的条件下构建标准曲线.若代表该基因的点在标准曲线上及其附近,表明密码子使用偏性主要受突变影响而非选择压力影响;若代表基因的点落在标准曲线下方较远处,表明密码子组成主要受选择压力的影响.汽化潜热
1.2.4㊀中性绘图分析㊀中性分析是衡量选择对密码子使用偏爱性影响强度的一种分析方法.该方法首先计算基因密码子第1㊁2位的G C含量的平均值(G C12)与第3位的G C含量(G C3s)[12].
以G C3s 为自变量㊁G C12为因变量绘制散点图.代表基因的点分布于对角线上(斜率为1)或者附近,说明密码子的使用模式受突变的影响大;反之,散点形成曲线斜率越小甚至与横轴平行,表明基因在密码子使用模式受环境选择的影响大.1.2.5㊀P a r i t y R u l e2分析㊀P a r i t y R u l e2分析又称奇偶规则分析[13],是研究密码子碱基组成的一种方法.基因在不受突变和环境选择压力时,碱基内部组成是A=T㊁C=G.而现实中,由于受到基因突变和环境选择压力的影响,基因组编码序列中的G C使用含量常常不均等,尤其密码子的第3位明显偏离链内相等规则.该方法分析由4个同义密码
61中国人兽共患病学报2021,37(1)
子编码的氨基酸(丙氨酸㊁精氨酸㊁甘氨酸㊁亮氨酸㊁
脯氨酸㊁丝氨酸㊁苏氨酸和缬氨酸),将G 3/(G 3+
C 3)和A 3/(A 3+T 3)
的计算结果绘制成图.坐标(0.5,0.5)代表P R 2原则(A =T ,C =G )
.散点偏离中心的距离与位置表示该基因偏离规则的程度与方向.
1.2.6㊀聚类分析㊀根据密码子F r e q u e n c y 计算值将来源全球20多个国家和地区的流行株进行分组,相似性较高的数据组归聚在同一组,相似性较低或无相似性的数据组则单独聚为一类,分析S A R S G
C o V G2密码子的进化关系.
2㊀结㊀果2.1㊀有效密码子数目分析㊀S A R S GC o V G2基因组
是由4个结构蛋白[S 蛋白(s p i k e g l y c o p
r o t e i n )㊁E 蛋白(e n v e l o p
e )㊁M 蛋白(m e m b r a n e )㊁N 蛋白(n u Gc l e o c a p s i d )]和8个非结构蛋白(O R F 1a ㊁O R F 1a b ㊁O R F 3a ㊁O R F 6㊁O R F 7a ㊁O R F 7b ㊁O R F 8b ㊁O R F 10)
组成,它们的E N C 平均值见图1.S A R S GC o V G2的各蛋白的E N C 均值分布在26.60~57.81之间(47 93ʃ5.35).说明S A R S GC o V G2的各蛋白C D S 的密码子使用均存偏倚现象.其中,O R F 7b 基因的
E N C 均值是26.60,低于35接近20,
提示该蛋白基因的密码子有极强的偏爱性使用特征,且该蛋白被高度表达[14]
,推测其在感染过程中发挥重要的功
能,应该引起我们的重视
.
图1㊀S A R S GC o V G2各蛋白E N C 值比较
F i g .1㊀C o m p
a r i s o n o f E N Cv a l u e s o f p r o t e i n s o f S A R S GC o V G22.2㊀S A R S GC o V G2的高频密码子与相对密码子使
用度㊀R S C U 可直观的说明密码子使用偏好,结果见表1.S A R S GC o V G2的12种蛋白的偏爱使用密码子(R S C U>1)个数依次是27㊁24㊁25㊁16㊁27㊁26㊁
24㊁20㊁24㊁12㊁28㊁0.S A R S GC o V G2的偏好密码子以A /U 结尾约占84.98%(215/253
).多数蛋白(至少6种蛋白)共有的高频密码子有A C A ㊁A C U ㊁A G A ㊁
A U U ㊁C C U ㊁C U U ㊁G C U ㊁G G U ㊁G U U ㊁U C A ㊁U C U ㊁U U A ,
在基因工程中有助于提高基因组的表达量.O R F 10没有偏爱密码子,表明该基因的密码子没有使用偏性.
表1㊀S A R S GC o V G2各蛋白相对同义密码子使用度(R S C U )T a b .1㊀S A R S GC o V G2p r o t e i n s s h o wa p r e f e r e n c e f o r s y n o n y
m o u s c o d o n s A A
C o d o n S
M
N
O R F 1a b O R F 1a O R F 3a O R F 6O R F 7a O R F 7b O R F 8O R F 10P h e U U U 1.530.910.831.461.511.142.001.401.001.000.00U U C
0.471.091.170.540.490.860.000.601.001.000.00L e u
U U A 1.560.690.531.801.610.602.250.801.643.490.00U U G 1.110.691.891.041.201.800.000.400.551
.250.01C U U 1.992.061.901.671.782.000.752.402.181.250.00C U C 0.671.030.750.550.541.001.500.800.000.000.02C U A
0.500.860.410.690.620.201.500.400.550.000.03C U G 0.170.690.520.250.250.400.001.201.090.020.00I l e
A U U 1.741.651.581.481.521.291.501.502.401.500.03A U C 0.550.900.780.500.530.710.300.380.601.500.00A U A 0.710.450.641.020.951.001.201.130.000.000.03M e t A U G 1.001.001.001.001.001.001.001.001.001.000.00V a l
G U U 1.981.001.711.952.082.244.002.004.002.010.03G U C 0.87
0.00
0.93
0.54
0.46
0.48
0.00
0.50
0.00
0.00
0.00
11期尚方建,等:新型冠状病毒(S A R S GC o V G2)的密码子偏爱性分析
81中国人兽共患病学报2021,37(1)
表1(续)
A A C o d o n S M N O R F1a b O R F1a O R F3a O R F6O R F7a O R F7b O R F8O R F10
G U A0.622.000.830.920.841.120.001.000.001.330.03
G U G0.541.000.530.590.610.160.000.500.000.660.00S e r U C U2.240.801.042.032.000.823.002.570.001.280.00U C C0.731.200.820.360.431.091.500.000.000.650.00U C A1.581.201.851.681.672.181.502.566.002.140.00U C G0.120.400.150.070.100.000.000.010.000.650.00P r o C C U2.000.801.791.982.102.330.002.670.002.290.00
C C C0.280.000.450.250.270.000.000.000.000.570.00
C C A1.722.401.261.631.541.004.001.330.000.570.00
C C G0.000.800.500.150.100.670.000.000.000.570.00T h r A C U1.811.542.091.761.832.174.001.204.001.600.00
A C C0.410.920.520.360.380.330.000.000.000.000.00
A C A1.650.921.001.701.651.000.002.800.002.400.00
A C G0.120.620.390.180.140.500.000.000.000.000.00A l a G C U2.132.522.102.212.152.150.001.780.002.400.07
G C C0.410.430.850.580.610.920.000.444.000.000.00
G C A1.370.840.891.081.070.924.001.330.001.600.07
G C G0.100.210.150.130.170.000.000.440.000.000.00T y r U A U1.480.890.681.241.150.941.000.802.001.710.04U A C0.521.111.320.760.851.061.001.200.000.290.04H i s C A U1.531.601.231.411.411.042.000.671.001.000.00
C A C0.470.400.770.590.590.960.001.331.001.000.00G l n C A A1.481.001.311.361.281.161.331.602.001.000.00
C A G0.521.000.690.640.720.840.670.400.001.000.00A s n A A U1.230.731.201.401.381.001.501.001.992.000.00
A A C0.771.270.800.600.621.000.501.000.010.000.00L y s A A A1.251.141.311.291.261.271.501.710.002.000.00
A A G0.750.860.690.710.740.730.500.290.000.000.
00A s p G A U1.380.331.121.291.261.081.491.001.001.140.00
G A C0.621.670.880.710.740.920.511.001.000.860.00G l u G A A1.421.711.601.461.471.820.401.002.001.330.00
G A G0.580.290.400.540.530.181.601.000.000.670.00C y s U G U1.402.000.471.631.640.860.001.001.001.430.07
U G C0.600.000.620.370.361.140.001.001.000.570.07T r p U G G1.001.001.001.001.001.001.000.001.001.000.00A r g C G U1.282.141.111.451.561.000.001.200.003.000.00
C G C0.140.861.010.610.551.000.000.000.000.000.00
C G A0.000.430.470.250.320.000.000.000.000.000.00
C G G0.290.000.190.170.140.000.000.000.000.000.00S e r A G U1.031.601.411.571.561.360.000.000.001.280.00
A G C0.300.800.740.300.230.550.000.860.000.000.00
表1(续)
A A C o d o n S
M
N O R F 1a b O R F 1a O R F 3a O R F 6O R F 7a O R F 7b O R F 8O R F 10A r g A G A 2.861.292.582.752.523.000.004.800.003.000.00A G G 1.431.290.640.760.921.006.000.000.000.000.00G l y
G G U 2.301.431.512.552.612.000.001.000.002.400.14G G C
0.730.861.150.610.640.860.002.000.000.000.14G G A 0.821.711.170.740.671.140.001.000.001.600.00G G G
0.15
0.00
0.17
0.10
0.09
0.00
0.00
0.00
0.00
0.00
安吉斯媒体
0.00
㊀㊀注:A A 表示氨基酸;U A A ㊁U A G 和U G A 未列入表内.
2.3㊀E N C GP l o t 分析㊀通过E N C GP l o t 分析可以进
一步了解S A R S GC o V G2密码子使用偏性的影响因素.如图2所示,S A R S GC o V G2的多数蛋白位于标准曲线略下方,说明其密码子偏倚除了受突变因素的影响,选择压力的影响对其也十分重要.值得关注的是,O R F 10蛋白的基因位于标准曲线上,概率为99.6%(829/832),表明突变压力对该蛋白的密码子偏爱性的影响更为重要.571个O R F 7b 蛋白基因全部在距离标准曲线较远的下方,表明自然选择是塑造O R F 7b 蛋白的密码子使用方式的主要因素,而突变对该蛋白的作用极其微弱光谱表征
.
图2㊀S A R S GC o V G2的各蛋白E N C GP l o t 分析F i g .2㊀E N C GP l o t a n a l y
s i s o f e a c h p r o t e i no f S A R S GC o V G22.4㊀中性绘图分析㊀进一步分析影响S A R S GC o V G
2密码子偏爱性的因素,如图3所示,S ㊁M ㊁N ㊁E 和O R F 1a b 蛋白的线性回归系数(R C )分别是0.3630㊁
0.0900㊁3.4828㊁0.0348和0.2267,
回归模型均有统计学意义(P <0.05).从结果中可见,选择压力对S ㊁M ㊁N ㊁E 和O R F 1a b 等蛋白基因的作用强于突
变压力.
2.5㊀P R 2分析㊀为了消除定向突变(
排除2或6个同义密码子的氨基酸)对密码子偏倚的影响,
绘制了
图3㊀S A R S GC o V G2部分蛋白的中性绘图分析F i g .3㊀N e u t r a l p l o t a n a l y s i s o f p a r t i a l p r o t e i n c o d i n g g
e n e s o
f S A R S GC o V G2
P R 2分析,结果见图4.其中,所有C D S 密码子的
第3位AʂU ㊁CʂG ,说明S A R S GC o V G2的密码子使用是不平等的.A 3/(A 3+T 3)<0.5的概率是99.9%(8279/8282),G 3/(G 3+C 3)<0.5的概率
是80.0%(6625/8282).即密码子第3位T 的使用频率高于A ,C 的使用频率高于G .多数点位于y <0.5以下,图中显示左下方有5212个点,
右下方有1656个点.提示该病毒的第3位密码子C /T 的使用频率较高,即嘧啶的使用频率高于嘌呤.在调控S A R S GC o V G2密码子偏好性的影响因素中,突变9
11期尚方建,等:新型冠状病毒(S A R S GC o V G2
)的密码子偏爱性分析

本文发布于:2024-09-21 08:49:42,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/532394.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:密码子   使用   基因   分析   影响
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议