小麦miRNA启动子的基因组分析

麦类作物学报 2021,41(12):1452-1458
J o u r n a l o fT r i t i c e a eC r o p
s d o i :10.7606/j
.i s s n .1009-1041.2021.12.02网络出版时间:2021-12-07
网络出版地址:h t t p
s ://k n s .c n k i .n e t /k c m s /d e t a i l /61.1359.S .20211207.0849.002.h t m l 小麦m i R N A 启动子的基因组分析
收稿日期:2021-02-23  修回日期:2021-05-03
基金项目:国家自然科学基金项目(31971831
)第一作者E -m a i l :642207059@q q
.c o m 通讯作者:苍晶(E -m a i l :c a n g j i n g
2003@163.c o m )任治鹏,王多佳,田宇,娄贵成,李畅,王政委,张达,苍晶
(东北农业大学生命科学学院,黑龙江哈尔滨150030
爱碧论坛)摘 要:M i c r o R N A (m i R N A )是一类非编码R N A ,
与植物的生长发育及胁迫响应密切相关㊂为给小麦m i R N A 的转录调控以及新m i R N A 的预测提供参考依据,本研究通过小麦m i R N A 基因定位㊁启动子预测以及顺式作用元件鉴定等方法对小麦m i R N A 启动子进行了基因组分析,结果表明,小麦基因组中有105个
p
r e -m i R N A 位于150个基因座上,大部分为单拷贝㊂148个m i R N A 基因座具有潜在启动子区域,其中115个m i R N A 基因至少能够预测到一个启动子㊂保守性及基因位置不同的m i R N A 的启动子转录起始位点(T S S
)分布也稍有不同,但大多数位于上游序列近端区域㊂对m i R N A 基因T S S 上游序列的顺式作用元件分析发现,m i R N A 启动子区域存在与胁迫响应相关的基序,且小麦中存在3个m i R N A 启动子特异性基序㊂61.4%的小麦m i R N A 启动子区域有C p
G 岛分布㊂关键词:小麦;m i R N A ;
启动子;顺式作用元件;基因组中图分类号:S 512.1;S 330    文献标识码:A    文章编号:1009-1041(2021)12-1452-07
G e n o m i cA n a l y
s i s o fW h e a tM i c r o R N AP r o m o t e r s R E NZ h i p e n g ,W A N GD u o j i a ,T I A NY u ,L O UG u i c h e n g
,L IC h a n g ,W A N GZ h e n g w e i ,Z H A N GD a ,C A N GJ i n g
(C o l l e g e o fL i f eS c i e n c e ,N o r t h e a s tA g r i c u l t u r a lU n i v e r s i t y ,H a r b i n ,H e i l o n g j i a n g 1
50030,C h i n a )A b s t r a c t :M i c r o R N A s (m i R N A s )a r e s h o r t n o n -c o d i n g R N A s a n d p l a y i m p
o r t a n t r o l e s i n p l a n t d e v e l -o p m e n t a n d s t r e s s r e s p o n s e .I no r d e r t o p r o v i d e r e f e r e n c e s f o r t h e t r a n s c r i p t i o n a l r e g
u l a t i o no fw h e a t m i R N Aa n d t h e p r e d i c t i o no fn e w m i R N A.I nt h i ss t u d y ,t h e g
e n o m i cc h a r a c t e r so fw h e a tm i R N A p r o m o t e r sw e r e a n a l y z e db y t h em e t h o d s o fw h e a tm i R N A g e n e l o c a t i o n ,p
r o m o t e r p r e d i c t i o n ,a n d i -d e n t i f i c a t i o no f s p e c i f i c c i s -a c t i n g e
l e m e n t s .I n t h ew h e a t g e n o m e ,a t o t a l o f 105p r e -m i R N A w e r e l o -c a t e do n150g e n e l o c i ,m o s t o fw h i c hh a ds i n g l ec o p y .A m o n g t
h e150l o c i ,148m i R N A g e n e sh a d p o t e n t i a l p r o m o t e r s ,o fw h i c h115m i R N A g e n e sw e r e p r e d i c t e d t oh a v ea t l e a s t o n e p r o m o t e r .T h e p r o m o t e r c h a r a c t e r i s t i ca n a l y s i so fd i f f e r e n tt y p e so f m i R N A s (i n t e r g
e n i cv e r s u si n t r o n i ca n dc o n -s e r v e dv e r s u sn o n -c o n s e r v e d p r e -m i R N A s )r e v e a l e dt h a t t h ed i s t r i b u t i o no
f t r a n s c r i p
t i o ns t a r ts i t e s (T S S s )w a s s l i g h t l y d i f f e r e n t ,a n dm o s t o fT S S sw e r e l o c a t e d i n t h e p r o x i m a l r e g i o no f t h e u p
s t r e a m s e q u e n c e ,w h i c h i n d i c a t e d t h a t t h e p r o x i m a l p r o m o t e r r e g i o nm a y p l a y am o r e e f f e c t i v e r o l e i nm i R N A t r a n s c r i p t i o n i n i t i a t i o n .I na d d i t i o n ,t h e s t a t i s t i c so f c i s -a c t i n g e l e m e n t so n t h eu p s t r e a ms e q
u e n c eo f m i R N A T S S s s h o w e d t h a tm i R N A p r o m o t e r r e g i o n s h a d f u n c t i o n a lm o t i f s r e l a t e d t o s t r e s s r e s p o n s e ,a n d t h e r ew e r e t h r e em i R N A p r o m o t e r -s p e c i f i cm o t i f s i nw h e a t .M o r e o v e r ,t h r o u g
h t h e i d e n t i f i c a t i o n r e s u l t s o fC p Gi s l a n d s ,w e f o u n d t h a t 61.4%o f t h em i R N A p r o m o t e r r e g i o n so fw h e a t c o n t a i nC p
G i s l a n d s .
K e y w o r d s:W h e a t;m i R N A;P r o m o t e r;C i s-a c t i n g e l e m e n t;G e n o m e
M i c r o R N A(m i R N A)是一类长度为21~24 n t的非编码R N A,广泛存在于植物中,通过负调控其靶基因,参与调控植物的生长发育和逆境胁迫响应[1-2]㊂m i R N A的生物合成过程主要包括m i R N A基因的转录㊁初始转录本加工为成熟m i R N A以及成熟m i R N A装载形成R N A诱导的沉默复合体(R N A-i n d u c e ds i l e n c i n g c o m p l e x, R I S C)[3-7]㊂R I S C通过酶切降解靶基因m R N A 或者抑制靶基因m R N A的翻译,从而对靶基因进行转录后水平上的调控[8]㊂
在植物中,能够转录形成m i R N A的m i R N A 基因大部分位于基因间隔区,作为独立的转录单位,只有部分m i R N A基因位于蛋白质编码基因内,能与宿主基因共同转录[9]㊂研究表明,m i R-N A基因由R N A聚合酶Ⅱ(R N A p o l y m e r a s e Ⅱ,P o lⅡ)转录[10]㊂P o lⅡ型启动子包括核心启动子区和上游作用元件,核心启动子区主要由T A T A-b o x㊁转录起始位点(t r a n s c r i p t i o ns t a r t s i t e,T S S)等构成[11]㊂了解m i R N A基因的位置㊁启动子的T S S㊁特定顺式作用元件等上游序列特征,对于研究m i R N A的表达模式及m i R N A介导的调控网络具有重要意义[12]㊂近年来,通过生物信息学分析结合高通量测序,对植物m i R N A 基因的启动子开展了一定的研究㊂如在拟南芥中,M e g r a w等[13]和X i e等[14]通过5'-R A C E的方法,发现大部分拟南芥m i R N A启动子包含T A T A-b o x㊂Z h o u等[15]通过C o V o t e的方法,在拟南芥㊁水稻等植物中鉴定了基因间m i R N A基因的启动子,结果表明,m i R N A基因与蛋白质编码基因均由P o lⅡ型启动子启动,并具有特定的上游元件㊂Z h a o等[16]利用c D N A数据对水稻和拟南芥两种植物m i R N A启动子元件进行比较,同时通过C h I P方法对拟南芥m i R N A基因的T S S进行了预测[17]㊂随着植物基因组研究的发展,促进了m i R N A启动子的鉴定和研究㊂如C u i 等[18]通过基因组数据,定位了水稻m i R N A前体(m i R N A p r e c u r s o r,p r e-m i R N A)在染体上的位置,并通过T S S P软件预测了m i R N A基因的T S S㊁T A T A-b o x等核心启动子区㊂L i u等[19]和H a n等[20]利用大豆基因组数据对m i R N A基因的启动子特征进行了相关分析㊂K a n j a n a w a t t a n-a w o n g[21]等发现,橡胶树中对乙烯响应的m i R-N A启动子具有多种植物激素相关作用元件㊂Z h o u等[22]利用T S S P-T C M软件对拟南芥㊁毛果杨㊁水稻㊁高粱4种
植物的m i R N A启动子进行生物信息学分析,发现基因间和基因内以及保守和非保守m i R N A的启动子具有不同的基因组分布特征及特异性作用元件㊂此外,研究者在拟南芥[23]㊁水稻[24]m i R N A启动子中也发现具有与胁迫相关的特异性转录因子结合元件㊂
六倍体(2n=6x=42,A A B B D D)普通小麦(T r i t i c u ma e s t i v u m L.)是全球种植最广泛的农作物之一,为人类提供了20%的消耗能量[25]㊂目前,对小麦m i R N A的研究主要集中于克隆鉴定㊁表达特征分析以及通过预测靶基因进行功能研究等方面[25-26],然而关于小麦m i R N A启动子的研究报道较少㊂近年来,国际小麦基因组测序联盟(I n t e r n a t i o n a l W h e a tG e n o m eS e q u e n c i n g C o n-s o r t i u m,I WG S C)对中国春小麦基因组的组装工作已经完成,其公布的小麦全基因组序列信息对于小麦m i R N A启动子的分析研究具有极大的促进作用㊂本研究通过生物信息学方法对m i R N A 基因组位置分布㊁m i R N A启动子预测以及顺式作用元件的富集和特异性进行研究,以期在基因组水平对小麦m i R N A启动子有一个较为全面的了解,为小麦m i R N A的转录调控探究以及新m i R N A的预测提供依据㊂
1材料与方法
1.1小麦m i R N A基因位置的预测
松下vs3所有的小麦m i R N A序列来源于m i R B a s e数据库(R e l e a s e22.1,h t t p://w w w.m i r b a s e. o r
g/)[27]㊂从E n s e m b lP l a n t s(f t p://f t p.e n s e m-b l g e n o m e s.o r g/p u b/p l a n t s/r e l e a s e-48/f a s t a/ t r i t i c u m_a e s t i v u m/d n a/)下载中国春小麦基因组序列信息㊂使用U R G IB L A S T(h t t p s://u r g i. v e r s a i l l e s.i n r a e.f r/b l a s t/?d b g r o u p=w h e a t_ i w g s c_r e f s e q_v2_c h r o m o s o m e s&p r o g r a m= b l a s t n)[28]进行小麦p r e-m i R N A的基因组定位,选择i d e n t i t i e s=100%的b l a s t结果作为m i R N A 基因的位置,对于i d e n t i t i e sʂ100%的m i R N A则将i d e n t i t i e sȡ97%且m i s m a t c h e sɤ2的结果作为m i R N A基因的位置[19]㊂预测的m i R N A基因通过M a p c h a r t2.30[29]软件进行小麦染体图谱
㊃3541㊃
第12期任治鹏等:小麦m i R N A启动子的基因组分析
的绘制㊂所有能够定位于小麦基因组上的m i R-N A基因根据两种方法进行分类,第一种分类方法是根据m i R N A保守性分为保守和非保守m i R N A基因,鉴定方法如下:首先利用m i R B a s e 提供的所有物种p r e-m i R N A序列建立本地b l a s t 库,然后将所有小麦p r e-m i R N A进行本地b l a s t 比对㊂如果其他植物中存在i d e n t i t i e s>85%且a l i g n m e n t l e n g t h>90%的相似序列[22],则该基因为小麦保守m i R N A基因,否则为非保守性m i R-N A基因㊂第二种分类方法则根据m i R N A基因在染体上的位置进行分类,通过J B r o w s e(h t-t p s://u r g i.v e r s a i l l e s.i n r a.f r/j b r o w s e i
w g s c/ g m o d_j b r o w s e/)[30]判断m i R N A基因的分布情况,将m i R N A基因分为基因间和基因内两种类型㊂基因间m i R N A位于蛋白质编码基因之间,而基因内m i R N A序列位置则与蛋白质编码基因重叠[15]㊂判断m i R N A基因染体位置参考的编码蛋白质基因数据为I WG S C中国春A n n o t a-t i o nv1.1数据库[31],包括可高信度(H C)和低信度(L C)蛋白质编码基因座㊂
1.2小麦m i R N A基因启动子的预测
首先通过Z h o u等[15]的方法获得p r e-m i R-N A的基因间5'端上游序列,当p r e-m i R N A与上游蛋白质编码基因转录方向相同时,如果它们之间的距离大于2400b p,则检索p r e-m i R N A上游2000b p序列;如果距离小于2400b p,则检索上游蛋白质编码基因下游400b p与p r e-m i R N A之间的序列㊂当p r e-m i R N A及其上游蛋白质编码基因转录方向相反时,如果它们之间的距离大于4000b p,则获取p r e-m i R N A上游的2000b p序列,如果距离小于4000b p,则检索从p r e-m i R-N A到中间点(上游蛋白质编码基因与p r e-m i R-N A之间)的序列㊂将以上方法获得的序列作为潜在的启动子预测区域,利用T S S P(h t t p:// w w w.s o f t b e r r y.c o m)进行小麦m i R N A启动子及T S S的预测㊂
1.3小麦m i R N A基因启动子上游顺式作用元件的分析
利用P l a n t C A R E数据库(h t t p://b i o i n f o r-m a t i c s.p s b.u g e n t.b e/w e b t o o l s/p l a n t c a r e/h t-m l/)[32]对m i R N A启动子T S S到上游2000b p 序列中的顺式作用元件进行分析㊂对于有多
个启动子的m i R N A基因,为获得尽可能多的顺式作用元件信息,选择距离p r e-m i R N A起始位点最近的T S S进行分析㊂为了进一步研究m i R N A启动子区域基序的特异性,通过M E M E(h t t p s:// m e m e-s u i t e.o r g/m e m e//t o o l s/m e m e)[33]对m i R N A启动子上游序列中长度为10b p的基序进行鉴定,选择结果中前20个基序进行分析,其他设定为默认值㊂利用全基因组蒙特卡罗模拟方法获得基序的Z-s c o r e,从而判断各基序在小麦m i R N A启动子的特异性[15],具体方法如下:首先将所有获得的m i R N A启动子序列作为目标集,然后在小麦基因组上随机选择长度为2000b p 的序列作为参考集,参考集与目标集的序列数目相同;通过F I MO(h t t p s://m e m e-s u i t e.o r g/ m e m e//t o o l s/f i m o)统计特定基序在目标集和参考集m i R N A序列上平均数量,分别记为N t和N r㊂Z-s c o r e的计算公式为Z=(N t/N r)=σ,它能测量目标集中的基序平均出现次数与参考集样本的均值之间的归一化差异[22]㊂利用C p G P l o t (h t t p://e m b o s s.b i o i n f o r m a t i c s.n l/c g i-b i n/e m-b o s s/c p g p l o t)对小麦m i R N A T S S上游序列中的C p G岛进行分析㊂
2结果与分析
2.1小麦m i R N A基因的染体定位李冬民
目前为止,m i R B a s e数据库(R e l e a s e22.1)共收录122个小麦p r e-m i R N A序列㊂小麦p r e-m i R N A序列和中国春基因组序列b l a s t结果表明,105个(86.1%)p r e-m i R N A定位于小麦染体上的1
50个基因座上,而其余17个(13.9%) p r e-m i R N A位于未知染体或基因组的基因座上,下文中不对此类p r e-m i R N A进行统计㊂p r e-m i R N A分布在小麦所有42条染体上,其中A 组染体上有54个,B染体上有56个,而D组染体上有40个,93个(76.2%)p r e-m i R N A在染体上只有1个拷贝,含有2个和2个以上拷贝的p r e-m i R N A分别有4和8个,共占比9.84%,其他17个p r e-m i R N A的拷贝为0㊂2.2小麦m i R N A基因的启动子预测结果150个小麦m i R N A基因座中有148个能够获得启动子潜在区域,对148个m i R N A基因座5 上游序列进行启动子预测,由于部分m i R N A 基因座能够预测到多个启动子,因此共获得166个m i R N A潜在启动子㊂115个(77.7%)小麦p r e-m i R N A基因能够预测到一个启动子,其中, 69个基因的上游序列只能预测到一个启动子,而
㊃4541㊃麦类作物学报第41卷
其他基因具有多个启动子㊂
T S S 是重要的启动子核心元件,对小麦m i R -N A 基因T S S 位点与p r e -m i R N A 距离分布进行统计分析,发现大部分小麦m i R N A 基因的T S S 分布在上游0.8k b 区域内以及1.0~1.6k b 区
域内,占全部启动子T S S 数的81.9%(0~0.8k b :54.2%,1.0~1.6k b :27.7%)㊂在所有上游区域中,小麦m i R N A 基因的T S S 在上游0.2k b
区域内分布最多(24.1%),而在上游0.8~1.0k b 区域分布较少(5.4%)㊂根据m i R N A 在基因组的位置不同,可分为基因间m i R N A 和基因内m i R N A ,从图1A 可以
看出,两种m i R N A 的T S S 均在基因上游0.2k b 区域内分布较多,不同的是基因内m i R N A 在上
游0.2~0.4k b ㊁0.6~0.8k b ㊁1.4~1.6k b 间也具有较多的T S S 分布,而基因间m i R N A 在这几丙酮回收
个区域内无明显的分布特殊性㊂根据m i R N A 的保守性,可分为保守性m i R N A 和非保守性m i R -N A ,从图1B 可以看出,两种m i R N A 的T S S 均在基因上游0.2k b 区域内分布最多,
而与非保守m i R N A 相比,保守m i R N A 在上游1.4~1.6k b 区域内也具有较多分布
A :基因间和基因内m i R N A T S S 的分布百分比;
B :非保守和保守m i R N A T S S 的分布百分比㊂A :P e r c e n t a g e o fT S Sd i s t r i b u t i o no f i n t e r g e n i c a n d i n t r a g e n i cm i R N A g e n e s ;B :P e r c e n t a g
eo fT S Sd i s t r i b u t i o no f n o n -c o n s e r v a t i v e a n d c o n s e r v a t i v em i R N A g e n e s .
图1 不同种类m i R N A 的T S S 分布
F i g .1 T S Sd i s t r i b u t i o no f d i f f e r e n t t y p
e s o fm i R N A 2.3 小麦m i R N A 基因启动子上游的特异性顺式作用元件
利用P l a n t C A R E 对所有m i R N A 基因T S S 上游2000b p 序列进行顺式作用元件分析,结果(图2)表明,m i R N A 启动子区域中含有的三种顺
式作用元件较多,分别为C A A T -b o x ㊁T A T A -b o x
和U n n a m e d _4㊂此外与A B A 响应相关的元件(A B R E )㊁与M e J A 响应相关的元件(T G A C G -
m o t i f ㊁C G T C A -m o t i f 和MY C )
㊁与光响应相关的元件(G -b o x )以及与多种胁迫和代谢调控相关的元件(MY B )在小麦m i R N A 基因上游的占比也
较高㊂
5541㊃第12期
任治鹏等:小麦m i R N A 启动子的基因组分析
图中数据为启动子上游顺式作用元件所占百分比㊂
V a l u e s i n t h e f i g u r e i s t h e p e r c e n t a g e o fm i R N A p r o m o t e r c i s-a c t i n g e l e m e n t s.
图2T S S上游顺式作用元件的分布
F i g.2P e r c e n t a g e o f c i s-a c t i n g e l e m e n t s i nu p s t r e a ms e q u e n c e s o fT S S s
为进一步鉴定小麦m i R N A基因启动子上的
基序特异性,通过M E M E获得在T S S上游序列
出现频率较高的且长度为10b p的基序,然后利
用全基因组的蒙特卡罗模拟计算获得基序的Z-
s c o r e㊂Z-s c o r e的大小在一定程度上能反应基序
在m i R N A启动子上的特异性,Z-s c o r e大于2的
基序具有m i R N A基因启动子特异性,与m i R N A
的转录调控有关的可能性较高[22];而Z-s c o r e小
于2的基序在其他基因组区域普遍存在,因此不
作为m i R N A启动子重要基序进行研究㊂根据以
上标准,获得了3个Z-s c o r eȡ2的小麦m i R N A
启动子特异性基序(表1)㊂
表1小麦m i R N A基因启动子特异性基序
T a b l e1S p e c i f i cm o t i f s o fw h e a tm i R N A g e n e p r o m o t e r s
基序
河南移动代维管理系统
M o t i f序列
C o n s e n s u s s e q u e n c e E值
E-v a l u e
Z值Z-s c o r e
基序1M o t i f1T T A G T C C C G G1.40e-644.4基序2M o t i f2T T G A A A A A A A6.60e-263.4基序10M o t i f10C A T A T A T A T A2.10e+052.0
和岳姆干的水直流
除顺式作用元件外,C p G岛也是真核生物p o lⅡ型启动子的重要特征之一㊂由于本研究中M I R9670和M I E979可能通过同一个启动子进行转录,因此对114个m i R N A基因启动子的C p G 岛进行分析,C p G P l o t预测结果表明,61.4%的小麦m i R N A基因T S S上游序列有C p G岛分布,启动子区域含有1㊁2㊁3和4个C p G岛的m i R N A 基因分别有41㊁17㊁10㊁2个㊂
3讨论
本研究首先将m i R B a s e数据库目前登录的所有小麦p r e-m i R N A序列定位于小麦基因组上,在122个p r e-m i R N A中有部分序列无法通过b l a s t获得基因座,其可能原因为:(1)基因位于数据库中的未知染体上;(2)p r e-m i R N A的序列信息不完全,或所研究品种的p r e-m i R N A序列与参考的中国春基因组序列存在差异;(3)由于小麦基因组较大,组装困难,目前提供的基因组版本存在部分染体序列的缺失㊂本研究染体定位结果表明,所有小麦染体上均存在m i R N A基因㊂前人研究表明,在三个染体组中,B组染体上的m i R N A基因分布最多,根据I WG S C数据库,编码蛋白的基因也在B组染体上的分布最多[21]㊂本研究选择b l a s t结果为100%的染体位置为m i R N A基因座,因此多拷贝的m i R N A 基因序列相同㊂具有多拷贝的m i R N A基因中,只有M I R6197和M I R9774在三个染体组上均具有拷贝,其他基因只在一个或两个染体组上
㊃6541㊃麦类作物学报第41卷

本文发布于:2024-09-22 19:43:38,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/533042.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:基因   基因组   序列   小麦   元件   进行   转录
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议