入门必看深度解析长末端重复反转录转座子(LTR-RTs)

⼊门必看深度解析长末端重复反转录转座⼦(LTR-RTs)
提起 LTR,相信很多⼈和我之前⼀样都是熟悉⼜陌⽣的感觉,听过或者接触过却未深⼊了解过。若您对 LTR 分析有兴趣,却苦于⽆从下⼿时,愿本⽂作为⼀个叩门砖,为您敲开 LTR 分析的⼤门。本篇从 LTR 的定义、分类、⽣物学意义、结构特征、鉴定⽅法等⽅⾯层层递进,带您⾛进神奇的 LTR 世界。
1. LTR 与重复序列、转座⼦的关系
LTR-RTs 是 Long terminal repeat-retrotransposons 的缩写,中⽂名是长末端重复反转座⼦。LTR-RTs 名字中既有重复、⼜有转座⼦,那么它和重复序列、转座⼦是什么关系呢?图1 为您解答。
图1  重复序列主要分类
重复序列:根据重复区域是否连续可分为串联重复序列和散在重复序列(⼜名转座⼦、转座元件)两⼤类,前者相连,后者不相连。
重复序列:
转座元件(transposable elements, TEs) ⼜称转座⼦:指在基因组中能够移动或复制,并可以整合到基因组新位点的⼀段 DNA 序列。根转座元件(transposable elements, TEs) ⼜称转座⼦
据转座过程是否形成 RNA 中间体,转座⼦可分为 DNA 转座⼦和反转录转座⼦。反转录转座⼦是以 RNA 为媒介,伴有反转录过程,以复制-粘贴的⽅式在基因组的新位置产⽣⼀个新的拷贝。DNA 转座⼦的转座机制则是剪切-粘贴的形式。
LTR-RTs :是反转座⼦中的⼀种,因其两侧存在长的末端重复⽽得名。不含长末端重复的反转座⼦统称 non-LTR-RTs,主要包含短散在重复LTR-RTs :
(SINE)和长散在重复(LINE)。
2. LTR的分类
动植物基因组中存在⼤量转座⼦,尤其是植物基因组中。LTR  因其数量多且 LTR 长度巨⼤,在植物转座⼦中具有较⾼的基因组含量。在⽟⽶基因组中 LTR 占基因组含量⾼达 75% ,⼭苍⼦基因组中 LTR 占⽐⾼达 47%,所以基因组 LTR 的鉴定尤为重要。反转录转座⼦根据转座元件结构的完整性和转座特点可分为⾃主元件(编码转座酶)和⾮⾃主元件(⾃⾝不编码转座酶)。⾮⾃主转座元件需在⾃主元件的协助下才能发⽣转完整的 LTR-RTs 由两端序列完全⼀致的末端重复、GAG(⾐壳蛋⽩)和 POL 构成,后⽣动物中含 ENV (包膜蛋⽩)。其中座。完整的 LTR-RTs 由两端序列完全⼀致的末端重复、GAG(⾐壳蛋⽩)和 POL 构成,后⽣动物中含 ENV (包膜蛋⽩)。其中POL 包含 AP(天冬氨酸酶)、INT(整合酶)、 RT(逆转录酶)和 RH(核糖核酸酶 H),是 LTR 能否⾃主转座的关键蛋⽩。LTR POL 包含 AP(天冬氨酸酶)、INT(整合酶)、 RT(逆转录酶)和 RH(核糖核酸酶 H),是 LTR 能否⾃主转座的关键蛋⽩。
⼆者差别在于 INT 的位置不同。BIFEI>载人旅行箱
分类见图 2,在⾼等植物中主要主要包括 Ty1/Copia和 Ty3/Gypsy 两个超家族,⼆者差别在于 INT 的位置不同。
图2  LTR 的分类[1]      P: 植物  M: 后⽣动物  F :真菌  O:其他
3. LTR的⽣物学意义
不少研究表明活性 LTR 插⼊到关键基因内或周边会导致性状改变。2019 年,发表在 Nature Communications 的《A high-quality apple genome assembly reveals the association of a retrotransposon and red fruit colour》⽂章中揭⽰苹果红⽪表型形成与⼀个 LTR-RT 插⼊相关。MdMYB1 有 MdMYB11-1、MdMYB1-2 和 MdMYB1-3 三个等位基因,其中 MdMYB1-1 是控制苹果果⽪花青素合成的单⼀显性基因。相较于黄苹果基因组,在红苹果基因组的 MdMYB1-1 基因启动⼦上游有⼀个 LTR-RT(命名为 redTE)插⼊,并经过 PCR 验证是红苹果中存在⼀段特异的序列(图 3)。redTE 作为⼀种增强⼦,增强 MdMYB1-1 对光的敏感性,从⽽累计花青素,形成红⾊表⽪。
图3  苹果红⽪ LTR-RT 插⼊[2]
此外,LTR 的扩张和收缩也影响着基因组⼤⼩,⽂章⼩叶茶⽂献《Mol Plant 项⽬⽂章 | 第⼀个茶树染⾊体级别⾼质量参考基因组发
《Mol Plant 项⽬⽂章 | 第⼀个茶树染⾊体级别⾼质量参考基因组发
布》中,揭⽰⼩叶茶基因组中 LTR 的扩张尤其是⾮⾃主 LTR 的扩张是⼩叶茶基因组庞⼤的主要原因。
布》
4. LTR-RTs 的结构特征
典型的 LTR-RTs 的结构有 5 个特征,其模式图见 4-1,各特征意义如下:
图 4-1  典型 LTR 的结构特征[3]
(1) TSR(TSD): ⽬标重复位点,是 4~6bp 的短的重复序列,在 5’LTR and 3’LTR 两侧,是转座⼦插⼊的信号。
(2) 5’LTR and 3’LTR :  LTR 两端序列完全⼀致的末端重复, TG..CA box,完整的 LTR 均含有此结构。LTR 长度⼀般在 85~5000bp。
(3) PBS(primer binding site) 引物结合位点: 在 5’LTR 的末端,可与⼀些 tRNA 3’ 末端互补结合的⼀段 18bp 左右的序列,是反转录的第⼀步。
(4) 蛋⽩区域: 长度通常在 1000~15000bp。
GAG:⾐壳蛋⽩。
POL:包含4中酶,由AP(天冬氨酸酶)、IN(INT,整合酶)、RT(逆转录酶)、RH(核糖核酸酶),LTR 能否⾃主转座的关键原因。
ENV:包膜蛋⽩,后⽣动物中存在。
(5) PPT:3’LTR 的起始位置短的富含嘌呤的序列,11~15bp。
LTR 在⽣物体内历经成千上万年的进化,发展出许多存在形式(图 4-2)。我们通常将包含两个相对完整的 LTRs 和已识别的 PPT 和 PBS 位点的元素,且两侧有 TSD 的 LTR 定义为 Intact LTR(A)。由于 LTR-RTs 两端序列⾮常相似,LTR-RTs 内可发⽣重组,导致内部元件消失,形成 solo LTR(C),⽽ solo LTR 的数量表明了⼀个基因组中 LTR 去除的频率和效率。此外 LTR 发⽣缺失、易位可形成截断的 LTR(B)。LTR 也会经常插⼊到其他 LTR 内部区域,形成嵌套 LTR(D)。因存在这些突变机制,实际上完整的 LTR-RTs (A)只占基因组中所有 LTR-RT 相关序列的⼀⼩部分。
图 4-2  LTR 存在形式[4]
5. LTR-RTs 鉴定⽅法
LTR-RT 的鉴定⽅法基本归于三类:从头预测、基于结构预测、基于同源⽐对。LTR_STRUC[5] 是⼀款最早的从头预测 LTR 的软
件,LTR_finder[3] 和 LTRharvest[6] 是⽬前为⽌鉴定 LTR 最敏感的程序,但假阳性依然很⾼。RepeatMasker[7] 基于数据库,使⽤同源⽅法来预测 LTR,但不同物种 LTR 差异较⼤,构建物种特有的 LTR 库⾮常必要。在 2017 年密歇根州⽴⼤学园艺系的 Shujun Ou 团队开发LTR_retriever[4] 平台⽤于 LTR 的鉴定,⽂章发表在 Plant Physiology 上。这是⼀款整合软件,以⼀个或多个 LTR 预测软件鉴定 LTR 的结果作为输⼊⽂件,通过不同模块(图 5-1)对 LTR 进⾏过滤和修正来对预测软件的预测结果进⾏整合和调整,以得到⾮冗余精准且完整的物种特异 LTR 库,再使⽤ RepeatMasker[7] 进⾏预测
图 5-1  LTR_retriever 整合模块[4]
LTR_retriever 软件从 sensitivity(敏感性)、specificity(特异性)、accuracy(准确性)、precision(精确度)四个维度对 LTR 鉴定结果进⾏评估,其具体意义见图 5-2。以真实 LTR 和⾮ LTR 序列作
为参考库,使⽤软件进⾏预测。对预测结果分为以下四类:
京能恒基半夏去皮机TP:真阳性,真实的 LTR,被准确预测出
FN:假阴性 ,真实的 LTR,未被准确预测出
TN:真阴性 ,⾮ LTR 序列未被预测当成 LTR
FP:假阴性,⾮ LTR 序列被当成 LTR
重组胶原蛋白
从下图公式可知敏感性代表对真正 LTR 的检出能⼒,特异性代表排除⾮ LTR 序列的能⼒,精确性代表正确检出的能⼒,精确度代表检出结果的真阳性率,精确度越⾼则表明结果越可靠。
防身戒指图 5-2  鉴定结果评估指标[8]
使⽤ LTR_retriever 对现有软件预测 LTR 结果进⾏,评估结果(图 5-3)显⽰ LTR_retriever 明显优于其他现有软件,⽽ Shujun Ou 团队在2019 发表在 Genome Biology 上的有关转座⼦注释⽅法中推荐 LTR 的鉴定⽅法是使⽤以 LTR_finder 和 LTRharvest 软件鉴定结果作为LTR_retriever 的输⼊⽂件[8]。
图 5-3  不同 LTR 鉴定⽅法⽐较[4]
6. 诺⽲致源为您定制专属 LTR 分析⽅案
随着三代测序技术的发展,借助于超长度长序列,重复序列的组装将会越来越精确。⼈们对重复序列的研究会更加深⼊,⽽ LTR 因其特殊的⽣物学意义被格外关注。LTR 的鉴定是 LTR 相关分析的基础,⽬前 LTR 分析⽅法尚⽆标准。表 6-1 是诺⽲致源公司联合发表的 LTR 分析相关⽂章列表。诺⽲致源 LTR 分析流程中,先使⽤ LTR_finder 和 LTRharvest 对 LTR 进⾏鉴定,再利⽤ LTR_retriever 进
⾏整合,构建⾮冗余精准的物种特异 LTR 数据库后使⽤同源预测⽅法进⾏注释,再过滤掉假阳性,为您注释出全⾯且精确的物种 LTR 序列,包括 intact LTR、solo LTR、LTR 相关序列,⾮典型 LTR 等。明确 LTR 含量在基因组中的占⽐,在染⾊体上的分布情况(图 6-1)。
图 6-1  LTR 在染⾊上分布[9]
根据物种 LTR 蛋⽩结构域数据库,对 LTR-RT 进⾏结构注释和家族鉴定。LTR 分析很多,可根据物种 LTR 鉴定结果、⽣物学意义进⾏特殊分析,例如通过聚类分析,确定基因组中主要的 LTR 属于何种家族(图 6-2);对 LTR 进⾏插⼊时间评估分析,探索 LTR 的进化动态(图 6-3);构建特殊家族进化树,研究某类 LTR 的进化等。此外,转座⼦诱导的表观遗传变化经常影响相邻基因的差异表达并产⽣新的调控模式,例如前⾯所提的苹果表⽪颜⾊性状⽂献中检测到红苹果 redTE 序列中有⼏个区域明显⾼度甲基化,这为 LTR 分析提供新的思路。

本文发布于:2024-09-23 13:24:01,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/238906.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:转座   序列   基因组   分析   结果
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议