sORFs及其编码的微肽的发现和鉴定方法研究进展

sORFs及其编码微肽的发现和
鉴定方法研究进展
敬媛媛1 阴新强2,△
(1川北医学院预防医学系,南充637000;2川北医学院基础医学院,南充637000)
摘要 小开放阅读框(smallopenreadingframes,sORFs)是指含有不多于100个密码子的开放阅读框。由sORFs编码的肽被称作微肽(micropeptide)或小开放阅读框编码的肽(sORFs encodedpep tide,SEP)。随着生物信息学、计算机科学以及高通量测序技术的发展,已在多个物种的多种转录产物中发现大量的小开放阅读框(sORFs),一些由sORFs编码的微肽/SEPs也被鉴定出来。这些微肽/SEPs的发现说明生物体内蛋白质编码基因组的注释是不完整的,ORFs的任意大小限制和作为翻译唯一起始密码子的甲硫氨酸的绝对要求限制了具有非经典蛋白质编码潜力的重要转录本的鉴定。目前发现的几种微肽在基本生理活动和保持细胞代谢稳态方面都发挥着重要作用。本文综述了发掘sORFs编码的微肽的技术和研究微肽生物功能的方法的最新进展,并详述这些技术的优缺点。
关键词 长非编码RNA;小(短)开放阅读框;微肽
中图分类号 Q753
  遗传“中心法则”的核心内容是遗传物质的复制,转录和翻译。翻译是法则的最后一个阶段,而对翻译的认识远滞后于对复制和转录的认识。先前研究证明,在基因组中存在大量的被注释为“非编码RNA”(ncRNA)的一类RNA,这些RNA在生物体内具有广泛的生物功能:在转录,转录后和翻译水平调节基因表达,保护基因组不受病毒DNA的侵袭,指导DNA的合成,调控基因组重排以及基因编辑等[1]。虽然这类RNA跟mRNA一样也存在转录后的加工修饰,如5'端甲基化加帽和3'端加多聚腺苷酸尾巴等,但由于先前的注释方法或检测手段的限制而使一些有编码潜力的RNA也被注释为非编码RNA[2]。
随着生物信息学和高通量测序技术的发展,在多个物种的所谓“非编码RNA”中发现了成千上万的具有编码潜能的,少于100个密码子的小开放阅读框(smallopenreadingframe,sORF),这种小开放阅读框编码的具有生物功能的产物也已被鉴定[3]。小开放阅读框及其编码产物的发现,揭示出在基因组中具有编码潜能的基因的比例可能远超我们之前的认知。为了发掘这一长期被人忽视的肽库,人们将由sORFs编码的蛋白或多肽称为微肽(micropeptide)。
研究微肽面临着众多挑战,一方面由sORF编码的少于100个氨基酸的微肽被排除在传统的基因
组注释方法之外,因为传统的基因组注释方法认为具有编码能力的基因一般多于100个密码子,少于100个氨基酸的小蛋白分子为大分子蛋白裂解的产物。另一方面,微肽的低丰度,短半衰期以及组织或细胞表达的特异性也给鉴别工作带来挑战。另外,多种非AUG起始密码子的发现也为微肽的发掘增加困难。最后,如何确认微肽的功能也是一个巨大的挑战,虽然目前已有不同的方法证明许多物种基因组都存在大量的sORFs,但只有为数不多的几种微肽被发现并被系统阐明生物功能(表1)。本文综述了发掘和研究微肽的技术,包括计算机和生物信息学方法,核糖体构图分析法和质谱分析法等的最新进展,并详述这些技术的优缺点,最后对该领域的发展方向做展望。
南充市科技局(18SXHZ0292);博士科研启动基金项目(CBY20 QD01)资助课题
△通讯作者 yinxq06@163.com
表1 已发现的几种微肽的相关信息列表
物种微肽长度功能参考文献
DrosophilaTal/Prim11~32发育Galindo等.2007Scl28~29肌肉收缩Magny等.2013
Hemotin88调节胞吞和吞噬作用Pueyo等.2016
DaniorerioToddler58通过激活apelin受体途径促进原肠胚形成过程中的细胞迁移Pauli等.2014
唯美主义MusmusculusMLN46骨骼肌收缩Douglas等.2015DWORF34肌肉收缩Nelson等.2016
ALN,ELN65,56肌肉收缩Anderson等.2016
Myomixer84肌肉形成Bi等.2017
SPAR90肌肉再生Matsumoto等.2017
MOTS c16代谢平衡、胰岛素耐受Lee等.2015
AW11201086肠粘膜免疫Ruaidhrí等.2018HomosapiensHumanin24细胞凋亡D'Lima等.2017MRI 269DNA修复Slavoff等.2014
Nobody68mRNA降解Hashimoto等.2001
  一、发掘有编码潜能的sORFs的技术和方法
目前已经有很多先进的研究技术和方法成功应用于预测特定基因组区域的蛋白编码潜力和分析基因的表达状态。但这些方法和技术中的大多数还是基于对传统的基因检测方法的一些改进和提高。鉴定有编码潜能的sORFs的技术和方法主要基于以下几个方面:跨物种比较sORFs序列寻保守序列;检测sORFs序列中密码子的组成和编码特性以区分编码和非编码的sORFs;通过分析转录和翻译实验数据确定编码的sORFs。这些方法和技术主要包括基于生物信息学方法的序列计算分析法,核糖体构图和质谱分析。
(一)生物信息学方法筛选有编码潜力的sORF 最初鉴别sORF的方法都是基于对核苷酸序列组成的分析(如,sORFfinder、RITICA和CPC)[4~6]。许多生物信息学相关的数据库的建立,如:NCBI、UCSC以及ENSEMBL等,使从以前被注释为非编码基因的区域搜寻能编码有生物功能的小分子蛋白的sORF变得更方便。从这些数据库中我们不但可以获得DNA,RNA和蛋白质的序列信息,而且还可以对两种或两种以上物种间的序列进行比对以获取更有价值的信息。
由原来被注释为非编码的RNA编码的蛋白的一个重要特征是其氨基酸序列在不同物种间具有保守性。许多基于这一特性的计算方法被开发出来并成功筛选出几种具有生物活性微肽。换言之,在不同物种间缺乏保守性的sORF就可能是无编码能力的随机序列,所以评价基因序列在不同物种间的保守性对基因预测很重要。评价基因保守性的技术是通过测定非同义突变替换和同义突变替换间的比率
来评价基因的蛋白编码潜能[7]。其中,一种高效的计算方法叫做密码子替换频率法(codonsubstitutionfrequencies,CSF)已被成功应用于多个物种基因的预测[8~11]。另一种更有效的方法是系统密码子替换频率法(phylogeniccodonsubstitutionfrequencies,PhyloCSF),这种方法系统评价多物种间的密码子替换频率从而推测序列的保守性[12]。还有一种与PhyloCSF类似的方法叫PhastCons。PhastCons是检测核苷酸替换对基因表达的影响来预测基因的编码能力[13]。虽然以上基于序列保守性的基因预测方法已成功鉴别数以万计的sORF,但是一些物种,组织或细胞特异性的蛋白和一些起调节作用的对序列组成要求不高的蛋白在这些筛选策略中可能被遗漏;另外序列较短的sORFs的保守性差也使鉴定工作变的困难。尽管在搜索sORF的过程中,生物信息学和计算科学手段已经变得不可或缺,但还有很多能有效评价sORF编码蛋白能力的实验方法和技术。
(二)核糖体印迹测序法 基于内切核酸酶不能降解被核糖体覆盖的mRNA这种现象和二代测序技术,一种被称作核糖体印迹测序或核糖体构图(Ribo Seq;Ribosomeprofiling)的技术被开发出来。核糖体印迹测序主要包括目的组织或细胞的裂解,非特异性核酸酶处理获得与核糖体结合的mRNA
片段,印迹片段的分离纯化,印迹文库的建立以及深度测序和序列比对分析等步骤。利用一些可以作
用于特定翻译起始因子而抑制翻译起始位点的药物(如:Harringtonine或Lactimidomycin)就可以精确鉴别起始位点[14];同样,利用其他药物可以抑制核糖体沿mRNA延伸的特性可以鉴别在翻译延长阶段被核糖体占位的mRNA序列。通过该技术可对核糖体保护的mRNA片段进行深度测序进而在密码子水平研究基因编码情况[15]。核糖体印迹技术还可用于研究活体内蛋白的表达情况,发现基因表达的方式远比我们想象的复杂。另外Ribo Seq也可用于研究翻译过程中的肽链延长速度,共翻译过程以及细胞器中蛋白质的合成等[16]。
核糖体印迹测序虽已应用到多种研究工作中,但这项技术存在的一些问题需注意:首先,理论上讲,与核糖体结合的mRNA应该是被翻译的序列,但一些小分子蛋白也可能与mRNA结合而造成假阳性。再者,rRNA和tRNA也存在于mRNA 核糖体复合物中,而且它们所占总RNA的比例高达85%,也可能造成核糖体测序的噪音。最后,核糖体是蛋白质 rRNA复合物,任何核酸酶都不可避免的降解rRNA而破坏核糖体的完整性造成信息的丢失和实验误差。
雅美针对以上问题不同的计算学工具被开发出来以确定高置信度的翻译区域。随着核糖体印迹测序技术获得大量数据,一些可供科研工作者应用的计算方法或软件也应运而生。这些计算工具为进一步发掘有功能的微肽提供了便利(表2)。
另一项类似的技术被称为多聚核糖体印迹(polysomeprofiling)。20世纪60
vioxx年代,在蔗糖梯度超速离心的基础上发展了多聚核糖体印迹。与较多核糖体结合的mRNA分子在蔗糖梯度中沉积较快。因此,蔗糖密度梯度离心后,游离RNA和蛋白质由于浓度的不同而漂浮在蔗糖梯度的顶端。将蔗糖溶液从底部缓慢泵入,可分离出与不同数量核糖体结合的mRNA。然后对各组分中的mRNA进行分析,以反映转录本翻译的分布。该技术通常用于检测翻译中的大的变化。但值得注意的是,活跃的翻译mRNA通常结合多个核糖体,但短的开放阅读框架(ORF)、快速翻译基因和低丰度的mRNAs倾向于在单体部分中富集,说明翻译活性与mRNA上的核糖体数量不成正比。
若应用于研究高编码潜能的sORFs,通过经典的蔗糖密度梯度离心可得到含有2~6个核糖体的混合物片段进而进行进一步处理。此法确保核糖体的mRNA片段来自真正的翻译过程中的mRNA。但由于此策略的低分辨率,它不适用于检测少于30个密码子的开放阅读框。
表2 处理核糖体印迹测序数据的几种方法简介
RRS指在ORF中的总的Ribo Seq测得核苷酸数与在3'端非编码区中总的Ribo Seq测得核苷酸数的比例,即,将各自序列标准化后,各区域RNA Seq测序数除以各自基因区总长度。(Guttman等.2013)
FLOSS此法基于核糖体保护片段(RPF)的长度在编码区和非编码区的差异。根据RPF长度
分布与已知编码区基因的相似性为ORFs的编码潜能打分。(Ingolia等.2014)
ORFscore此方法依赖于翻译过程中核糖体跨三个核苷酸(一个密码子)沿mRNA移动。所以,由Ribo Seq测得的序列信息在编码框内会表现出三联子密码周期性。这种方法通过匹配核糖体印迹平均大小(一般28 29nt)评价RPFs的编码潜力。(Bazzini等.2014)
PROTEOFORMER此软件可自动加工处理Ribo Seq所得数据并在基因组范围内可视化呈现核糖体占有的序列。还包含一个翻译起始位点提醒程序可以描述所有翻译产物的开放阅读框。(Crappé等.2015)
田婆婆事件ORF RATER此法将核糖体占有的模式(起始和终止峰和延伸阶段)与常规编码区的ORFs比较对来自Ribo Seq数据的ORFs的翻译进行定量。ORF RATER使用线性回归模式,允许多重证据整合,根据相近序列评价每一个ORF。(Fields等.2015)
RiboTaper用多窗谱分析法从通常有噪音的Ribo Seq原始数据获得三联核苷酸密码子周期性。由于P位点在每个序列长度中是确定的,这就允许用读取的各种长度计算阅读框的模式。(Calviello等.2016)
SPECtre该分析工具用一种基于将总的核糖体占有序列的三联子密码周期性模式化。软件SPECtre检查标准化的核糖体在滚动的窗口沿着转录物读取序列时的覆盖率与没有匹配mRNA Seq要求的理想化参考信号间的关系。(Chun等.2016)
TOC基于以下特点:核糖体印迹总数除以RNA测序总数;ORF内核糖体覆盖的核苷酸与总的核苷酸的比率;片段长度(ORF的长度除以总的转录物的长度);ORF内的印迹总数除以下游终止密码码子区的长度。(Ingolia等.2009)
RibORFClassifier基于核糖体印迹的三联密码子周期循环;印迹在一个假定的ORF中分布的均匀性。(Raj等.2016)RiboGalaxy核糖体印迹在线数据分析可视化集成平台。(Ji等.2015)
RiboHMM用隐型马尔科夫模型分析核糖体印迹。将预期的CDS区,5'和3'非翻译区以及与它们毗连区域相关印迹密度和在三联密码子区域的印迹的分布考虑在内。(Dunn等.2016)
PRICE模拟周围噪声的计算方法,使研究人员能够准确解决重叠的sORF和非规范翻译启动。从特定类中读取的所有内容都映射到特定位置的密码子。在阅读中。使用全基因组确定分类和位置。统计数据。它实现了一个核糖酶实验的统计模型和使用所有读取的最大可能性推断主动翻译的密码子。
根据推断出的密码子,筛选出候选ORF。(Erhard等.2018)
  (三)质谱法 由于质谱分析可以直接检测到基因编码的产物肽或蛋白,所以它被认为是评价基因是否具有编码能力的黄金标准。但目前真正通过质谱检测并得到详细研究的肽并不多。此方法是将样品裂解消化(必要时需进行目的蛋白富集)后进行液相谱串联质谱分析得到样品质谱图,然后将样品质谱图与已被注释的蛋白的数据库得到的理论质谱图进行比较,理论上来讲,就可以发现由sORF编码的而在理论质谱图中没有的微肽。虽然被系统研究并阐述功能的微肽很少,但已有几个课题组用质谱分析法鉴定到一些由小的开放阅读框编码的肽(sORF encodedpeptides,SEPs)[17~19]。质谱分析法存在争议的焦点是:样品的选择,样品制备过程,SEPs的丰度,大小及其短寿命都可能影响结果的可靠性和稳定性[20]。但在另一项研究中,研究人员用质谱分析法对人和小鼠的已有的蛋白质组数据进行分析和再实验发现:蛋白质的寿命(半衰期)和降解在可测范围内对质谱法的准确度没有影响,只有当样品SEPs的丰度非常低或者序列很短(小于44个氨基酸)时对质谱法有有限的影响[21]。所以在用质谱法研究微肽时有必要考虑到组织,细胞表达特异性和细胞表达时间的特异性以及目标产物大小和丰度对结果的影响。
(四)多策略综合分析法 上述寻sORF的方法各有优势和缺陷,为降低噪音和假阳性,综合运用多种方法趋利避害是最佳选择。实际上很多研究都是综合运用了RNA Seq、Ribo Seq、HPLC MC/MC以及生物信息学分析法等多种方法进行研究的。例如,一种结合多肽组学和
大规模RNA平行测序的新策略被开发出来并成功发现86个新的SEPs[17]。Chu等[18]系统研究了不同的分离富集法和质谱法对提高SEPs的检测效率的影响并发现了37个未注释的人的SEPs。此课题组的另一项研究比较了四种组合工作流程(即:MWCO+LC MS;MWCO+ERLIC+LC MS;PAGE+ERLIC+LC MS和PAGE+LC MS)对鉴定SEPs的影响同时鉴别出237个人的SEPs,她们的研究也证明循环操作是最有效的鉴定SEPs的方法[22]。上述研究结果揭示了这些方法检测灵敏度的差异。由于来自非编码RNAs的肽通常较小,稳定性差并且翻译水平较弱,所以被检测到的几率会大大降低。为了减少噪音和假阳性,在发掘sORFs时有必要综合利用生物信息学分析法和实验验证法。
二、研究微肽功能的思路与方法
上面讨论了发掘sORF的方法,接下来我们面临的问题是如何鉴定这些推测的由sORF编码的肽以及研究它们的功能呢?一般的肽被合成后由N端的信号肽靶向特定的位置发挥作用,但微肽跟一般的生物活性肽不同,它们合成后即释放于细胞质中通过一定的方式在特定的位置发挥功能[23,24],所以通常用于研究蛋白功能的一些方法可能不适用于微肽,这也使对微肽的功能的探索难度更大。微肽虽小,但在许多生物进程中发挥着关键的作用。总之,随后的主要任务是证明sORF编码产物的存在然后研究它们的生物功能并提供足够的证据。
(一)确证sORF编码产物存在的方法 理论上讲,证实sORF编码潜能的最直接证据是检测到它的产物 蛋白。但是细胞中已存在的数量巨大的已知蛋白为鉴别一种含量甚微的未知小分子蛋白带来了巨大挑战。幸运的是研究人员已经开发出了灵敏度足够高和特异性足够强的方法来捕获我们推测的微肽[24]。将目的基因克隆到原核或真核表达载体,转染至原核或真核细胞中进行表达,检测有无表达产物是体外确认sORF编码产物的最常用方法之一:可将结合有特异荧光标签的序列与目标肽基因共表达来检测目标肽,也可将目的基因与有特异抗体的序列标签,如His标签序列链接表达出融合蛋白,用序列标签的特异抗体检测有无表达产物。根据推测的微肽序列设计一种对微肽特异的抗体作为探针可用来探测特定细胞或组织中是否存在目标肽。其他基于抗体的方法,如蛋白质杂交技术、免疫细胞化学法等都可用于检测微肽的存在。另外,应用广泛的CRISPR/Cas9系统介导的基因编辑技术也可以通过精心设计用于sORF编码潜力的检测[25]。
(二)阐明微肽的生物功能 我们证实sORF的编码产物后还需要对编码产物的生物功能进行研究。了解编码微肽的sORF在基因的定位,微肽的组织、细胞乃至亚细胞分布以及微肽的氨基酸组成和结构是研究微肽的功能的前提。因此,检测微肽的功能的第一步是通过Northernblot或逆转录定量PCR技术确定sORF基因的组织和器官分布,通过Westernblot、免疫组化或免疫荧光技术确定微肽的定位细胞或亚细胞定位,在确定了微肽的定位后,再通过功能丧失和功能获得策略确定微肽的生物功能,但此法不适用于起调节作用的微肽。
  通过上述方法发现,由位于5'端的以前被注释为非翻译区的sORFs编码的微肽在与分化和进化相关的基因表达过程起调节作用[26~29]。类似的,存在于长非编码RNAs(LncRNAs)或重叠于编码的mRNA区的sORFs编码的肽通过无义介导(non sensemediateddelay,NMD)途径调节转录产物的稳定性[30]。一些在组织或器官特异性高表达的sORFs,其翻译产物通常跟组织或器官在生物体内的功能相关:或直接发挥功能,或通过调节大分子的功能间接发挥作用:如在肌肉组织特异表达的MLN、DWORF、ALN、ELN等,都与肌肉收缩有关;另外在病变组织中高表达的sORFs,其表达产物可能与相关疾病的发生发展有关,如由5'端UTR区sORF编码的产物在肿瘤发生起始阶段起重要作用[26]。
由于一些微肽是通过与大分子蛋白或其他大分子,如RNA和DNA等起作用,所以鉴定与微肽互相作用的伴侣分子是阐述微肽作用的可行方向。目前研究生物分子间相互作用的方法很多,包括以分子生物学和生物化学与生物物理学为基础的酵母双杂交、X 射线晶体衍射技术、表面等离子共振技术、噬菌体展示技术、串联亲和纯化技术、免疫共沉淀技术、GST沉淀技术等。为了取得更可靠的结果,往往需要综合多个研究方法从各个不同角度加以验证。目前发现的微肽大多采用了免疫共沉淀,免疫荧光灯技术研究微肽的互作分子。通过共沉淀蛋白大分子SERCA(内质网Ca2+ ATPase)对描述DWORF和MLN的生物功能起了很大作用。
三、结语与展望
自1996年发现第一条真核生物微肽迄今已经20多年过去了,随着生物信息学的发展和高通量测序技术的出现,人们已经在不同的生物物种中发现了成千上万的小开放阅读框。更令人振奋的是,研究人员已经综合运用各种技术和手段发现并详细阐述了一些微肽在生物体内的生理功能。目前的研究工作主要集中在模式生物,由于条件制约,对人的sORF及其编码的微肽的研究还有待拓展和深入,基因表达的特异性(如时间、空间、物种、组织和细胞的特异性)意味着基因在病理性器官,组织或细胞会有特异表达,对这些发病部位的基因及其表达产物进行深入研究和分析对认识病理过程或对疾病的或许有帮助。发现并鉴定微肽对开发相关疾病多肽药物具有重要意义。
随着技术的进步,我们相信在不久的将来将会在更多的物种中发现更多的微肽。目前的常用技术如质谱,基因编辑,基因测序等技术将被进一步优化并能更快更可靠地检测到sORFs编码的产物。同时,其他学科的进步发展也将使发掘微肽的工作受益。另外,用于发现由uORFs编码的蛋白和有非 AUG密码子启动编码的微肽的技术也将会被开发出来。
虽然微肽研究工作已取得令人鼓舞的成果,但对微肽的发掘仍处于初始阶段,对研究微肽的工作者来说还有许多问题需要解决,例如,对于一个基因组到底有多少sORFs呢?这些sORFs中哪些是编码有生物功能的微肽,哪些是编码起调节作用的微肽,哪些编码的微肽是根本没有任何功能的呢?虽然目前的研究已经揭露了一些问题,但这可能仅是冰山一角,未来的许多问题还需要各个学科的研究人员一起努力解决。
金山毒霸2007
参考文献
1 MatsumotoA,NakayamaKI.HiddenpeptidesencodedbyputativenoncodingRNAs. CellStructFunct,2018,43 75~83.
2 YinXQ,HuJL,XuHM.Distributionofmicropeptide cod ingsORFsintranscrits. ChineseChemLett,2018,29 1029~1032.
剑水蚤3 SaghatelianA,CousoJP.DiscoveryandcharacterizationofsmORF encodedbioactivepolypeptides.NatChemBiol,2015,11 909~916.
4 HanadaK,ZhangX,BorevitzJO,etal.Alargenumberofnovelcodingsmallopenreadingframesintheintergenicre gionoftheArabidopsisthalianagenomearetranscribedand/orunderpurifyingselection.GenomeRes,2007,17 632~640.
5 FrithMC,ForrestAR,NourbakhshE,etal.Theabundanceofshortproteinsinthemammalianproteome.PLoSGenet,2006,2 515~528.
6 KongL,ZhangY,YeZQ,etal.CPC:assesstheprotein codingpotentialoftranscriptsusingsequencefeaturesandsupportvectormachine.NucleicAcidsRes,2007,35 W345~W349.
7 HurstLD.TheKa/Ksratio:diagnosingtheformofse quenceevolution.TrendsGenet,2002,18 486.
8 StarkA,LinMF,KheradpourP,etal.Discoveryoffunc tionalelementsin12drosophilagenomesusingevolutionarysignatures.Nature,2007,450 219~232.
9 ButlerG,RasmussenMD,LinMF,etal,Evolutionofpath

本文发布于:2024-09-22 01:52:52,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/570950.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:编码   微肽   技术
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议