非编码RNA组科学数据库:NONCODE

编码RNA组科学数据库:NONCODE
TECHNOLOGY
⾮编码RNA组科学数据库:
NONCODE
任菲1,2 何顺民1 刘长宁1 赵屹1
1. 中国科学院计算技术研究所前瞻实验室,北京 100190
2. 中南⼤学,湖南 410083
NONCODE科学数据库是中国科学院计算技术研究所⽣物信息学研究组和中国科
学院⽣物物理研究所⽣物信息学实验室共同开发和维护的⼀个提供给科学研究⼈员分析⾮编码RNA基因的综合数据平台。⾃从其2005年发布以来,⾮编码RNA基因的数量飞速增长[1-3],⽽且⼈们也逐步认识到⾮编码RNA基因在⼤多数物种中都发挥着重要的调控作⽤[4]。《Science》杂志在2005年1⽉的期刊中
曾给予NONCODE数据库较⾼的评价和推荐。2006年,ISI Web of Knowledge 邀请收录NONCODE科学数据库;2007年,中国国家医药卫⽣科学数据共享平台收录了NONCODE科学数据库。⽬前在NONCODE 2.0数据库中,⾮编码RNA基因的数量⼤约为20多万条⽬,其中包括了microRNA,Piwi-interacting RNA和mRNA-like ncRNA等。同时,在NONCODE中的⾮编码RNA基因数据分析平台中,还为研究⼈员提供了BLAST序列⽐对服务,⾮编码RNA基因在基因组中定位以及它们的上下游相关注释信息的浏览服务。研究⼈员可以通过www.doczj/doc/f59d456f1ed9ad51f01df2b0.html / 或者 www.doczj/doc/f59d456f1ed9ad51f01df2b0.html / ⽹站来访问该数据平台。
⾮编码RNA;科学数据库;RNA组学
摘要:关键词:本页已使⽤福昕阅读器进⾏编辑。
福昕软件(C)2005-2007,版权所有,仅供试⽤。
TECHNOLOGY
N o n -c o d i n g R N A S c i e n t i f i c D a t a b a s e :
NONCODE
Ren Fei 1, He Shunmin 1,2, Liu Changning 1, Zhao Yi 1
1. Center for Advanced Computing Research, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190,China
2. Central South University, Changsha, Hunan Province 410083, China
The NONCODE database is an integrated knowledge database designed for the
analysis of noncoding RNAs (ncRNAs). Since NONCODE was firstly released in 2005, the number of known ncRNAs has grown rapidly, and there is a growing acknowledgement that ncRNAs play important regulatory roles in most organisms. In the NONCODE database, the number of collected ncRNAs has reached 206226, including a wide range of microRNAs, Piwi-interacting RNAs and mRNA-like ncRNAs. The improvements of the database include not only new and updated ncRNA data sets, but also an incorporation of BLAST alignment search service and access through our custom UCSC Genome Browser. NONCODE can be accessed through www.doczj/doc/f59d456f1ed9ad51f01df2b0.html or www.doczj/doc/f59d456f1ed9ad51f01df2b0.html .
Non-coding RNA; Scientific database; Rnomics
Abstract: Keywords: 本页已使⽤福昕阅读器进⾏编辑。仅供试⽤。
TECHNOLOGY
1.背景介绍:⾮编码RNA
基因——基因组中的暗物质
在⾼等⽣物和⼈的基因组中⾮编码区占到基因组序列的⼤部分,如⼈类基因组和⼩⿏基因组中编码蛋⽩质的序列只占约3-5%,其余约95-97%为⾮编码区[5, 6],这些区域⼀度被认为是没有任何功能的“垃圾DNA”,但从⽣物进化的观点来看,⽣物体功能的不断完善和复杂化⾮编码区序列明显增加的趋势表明,⾮编码区序列必定具有重要的⽣物功能。最近⼏年国内外学者对⼤规模转录组的相关研究⽇益深⼊,⼤量的实验数据表明,基因组⾮编码区不但作为结合位点参与转录调控,还能转录出数⽬众多的⾮编码RNA产物。相关研究包括:
1) ⼤规模cDNA注释研究,如 2003年,RIKEN国际联盟在克隆分析⼩⿏全长cDNAs时发现其中有近4280个全长cDNAs是缺乏蛋⽩质编码读框的⾮编码RNA基因[7, 8];
2) 基因芯⽚研究,如2005年,Affymetrix公司在运⽤⾼密度的寡核苷酸芯⽚对10条⼈类染⾊体的转录组研究中证实了⼤量的⾮编码RNA基因的存在[9];
3) 实验RNA组学,如2006年,中科院⽣物物理所陈润⽣实验室在对线⾍的⼩RNA研究中发现了⼤量新的⾮编码RNA:包括两类新的⾮编码RNA,snlRNA和sbRNA[10]。
当然还有⼤量的其他类似⼯作不能⼀⼀列举,到⽬前为⽌,各国科学家已经在包括⼩⿏、果
蝇、拟南芥、⽔稻、古细菌甚⾄
⼤肠杆菌等多种⽣物中发现了⼤
量的⾮编码RNA[11-17]。
已有研究发现,这些长短
不⼀、结构各异的⾮编码RNA在
⽣物体中发挥着各种不同功能,
大内密探灵灵狗电影
如 snRNA 参与 mRNA 剪接[18]、
snoRNA 参与rRNA 的甲基化和假
尿嘧啶化加⼯[19]、 gRNA 参与RNA
编辑[20]、SRP-RNA 参与蛋⽩质的
细胞定位[21]、端粒 RNA 参与 DNA
端粒合成并影响细胞的寿命[22]、
tmRNA 参与终⽌受损的mRNA 的蛋
⽩质合成过程[23]、Xist 能使X染
⾊体失活[24]、piRNA参与调控染⾊
体表观遗传修饰等[25]。另外,在
最近对多种疾病和肿瘤的医学研
究中也发现了⼤量肿瘤和疾病特
异表达的⾮编码RNA基因,如在⾮
⼩细胞肺癌中⾼表达的⾮编码RNA
基因MALAT-1[26]、在前列腺癌中
异常表达的⾮编码RNA基因PCGEM1
影子系统等[27]。相对于已知功能的⾮编码
RNA,我们对于绝⼤部分⾮编码
RNA的功能可以说近乎⼀⽆所知。如何研究这些⾮编码RNA的调控与功能,已经成为⽣物学研究的新
挑战。中外科学家都已经注意到
了以此为研究对象的RNA组问题,早在1998年,我国科学家⾦由⾟热力迸发
就在第109次⾹⼭科学会议上提出了“功能RNA组研究计划”,国外
在2000年左右也已经开始了⼤规
模的实验和计算RNA组学研究。在2001年~2008年,这个领域的重
要发现多次被《Science》归⼊
当年的年度⼗⼤科学发现。以⾮
编码RNA为研究主题的RNA组学研究,已经成为实验⽣物学和⽣物
信息学领域的热点。
2. ⾮编码RNA基因数据库NONCODE的建⽴
随着对⾮编码RNA基因的⽇
益重视和相关研究的深⼊开展,
越来越多的⾮编码RNA基因新成员和⾮编码RNA基因新类被发现,收集、组织和分类⾮编码RNA基因
相关信息的数据库也开始出现。
这些数据库中有的只关注于某⼀
类⾮编码RNA基因,如SRP RNA、tmRNA和RNase P RNA;有的则是收集了各种⾮编码RNA基因数据,如“Small RNA Database”、“Noncoding RNA Database”以
及“Rfam Database”。然⽽,这
些数据库都存在着⼀些问题。⾸
先是由于它们收集的数据往往是
通过⼈⼯从⽂献中获取,所以收
集的⾮编码RNA基因数据不论是从
汪沛英
数量还是种类上来说都有很多遗
漏;另⼀个更严重的问题是,他
们都没有⼀个统⼀的对⾮编码RNA
基因分类注释的系统,⽽这个问
题带来的⿇烦更加危险。
NONCODE就是在这样的背景下
十二五末期开始建设的。⼀⽅⾯,NONCODE采
取了计算机⾃动过滤GenBank[28]
数据,然后⼈⼯检查确认的⼯作
⽅式,这样即提⾼了收集数据的
全⾯性和准确性,⼜保证了⼯作
效率。另⼀⽅⾯,为了解决⾮编
码RNA基因缺乏统⼀分类体系的问
题,我们提出了⼀套以⾮编码RNA
本页已使⽤福昕阅读器进⾏编辑。
福昕软件(C)2005-2007,版权所有,
仅供试⽤。
TECHNOLOGY
表1 “过程功能”分类系统
基因所参与的细胞⽣化过程和在此过程中发挥的功能为标准的、全新的、统⼀的分类体系——“过程功能”分类系统(见表1)。在第⼀版 NONCODE 数据库中,我们共收集了除tRNA、rRNA以外所有种类的⾮编码RNA基因数据5339条⾮冗余记录,涉及861个物种,遍及真细菌、古细菌和真核⽣物界[29]。数据库于2005年初免费通过Internet⽹络发布,相关⽂章发表于《核酸研究》杂志上,迄今为⽌SCI引⽤次数已经超过40次。
为了⾼效⽽且全⾯地收集⾮编码RNA基因数据,我们以PubMed 为起点设计了⼀套计算机⾃动分析辅助⼈⼯确认的数据收集流程(见图1)。PubMed是由美国国家医学图书馆所属的国家⽣物技术信息中⼼开发的因特⽹⽣物医学信息检索系统,覆盖了全世界70多个国家4300多种主要⽣物医学期刊的摘要和部分全⽂。我们⽤关键字表检索PubMed,对于检索得到的⽂献,我们通过⼿⼯检查以确认⽂献和⾮编码RNA基因相关。通过阅读这些⾮编码RNA基因相关的⽂献,进⼀步得到新的⾮编码RNA基因关键
字。我们根据这些新的关键字更新关键字表,然后⽤新的关键字表⾃动过滤GenBank中的GB格式⽂件。GenBank由美国国⽴⽣物技术信息中⼼建⽴和维护,其中包含了所有已知的核酸序列和蛋⽩质序列,以及与它们相关的⽂献著作和⽣物学注释。每个GB格式⽂件包含了对序列的简要描述,它的科学命名、物种分类名称、参考⽂献、序列特征表以及序列本⾝。序列特征表⾥包含对序列⽣物学特征的注释,如:编码区、转录单元、重复区域、突变位点或修饰位点等。根据GB⽂件中的这些注释和我们的⾮编码RNA基因相关关键字表,我们可以粗筛出可能的⾮编码RNA基
因,并能对筛选出的候选⾮编码RNA基因进⾏初步分类。所有GB⽂件被分为细菌类、病毒类、灵长类、啮齿类,以及EST数据、基因组测序数据、⼤规模基因组序列数据等16类。我们的搜索主要针对其核酸库中的真核、原核、细菌、病毒、类病毒等⼏类。搜索得到的数据被导⼊MySQL数据库中等待⼈⼯检查确认。经过⼈⼯确认为真实的⾮编码RNA基因数据,我们将对其进⾏⼀系列注释⼯作。同样,整个注释过程基本由计算机⾃动完成,少数特殊情况计算机将提⽰需要⼈⼯确认。最后,我们在这个数据库的基础上建⽴了⼀个界⾯友好、功能全⾯的⽹络接⼝
(www.doczj/doc/f59d456f1ed9ad51f01df2b0.html ),提供数据浏览、关键字搜索、序列在线Blast查询、数据下载等⼀系列服务。
在现有的⾮编码RNA基因的命名中,有的⾮编码RNA基因是根
PfClass
Corresponding traditional classes
DNA_imprinting
XIST,roX,H19,MHM,KvLQTl-AS,Tsix,Air DNA_packaging pRNA
DNA_repair
RNA a,b,c,d DNA_replication_initiation RNA Ⅱ
DNA_replication_regulation ctRNA,RNA ⅠDNA_replication_repression incA,RNA ⅠDNA_stability
telomerase RNA DNA_transcription_initiation RNA Ⅱ
DNA_transcription_regulation
inc RNA, copA RNA, SRA DNA_transcription_regulation of RNA poly merase 6S RNA, 7SK
DNA_transcription_repression RNA Ⅰ,GevB RNA RNA_editing
gRNA RNA_modification_methylation
snoRNA RNA_modification_methylation&pseudouridylation scaRNA RNA_modification_pseudouridylation snoRNA
RNA_processing_cleavage RNase P RNA, R Nase MPR RNA, snoRNA RNA_processing_splicing snRNA, self-splicing ribozyme RNA, PAN RNA_reverse_transcription
msr RNA
RNA_transcription_enhancement csrB RNA, DsrA RNA
RNA_transcription_regulation A NTl-RAFl, RprA, sok RNA, VA RNA, RyhB, sar RNA, NaPi-2b1, 5.3S RNA, aHIF
RNA_transcription_suppression miRNA, DicF, Spot 42, Finp, MicF, OxyS, flrnB, PrrB_RsmZ, NTT, GcvB RNA,
etc.RNA_transcription_surveillance tmRNA
RNA_transcription ScYC RNA, hsr-omega RNA, Xlsirt Protein_transport
SRP_7SL RNA, SRP_4.5S RNA
Miscfunction_mRNAlike BORG, IGF2AS, CR20, meyRNA,Rian, Ks-1, GNASl-as RNA, lPW, etc.Miscfunction_snm
Bsr RNA, Y RNA, dsrB, vault RNA, 4.5S RNA, 6Sa RNA, G8, etc.
本页已使⽤福昕阅读器进⾏编辑。仅供试⽤。
TECHNOLOGY 图1 NONCODE数据收集处理流程
据它在细胞中的定位来命名的,如snRNA(⼩核 RNA,在细胞核中)、snoRNA(⼩核仁RNA,在核仁中)[19];有的⾮编码RNA基因是根据功能来命名的,如pRNA (package RNA)、gRNA(guide RNA)[30];更有甚者,直接⽤⾮编码RNA基因的沉降系数来命名,如6S RNA、5.3S RNA等[31]。这些不同的命名⽅法,导致同⼀类⾮编码RNA基因由于来⾃不同的实验室往往会有多个名字,还有很
多名字相同但功能完全不相关的
⾮编码RNA基因出现。我们根据⾮
编码RNA基因参与的细胞⽣化过程
商君书锥指及其发挥的功能,制定了⼀套统
⼀的分类系统,希望通过这种分
类避免以前发⽣的混乱现象,同
时便于研究者从分类直接了解某
⼀类⾮编码RNA基因的功能。在

本文发布于:2024-09-20 20:48:47,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/570944.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:编码   基因   研究
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议