一文极速读懂UniProt数据库

⼀⽂极速读懂UniProt数据库
Uniprot (Universal Protein )是包含蛋⽩质序列,功能信息,研究论⽂索引的蛋⽩质数据库,整合了包括EBI( European Bioinformatics Institute),SIB(the Swiss Institute of Bioinformatics),PIR(Protein Information Resource)三⼤数据库的资源。
女同性恋EBI( European Bioinformatics Institute):欧洲⽣物信息学研究所(EMBL-EBI)是欧洲⽣命科学旗舰实验室EMBL的⼀部分。位于英国剑桥欣克斯顿的惠康基因组校园内,是世界上基因组学领域最强的地带之⼀。
SIB(the Swiss Institute of Bioinformatics):瑞⼠⽇内⽡的SIB维护着ExPASy(专家蛋⽩质分析系统)服务器,这⾥包含有蛋⽩质组学⼯具和数据库的主要资源。
PIR(Protein Information Resource):PIR由美国国家⽣物医学研究基⾦会(NBRF)于1984年成⽴,旨在协助研究⼈员识别和解释蛋⽩质序列信息。
⽬前,UniProt由主要由以下⼦库构成:
数据库名全名⽤途
Protein knowledgebas (review)⾼质量的、⼿⼯注释的、⾮冗余的数据库
Protein knowledgebase (unreview)⾃动翻译蛋⽩质序列,预测序列,未验证的数据库外大陆架
Sequence⾮冗余蛋⽩质序列数据库
Sequence clusters聚类序列减⼩数据库,加快搜索的速度
Protein sets from fully sequenced genomes为全测序基因组物种提供蛋⽩质组信息
他们的关系如下:
通过EMBL,GenBank,DDBJ等公共数据库得到原始数据,处理后存⼊UniParc的⾮冗余蛋⽩质序列数据库。UniProt作为数据仓库,再分别给UniProtKB,Proteomes,UNIRef提供可靠的数据集。其中在UniProtKB数据库中Swiss-Prot是由TrEMBL经过⼿动注释后得到的⾼质量⾮冗余数据库,也是我们今后常⽤的蛋⽩质数据库之⼀。
UniProtKB/Swiss-Prot
⾼质量的、⼿⼯注释的、⾮冗余的数据集
Swiss-Prot旨在提供与⾼⽔平注释(例如,蛋⽩质功能,其域结构,翻译后修饰,变体等的描述)相关的可靠蛋⽩质序列,最⼩程度的冗余和⾼⽔平与其他数据库的集成级别。注释主要来⾃⽂献中的研究成果和E-value校验过计算分析结果,有质量保证的数据才被加⼊该数据库 。
Swiss-Prot由Amos Bairoch博⼠在1986年创建,由瑞⼠⽣物信息学研究所开发,随后由欧洲⽣物信息学研究所的Rolf Apweiler开发。也是说EBI和SIB共同制作了Swiss-Prot和TrEMBL数据库。
Swiss-Prot条⽬的注释中使⽤了⼀系列序列分析⼯具。包括⼿动评估,计算机预测,并选择结果包含在相应的条⽬中。这些预测包括翻译后修饰,跨膜结构域和拓扑,信号肽,结构域识别和蛋⽩质家族分类。
来⾃相同基因和相同物种的序列合并到相同的数据库条⽬中。确定序列之间的差异包含:可变剪接,⾃然变异,错误的起始位点,错误的外显⼦边界,移码,未识别的冲突。
注释会⽤相关出版物通过搜索数据库(例如PubMed)进⾏识别。阅读每篇论⽂的全⽂,然后提取信息并将其添加到条⽬中。科学⽂献中的注释包括但不限于:
蛋⽩质和基因名称
功能
特定于酶的信息,例如催化活性,辅因⼦和催化残基
亚细胞定位
蛋⽩质相互作⽤
表达⽅式
重要域和站点的位置和⾓⾊
离⼦,底物和辅因⼦结合位点
通过⾃然遗传变异,RNA编辑,替代剪接,蛋⽩⽔解加⼯和翻译后修饰产⽣的蛋⽩质变异形式
使⽤:
UniProtKB/Swiss-Prot
⾼质量的、⼿⼯注释的、⾮冗余的数据集
通路精耕Swiss-Prot旨在提供与⾼⽔平注释(例如,蛋⽩质功能,其域结构,翻译后修饰,变体等的描述)相关的可靠蛋⽩质序列,最⼩程度的冗余和⾼⽔平与其他数据库的集成级别。注释主要来⾃⽂献中的研究成果和E-value校验过计算分析结果,有质量保证的数据才被加⼊该数据库 。
Swiss-Prot由Amos Bairoch博⼠在1986年创建,由瑞⼠⽣物信息学研究所开发,随后由欧洲⽣物信息学研究所的Rolf Apweiler开发。也是说EBI和SIB共同制作了Swiss-Prot和TrEMBL数据库。
Swiss-Prot条⽬的注释中使⽤了⼀系列序列分析⼯具。包括⼿动评估,计算机预测,并选择结果包含在相应的条⽬中。这些预测包括翻译后修饰,跨膜结构域和拓扑,信号肽,结构域识别和蛋⽩质家族分类。
来⾃相同基因和相同物种的序列合并到相同的数据库条⽬中。确定序列之间的差异包含:可变剪接,⾃然变异,错误的起始位点,错误的外显⼦边界,移码,未识别的冲突。
注释会⽤相关出版物通过搜索数据库(例如PubMed)进⾏识别。阅读每篇论⽂的全⽂,然后提取信息并将其添加到条⽬中。科学⽂献中的注释包括但不限于:
蛋⽩质和基因名称
功能
特定于酶的信息,例如催化活性,辅因⼦和催化残基
亚细胞定位
蛋⽩质相互作⽤
表达⽅式
重要域和站点的位置和⾓⾊
离⼦,底物和辅因⼦结合位点
通过⾃然遗传变异,RNA编辑,替代剪接,蛋⽩⽔解加⼯和翻译后修饰产⽣的蛋⽩质变异形式
常⽤的操作
<1>:这⾥输⼊基因名,UniProt ID,或者感兴趣的关键字
<2>:筛选:Reviewed:存储在Swiss-Prot数据库中经过验证的蛋⽩数据,Unreviewed:存储在TrEMBL数据库中没有经过验证的蛋⽩数据
<3>:筛选某个物种,点击就好切换到该物种
教师向学生售纸
<4>:通过基因名或蛋⽩名来筛选
<5>:依次是Unprot ID,该蛋⽩数据库命名,蛋⽩质名,基因名,物种,序列长
<6>:如果需要Blast来查看某个蛋⽩有哪些序列相似的蛋⽩序列,先选中感兴趣蛋⽩前的⽅框,点击Blast
<7>:如果需要多序列⽐对,先选中感兴趣蛋⽩前的⽅框,点击Align
<8>:如果要下载信息,先选中感兴趣蛋⽩前的⽅框,点击Download下载。这⾥不选择序列,默认会下载全部序列
下⾯以 PO5F1_HUMAN 为例,下载对应的fasta序列来看看:
下载到的序列:
>sp|Q01860|PO5F1_HUMAN POU domain, class 5, transcription factor 1 OS=Homo sapiens OX=9606 GN=POU5F1 PE=1 SV=1巨各庄中学
MAGHLASDFAFSPPPGGGGDGPGGPEPGWVDPRTWLSFQGPPGGPGIGPGVGPGSEVWGI
元方是谁
PPCPPPYEFCGGMAYCGPQVGVGLVPQGGLETSQPEGEAGVGVESNSDGASPEPCTVTPG
AVKLEKEKLEQNPEESQDIKALQKELEQFAKLLKQKRITLGYTQADVGLTLGVLFGKVFS
QTTICRFEALQLSFKNMCKLRPLLQKWVEEADNNENLQEICKAETLVQARKRKRTSIENR
VRGNLENLFLQCPKPTLQQISHIAQQLGLEKDVVRVWFCNRRQKGKRSSSDYAQREDFEA
AGSPFSGGPVSFPLAPGPHFGTPGYGSPHFTALYSSVPFPEGEAFPPVSVTTLGSPMHSN
⾸先看 > 后的注释信息
sp:Swiss-Prot数据库的简称,也就是上⾯说的验证后的蛋⽩数据库
Q01860:UniProt ID号
PO5F1_HUMAN:是UniProt 的登录名
POU domain, class 5, transcription factor 1:蛋⽩质名称
OS=Homo sapiens:OS是Organism简称,Homo sapiens为⼈的拉丁⽂分类命名,也就是这是⼈的蛋⽩质
OX=9606:Organism Taxonomy,也就是物种分类数据库Taxonomy ID
GN=POU5F1:Gene name,基因名为POU5F1
PE=1:Protein Existence,蛋⽩质可靠性,对应5个数字,数字越⼩越可靠:
1:Experimental evidence at protein level
2:Experimental evidence at tranlevel
3:Protein inferred from homology
4:Protein predicted
5:Protein uncertain
SV=1:Sequence Version,序列版本号
UniProtKB/TrEMBL
在认识到序列数据的⽣成速度超过了Swiss-Prot的注释能⼒时,为了给不在Swiss-Prot中的那些蛋⽩质提供⾃动注释,UniProt创建了TrEMBL(翻译的EMBL核苷酸序列数据库)。在三⼤核酸数据库(EMBL-Bank/GenBank/DDBJ)中注释的编码序列都会被⾃动翻译并加⼊该数据库中。它也有来⾃PDB数据库的序列,以及Ensembl、Refeq和CCDS基因预测的序列。之前提到的PIR组织制作了蛋⽩质序列数据库(PIR-PSD)。
UniParc
UniProt Archive(UniParc)包含来⾃主要公共可⽤蛋⽩质序列数据库的所有蛋⽩质序列的⾮冗余数据集。蛋⽩质可能存在于⼏个不同的来源数据库中,并且在同⼀数据库中存在多个副本。 为了避免冗余,UniParc仅将每个唯⼀序列存储⼀次。 相同序列被合并,⽆论它们来⾃相同还是不同物种。 每个序列都有⼀个稳定且唯⼀的标识符(UPI),从⽽可以从不同的来源数据库中识别相同的蛋⽩质。
UniParc仅包含蛋⽩质序列,没有注释。 UniParc条⽬中的数据库交叉引⽤允许从源数据库检索有关该蛋⽩质的更多信息。 当源数据库中的序列发⽣更改时,UniParc将跟踪这些更改,并记录所有更改的历史记录。
UniRef
UniProt Reference Clusters(UniRef):聚类序列可显著减⼩数据库⼤⼩,从⽽加快序列搜索的速度。⽤于计算的蛋⽩质序列来⾃UniProtKB和部分UniParc记录的序列。UniRef100序列将相同的序列和序列⽚段(来⾃任何⽣物)合并到⼀个UniRef条⽬中,⽤于显⽰代表性蛋⽩质的序列。 使⽤CD-HIT算法对UniRef100序列进⾏聚类,并构建UniRef90和UniRef50。UniRef90和UniRef50分别代表每个簇由与最长序列分别具有⾄少90%或50%序列同⼀性的序列组成。

本文发布于:2024-09-22 09:31:48,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/321353.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:序列   数据库   信息
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议