国际上已建立许多生物分子公共数据库,包括核酸序列数据库、蛋白质序列数据库和生物大分子结构数据库等,他们负责收集、组织、管理和发布生物分子数据。并提供数据检索和基本的分析工具,向生物学研究人员提供大量有用的信息。 1.常用的序列、结构文件的格式
1.1序列文件
为使生物数据可以被计算机程序使用,生物数据必须表示为计算机读取的标准格式,常见的方法是存为文本文件。很多生物信息数据库和软件处理序列数据时要求有标准的格式对序列数据进行输入和输出,这要求我们有统一的核酸和蛋白质序列格式。
常用的三种格式是NBRF/PIR、FASTA和GDE。(考)
每种格式不公能够表示序列本身,还可以插入唯一的代码来识别序列,并对序列进行说明,
权重计算
包括序列的名称,序列所属物种,序列的长度及功能等。
NBRF/PIR格式;第一行以>P1开头是蛋白质序列>N1开头是核酸序列。分号后跟一个编号是序列的唯一标识号;_后是标识来源,之后是说明行,扩展名是”。Pir”or”.seq”。
FASTA格式:第一行以>开头但没有指明是蛋白质还是核酸序列后跑代码,接着注释,通常注释以“|”分开,第一行没有长度限制。FASTA格式允许以小写字母代表序列。扩展名为“.fasta”
GDE格式:与FAST格式基本相同,但是行首是%号,扩展名为“.gde”。
虽然三种格式的扩展名不同,可是其实质都是文本文件,所以我们可以用,windows下的写字板对文件进行阅读和编辑,不要使用word进行编辑会使文件出现多余的非法字符。
在序列中10个残基空一格,60个残基换一行,核酸残基有A、T、G、C、U五种碱基;蛋白质为二十种基本氨基酸符号:
氨基酸名称 | 英文缩写 | 简写 | 氨基酸名称 | 英文缩写 | 简写 |
甘氨酸 | Gly | G | 丝氨酸 | Ser | S |
丙氨酸 | Ala | A | 苏氨酸 | Thr | T |
缬氨酸 | Val | V | 天冬酰胺 | Asn | N |
异亮氨酸 | Ile | I | 谷酰胺 | Gln | Q |
亮氨酸 | Leu | L | 酪氨酸 | Try | Y |
苯丙氨酸 | Phe | F | 组氨酸 | His | H |
脯氨酸 | Pro | P | 天冬氨酸 | Asp | D |
甲硫氨酸 | Met | M | 谷氨酸 | Glu | E |
氨酸 | Trp | W | 赖氨酸 | Lys | 农村公共产品供给K |
扩大内需与经济增长半胱氨酸 | Cys | C | 清华首次亚洲登顶 精氨酸 | Arg | R |
| | | | | |
注意:序列中存在的特别符号
—代表不明长度的空位(gap);不明核酸用N,不明蛋白质是X;R代表G或A的嘌呤;Y代表T或C的嘧啶;K代表G或T(带酮基);M代表A或C(带氨基);S代表G或C氢键强;W代表A或T弱;(考)B代表G、T或C;D代表G、A或T;H代表A、C或T;V代表G、C或A;N代有A、G、C、T任意一种;*代表翻译结束。
1.2数据库格式
从GenBank flatfile 格式(GBFF)的角度介绍其中的序列数据,GBFF是GenBank数据库的基本信息单位,是最广泛表示生物序列格式之一,也是GenBank/EMBL/DDBJ三大数据库交换数据的格式。各个数据库中的格式基本相同,稍有差别,每个记录代表了一个单独的、连续的、带有注释的DNA或RNA片断或蛋白质序列。数据库的每一条目是一分纯文本文件,左端为识别标志,识别是完整英文。 GenBank和EMBL数据库行首识别标志
文成公主进藏教学设计EMBL识别标志 | GenBank识别标志 | 意义 |
ID | LOCUS | 标识字符串及短描述字 |
AC | ACCESSION | 接受号 |
DE | DEFINITION | 描述 |
OS | SOUCE | 生物来源 |
OC | ORGANISM | 生物体系分类谱系 |
DT | | 建立日期 |
KW | KEYWORDS | 关键字 |
RN | REFERENCE | 引文编号 |
RA | AUTHORS | 引文作者 |
RT | TITLE | 引文题目 |
RL | JOURNAL | 引文期刊 |
RX | | 交叉引用 |
DR | COMMENTS | 对其它数据库的引用 |
| MEDLINE | 引用MEDLINE号 |
XX | | 为阅读清晰加的空白 |
CC | COMMENT | 评注 |
NI | VERSION | 可更新的序列版本号 |
FH | FEATURES | 特性表头 |
FT | TEATURES | 特性表 |
| | |
SQ | | EMBL序列开始,后跟长度、字母 |
| BASE COUNT | GENBANK碱基数 |
| ORIGIN | GENBANK序列开始标志、为空行 |
∥ | ∥ | 序列结束标志 |
| | |
1.3 GBFF格式
GBFF格式分为三部分:第一部分是描述符,从第一行LOCUS行到ORIGIN行,包含了整个记录的信息;第二部分是物性表,从FEATURES行开始,包含了注释这一记录的特性,是条目的核心,中间使用一批关键字;第三部分是序列本身,以//符号结尾。融安县第二中学
第一部分:
第一行:LOCUS AF486325 477bp DNA linera VRL 12-AUG-2002
LOCUS:基因座位,某一特定的基因位于染体或其他载体所在位置,包括该基因的全部核苷酸序列。Locus名称由一个英文字母+数字组成总长不超过10个字符。在数据库中locus名称在数据库中必须是独立的、唯一的,以保证检索的不被重复。
477bp 长度
DNA:生物分子类型。有DNA、RNA、tRNA\mRNA\rRNA等
VRL:分类码 三个字母组成。以前按生物种类对序列分类,现在按序列的功能分类,EST、STS、CON类等。
12-AIG-2002 是数据的收录日期
DEFINITION行:用以总结记录的生物意义。
ACCESSION行:AF486325,是检索号,是从数据库中检索一个记录的主要关键词。所有GenBank的记录都只有一个单独的ACCESSION行,并且只有一个检索号,检索号采用两种编码:1+5(1个大写字母+5个数字)或2+6(两个大写字母+6个数字)。现行采用2+6格式。
VERSION行:AF486325.1,检索号、版本号。1为第1版。每次序列改变,版本号加1。GI号:是基因信息号(gene identifier),一个gi号对应一个核苷酸序列,序列改变gi号也改变
KEYWORDS行是历史的遗物,现在不在强调使用。
SOURCE行是生物体的来源,ORGANISM行是分类系谱,生物的拉丁文名称。
REFERENCE 1(bases 1to 477)参考文献,每个记录收录的文献,是序列的的出处依据,与MEDLINE有超级链接。
里边包含有AUTHORS,TITLE,JOURNAL,MEDLINE,PUBMED,分别是作者,主题,所属期刊,文献数据库的链接。
第二部分是特征部分
CDs 编码序列。Gene基因名称。Exon外显子。Intron内含子。
第三部分是序列内容
与序列格式一致。最后以//结尾。
1.3 GBFF格式中的序列标识问题
LOCUS 名称
LOCUS 出现在 GenBank 中的 LOCUS 行以及 DDBJ 记录( EMBLE 的 ID 行)是 GenBank 中最初的辨识器。就象基因 LOCUS 名称一样,它兼有唯一辨识器、功能记忆以及序列的组织源等功能。由于 LOCUS 行是有固定的格式, LOCUS 的名称限制在少于或等于 10 个数字或大写字母。在 GenBank 中,名字的前三个字母是组织码,剩下的字母是基因码(如: HUMHBB 代表人体,然而,当该区域的功能和原先设想的功能不同时, LOCUS 中的基因码会发生变化。这种不稳定性显然是复现中的一个问题。另一个问题是 GenBank 中的序列和组织随时间呈几何指数增长,这使得发明或修改记忆名称是不可能的。基于以上几点使得 LOCUS 名称在 GenBank 中不再作为有用的名称,尽管它将永远存在在数据的首行,这只是为了和以往的数据格式兼容。
序列号(accession)
由于使用 LOCUS (或 ID )名称作为对核酸序列唯一辨识器的困难,国际核酸序列数据库合作者们( DDBJ/EMBL/GenBank )引入了序列号。开始时它不具有生物意义是为了保证其相对的稳定性。它是由一个大写字母和五个数字组成。(新的序列号是由两个大写字
母和六个数字组成。)首字母是为了分配到不同的数据库以便序列号对于不同的数据库是唯一的。
序列号是对 LOCUS/ID 号的改进,但实际使用中,问题和不足是显然的。例如,当序列对于时间是稳定时,许多使用者发现用相同的序列号查出的序列并不总是相同的。这是因为序列号标明了整个数据库的记录,一旦记录被修改了(或者说从开始部分插入了 1000bp )的时候,序列号不变(只是相同记录的升级版)。如果我们分析起始序列和记录序列 U00001 的第 100 个位置假设是与蛋白质相关的位点,升级后一个完全不同的序列将在第 100 个位置上。
序列号出现在 GenBank 的 ACCESSION 行上。该行的第一个序列号称为基本序列号,它是复现该记录的关键,大部分记录只有这个序列号。第二级序列号是为了给该记录提供历史信息。例如如果 U00001 和 U00002 是同一个记录的不同版本,则 U00002 将成为一个新记录的基本序列号, U00001 是二级序列号。在实际的标准中 U00001 记录将从 GenBank 中删除因为旧的记录已经过时,二级序列号将取代旧的成为用户需要查询的记录。这时应该标注二级序列号不是指同一对象,所以用户应仔细检查它们的注释。(数据
库的不同,甚至是同一数据库的不同时间)使用二级序列号也有自己的问题,这是因为没有足够的信息去确定怎样发生和为什么会发生。但不管怎样,序列号仍然是 DDBJ/EMBL/GenBank 记录恢复中最可控最稳定的方法。
Gi 号
1992 年 NCBI 开始对所有 Entrez 中的序列使用基因信息号( gi ),其中包含从 DDBJ/EMBL/GenBank 中的核酸序列、根据 CDS 特征翻译的蛋白质序列以及从 SWISS-PROT 、 PIR 、 PRE 、 PDB 、专利以及其它得到的蛋白质序列等。 Gi 是由原数据库提供的另外的 SeqId 。尽管由于原数据库的不同 SeqId 的形式和意义不同,但 gi 在意义和形式上对不同源数据库是相同的。
在形式上,它只是简单的整数(所以有时被称为 GI 号)。它只是一些特定序列的辨识器。假定一个序列加入 GenBank ,给定序列号 U00001 。当该序列在 NCBI 所内部处理时,它加入所谓的 ID 数据库。 ID 确认以前从未见过 U00001 ,就给它一个 gi 号 54 。当提交器通过改变出处修改记录时, U00001 又加入 ID 。 ID 认出该记录出现过,恢复原先的 U00001 和新记录进行比较,如果完全相同,则给该记录 gi 号 54 ;如果不相同,即使
只有一对碱基不同,则给新 gi 号 88 。然而因为原数据库的意义,新序列仍保持序列号 U00001 。这时 ID 标识旧记录( gi54 )的替换时间,并将它加入历史指示它被 gi88 的记录替代。 ID 也加入历史 gi88 指出它替代了 gi54 。