NCBI简介

第1页：问题1：如何到一个感兴趣的基因并确定其结构？

编者：人类基因组计划将于2003年完成，人类基因组数据库成为人类的巨大财富。它对所有公众开放，每个人都有权免费使用这些强大的资源，从而成为生物医学研究者必不可少的工具。但是，面对日益增长的浩瀚的数据海洋，怎样有效地利用它而不至于迷失其中，是一个严峻的问题。据wellcome Trust去年的一项调查，使用序列数据库的研究人员中，只有一半的人能够完全熟悉基因组数据库提供的服务。针对这种情况，今年9月份，Nature genetics特别出了一本“人类基因组用户指南”，以提问的形式详细讲解了人类基因组数据库的结构和使用方法，带领我们一步步深入其中，获取有用的信息。它是我们开启人类基因组数据宝库的一把金钥匙。我们将节选一些内容介绍给读者，希望对大家有所帮助。读者也可以上Nature杂志网站（www.nature）看原文，这本用户指南的电子版是免费的。

问题1：如何到一个感兴趣的基因并确定其结构？一旦基因在图谱上被定位，又如何方便地检测到同一区域的其它基因？

可借此问题介绍3个主要的基因组浏览器。将利用所有3个站点对基因ADAM2进行检测，使读者能对每个站点提供的信息之间的细微的区别有一个正确的认识。

1.国立生物技术信息中心(NCBI)图谱浏览器(Map Viewer)可以通过NCBI主页进入NCBI的人类图谱浏览器，网址为bi.v/。点击右栏标有“Human map viewer”的超级链接即可进入图谱浏览器的主页。页面上端的符号标明此为Build 29，或NCBI人类基因组的第29次数据装配。Build 29是以2002年4月5日的序列数据为基础而建立的。在它之前的基因组装配称为Build 28，以准晶2001年12月24日的序列数据为基础而建立。

想要寻图谱上的任何信息，比如基因符号、基因库的登录号、标记物名称或疾病名称，只需在“Search for”窗口输入相应的术语名，然后点击“Find”即可。例如，输入“ADAM2”然后点“Find”。而染体栏“on chromosome(s)”的窗口会空出以进行基于文本的查。

结果，浏览器的页面显示了所有人类染体的示意图，并用指针指出ADAM2在第8号染体短臂上的位置。搜寻结果表明基因存在于两种NCBI图谱上，Genes_cyto和Genes_seq。Genes_cyto指细胞遗传学图谱，而Genes_seq指序列图谱，点击任易一种链接将打开相应的图谱。

这方面及其它NCBI图谱的详细介绍可通过bi.v/PMGifs/Genomes/humansearch.html.进行查。若需要了解

关于ADAM2更多的情况包括所有可利用的图谱，点击“Map element”内相应的选项（本例为ADAM2），将会显示ADAM2及少数8p11.2上的相邻序列。三种图谱都将在本视图显示并将在下面进行详细说明，其它例子所用的图谱可通过Maps & Options附加到本视图。

最右边的图谱为主要图谱，此图谱提供了最详细的资料。本例中的主要图谱即为Genes_seq（基因序列）图谱，描述了ADAM2的内含子/外显子组成，是通过ADAM2 mRNA在基因组上的序列对齐比较（alignment）而建立的。此基因有14个外显子。在ADAM2基因符号旁的箭头（粉红区域内）显示了基因转录的方向。基因符号本身与LocusLink相链接，这是一类NCBI资源，可提供有关此基因的大量信息，包括别名、核苷酸及蛋白质序列，并与其它资源相链接（见问题10）。基因符号右侧的链接指向了有关此基因的附加信息。

sv,或称序列浏览，表明基因在基因组克隆重叠（contig）上的位置，包括核酸和编码的蛋白质序列。

ev给使用者提供证据浏览，显示了支持某特定基因模型的生物学证据。这个视图显示所有的标准序列模型（RefSeq）、基因库mRNAs（GenBank mRNAs）、转录子（无论注解的、已知的或潜在的）及与基因组contig进行序列对齐比较的表达序列标签（ESTs）。证据浏览更多的信息可通过点击任意证据浏览页上的Evidence Viewer Help链接进入NCBI网页查询。

hm为NCBI的人-小鼠同源图谱的链接，显示人类和小鼠之间同源的基因组序列。

seq允许使用者以文本格式重新获取某一区域的基因组序列,序列显示的区域可很容易地进行替换。

mm为Model Maker的链接，显示当GenBank mRNAs、ESTs及基因预测与基因组序列对齐比较时的外显子。随后使用者即可选择特定的外显子创建一个用户化的基因模式。有关Model Maker的更多的信息可通过点击任一mm页上的“help”栏进入NCBI主页获得。

UniG_Hs图谱显示已经与基因组进行序列对齐比较的人类UniGene簇。灰的柱状图描述

了比对的ESTs的数目，而蓝线条显示了UniGene簇在基因组中的定位。深蓝线是进行序列对齐比较的区域（即外显子），浅蓝划线则表示潜在的内含子。在此例中UniGene簇Hs.177959在基因组中的定位跟随着ADAM2和所有的外显子。

Genes_cyto图谱显示了基因在细胞遗传学图谱中的位置，橙条带显示基因位置。尽管ADAM2已被很好地定位，并以一条短线表现出来，其它的基因比如它后面一条长线上成组的基因也被按照细胞遗传学定位于第8号染体上较宽的区域。

点击蓝工具条上的缩放控制区可进行缩小，利于使用者观察第8号染体较大的区域。缩小一个水平可显示1/100的染体区域，在此区域共有20条基因，20条基因均可被显示。ADAM2基因在所有图谱上的区域均以红突出。在Genes_seq图谱上ADAM2定位于

ADAM18及LOC206849之间。

2. UCSC(University of California,Santa Cruz)基因组浏览器

UCSC基因组浏览器的主页为genome.ucsc.edu/。目前，UCSC不仅提供最新版的小鼠和人类基因组数据，同时也提供许多较早的汇编。使用基因组浏览器时，先在窗口上方蓝工具条的下拉式菜单中选择相应的生物体（本例为Human），然后点击标有Browser的链接。在结果页，选择相应的人类数据汇编版本进行阅读。2001年8月的基因组浏览器建立于UCSC使用在当时所能获得的序列数据建立的人类基因组汇编。2001年12月的浏览器显示了对NCBI的人类基因组build 28的注解。而2002年4月的浏览器显示了对NCBI的build 29的注解。因为最近的这个人类资料汇编的注解不及2001年12月的汇编全面，

所以本文所列举的例子来自较早的汇编。在下拉式菜单中选择“Dec. 2001”从数据库获得汇编资料。

查询所支持的类型列于文本输入框下面。在标有“position”处输入“ADAM2”然后点击“Submit”项。查的结果以两种类别显示，分别为“Known Genes”和“mRNA Associated Search Results”。标有“Known Genes”的部分显示了将NCBI的参考mRNA序列定位到基因组中。“mRNA Associated Search Results”则代表了GenBank的其它mRNA序列定位到基因组中。点击“Known Genes”与ADAM2的链接可见ADAM2 mRNA参考序列在基因组的状况（NM_001464）。

放大视图显示第8号染体基因组序列从36234934到36280132碱基的区域，位于8p12。

标记为Known Genes (来自RefSeq)的蓝路径显示已知基因的内含子和外显子结构。垂直框表示外显子而水平线则为内含子。ADAM2基因似乎具有14个外显子，转录的方向由内含子上的箭头示意。标记有Acembly Gene Predictions, Ensembl Gene Predictions和Fgenesh++ Gene Predictions的路径为基因预测的结果（见问题7）。其它数据库核酸序列的对齐比较显示在GenBank的Human mRNAs、spliced EST、UniGene和来自于GenBank路径中的Nonhuman mRNAs。小鼠和Tetraodon基因序列翻译后的序列对齐比较在小鼠和鱼BLAT路径内。显示单核苷酸多态性(SNPs)、重复元件及微阵排列数据的路径列于页面底部。关于每个路径附加的细节可通过选择位于底部的Track Controls中的路径名获得。

查看ADAM2前后基因序列，点击位于右上角的“zoom out”框进行缩小，ADAM2位于TEM5和ADAM18之间。

3. Ensembl网站Ensembl项目网站

（/）为四个物种：人类、小鼠、斑马鱼（zebrafish）和蚊子提供基因组浏览器。点击“Human”以查看人类基因组的主要条目。目前人类Ensembl的版本为6.28.1，是以NCBI基因组Build 28为基础而建立的。欲进行搜索可在文本框中输入“ADAM2”并通过在下拉式菜单中选择“Gene”以限定搜索范围，点击上方标有“Lookup”的按钮，点击与ADAM2基因的链接可返回单独的结果。

点击与ADAM2的链接可重新回到GeneView窗口，此页包含四个部分的数据，第一部份为ADAM2的概貌，包括基因登录号，蛋白质结构域和家族的相关链接。链接Ensembl查看高

度同源的小鼠序列可在“Homology Matches”部分获得，以后的例子会在这方面作出更详细的介绍。GeneView窗的第二部份，提供有关基因转录子的信息，cDNA序列被列出，其内含子和外显子结构以图表表示，同时在此基因前后位置附近有限数量的基因也以图表形式表示出来。外显子序列在GeneView中的第三部份显示，剪接位点显示于第四部份。如果预计基因具有不止一个转录子，则每个转录子拥有各自的转录产物、外显子和剪接位点部分。

ADAM2完整的前后基因组序列内容可通过返回GeneView的第一部份和点击“Genomic Location”框中的链接来查看。所出现的ContigView框的顶端部分描述了染体，其中最为关键的部分以红标示。此浏览显示了此基因的基因组前后序列，包括染体条带、contigs、标志和在图上靠近8p12的基因。点击任意这些项目可显示相关内容，感兴趣的部分在DNA图谱上以红标记。由Ensembl注释的ADAM2附近的基因为Q96KB2和ADAM18。

ContigView页的底部即Detailed View，是一个放大了的区域，标示出已经定位于此区域的人类基因组所有特征。Overview和Detailed View之间的浏览器按钮将视图从左至右移动以及放大和缩小。所显示的内容可通过选择“Features”的下拉式菜单进行移动以选取需要查看的内容。

所显示的内容为默认值，DNA(contigs)图谱将正链(上方)上的条目从反链(下方)分开，此处反链的唯一特征为GENSCAN基因预测程序提出（见问题7）的单一的Genscan转录子。正链表现出了5种特征。从底部开始，ADAM2转录子显示为红，提示其为一个已知的转录子，对应于接近全长的cDNA序列、蛋白质序列或在公共数据库中两者均可得到的转录子。黑转录子通过EST或蛋白质序列的类似性预测。“EST Transcr”链接于独立的ESTs序

列对齐比较，而靠近顶端的UniGene路径显示了UniGene簇。正链上的Genscan模式包含了在已知的转录子中发现的外显子。“Proteins and Human proteins”框指出与本版本的基因组进行序列对齐比较的蛋白质序列。而“NCBI Transcr”链接于NCBI Map Viewer。将计算机鼠标放置于任一特征位置则可显示此特征名称，并可链接到更为详细的信息。

NCBI、UCSC及Ensembl有时对同一基因使用不同的符号，所以通过不同的浏览器获得的信息难以进行比较，此外，这3个站点保留了独立的注解途径，并且都未尝试将相同的mRNA序列排列到基因组中。NCBI目前显示build 29, Ensembl显示build28，而UCSC则提供build 28（2001.12.）和build 29（2002.04.）。尽管在本指南中所有UCSC的例子都将推荐使用注解较好的build 28。因为两种汇编数据之间存在的差异，在NCBI、UCSC及Ensembl中显示的数据就存在极小的差别，但在这3个站点中自由地穿梭仍然是很容易的。例如NCBI可通过LocusLink人类基因入口上方的黑框链接UCSC和Ensembl，而Ensembl指导NCBI和UCSC使用者通过“Jump to”链接于它的“ContigView”。UCSC基因组浏览器的一些版本有与Ensembl和NCBI的Map Viewer的链接，链接点位于浏览页顶部的蓝框内。世界田径锦标赛

问题2：如何在DNA序列中到序列标签位点（ESTs）？

NCBI的“electronic PCR（e-PCR）”工具是UniSTS资源库的一部分，可以用来寻一段目的DNA片段中的STS标记物。UniSTS (v/genome/sts/)能提供所有有关STS标记物的资料，包括引物序列、产物大小、作图信息和别名。与之相链接的其他NCBI资源如Entrez、LocusLink和MapViewer也同样提供这些信息。e-PCR通过搜寻具有正确的方向和间距的序列且这个序列能代表用于扩增STSs的PCR引物，来寻一段DNA序列中潜在的STSs。

先在NCBI主页上（bi.v/师宗三中）到e-PCR的主页，然后在右手栏点击“Electronic PCR”链接。再在e-PCR主页的上端大的文本框内粘贴上目的基因序列或键入

登陆号（accession number）。例如某个序列的登录号是AF288398，结果显示该序列只包含一个STS：stSG47693（或RH92759），位于此序列的2102和2232核苷之间。

当点击“Marker”下标记物的名称时，从UniSTS中出现STS的详细资料。引物的信息、PCR产物大小以及标记物的替代名称也出现在主页的上端。在不同的图谱中，STSs常有不同的名称。在“Cross-references”栏目下的LocusLink、UniGene和the Genebridge 4中，将显示这个STS的定位图。在“mapping information”部分包含能链接到NCBI的“MapViewer”浏览器。在主页的下端是“Electronic PCR results”，显示了其他序列，包括contigs（重叠）、mRNAs和包含这个STS标记物的ESTs。

为了在所有图谱中看到STS标记物及其基因组的状况，则在“Mapping Information”部分的

上端点击链接标志“MapViewer”，这个图谱浏览器会出现两张图谱。请注意，在这个视窗里，STS stSG47693被称为RH92759（用粉红强调）。99–Genebridge 4 (GM99_GB4，位于左边)基因图谱上有46000个STS标记被国际放射杂交协会定位到GB4杂交面板上。STS图谱（位于右边）显示了如何使用e-PCR将STSs序列放置到基因组序列组装。灰线将两个图谱的标记物连接起来，而红线条显示STS RH92759在两张图谱中的位置。在这个区域，STS图谱中共有211个STSs，但在这个视窗里只标记了20个。在STS图谱的右边，点击绿和黄圆圈会出现STS标记物的图谱。通过左边工具条的缩放工具，可以放大或缩小这个视窗。

问题3：定位克隆计划是为了寻人类疾病基因，已有的连锁分析资料显示目的基因位于两个序列标签位点之间，如何识别该区域已知的或预测的侯选基因？哪些BAC克隆含有这些特殊区域？

开始这项研究首先必须浏览UCSC Genome Browse网页（genome.ucsc.edu/）。

然后在该网页边缘蓝下拉菜单从Organism中选择Human这个词。点击Browser，在the Human Genome Browser Gateway网页上，改变assembly成Dec. 2001。要搜寻哪两个序列标签之间的基因，就在search box中输入这两个序列标签，用分号分开。例如，搜寻序列标签D10S1676和D10S1675之间的基因，在the search box中输入D10S1676；D10S1675，然后点击Submit。因为这些标记定位在基因组中专一的位置，所以这些标记之间的基因很快会出现。

STS Marker路径（track）上蓝的道表示遗传图谱标记，黑的道表示放射杂交图谱标记。点击STS Markers，就会展开这个路径，列出每一个独立标记。目的标记D10S1676和D10S1675在这里使用它们的替代名称(分别为AFMA232YH9和AFMA230VA9)，并分别位于这个区间的顶部和底部。

在Known Genes路径内显示和列出所有已知的基因名单。这些编码蛋白质的基因来源于NCBI汇编的RefSeq mRNA序列并使用BLAT程序与基因组装配进行系列对齐比较。在该网页搜寻基因名单或其它特征可点击顶端的蓝条上的Tables l链接。关于特殊基因比如（MGMT）的更多的信息，点击这个基因的符号就会得到一系列额外的链接，如在线人类孟德尔遗传规律，PubMed、GeneCards和小鼠基因组信息(MGI)。

国家节能中心许多路径包括Acembly Genes、Ensembl Genes和Fgenesh++ Genes可以显示预测的基因（参见问题7）。如果想看上述任何种类的全部特征，点击屏幕左边该路径的标题。欲观察这些路径的简要描述以及其它没有提及的特征，点击该路径左边灰的方框或向下滚动到Track Controls，再点击你所感兴趣的标题。基因预测程序将在问题7中说明。通过点击reset all按钮使浏览器默认选择。

想要观察用于测序的BAC克隆，回到Genome browser页面，点击屏幕左边的Coverage展开该路径。在这里分别列出了各个BAC克隆，完成的区域用黑表示，草图区域以不同形状的灰阴影表示。想要获得更详细的信息如大小和特异克隆覆盖的序列则点击克隆号如AL355529.21。在这个网页点击该克隆的登录号链接到NCBI Entrez，有关于这个克隆的摘要说明。在Entrez文挡摘要网页点击AL355529可以观察到全部GenBank的条目。

根据NCBI的命名协定，该克隆来自RP11文库，并已经被命名为85C15。RP11是NCBI为RPCI-11指定的名称，由Roswell Park Cancer Institute制备，是常用的人类BAC文库。有关基因组序列文库命名协定的更多的信息可以在NCBI的Clone Registry查阅bi.v/genome/clone/nomenclature.shtml。还可以在bi.v/genome/clone/ordering.html网页上获得订购克隆的信息。

NCBI网站只要两个标记位于主图谱上，就可以在NCBI MapViewer上直接观察两个标记之间的区域。例如，主图谱是细胞遗传图，可以搜寻22号染体上22q12.1和22q13.2之间的区域；如果主图谱是Gene_Seq，可以到两个基因之间的区域。

打开bi.v/网页，点击网页右边的Human map viewer，可以进入the Map Viewer网页。若要观察同一个染体上多个位点，在search box中输入的搜寻条件应该用“OR”分开。例如看两个序列标签D10S1676和D10S1675之间的区域，在search box中输入D10S1676 OR D10S1675，然后单击FIND。搜寻结果页面顶端显示染体图上有两个红的记号，表明这两个标记在10号染体是紧密靠近的。在搜寻结果网页底部，显示两个标记的别名(AFMA232YH9和AFMA230VA9)以及在图谱上的位置。想要同时观察

两个标记，在染体图表中点击chromosome 10，显示D10S1676和D10S1675周围区域，用粉红突出原来的搜寻。红线将两个标记在不同图谱中的位置连接起来。

Maps & Options链接位于该网页顶端的水平蓝区，该链接可以让用户按照自己的要求制定显示的图谱和区域。例如，观察该区域已知的和预测的基因，还有作为测序来源的BAC克隆。打开Maps & Options窗口，首先在Maps Displayed框中删除除了Gene和STS外的其它所有图谱。方法是用鼠标加亮选中的图谱并选择remove。然后在Available Maps框中选择并添加Transcript (RNA)、GenomeScan、Component和Contig图，再选择“ADD”。

用鼠标加亮STS图使它成为支配的图谱，然后选择Make Master/Move to Bottom。在Reg

ion Shown框中输入这两个标记名称，就可以使图中只显示D10S1676和D10S1675之间的STSs。点击Apply可看到排列图，在某种情况下，选择的网页大小比默认值大20可以在窗口中浏览到更多的信息。

在Maps & Options窗口显示的图谱很详细。STS右边的绿点显示了遗传标记在所有图谱的位置。这是10号染体上相当长的区域，并不是每一个STS标记都列出来，尽管在该区域有611个STSs，但该页只显示20个。对每一个已知基因，基因序列图谱（Genes_Seq map）显示所有已经被绘制到基因组中的外显子。除非基因有不同的剪切形式，对于每个已知mRNAs的基因，其外显子也在RNA图（转录图）上显示，在Genes_Seq和RNA图谱上将是一样的。GScan (GenomeScan)图显示NCBI的基因预测，所有这些已知或预测的基因都是疾病侯选基因。

NCBI组装的重叠（contigs）也叫作NT contigs，可以在Contig图谱中寻。蓝的片段来自已完成的序列，橙来源于草图。这些contigs通过独特的、在构成图[Comp(Component) map]中显示的GenBank序列条目构建而成。草图HTG记录（1期和2期，见bi.v/HTGS/）表现橙而完成的HTG为蓝。大部分GenBank序列来源于BAC克隆。装配成contigs的BAC克隆清晰可见。只要点击登录号与Entrez链接，你可以得到该条目更为详细的信息，包括克隆名。如果Comp图是支配图谱，那么克隆名可以直接在MapViewer看到。点击图谱名称附近的蓝箭头可很快生成主图谱。

因为是染体放大图，所以单个基因和GenBank条目很难看到。利用蓝工具条控制可提供某区域更多的细节。另外，点击左边工具条Data As Table View可到全部的资料，包括隐藏在这个窗口中的一个基于文本的表格。

SIDEBAR网站你也可以应用Ensembl的MapView搜寻两个STS标记之间的区域。打开Ensembl Human Genome Browser（/Homo_sapiens/），点击任一染体组型进入MapView，在Jump to Contigview中键入遗传标记名称。如想利用Ensembl得到指定的染体区域的基因目录（或其它注释），在ContigView窗口点击Export GeneList。

[b]问题4：使用者希望到两个序列标签位点（STSs）之间所有单核苷酸的多态性。任何单核苷酸多态性都处于基因的编码区域吗？在哪里可以到有关这些基因的其它功能的信息？[b]

搜寻从NCBI单核苷酸多态性数据库（dbSNP）的网址（bi.v/SNP）

开始进行。在这一页面上有一系列的连接可供使用，用户可以用数据库自身的信息，也可以使用关于基因或基因座的信息进行搜索。

对于这项搜索，假定所关心的区域是已知的而且限定在两个STS标记RH70674和G32133之间。滚动到页面底部标有“Between Markers”的部分。在两个文本框中键入STS标记物的名称“RH70674”和“G32133”，然后点击“Submit STS Markers”。这将会显示所关心区域内总共81个SNP中的1～25个。在页码框中键入“3”然后点击“Display”进入第3页。

搜寻结果显示的页面说明了在典型的dbSNP页面上所能到的大多数页面类型。在该表格中，从左边开始，第一栏给出了各个dbSNP簇的标识符（全部以“rs”开始）。第二栏，用Map标识，显示出某一特定的SNP是否已经被定位到基因组中的唯一位点（通过一个绿

箭头显示，就像第一行的例子）还是多位点（这里没有显示）。

之后的几栏，标识为Gene，指出这些SNP是否与一些详细的特征相关，例如基因、mRNA或者编码区。这3栏（L、T和C）中每一行，或者以亮度显示或者以灰显示，整齐排列。

如果L（locus）显示蓝，则标记物的一部分或者全部位置位于基因5′端的2kb内或者在基因的3′端500bp内。

如果T（Transcript）显示绿，部分或者所有标记物的位置与一个已知的mRNA重叠。然而这并不意味着SNP标记物一定落在编码区内。

如果C（Codon）显示橙，部分或者所有的标记物的位置与一个编码区重叠。

下一栏，标识为Het，显示观察到的标记物的平均杂合度，范围是0～100%。当读数是0时意味着该特异性标记物没有任何信息，然而粉红条带显示标记物的置信区间是95%。Validation栏显示该标记是否已经确认（用星号表示）或者尚未确认（用浅蓝盒表示）。确认的标记已经通过独立的序列再分析来核实。所有尚未确认的标记以3个蓝框来表示，根据顶部栏的刻度，意味着该标记得到确认的几率大于95%。这个图形指出这个标记物是真的概率（成功率被定义为1减去假阳性率）。

在倒数第二栏，符号TT表示特定的基因型中存在这个标记。最后，Linkout Avail栏表示哪一个标记被连接到了其它的数据库。这一栏中P表示这种变异已经被定位到一个已知的蛋白质结构。如果要完全描述所有特征，只要点击这一栏之上的标题即可。

回到原来的问题上，如橙的C所显示，在这一页面中显示的其中一个SNP确实落在编码区。如果要得到有关任一特定SNP的更多信息，只要点击超级链接SNP簇的身份标识符即可。例如，点击rs1059133，产生一个新的页面，显示出该SNP的所有信息。在标有“Submitter records for this RefSNP Cluster”的标题下面，是一张一个个SNP的列表（在本例中只有一个SNP），是由单个SNP成簇集中在一起形成这种单一的参照SNP的。SNP的序列在下一个标题中出现。在标有“NCBI Resource Links”的标题下，是与这个SNP相关

的GenBank（基因库）和NCBI RefSeq（参考序列条目）。进一步向下滚动到SNP页面的底部，在“LocusLink Analysis”部分显示了这个SNP所落在的编码区的基因（ADAM2，disintegrin和金属蛋白酶结构域2）。SNP的等位基因是G/C，一个导致组氨酸残基替代天冬氨酸残基的非同义改变。这里也提供了其它的链接，如NCBI Map Viewer、Ensembl map和UCSC基因组装配（标有Integrated Maps的部分）。标有Variation Summary and Validation Summary的部分（没有显示）给出了这一特定SNP的原始资料。

要回答这一问题的最后部分需要从dbSNP转到LocusLink主页。要达到这个目的，需要点击该页面LocusLink标题下的ADAM2。这将带领使用者到达ADAM2的LocusLink页面，并且在页面顶端提供大量到达NCBI和相关资源的点击点。通过位于页面左边的位置连接处的FAQ连接可以到更多的信息。通过简单浏览LocusLink，使用者可以看到ADAM2属于一个细胞膜锚锭蛋白质的家族，该家族的蛋白与受精、肌肉发育和神经发生等各种过程有关。

使用者经常忽视的信息来源是OMIM。这是一个关于人类基因和遗传性疾病目录的电子版，由Johns Hopkins大学的Victor McKusick制作。OMIM向使用者提供了来自已发表的大多数人类遗传性疾病文献的简洁原文信息以及遗传基础，并且可以链接到原文献上。OMIM条目中包含的信息有基因符号、疾病的其它名称、疾病的说明（包括临床、生物化学和细胞遗传学的特征）以及遗传模式的详细资料（包括遗传图谱信息）和临床梗概的细节。这些条目是通过手工整理过的，以保证摘要是最新的并且是准确的。尽管OMIM可以直接进行搜索，然而许多LocusLink入口也连接到OMIM中记录的基因。ADAM2蛋白的OMIM条目页面在图中显示。这个页面可以超级链接到PubMed、GenBank和其它的相关数据库。

问题5：已知一段mRNA序列，怎样在人类基因组图谱中到对应的DNA片段？一旦它的位置确定，如何到选择性剪接位点位置？

举例说明如下。一个mRNA片段在基因库的登录号为BG334944。首先，登录bi.v/Entrez/，在NCBI的Entrez界面到这个EST的核苷酸序列。在页面上部的对话框中键入登录号BG334944，下拉菜单中选择Nucleotide，点击Go。结果页面显示有关登录号一时性起BG334944的条目。为了在FASTA格式（一种生物学信息程序的常用格式）到这个序列，在这个页面上把下拉菜单变成FASTA后点击Text，产生一个包含FASTA格式的序列的新页面，然后将序列拷贝下来。

为了确定这段序列在基因组中的位置，使用UCSC的BLAT工具。登录genome.ucsc.edu/，将你的网页浏览器指到UCSC基因组浏览器的主页开始搜索。在页面一侧的蓝框里，从Organism下拉菜单中选择Human，然后点击Blat。然后将从上面Entrez得到的FASTA格式的序列粘贴到BLAT搜索页面的大的文本框上。把Freeze下拉菜单

变成Dec. 2001，将Query Type下拉菜单变成DNA，然后点击Submit。服务器将很快出搜索结果：唯一与之匹配的是一段长为636bp的片段，位于9号染体上，为正链。

为了得到更加详细的资料，在页面上条目的左边点击details链接，得到一个长的页面，界面包含三个部分：mRNA序列(上部)，基因组序列(中部)以及和基因组序列相对应的mRNA序列对齐比较。在序列对齐比较（alignment）图中，和cDNA及基因组序列匹配的碱基是用暗绿的大写字母标记的。缺口用稍低的黑体字标记。淡蓝稍高的碱基标记的是缺口两边序列对齐比较区域的结合部分，常常是剪接位点。

返回BLAT摘要页面搜索，点击browser。这将产生一个用图解说明特异性的mRNA宝钢在线序列在对应的基因组序列上的位置。标记Chromosome Band（染体带）的路径提示mRNA位于

9q34.11。询问序列本身出现在标记有Your Sequence from BLAT Search的直线上。页面上显示的序列是不连续的：相似的区域显示为垂直线，缺口显示为细的水平线，排列的方向由箭头的方向表示。被查询的EST的比对排列区域对应于已知基因的外显子立即显示在线条的下面(Known Genes,在这里是RAB9P40)。在UCSC的搜索框内键入EST的名称BG334944，将会产生一个与上述点击browser相似的结果。这个例子的部分目的是阐述BLAT的用途。

大约图谱向下到一半的位置是标记着Human ESTs That Have Been Spliced的路径（人类已经剪接的ESTs）。因为所有的ESTs都浓缩在一条线上，这个路径最初显示比较密集，所有的EST密集排列在一条直线上。点击该路径标记，可以看到这一区域内与基因组比对排列的所有EST，这些EST可能代表了具有不同剪接位点的转录物（抄本）。这将扩展这个图形的区域，所以每一个EST占据一条直线。ESTs的长度是可变的，但是大部分包含已知基因的相同的外显子并且（大概）以同样的方式剪接。仔细地检查并与已知基因相比较，

提示有一些ESTs缺失了一个或多个外显子。留心查看标记了BE798864和W52533的线条，前者缺失第5外显子，而后者则缺失第4、5、6外显子。

通过点击特定的线条可以考察任何ESTs的详细资料。比如，点击BE798864所在的线条，可以得到这个EST的详细资料页面。这个EST与基因组序列有99.8%的同源性。在标记有EST/Genomic Alignments区域点击任何超链接线条都会返回到实际上的一个碱基挨一个碱基的排列。EST的末端可以不同，但是在推测有外显子缺失附近区域的序列是相同的。

当mRNA改变其编码的野生型蛋白质序列的时候，这个mRNA很可能存在生物学意义上的的选择性剪接。为了确定EST BE798864是否会编码不同于已知基因(RAB9P40)编码的蛋白质，我们可以用NCBI的BLAST 2 Sequences工具直接比较这两个序列。首先，打开一

个新的浏览器窗口，因为上面的搜索资料在这儿也需要，当需要使用多个网页工具时，这样将避免过分使用浏览器的前进和后退键。然后从bi.v/BLAST登录BLAST主页。在Pairwise BLAST标题下选择BLAST 2 Sequences。在这个页面上，用户可以仅仅输入登录号而不用输入剪切和粘贴的序列进入对话框。

对于EST来说，仅在标有Enter accession or GI for Sequence 1的对话框中输入EST的登录号(BE798864)。获得RAB9P40的登录号需要返回前面的图解，然后点击基因路径。一旦这些都做好了，在标有Enter accession or GI for Sequence 2的对话框中输入基因的登录号(NM_005833)。确认Program下拉菜单设定在blastn（比较两个核苷酸序列），然后点击页面底部的Align键就会得到所示的比对排列图。序列1 (the EST)默认为查询序列，而序列2（已知基因）则被默认为目标序列。起始于第三行末端排列的已知基因翻译的蛋白序列也显示出来，检查这些排列发现这个EST缺失153个核苷酸（该mRNA第360–512核苷酸），对应于BE798864缺失的第5外显子。这个缺口在开放读码框架内，所以这个EST可

以编码与已知基因具同源性但稍短的蛋白质。

由于EST序列测定的特点决定，ESTs经常包含测序错配率远远高于已经完成的基因组序列甚而基因组草图序列的错配率。但令人鼓舞的是EST BE798864在基因组序列上排列完好，其编码的蛋白质可能与已知基因编码的蛋白质具有相同的结构。另外，从UCSC图解来看，这个区域的其他ESTs如BE779110也会引起RAB9P40的第5外显子缺失。但是，所有这些预测都必须通过上面讲的EST–genomic排列质量来检验。最后的选择性剪接的证据当然还必须在实验室中才能到。

本文发布于:2024-09-23 01:31:39，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/570837.html

上一篇：人类基因组参考序列及基本注释数据下载

下一篇：生物信息学中的基因注释方法

标签：序列基因显示基因组标记图谱点击

留言与评论（共有 0 条评论）