实验七核酸序列分析(附加部分)

实验七核酸序列分析（附加部分）

1、发现核酸序列中的蛋白质编码区域。

1）网络证件利用NCBI ORF Finder。bi.v/gorf/gorf.html

A、在NCBI上查AC号为AE008569的核酸记录，思考：1、这个序列的名称？2、这个序列所属的生物学分类？

B、进入OFR Finder，首先在页面下方的Genetic codes 下拉菜单中浏览现有的22种遗传密码选择项（这里我们只使用默认的standard code），利用AC号或其裸序列（想一想怎么能得到）进行ORF finding。

C、在结果显示页面中，按照序列的正向+1、+2、+3以及反向的-1、-2、-3进行的六框翻译结果以图形的方式显示在页面中。利用默认的100bp阈值所发现的各框内的ORF以绿条状显示。同时，按照六框内所有发现的ORF的大小顺序，在页面的右侧有一个列表，分别显示了ORF的翻译框、在基因组上的位置以及ORF的长度。你可以改变ORF鉴别中的长度阈值（50，100，300），点击Redraw重新进行计算。

D、保温包点击图形上的绿条框，就可以对这个ORF进行检查（当然也可以点击右侧的ORF列表），页面上会显示预测的氨基酸序列，同时页面上还嵌入了BLAST程序以及NCBI的有关序列数据库以便于发现与此ORF相似的库记录。非常方便！

E、 SixFrames是以另外一种方法计算并显示结果，点击SixFrames，结果中各框上边拉下的绿短线表示为一个起始密码子，而各框下方的粉短线表示为一个终止密码子。无边界网络

F、如果你拥有一个高等生物的cDNA时，可以利用ORF finder这个简单的工具来到你的蛋白编码区域。因为cDNA不含有intron，因此可拥有与微生物相似的ORF结构。

G、 ORF finder可以正确地鉴定85%左右的蛋白编码区，但要发现一些很短的蛋白序列，shadow gene或使用了非常用遗传密码子的基因，则需要使用那些包含了密码子使用频率及使用偏好等统计学特性的程序，如GeneMark。这里给出两个GeneMark网址：opal.biology.gatech.edu/GeneMark/ , 防护服生产线设备www2.ebi.ac.uk/genemark/ 。

2）发现真核生物基因组（如脊椎动物）序列中的蛋白质编码区域。

A、剪切位点（splice site）的预测。

脊椎动物的外显子很小（平均150bp），它们的剪切位点还有一定的变化。因此发现外显子要比利用ORF finder或GeneMark发现ORF困难得多。下面是一种外显子预测程序：MZEF。点击rulai.cshl.edu/ ，这是位于冷泉港实验室Michae Q. Zhang’s的主页，点击左侧的databases and Software Tools，进入的页面中包含了多个物种的启动子数据库、外显子发现工具等，点击页面中间的Gene – Finding (public)连接，则进入了MZEF页面（/tools/genefinder/ ）。程序的相关说明文件在页面下方的 For more information about MZEF行的here链接中，事先阅读一下此文件，有助于程序的使用以及对输出结果的理解(/tools/genefinder/readme.htm )，你也可以阅读实验数据-实验七中的MZEFexample.PDF文件，这一文件也可以从Michae Q. Zhang’s的数据库及软件工具页面上到(rulai.cshl.edu/reprints/mzefexample.pdf）。回到MZEF主页，点击Human 链接（/tools/genefinder/human.htm ），进入由先前统计数据校准的人类编码外显子预测MZEF程序页面。

在NCBI上到一条AC号为AF018429的人类核酸记录，这是一个包含了外显子1和外显子2的dUTPase基因（注意一下这两个外显子在基因上的位置）。将FASTA格式的序列粘贴到人类MZEF程序页面的检索框中，点击submit。程序很快给你返回结果。它发现了在1056-

防静电水磨石1172间的一个外显子（通过帮助文件理解结果中各项的含义）。预测的正确性有1/2（漏掉了一个exon）。而且，预测到的外显子的真实起始位点也不在1056。这样的正确率（1/2，不完全吻合）在外显子发现程序中并不少见。

下面两个网址则将MZEF与其它的方法综合在一起进行外显子预测：EBI的MZEF-SPC （corba.ebi.ac.uk/cgi-bin/i）以及Michigan Tech的AAT（u.edu/aat/aat.html ）。

B、真核生物基因组的完全基因分析

如果你在进行基因组测序，那么所需要的就是那些最高水平的复杂的计算机辅助注释工具：基因组剖析软件（genome-parsing software）。这些软件程序是为一次处理一个基因组的大片段序列（10万到几百万bp）的注释而设计的，它们对序列中所有基因的具体外显子/内含子结构进行预测。与MZEF类似，这些程序也有数模结构（modular structure），每一个数模都为识别一个特定的基因组分（如编码外显子，第一个/最后一个外显子，启动子区域，多聚腺苷酸化位点等）而设计。这些相对独立的数模所产生的结果被拼合成连续的基因结构预测（比如将预测的外显子区域边界粘接形成阅读框）。这些预测结构最后会

根据与理想基因模型的相似度大小而进行记分。马可夫模型（Markov Models）以及动态规化优化是这些程序的基础核心概念。大多数的基因组剖析软件（比如我们下面要用到的GenomeScan）也考虑了蛋白质序列的相似性。（注意：并不是所有的外显子都可被发现！大多数的外显子预测程序只限于内部外显子，而那些与5’或3’不翻译的转录区域(UTR) 相连的编码外显子，比如第一或最后一个密码子，通常不会被程序发现。）

尽管这些程序的算法越来越复杂，但使用起来却很容易。你只要将序列粘贴到输入窗口，点击个执行键，就可以得到剖析后的基因了！

现在我们就利用GenomeScan 剖析软件程序进行一个大于100000bp（且至少包含有一个完整的基因）的人类基因组序列大片段上的基因进行预测（我们使用的是GenomeScan站点上的示范DNA序列）。

同时，我们还需要那些与你的DNA序列所预测的编码区域有显著相似性的蛋白质序列。这些蛋白质序列可通过将你的序列对已知的蛋白质序列数据库进行blastx而得到。（当然，我们这里使用的还是GenomeScan站点上的示范蛋白质序列。注意，不论蛋白质序列还是DNA序列都要以FASTA格式进行比较。）

进入GenomeScan主页（genes.mit.edu/genomescan/），点击GenomeScan WebServer，从物种选择下拉菜单中选择Vertebrate（即选择由相应物种的编码区域统计值进行校正后的程序进行预测），将DNA testfile的序列（FASTA格式）粘在DNA Sequence input box中，将protein file中的蛋白序列（FASTA格式）粘在Protein Sequence input box中，点击Run GenomeScan。

过氧化氢实验室制氧气装置输出的结果是一个非常长的列表，列出了每一个预测基因的所有组成成分，它们所在的位置以及相关的质量评估值。在进行大规模的测序项目及自动注释这一连续的过程中，这一结果是计算机程序所必需的。好在GenomeScan同时也提供了非常好的图形输出结果，这一图形结果以PDF及PostScript图像形式保存。在本例分析所得到的图中，预测的基因及外显子以红箭头及红方块表示，而通过blastx相似性所得到的蛋白质支持证据则以绿方块表示。在这条100000bp的脊椎动物基因组长序列中，总共包含了5个预测基因。

2、序列片段的拼装（assembling）

目前的测序机器一次只能产生500到1000bp的核苷酸序列，因此只要你的序列比较长，就可能需要将短的重叠片段进行拼装。

当进行大规模的测序项目时，以一个典型的的微生物基因组为例，得到其4MB的基因组序列就需要对超过50000条测序小片段（我们称之为reads）进行缝合。这些基因组测序项目所使用的组装软件的数据直接来源于测序机器所产生的谱图（chromatograms or traces）。谱图即是由复杂的峰值及谷值荧光值所组成的，它揭示了测序小片段中每一个位置的核苷顺序。这些程序中还包含了能够计算每一个测序片段每一个位置每一个核苷的质量记分的碱基读取系统（base-calling system），数据管理系统以及交互式的编辑与显示工具。这些复杂的完整基因组测序软件包不能通过网络提供服务，你必须把它们下载到本地并安装到专门的高性能计算机上使用。常用的公共测序软件包有 Staden pakage, Phred/Phrap等。

即使不做这些基因组测序项目，日常工作中一样会遇到序列拼装的问题。比如，你的cDNA包含在多个PCR片段中，或者你有一些表达序列标签（EST），想知道能否由这些EST推导出一条完整的cDNA。或者你想用从数据库中提取的EST序列进行拼装等等。这时你就会希望利用一个简单的能够识别出你的序列集中显著的重叠区并将它们拼装成一条序列（我们称之为contig）。

下面我们利用IFOM（FIRC Institute of Molecular Oncology in Milano）的EST assembler进行序列的拼装。点击bio.ifom-firc.it/ASSEMBLY/assemble.html ，将实验数据-实验七中的EST assembling文件上载到服务器的文件输入框中或将其中的序列片段集以FASTA格式粘到序列输入框中。（注意，不需要考虑提供序列的方向性问题，因为程序会自动在两个方向上进行查）。

针对不同的情况，可对页面下部的一些参数进行修改，比如最小重叠片段的长度以及重叠部分的同一性百分数等。采用默认参数是一种最常见的做法。点击Submit Form，则执行输入序列片段的拼装（CAP3拼装程序由X. Huang 编写）。

输出的结果最先给出拼成的contig数量及组成每一个contig的序列的概要列表。随后是详细的contig结构中重叠区信息，结果的最后则给出了拼装成的contig一致性序列。我们可以用它进行下一步的工作，比如进行对库的相似性搜索。

本文发布于:2024-09-21 19:03:00，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/2/140644.html

上一篇：【精选】光电编码器位置检测程序-1

下一篇：CMDSPF2812电路使用说明书