生物信息学

Bioinformatics生物信息学，是生物学、计算机科学和信息技术交叉形成的一门新兴学科，目的在于应用计算机及信息学手段解决生物学问题，已成为推动医学生物学快速发展的强劲动力。

Pubmed:是NCBI开发的、维护的生物医学期刊文献目录、文献引用数据库，提供对MEDLINE、Pre-MEDLINE等文献数据库的引用查询和对大量网络科学类电子期刊的链接。

BLAST：是应用最广泛的序列相似性搜索工具，可以进行核苷酸和氨基酸任意组合查询，并在核酸白质数据库中对所有序列进行搜索。

EST 多功能冷饮机(Expressed Sequence Tag)表达序列标签—是从一个随机选择的cDNA 克隆，进行5’端和3’端单一次测序挑选出来获得的短的cDNA 部分序列,代表一个完整基因的一小部分，在数据库中其长度一般从20 到7000bp 不等，平均长度为360 ±120bp。由于cDNA文库的复杂性和测序的随机性，有时多个EST代表同一基因或基因组，将其归类形成EST簇（EST cluster)

SNP即单核苷酸多态性，是由于单个核苷酸的改变而导致的核酸序列多态性。一般来说，一个SNP位点只有两种等位基因，因此又叫双等位基因。SNP在人基因组中的发生频率比较高，大约平均每1000个碱基中就有一个多态位点。

ORF：是一段较长（>300bp）的有义密码子序列，位于起始密码子（usually,ATG）和终止密码子（无义密码子，TGA,TAG or TAA）之间。

Gene：基因（遗传因子）是遗传的物质基础，是DNA（脱氧核糖核酸）分子上具有遗传信息的特定核苷酸序列的总称，是具有遗传效应的DNA分子片段。

Genome，基因组，一般的定义是单倍体细胞中的全套染体为一个基因组，或是单倍体细胞中的全部基因为一个基因组。

Contig:重叠，一组含有邻近序列或重叠序列的DNA双电源自动切换装置序列克隆。这些克隆的序列间有相互重叠，每一个克隆是整个体中的一个单元，都是该DNA连续序列中的一段。可以从多个重叠单元的序列得到完整的DNA连续序列。如从一序列重叠的表达序列标签可以得到一个完整的互补DNA序列。

Proteome蛋白质组，概念最先由Marc Wilkins提出，指由一个基因组(genOME)，或一个细胞、组织表达的所有蛋白质(PROTein).

Hierarchical shotgun sequencing：分级鸟法测序，分级鸟法测序是先构建微生物

基因组的物理图谱,然后从物理图谱中挑选出一组重叠效率较高的克隆,进行鸟法随机测序。

Whole-genome shotgun sequencing：全基因组鸟法测序，全基因组鸟法测序直接将全基因组进行随机打断成小片段DNA,构建质粒文库,然后测序。

2D-electrophoresis：二维电泳，将不同种类的蛋白质按照等电点和分子量差异进行高分辨率的分离分析方法。

MEDLINE：MEDLINE是美国国立医学图书馆(The National Library of Medicine, 简称NLM)生产的国际性综合生物医学信息书目数据库，是当前国际上最权威的生物医学文献数据库。内容包括美国《医学索引》（Index Medicus, IM）的全部内容和《牙科文献索引》（Index to Dental Literature）、《国际护理索引》（International Nursing Index）的部分内容。

1.简述ExPASY在蛋白质分析方面的特点：（1）注释。在SWISS-PROT中，数据分为核心数据和注释两大类。核心数据包括：序列数据、参考文献、分类信息（蛋白质生物来源的描述）

注释包括：(A)蛋白质的功能描述； (B)翻译后修饰； (C)域和功能位点，如钙结合区域、ATP结合位点等；(D)蛋白质的二级结构；(E)蛋白质的四级结构，如同构二聚体、异构三聚体等；

(F)与其它蛋白质的相似性； (G)由于缺乏该蛋白质而引起的疾病；(H)序列的矛盾、变化等。糖浆罐

（2）最小冗余。尽量将相关的数据归并，降低数据库的冗余程度。如果不同来源的原始数据有矛盾，则在相应序列特征表中加以注释。

（3）与其它数据库的连接。对于每一个登录项，有许多指向其它数据库相关数据的指针，这便于用户迅速得到相关的信息。现有的交叉索引有：到EMBL核酸序列数据库的索引，到PROSITE模式数据库的索引，到生物大分子结构数据库PDB的索引等。

2．生物信息概念及应用：

经典生物信息学概念：用计算机、、应用数学和信息学理论、方法，对生物大分子信息进行收集、贮存、分类、检索与综合分析，研究生命现象，达到认识理解生物信息的科学。

现代生物信息学：利用包括信息学、计算机学等现代技术，在对生物大分子信息进行收集、贮存、分类、检索、交流，以及综合分析生命信息基础上，深入理解其三维结构和生物功能，并对其进行开发利用的一门新型科学。

广义生物信息学：任何应用计算机及其网络和数据库进行大规模生物学数据的收集、组织、管理、分析和应用相关的所有生物学的工作，涉及生命科学全部研究领域的内容

应用：1）查阅生物医学文献资料数据库中的文献、书籍、资料和各种数据，更新知识

2）利用生物信息学平台，开展国内外信息交流，能分析生物大分子的结构和序列，作出预测，能自主设计实验，开展研究。3）应用资料、信息和软件，对所需的大量生物数据进行生物医学、遗传学信息的分析和统计。通过补充新知识，解决科学研究中的实际问题

口罩成型机

4）具备上述三点能力，能够自我编成，建立数据库。可以改造、开发生物信息软件，进行新药设计，获得创造性结果和产品。

3什么是序列比对？生物学意义？

序列比对是通过将两个或多个核酸序列或者蛋白质序列进行比对，出它们之间相似的结构区域和序列相似性匹配。通过比较位置序列和已知序列（特别是功能和结构已知的序列）之间的同源性，预测未知序列的功能。

意义：

(1)通过序列比对，可以发现生物序列中结构、功能以及进化上的信息。

(2)通过序列之间的同源性比较，根据相似的序列间可能有相似的功能，可以根据已知序列预测未知序列的功能。

(3)如果两个相似的序列来自不同的生物体，它们可能拥有一个共同的祖先序列，这些序列就称为同源序列。

4.引物设计的关键问题？常用引物设计软件？特点？

5.何谓blast？主要的blast工具有哪些？各有什么特点？

BLAST:是应用最广的序列相似性搜索工具，可以进行核苷酸和氨基酸任意组合查询，并在核酸和蛋白质数据库中对所有序列进行搜索。

主要的BLAST工具及特点有1）blastp：查询的是氨基酸序列，可能到具有远源进化关系的匹配序列2）blastn：查询的是核苷酸序列，设和寻分值较高的匹配，不适合远源关系3）blastx：查询核苷酸序列的翻译产物，适合新DNA序列和EST序列的分析，能够发现未知核酸序列潜在的翻译产物4）tblastn：查询蛋白质序列，适合寻数据库中尚未标注的编码区动态翻译的核苷酸序列5）tblastx：查询6个核苷酸序列和6个ORF的产物，适合分析EST序列，计算复杂，ORF的产物tblstx不能与nr数据库在线使用

电热炉6.国际上有哪几个著名的核酸序列数据库？

核酸序列数据库：目前有3大核酸序列数据库：欧洲生物信息学研究所EBI的EMBL数据库，美国国家生物信息技术信息中心的Genebank数据库，日本国立遗传研究所的DDBJ数据库，这三大数据库虽然数据库虽然具有各不相同的数据记录格式，但是对于核酸序列均采用了相同的记录标准，同时每天收集并交换数据以达到数据的更新和一致。

7.简述Genbank数据库的特点。

Genebank database的特点：是NIH遗传序列数据库，一个所有可以公开获得的DNA序列的注释过的收集。Genebank同日本和欧洲分子生物学实验室的DNA数据库共同构成了国际核酸序列数据库合作，这3个组织每天交换数据。Genebank以指数形式增长，核酸碱基数目大概每14个月就翻一倍，它拥有来自47000个物种的30亿个碱基，每条记录都有编码区特征的注释，还包括氨基酸的翻译。它属于一个序列数据库的合作组织，包括EMBL和DDBJ，访问Genebank-通过Entrez Nucletides来查询。

8.PDB特点：甲烷制氢是结构生物信息学研究联合实验室建立的世界最完整的包括蛋白质、核酸、蛋白质-核酸复合物及病毒等生物大分子三维结构数据库。该数据库在世界上许多研究机构设立了镜像站点。PDB生物大分子结构数据库收集的数据来源于X光晶体衍射和核磁共振的数据，经过整理确认后存档而成，内容来自全世界研究者提交的生物大分子蛋白质、肽、病毒、蛋白质-核酸复合物、核酸及糖类的结构数据的原子坐标、注释、一级结构、二级结构、结构因子、NMR数据、结晶状况、利用不同方法计算的三维结构相邻元素、派生的几何数据、三维图像以及其他资源链接

9．NCBI数据库检索工具ENTREZ的特点及应用：

Entrez是面向生物学家的数据库查询系统，其特点之一是使用十分方便。它把序列、结构、文献、基因组、系统分类等不同类型的数据库有机地结合在一起，通过超文本链接，用户可以从一个数据库直接转入另一个数据库。

Entrez的另一个特点是把数据库和应用程序结合在一起。例如，通过“Related sequence”工具，可以直接到与查询所得蛋白质序列同源的其它蛋白质。查询得到的蛋白质三维结构，可以通过在用户计算机上安装的Cn3D软件直接显示分子图形。

应用：可使用Entrez系统检索核算序列,蛋白序列等,在输入框输入需要检索内容,点击按钮"go”开始。

10.何谓基因组注释？常用基因注释工具有哪些？特点？

基因组注释(Genome annotation) 是利用生物信息学方法和工具，对基因组所有基因的生物学功能进行高通量注释，是当前功能基因组学研究的一个热点。

我们常用的数据库有Uniprot蛋白质序列数据库、KEGG生物学通路数据库、Interpro蛋白质家族数据库和Gene ontology基因功能数据库。

1）与Uniprot蛋白质序列数据库比对，获得序列的初步信息。

2）与KEGG数据库比对，预测蛋白质可能具有的生物学通路信息。

3）与Interpro数据库比对将获得蛋白质的保守性序列，模序和结构域等。

本文发布于:2024-09-24 06:31:17，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/4/188181.html

上一篇：基因文库保存名词解释

下一篇：生化名词解释(内部资料)

标签：序列数据库生物数据蛋白质信息进行核酸

留言与评论（共有 0 条评论）