基因组总结终极版

1、什么是基因组学?基因组学有哪些特点?
答:基因组学即基因组生物学,是研究生命遗传物质和其生物学规律的学问。基因组学的研究对象是基因组结构特征、变演规律和生物学意义。
特点:(1)Genome sciences are sequence-based
(2)Genome sciences are data-guided (not so hypothesis-driven)
(3)Genome sciences is a systematic approach
2、什么是模式生物?
答:生物学家通过对选定的生物物种进行科学研究,用于揭示某种具有普遍规律的生命现象,这种被选定的生物物种为模式生物。在人类基因组计划中,包括对五种生物基因组的研究:大肠杆菌、酵母、线虫、果蝇和小鼠,称之为人类的五种“模式生物”。
3、人类基因组计划是哪一年完成的?在科学上有什么意义?西北植物学报
答:2000年完成了人类基因组“工作框架图”。2001年公布了人类基因组图谱及初步分析结果。
意义:人类基因组计划与曼哈顿计划和计划并称为三大科学计划。对生命科学的研究和生物产业的发展具有非常重要的意义,它为人类社会带来的巨大影响是不可估量的。
首先,获得人类全部基因序列将有助于人类认识许多遗传疾病以及癌症等疾病的致病机理,为分子诊断、基因等新方法提供理论依据。
第二,破译生命密码的人类基因组计划有助于人们对基因的表达调控有更深入的了解。
4、基因组学的发展方向是什么?
答:近年来比较基因组学和动态基因组学的不断发展,使得基因组学的应用越来越广泛,向其他学科、领域逐渐渗透的趋势日趋明显,涵盖了现代农业、生态环境、结构、进化、药物、法医、营养、人类健康等各个方面。随着各种技术水平的进步,基因组学的发展前景必将更加广阔。
5、三大公共DNA数据库是什么?
答:GenBank,DDBJ,EMBL
6、什么是一级数据库和二级数据库?
答:一级数据库的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释,其内容由提交者提供、控制。如GenBank,SNP,GEO。
二级数据库是在一级数据库的基础上衍生而来,是对生物学知识和信息的进一步整理,其内容由第三方(NCBI)整理、控制。如Refseq,TPA,UniGene。
7、什么是NCBI的Refseq?什么是UniGene?UniGene与Refseq的区别与联系?
答:Refseq数据库提供非冗余,高质量,经检验校正的序列信息,并为每个序列提供一个accession number
UniGene数据库基于MegaBlast自动将序列聚类,剔除冗余部分,形成gene clusters,每一个gene cluster提供单一基因的信息,包括基因表达的组织类型和图谱定位信息,已知的基因序列和尚未了解的ESTs。有助于发现新基因及选择图谱绘制试剂。
联系:均为NCBI建立的二级数据库
区别:Refseq提供染体、基因组、蛋白质、RNA等的序列
UniGene提供的是基因的序列和ESTs信息
8、GEO是什么类型的数据库,主要包含什么类型数据?
答:GEO是基因表达序列数据库
数据类型:expression profiling;
genome variation profiling;
genome binding/occupancy profiling;
methylation profiling;
SNP genotyping;
non-codling RNA profiling
9、大致介绍一下UCSC GENOME BROWSER
答:UCSC Genome Browser是由UCSC创立和维护的,该站点包含有人类、小鼠和大鼠等多个物种的基因组草图,并提供一系列的网页分析工具。站点用户可以通过它可靠和迅速地浏览基因组的任何一部分,并且同时可以得到与该部分有关的基因组注释信息,如已知基因,预测基因,表达序列标签,
信使RNA,CpG 岛,克隆组装间隙和重叠,染体带型,小鼠同源性等。用户也可以因为教育或科研目的加上他们自己的注释信息。UCSC Genome Browser目前应用相当广泛,比如Ensembl 就是使用它的人类基因组序列草图为基础的。(这题是我百度的,不知道怎么答……)
10、HAV ANA基因是什么类型数据
熊维江答:人和脊椎动物的transcript(不确定
11 什么是细菌人工染体(BAC)?
答:细菌人工染体(Bacterial artificial chromosome,BAC)是指一种以F质粒(F-plasmid)为基础建构而成的细菌染体克隆载体,长用来克隆150kb左右大小的DNA片段,最多可保存300kb个碱基对。
该质粒主要包括oriS,repE(控制F质粒复制)和parA、parB(控制拷贝数)等成分。以BAC为基础克隆的载体成嵌合体的频率较低,转化效率高,而且以环状结构存在于细菌体内,易于分辨和分离纯化,已被科学界广泛接受。目前主要用于大片段基因组文库的构建和大的基因簇的相关研究,并在各类生物基因组计划中发挥重要的作用。
12什么是遗传图谱?用来构建遗传图谱的标记有哪些?
遗传图是应用遗传学分析方法将基因或其他DNA顺序标定在染体上构建的连锁图,家系分析等。遗传图距单位为厘摩(cM), 每单位厘摩定义为1%交换率。
主要标记有基因标记和DNA标记:
基因标记(性状标记):
DNA标记:以DNA片段为标记,通过DNA片段的电泳使DNA产生多态性,有1) RFLP (Restriction fragment length polymorphism),2)SSLP (simple sequence length polymorphism) SSLP (simple sequence length polymorphism)即简单序列长度多态性,3)SNP(Single Nucleotide Polymorphism) SNP(Single Nucleotide Polymorphism)即单核苷酸
多态性。
13什么是物理图谱?物理图谱和遗传图谱的联系和区别
应用分子生物学技术来直接将DNA分子标记、基因或克隆标定在基因组的实际位置。物理图的距离依作图方法而异,如辐射作图的计算单位是Cr,限制性片段作图与克隆作图的图距是DNA的分子长度,即碱基对(bp,kb).
区别:1)遗传图谱通过遗传重组所得到的基因在具体染体上线性排列图称为遗传连锁图。它是通过计算连锁的遗传标志之间的重组频率,确定他们的相对距离,而物理图谱则是基因或克隆在基因组的实际位置。
2)遗传图谱分辨率有限:分辨率依赖于得到的交换的数目。对于人类和大多数真核生物来说,巨大数量的后代不易获得;遗传图谱覆盖面较低;遗传图谱分子标记的排列有事会出现差错。
联系:二者均可以在一定程度上对基因进行定位;且物理作图必须在遗传作图的基础上才可进行,并且进行下一步的基因组测序;遗传图谱和物理图谱可以整合。
14如何构建其物理图谱?
主要有限制性作图、荧光原位杂交、序列标签位点作图、克隆作图。
限制性作图:将限制性酶切位点标定在DNA分子的相对位置,主要是通过比较一种DNA分子被不同限制性内切酶切割所产生的片段大小来完成。局限性在于只能应用于相对较小的DNA分子;
荧光原位杂交FISH:在染体上进行DNA杂交,以便识别荧光标记探针在染体上位置的方法。可用于大基因组,但难于操作,数据积累慢,一次实验定位的标记不超过3-4个。《机械设计》
序列标签位点(STS)作图:STS是指一段短的DNA(100-500bp)易于识别,在待研究的染体或基因组中仅有1个拷贝。因此当2个片段含有同一STS顺序时,可以确定这两个片段彼此重叠。序列标签位点作图是通过PCR或分子杂交将特定DNA顺序定位在及阴虚染体区段中。通过放射杂交和克隆文库获得作图对象。
克隆作图:通过克隆的DNA片段之间的重叠顺序构建重叠(Contig),绘制物理图谱连锁图。
作图所用的载体主要有YAC载体、PAC载体、BAC载体。
15 SANGER测序方法的原理
使用的是双脱氧末端终止法:利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。直到掺入一种链终止核苷酸为止。每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止。终止点由反应中相应的双脱氧而定。每一种dNTPs和ddNTPs 的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。
详见下图:
16 二代测序原理。
二代测序的基本原理是边合成边测序。在Sanger等测序方法的基础上,通过技术创新,用不同颜的荧光标记四种不同的dNTP,当DNA聚合酶合成互补链时,每添加一种dNTP就会释放出不同的荧光,根据捕捉的荧光信号并经过特定的计算机软件处理,从而获得待测DNA的序列信息。
17 如何构建Mate-pair文库?
首先将基因组DNA随机打断到特定大小;然后经末端修复,生物素标记和环化等
实验步骤后,再把环化后的DNA分子打断成400-600bp的片段并通过带有亲和素的磁
珠把那些带有生物素标记的片段捕获。这些捕获的片段再经末端修饰和加上特定接头后建成大片段文库,不需要克隆到细菌中,直接在Illumina Genome Analyzer上对这些大
建筑工程消防验收片段文库的两端进行测序。这种从较大跨度两端所获得的序列对大基因组或者复杂基因组的组装和基因组结构变异发掘具有非常重要的作用,特别适合于新基因组测序项目。
18 2000年公布的人类基因组框架图,分别由哪两种测序策略指导完成的?
A,逐个克隆法(由上而下):对连续克隆系中排定的BAC逐个进行亚克隆测序,并进行组装;B,全基因组鸟法(由下而上):在一定作图信息基础上,绕过大片段连续克隆系的构建而直接将基因组分解成小片段随机测序,并用超级计算机进行组装。
19 什么是reads?什么是Contig?什么是Scaffold?什么是N50?
高通量测序时,在芯片上的每个反应,会读出一条序列,是比较短的,叫read,它们是原始数据;有很多reads通过片段重叠,能够组装成一个更大的片段,称为contig;多个contigs通过片段重叠,组成一个更长的scaffold;N50值是评定基因组拼接好坏的一个标准,如Contig N50 :Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加,能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,………Contig 25。将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig 长度即
为Contig N50。Scaffold N50类似。姜堰市溱潼中学
湘乡市育才中学
20 基因组完成图一般错误率是多少?
单碱基错误率低于十万分之一
21.Phred/Phrap/Consed各软件分别起什么作用?
Phred is a program that performs several tasks: a. Reads trace files– compatible with most file formats: SCF (standard chromatogram format), ABI(373/377/3700), ESD (MegaBACE) andLI-COR. b. Calls bases– attributes a base for each identified peak with a lower error rate than the standard base calling programs. c. Assigns quality values to the bases– a“Phred value” based on an error rate estimation calculated for each individual base.
d. Creates output files– base calls and quality values are written to output files.
Phrap is a program fo assembling shotgun DNA sequence data, a.uses the entire read content(使用全部的read 内容)-no need for trimming,b. user supplied + intermally computed data-better accuracy of assembly in the presence of repeats. C. conting sequence is consitituted by a mosaic of the highest quality of the reads. d. provides extensive information about assembly(提供关于组装的广泛的信息),e handles very large datasets(操作广泛的数据集合), f.generate output files(产生输出文件).
Consed is a program for viewing and editing assemblies produced by Phrap. Key features: a.assembly ace file viewer c.Navigation d. Autofinish。(Consed 是一个用来观察和编辑从Phrap中产生的装配的程序)
Phrap(PHRagment assembly program)是目前在小的基因组片段或重复序列含量较低的全基因组组装中应用非常广泛的软件。它常和另几个软件一起组成
Phred-Phrap-Consed软件包。
Phred的基本功能是到电泳道,识别泳道的空间并对信号进行技术处理;将测序仪上得到不同波长
光的强度变化轨迹,转化成对应的的A,T,G,C 4种碱基;并根据信号峰的间距、形状及信噪比等因素,判断碱基的可信度信息。从Phred读出的文件,经过处理,生成序列文件和质量文件,两个文件互相对应。在拼接之前,通常用cross_match软件对反应序列中可能存在的载体序列标记。将去载体后的反应序列和相应质量值提交给Phrap。
Phrap通过比对出配对的反应,在Phrap阶段,比对时采用的记分标准为:匹配为+1,错配为-9(错配涉及N时不罚分),起始空位罚分为-11,延伸空位罚分为-10,这样对于压缩区域配对时倾向于错配。拼接后的一致序列由最高质量的反应决定,并非由一致序列组成。Phrap给拼接后的一致序列中每个碱基都赋予一个拼接质量值,给序列的完成提供了一个客观的标准。
Consed是推荐的和Phrap一起使用的序列编辑界面,它的发展和Phrap紧密联系,充分利用了Phrap中产生的丰富的信息。通过Consed编辑,修改后的数据保存为phd类型文件。重新用Phrap拼接一次,修改后的结果则整合在新文件中。
(有些英文不太好翻译,不太确定的我就没翻译了,下面中文是吴老师的一篇中文文献中的介绍,可以帮助大家理解
22.Phred数值20代表什么?40又代表什么?
Phred效果评估的方程是q = - 10 x log10 (p),q - quality value (质量评价)p - estimated probability error for a base call(产生一个base call误差的概率)q= 20 means p=10-2 (1 error in 100 bases) q= 40 means p=10-4 (1 error in 10,000 bases)
23.基因组组装的两类算法分别是什么?各自代表性软件有哪些?

本文发布于:2024-09-20 17:49:20,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/570927.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:基因组   序列   基因   人类   图谱
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议