BRB-ArrayTools使用手册详解

BRB-ArrayTools
Version 3.7
User’s Manual
by
Dr. Richard Simon
Biometrics Research Branch
National Cancer Institute
and
Amy Peng Lam
The EMMES Corporation
November, 2008
Translated by Yujian
Dec, 2008
目录                                                                        2
绪论                                                                        4
    软件目的                                                                4
    软件功能概览                                                            4
    单通道实验须知                                                            7
软件安装                                                                    7
    系统需求                                                                7
    安装软件                                                                7
    加载到Excel
整理数据                                                                    8
    整理过程概览                                                            8
    整理过程中的数据输入                                                    9
    使用整理对话框                                                            14
    整理步骤的输出                                                            22
筛选数据                                                                    24
    点样筛选                                                                24
    数据转化                                                                25
    基因筛选                                                                27
    基因子集                                                                27
注释数据                                                                    28
    使用基因列表定义基因注释                                                28
    自动导入基因注释                                                        30
    Gene Ontology                                                            30
数据分析                                                                    32
    散点图工具                                                                32
    层次聚类分析工具                                                        33
    样本的多维尺度化                                                        37
    使用分类预测工具                                                        37
    分类比较分析                                                            38
    分类预测分析                                                            43
    生存分析                                                                49
    数量性状分析                                                            50
    预测分析、生存分析和数量性状分析工具中的某些可用选项                    51
    随机方差模型                                                            51
    用于控制假阳性比例和个数的多元置换检验                                    51
    指定重复实验和配对样本                                                    53
    GO数据库的观测值与期望值分析                                            54
ArrayTools中的可编程插件                                            55
    已预装的插件                                                            55
更多帮助                                                                    56
    一些小技巧                                                                56
    安装问题答疑                                                            59
汇报问题                                                                    61
参考文献                                                                    62
感谢                                                                        63
写在最后                                                                    64
绪论
软件目的
BRB-ArrayTools是一款为了DNA基因芯片数据分析而设计的集成软件包,由Dr.Richard Simon所领导的生物识别小组所开发(隶属于美国国家癌症研究所癌症与诊断分部)。BRB-ArrayTool能够处理来自多种实验的表达谱数据,包括可视化、多维尺度、聚类基因和样本、分类预测样本等等。BRB-ArrayTools可以通过匹配DNA芯片的CloneID、GenBank号、UniGene编号连接NCBI数据库,或者通过芯片的ProbesetID连接Affy公司的NetAffy站点获取探针的详细信息。BRB-ArrayTools可以被用来分析单、双通道的基因芯片
数据。该软件便携易用,表现为不受任何特定芯片平台、扫描仪器、图像分析软件或数据库的限制。ArrayTools以Excel加载宏的形式呈现,所以用户界面对于生物学家来说非常熟悉。具体的计算由Excel外部的复杂且强大的分析工具负责,对于用户则不可见。现有的工具组件会随着分析方法的发展而不断更新。
软件功能概览
BRB-ArrayTools可执行以下功能:   
整理数据
向程序导入用户数据并且比对整理来自不同实验的基因。软件可以载入无限多的基因,而在实验方面,之前最多导入249个的限制已在3.4版本中移除,当然,具体数目肯定会受限于计算机内存。所有探针可以只来自于一张芯片,或者最多(重复)分布在5张芯片,用户可以选择是否对每个重复分布的基因取均值,且单(例如Affymetrix)双通道芯片均适用。数据导入向导会提示输入数据的详细格式,或者使用为NCI或Affymetrix芯片特制的用户界面。一般数据应为以“tab分隔符”格式存储的文本文件(译注:NCI和Affymetrix当然可以例
外)。Excel工作簿格式的数据也可以使用,但会在导入时被ArrayTools自动转换为“tab分隔符”的文本格式。
基因标注
数据可以通过识别号被Affymetrix或Source数据库自动标注,标注内容会随着分析输出结果一同呈现,并且Gene Ontology(GO)的分类名称可被用于分类比较分析、分类预测、生存分析和数量性状分析GO的结构文件可以从GO站点自动更新。
筛选,标准化和取基因子集 
ArrayTools可以基于通道的信号强度对点样/探针组进行筛选(通过排除某些点或设定信号强度阈值)并进行标记。Affymetrix数据可以通过所谓的“探测认定”(Detection Call)进行筛选。对于双通道实验,芯片的标准化通过芯片间取中位数中心化进行,具体方法是或减去基于LOWESS平滑的红、绿两通道对数均值(subtracting out a lowess-smoother based on the average of the red and green log-intensities),或指定一系列对数比值的中位数为0的管家基因。对于单通道实验,芯片通过一参照芯片进行标准化,使得其它芯片上所有基
因(或仅指定部分管家基因)对于该参照芯片差值的中位数为0。参照芯片可由用户指定,或自动选择一中位数芯片(即该芯片对数比值的中位数为所有其它芯片对数比值中位数的中位数)。每张芯片的标准化单独进行异常值可以被截断(译注:即通过设定阈值进行筛选,见后文筛选数据一节)。基因可以通过人为设定阈值进行筛选,比如其表达量位于所有芯片表达量中位数两侧的某个比例外,某个差值外,或缺失值在所有芯片中大于某一比例,或Affy芯片中被认定为缺失的大于某一比例。此外,基因还可通过字符串标识进行筛选(如排除所有在描述字段中包含“Empty”的基因),最后,还可以通过自定义基因列表进行筛选。
绘制“实验对实验”散点图 
对双通道数据,ArrayTools可以使用红、绿二通道的对数、平均对数或者对数比值绘制任意两实验间(甚至相同实验间)的可点击散点图。对于“M-A散点图”(译注:M:Minus,M=log2(Green)-log2(Red);A:Average,A = 1/2*(log2(Green) + log2(Red),用对数比值对红绿两通道的均值作图,是一种在芯片数据分析中常用的散点图,可用来显示芯片数据的强度依赖性Dudoit et al. Statistica Sinica (2002) 12:111),还会在图中添加一条所有散
点的趋势线。对于单通道数据,可绘制基于任意两实验间对数信号强度的可点击散点图。所有基因(或任意一部分制定基因)可被绘制,并生成指向GenBank、NetAffy和其它基因组数据库的超链接。
绘制“表型对表型”散点图 
ArrayTools可以绘制基于所有基因或部分指定基因在表型间平均表达量的可点击散点图。如果指定了多于两类表型,则所有两两表型间的情况均会被绘制,并生成指向GenBank、NetAffy和其它基因组数据库的超链接。
基因层次聚类分析 
ArrayTools可以绘制所有基因的彩层次聚类树状图。对于每个聚类树中的基因会生成超链接并绘制一幅聚类树中基因表达量的中位数对不同实验的彩线图。实验聚类独立于基因聚类。基因聚类树可被保存以用于之后的分析,聚类分析可在全部基因(或由用户指定的部分基因/实验子集)上进行。
实验层次聚类分析 
绘制聚类树状图,并且根据给定的分支计算用于判定聚类好坏的统计学度量。聚类分析可在全部基因(或由用户指定的部分基因/实验子集)上进行。
集成的Cluster 3.0和TreeView接口 
聚类分析还可以通过Cluster 3.0和TreeView这两款由Stanford实验室开发的软件进行,目前仅限于学术、政府和非赢利目的用户。
多维尺度化样本 
ArrayTools可以生成可点击并旋转的三维散点图,其中每个点代表一个样本,点之间的距离与其所代表的表达量差异成正比。如果用户安装有PowerPoint,还可以把三维散点图幻灯片在其它电脑间交换,如果要求可点击,则其它电脑上必须安装有ArrayTools的3.0以上版本。
聚类的显著性检验 
在聚类分析时,可用欧式距离或相关系数进行统计学显著性检验。该项在多维尺度化工具中亦可选。
分类比较 
使用单参数或非参数检验方法来寻两组或多组不同表型之间差异表达的基因。可用于单、双通道实验数据,配对样本同样适用。输出结果包括显著基因并生成指向NCI、GenBank、NetAffy和其它基因组数据库的超链接。参数检验包括t/F检验和随机方差t/F检验,后者能够在没有假定所有基因拥有同样方差的情况下给出更为精确的针对特定基因的方差估计。确定一个基因“显著”的标准包括p值小于某一阈值或假阳性数/率小于指定值,其中,后者需要进行多元列置换检验。该工具还包括一个可用于分析随机区块设计实验的选项(即在实验设计时还考虑另外一个协变量的影响,例如性别)。
分类预测 
ArrayTools可以构建基于表达量水平的表型分类器,共含六种:混合协变量预测、对角线性判别、k-近邻(k取1或3)、最近邻质心法和支持向量机。其中,混合协变量预测和支持向量机仅适用于两类样本的分类,而对角线性判别、k-近邻(k取1或3)和最近邻质心法可用于多于两类样本的分类。交叉验证错误率通过列置换进行,以给出错误率是否小于随机情况。以上分析亦可用于配对样本。某个基因是否被选入分类器的标准是其p值是否小于指
定阈值。
二叉树预测 
该算法会根据不同表型的表达量创建一棵二叉分类树,树中的每个节点都可以对实验的表型进行分类,而树的结构则会根据交叉验证时的最小错误率进行优化。二叉树的预测基于上述六种方法之一(混合协变量预测、对角线性判别、k-近邻(k取1或3)、最近邻质心法和支持向量机)。与之前的分类预测不同,这里的混合协变量预测和支持向量机可以被用来分类多于两类表型的样本。其它选项则与分类预测工具相同。输出结果包含对二叉树的描述和总体交叉验证错误率(如果用户要求)。对于树中的每个节点则会给出交叉验证的错误率和构成分类器的基因列表。该列表中还包括参数检验的p值、基因在交叉验证时的支持度和指向GenBank、NetAffy及其它基因组数据库的超链接。
生存分析 
ArrayTools使用Cox回归模型来发现与生存时间相关的基因。输出结果包含结果呈“显著”的基因列表和指向GenBank、NetAffy等其它基因组数据库的超链接。入选基因的标准与分类比较相同。
数量性状分析 
把基因表达量与样本的数量形状进行关联,使用Spearman或者Pearson关联测试。输出包括经检验结果呈显著的基因列表和指向GenBank、NetAffy等其它基因组数据库的超链接。入选基因的标准与分类比较相同。
GO比较工具 
使用GO数据库而非单个基因对不同表型分类进行比较,并给出经检验后包含差异表达基因数大于随机期望数的GO类别。LS和KS测试被用于生成选择GO类别的p值,若p值小于指定阈值则该GO类别被选入。最后的GO类别按LS测试的p值升序排列。
组基因比较工具 
使用用户自定义的基因列表并从中筛选包含差异表达基因数大于随机期望的基因组合。LS和KS测试被用于生成选择GO类别的p值,若p值小于指定阈值则该GO类别被选入。最后的GO类别按LS测试的p值升序排列。
其它插件 
允许用户共享自己的分析工具。高级用户可以使用R语言开发自己的分析工具,并分发给其它不具备R语言开发知识的用户。详细的插件使用方法在另一份文档中涉及。
单通道实验须知
ArrayTools中的分析工具均可用于单/双通道实验。对于Affymetrix数据,建议使用MAS 5.0 方法处理后的“Signal”字段作为信号强度。如果以“average difference”字段作为信号强度,那么其中负值的部分则会被自动设为1(取对数后为0),除非用户人为在取对数时把这些点设定为缺失值。为了便于说明,我们会在本文档中假定所有数据为双通道实验。这里通常所说的“对数比值”,与单通道实验中的对数信号强度类似。同样,之后所说的点样与Affymetrix芯片中的“探针组”概念类似,都被用来探测某一基因的表达量。

本文发布于:2024-09-20 14:51:15,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/90939.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

上一篇:caspase资料
标签:基因   芯片   实验
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议