最全基于 CANOCO 的生态学数据的多元统计分析

基于CANOCO的生态学数据的多元统计分析

著者：Jan Leps 捷克南波希米亚大学植物学系和捷克科学院昆虫研究所生态学教授Petr Smilauer 捷克南波希米亚大学多元统计分析讲师

译者：赖江山中国科学院植物研究所生物多样性与生物安全研究组助理研究员这本书目的主要在于帮助生态学者分析野外观测数据和实验获得的数据。本书对于学生或研究人员处理复杂的生态学问题非常有用，比如生物落随环境条件的如何变化，或是生物落在控制实验中的变化。在简单介绍排序原理之后，本书的着重介绍约束排序方法（RDA 和CCA）和置换统计检验在多元数据中的应用。同时介绍了如何利用分类的方法及现代回归技术（GLM，GAM，loess）来正确解读排序图。最后，用CANOCO软件分析了7个难度不同的研究案例。这些案例对于大家选择排序方法及分析排序结果很有帮助。案例的数据均可以从网络本书的主页（regent./maed/）上获得。

原书前言

矿业114落的组成的多维数据，比如种的属性，或是环境因子的属性，是生态学家研究生涯的面包与黄油。这些数据被分析时候需要考虑它们的多维性。用多元统计的方法来分析落数据是比较适合的。

在这本书，我们尽量使用一套一致的方法来回答生态学家在研究中常遇到的问题。然而，我们也经常

用自己观点来表述一些内容，同时，我们也关注一些非参数的方法，比如非度量多维尺度分析（NMDS）的算法等等。我们并不要是强调不同的方法对于分析多元数据的差异，而是想说明要解决一个问题，可以用很多方法。

在本书主要内容讲排序的方法，但并不意味着分类的方法没有用（译者注：排序与分类密不可分，分类分析落的间断分布，排序分析落的连续分布）。同时，我们也对回归方做了一些总结，包括最新发展的内容比如广义可加模型（generalized additive models）。

在这本书的所描述的方法可以广泛被研究植物、动物和土壤的研究人员利用，当然也可以是水生生物方面的人员。由于本书的两位作者的背景，本书的内容偏向植物生态学。

电磁学在生活中的应用这本手册的材料原先是作为“生态数据多元分析”的课件。我们也希望这本书能用于其它相关类似的课程，也期望每个学生能够从这本书提高他们的分析数据的能力。

我们希望这本书可以作为Canoco 4.5 使用手册的简明的补充材料。

Jan Lep 和Petr Smilauer

译者前言

贸易收支

四年前，我开始接触CANOCO软件时候，也是菜鸟一个，自己并不是学统计出身，学习的过程也非常缓慢。当时也不会想到四年后今天，我居然还能为大家翻译这样一本有关CANOCO的书。这个过程，不得不承认普兰塔（www.planta）的作用，正是为了回答塔友有关排序和CANOCO相关的问题，我不断翻文献、看软件说明书和自己摸索，积累了一点关于多元统计方法和CANOCO软件的一些知识。我相信很多的塔友的排序知识比我丰富，CANOCO软件用得比我熟练，但至今不愿“出山”写本中文的参考书，哪怕是翻译一本也行。没办法，只能由我这个半桶水的家伙来承担此任务。

《士兵突击》的许三多有口头禅：“俺就是想做有意义的事情”。我一直觉得，翻译这本书就是非常有意义的事情，尽管现在的评价考核体系根本不会考虑我翻译了这本书，但我还是很乐意做这个事情。如果有很多CANOCO的初学者将从中受益，我也深感欣慰。当然，我发现每天早上上班和晚上下班前翻译一两段这本书还是一件很惬意的事情，而在翻译的过程，我也学到很多的东西。

由于本人非统计科班出身，而且时间比较仓促，翻译过程中可能有不少错误。有些统计学术语内容也可能斟酌不够，把握不准。因此，希望各个兄弟妹发现错误后给直接在博客里面回复，我会尽快修改。

赖江山

2009/6/25

1．导论和数据处理（Introduction and data manipulation）1.1为什么排序？（Why ordination?）

当考察植物或动物落沿着一系列环境条件下的变化情况，我们经常发现在不同条件的落不仅物种组成变化很大，而且这些变化往往具有连续性（consistency）和可预测性(predictability)。例如，我们为了要考察景观尺度上的草地落的变化，可以通过观测样方内物种组成变化来描述，我们可以在一、两个或是三个虚拟坐标轴上将这些样方一个一个进行排列。当我们的目光在虚拟的排序轴上从一个样方移动到下一个相邻的样方，我们就会发现落内物种组成变化通常很小。

落中物种组成渐变跟每个物种对环境条件有着需求不同但又有重叠的生物学性质息息相关，这些环境因子如土壤平均湿度及随季节的波动变化、物种间竞争养分和光照能力等等。如果我们原来排列样方的虚拟轴走向恰好能反映某种环境因子的变化规律（比如土壤湿度或是土壤养分丰富度），这些排序轴便可以被称为土壤湿度梯度、养分梯度等等。这些环境梯度偶尔恰好又能跟实际的景观联系起来，例如土壤湿度梯度与河岸坡面，经常是沿着坡面从下到上，土壤湿度逐渐降低。但大部分情况下，我们并不能发现这些轴具体反映什么环境因子，或是反映什么空间变化，因此我们只能称这些轴为落组成变化梯度。

生物落的变化可以用很多统计方法来描述，但我们如果着重考察落变化的连续性，所谓的“排序方法”是很好的选择。自从上个世纪五十年代开始，生态学家就开始用排序的方法分析生态学数据，经过

半个世纪的发展，现在已经创制出种类繁多排序技术。我们利用刚才那个草地落的例子来说明一下最简单的排序使用。当我们通过样方调查法来描述落物种变化规律的时候，把样方数据总结在一个表格里面形成一个物种-样方矩阵，矩阵的列代表物种，行代表样方。如果用排序的方法分析数据矩阵并在排序图上表示出来（图1-1），我们可以获得对于这个草地落相当直观的认识。

排序图的解读规则将在随后的第10章进行讨论。但即使现在不知道这些规则，只要脑子里有落连续性分布的思想和相似相近的原则（Proximity implies similarity），我们也能从这个图解读出一些信息。在图1-1中灰的圆圈代表样方，我们可以相信如果两个样方在排序图上挨得越近，它们的物种组成和种间数量比例应该越相似。

在图1-1中用三角型代表物种。或许这些物种的生态学特征能够帮我们解读排序轴所表示的生态学梯度。有几个偏好丰富养分的土壤的物种（如Urtica dioica, Aegopodium podagraria, or Filipendula ulmaria）排在图的右边，另外一些偏好养分匮乏的土壤的物种排在左边（如(Viola palustris, Carex echinata, or Nardus stricta)。因此，排序图中的水平轴（第一轴）可以解读为表示土壤养分的梯度，从左到右，养分越丰富。同样的道理，排序图下面几个物种（如Galium palustre, Scirpus sylvaticus, or Ranunculus repens)比排在上面的一些物种（如Achillea millefolium, Trisetum flavescens, or Veronica chamaedrys）更喜欢湿生环境。因此，纵轴（第二轴）可以解读为表示土壤的湿度梯度。

同样，或许大家都可以猜到，在排序图上，如果某一物种的越靠近某一个样方，表示该物种在此样方内个体数量越多。同样，两个物种离一个样方的距离也可以代表它们在该样方所占比例的差异，离得越近该物种相对数量越多。

上面的例子已经展示了排序方法对于落分析的最基本的用途。通过排序分析，我们可以认识落格局，也可以将排序轴跟我们已知的环境条件联系起来，看是否代表某一环境梯度。当然，也许我们必须用统计手段来检验排序轴到底是否真能代表环境因子残酷的欲望

食蚜斑腹蝇的梯度，比如，上面这个例子，我们可以这样问个问题：落物种组成分布真的是随土壤湿度的变化，还是仅仅是一个巧合呢？通过约束排序法（constrained ordination methods）可以帮我们回答这样的问题。这些内容通通将要在本书的后半部分介绍。

然而，这本书并没有止步于仅仅用排序的方法来探讨上述这些简单的确定性的分析。这本书还介绍了各种类型的回归和方差分析，包括了固定样点重复观察的数据分析，空间结构数据分析和各种等级的方差分析。这些方法能够让生态学家探讨更复杂、更现实的科学问题。另外，这本书不仅是告诉如何分析问题，还手把手教大家怎么做。

图1.1 草地植被物种组成的CA排序图

1.2专业术语（Terminology）

多元统计分析的专业术语非常复杂。本书内至少有两套不同的术语，一套是很多学科领域共同使用的、纯粹统计学术语，本书中我们将这部分术语斜体并放在括号里面；

另外一套是落生态学惯用的多元统计学术语。本书也大部分统计术语基于落生态学，偶尔用纯粹统计学术语来表达一些常用的统计学理论。本书中的术语跟CANOCO软件中的术语是一致的。

在落学分析中，大部分情况是下是基于样方单元（sampling units）观测的原始数据。每个样方内包含很多物种的数量信息，或是其他属性的信息。原始数据常用矩阵来表示，一般是一行代表一个样方，一列代表一个属性特征（如物种，水分或土壤的物理化学特征等等）

生态学原始数据一般由两个部分构成，一组是响应变量(response variable)，另外一组是解释变量（explanatory variables）。在落学分析里面，响应变量经常是物种的组成数据，而解释变量通常是环境因子，比如土壤或水的特征属性等。在一个模型里，我们要利用解释变量来预测响应变量（落的组成）。在排序分析中，解释变量又经常可以分为两组：一类主环境变量，我们主要关心它们与落内物种分布的关系；另外一组叫

协环境变量(在一般统计方法里面也叫协同变量covariates)。协环境变量与主环境变量同时对响应应变起作用，因此我们要分析主环境变量效应之前，应先将协环境变量的效应剔除出来，以便更准确考察主环境变量与物种分布的关系。

举个例子，我们要分析一个特定区域土壤的属性特征和管理模式（刈割或放牧）对草地落物种组成的影响。当我们感兴趣的土壤的属性的影响，不关心管理模型的影响时，物种组成数据作为响应变量，

土壤的属性数据作为解释变量，得出的结论可以看出每个物种分布与土壤梯度的关系。同样，我们考察管理模式对物种分布的影响，不关心土壤的属性的影响时，只用管理模型数据作为解释变量即可。然而，假设管理模式可能改变土壤的属性，这样就能通过影响土壤属性改变来间接影响物种分布。现在我们只要分析管理模式单独对落内物种组成的影响，需要排除掉通过影响土壤间接影响物种分布的这部分效应。此时，就应该把管理模式作为主环境变量，而土壤属性数据作为协环境变量。

在CANOCO程序里面，理解“物种数据”内涵是很关键的。其实只要是需要我们去预测的数据，都可以成为物种数据。例如我们预测集水区不同景观内多种水金属离子的数量的时候，此时一种金属离子在CANOCO软件里面即代表一种物种。在落学里，CANOCO里面的物种数据经常是用物种的组成来表示，描述物种组成的属性通常用不同的多度指标来表示，例如个体数，频率估计和生物量估计。当然也可以用表示物种在样方内存在与否的二元数据描述物种组成属性。同样，数量型变量和0-1型（presence-absence）都可以成为环境变量。对于这部分内容将在下面详细讨论。

1.3分析类型（Types of analyses）

如果我们要使用数量统计方法描述一个或多个响应变量，如何选择合适的统计模型要依赖于所研究的响应变量是一个还是多个，以及是否有解释变量。

表1-1总结了不同变量条件与统计方法的对应关系。如果只有一个响应变量数据，而没预测器（解释变

量），我们仅仅需要、也只能归纳这个变量的分布特征（如通过直方图、中值，标准差、四分位极差等）。如果有多个响应变量，依然没有解释变量，我们可以用排序（间接梯度分析）来分析数据，例如可以用主成分分析（PCA）、对应分析（CA）、去趋势对应分析（DCA）和非度量多维尺度分析（NMDS），当然也可以用等级分类，如聚类的方法将样方分为有区别的几类（详见第7章的聚类分析）。中央经线

如果我们有一个或多个的解释变量，要分析一个响应变量，可以用广义的回归模型，包括传统的回归模型和方差分析、协方差分析。这类分析统称为一般线性模型（general linear model），最近在一般线性模型基础上，发展出了广义线性模型（generalized linear models, GLM）和广义可加模型(generalized additive models, GAM)。有关这回归模型更多的信息，我们将在第8章讨论。

如果有多个响应变量需要分析，解释变量一个或多个，我们可以通过直接梯度排序来分析解释变量与多个响应变量（落学里通常是物种）之间的关系。常用的有冗余分析（RDA）和典范对应分析（CCA）等排序技术。

本文发布于:2024-09-22 15:44:58，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/532540.html

上一篇：简单网络管理协议SNMP

下一篇：SM2246EN Flash Support List_O0409选型介绍