我们前面已经比较系统地讨论了双样本的参数和非参数检验的问题。现在,我们希望利用一般的方法来检验三个以上样本的差异,检验法和方差分析法就是解决这方面问题的。检验法可以对拟合优度和独立性等进行检验,方差分析法则可以对多个总体均值是否相等进行检验。后者由于通过各组样本资料之间的方差和组内方差的比较来建立服从F分布的检验统计量,所以又称F检验。
第一节 拟合优度检验
1.问题的导出
第十一章最后一节,我们将累计频数检验用于经验分布与理论分布的比较,实际已经提供了拟合优度检验的一种方法。拟合优度检验与累计频数拟合优度检验相对应,在评估从经验上得到的频数和在一组特定的理论假设下期望得到的频数之间是否存在显著差异时,是一种更普遍的检验方法。
2.拟合优度检验(比率拟合检验)
据经验分布来检验总体分布等于理论分布的零假设,检验统计量是
=
理论证明,当n足够大时,该统计量服从分布。因此对给定的显著性水平α,将临界值与比较,可以就Ho作出检验结论。
对于拟合优度检验,在试验规模小时,否定零假设的意义大,接受零假设的意义不大;若试验规模大时,则接受零假设的意义大,否定零假设的意义不大。
3.正态拟合检验
第二节 无关联性检验
检验的另一个重要应用是对交互分类资料的独立性检验,即列联表检验。由于列联表一般是按品质标志把两个变量的频数进行交互分类的,所以,①检验法用于对交互分类资料的独立性检验,有其它方法无法比拟的优点;②如何求得列联表中的理论频数就成了独立性检验的关键。 植物凝集素 1.独立性、理论频数及自由度
检验统计量 ==
进一步上式可变为 =n
在使用检验法进行列联表检验之前,还必须确定与这个检验统计量相联系的自由度,即 (r×c-1)-(r-1)-(c-1)=(c-1)(r-1)。
2.关于频数比较和连续性修正
用卡方作为列联表的统计量,有两点我们应该特别注意。首先,列联表检验是通过频数而不是通过相对频数的比较进行的。其次,使用卡方对列联表进行检验.每一格理论频数必须保持在一定数目之上。
3.列联表的卡方分解
若一个复杂的列联表具有显著性,有时需要检查子表以确定表格的那一部分卡方影响最大。一种可行的简便方法就是考察每一格的残差,其公式为
=
根据计算结果可以知道哪一个残差对卡方影响大。
另一种方法是利用卡方分布的可加性,把r×c表的总体卡方分解为若干独立部分。
到目前为止,本节一直在讨论列联表变量间是否存在关系。其方法是建立变量间无关系的零假设,然后再试图否定它。然而,对变量间是否存在关系的讨论,必然引出对变量间关系强弱的讨论。在样本小的时候,获得显著性即表明变量间有强关系。对大样本来说,更重
要的问题是:“如果变量间存在关系,其强度有多大?”现在由于PRE准则,许多不同测量层次的变量已经可以统一起来进行关联强度的讨论了。
第三节 方差分析
方差分析,是一种很重要的分析方法,它可以检验两个以上样本均值之差。方差分析是均值差检验的推广,一般用于处理自变量是一个(或多个)定类变量和因变量是一个定距变量之间的关系。方差分析所包含的假定与均值差检验所包含的假定差不多,例如正态分布、独立随机样本、等方差性等,但检验本身却很不相同。方差分析直接涉及的是方差而
不是均值和标准差。同时,比较也不取两种估计量之差,而是取两种估计量的比率。在两种估计量彼此独立的前提下,两种估计量之比率F具有已知的抽样分布,因而可进行很简单的检验。
第十二章已经引入了变差的概念。但在方差分析中,由于自变量都是定类变量,我们不能像回归分析那样出自变量和因变量的线性或非线性关系,即不能确定自变量X取不同值时因变量Y的拟合值Yc,而只能研究自变量X取不同类别时,因变量Y的均值是否有所不同。但是在三种变差的讨论中,和Yc的地位是一样的。所以,有了上一章的知识,方差分析的方法是不难掌握的。
首先我们看总变差。总变差这个概念不同于方差,在方差分析中记作SST,它表示对于总均值的偏差之平方和,即
挠度公式
SST=
为什么会形成总变差这个散布度呢?显然有两个原因:一是三个样本可能不同,这使全部数据有三个“中心”;二是随机抽样误差的影响,使数据在每个中心附近有散布。
这样,将总变差分解成两部分。第一部分是各观测值对其所属类别均值DUTTAPHRYNUS MELANOSTICTUS的偏差的平方和,称为组内变差,记作SSW。组内变差反映了数据围绕各“中心”的散布程度,即反映了因随机波动所产生的变异,与自变量因素无关。换言之,SSW是自变量因素所没有解释的的变异。因此,又称之为残差。第二部分是组间平方和,记作SSB ,它涉及到诸类别均值对总均值的偏差,反映数据在c个“中心” 附近的散布程度。
磐石市实验中学
2.关于自由度
弄清了组间变差和组内变差,检验零假设(H0:μ1=μ2=…=μc)的思路也就梳理出来了:关键是比较两种变差是否有显著差异。但在统计学上,方差分析不取两者之差而取两者之比来进行这种比较。而且,方差分析不是直接用SSB/SSW作为检验统计量,而是用(可以解释的方差)/(不能解释的方差)作为检验统计量,即
在统计学上,变差除以自由度即可“规格化”成方差。总自由度=组内自由度 + 组间自由度,即n―l =(n―c)+(c―1)。这样一来,在零假设(H0:μ1=μ2=…=μc)之下,检验统计量Fo的计算公式就到了
Fo==
3.关于检验统计量Fo的计算
总平方和(SST)==― 组间平方和(SSB) ==―
组内平方和(SSW)=总平方和(SST)―组间平方和(SSB)
注意,由于总变差等于另两个变差之和,所以三个变差中仅需求出两个变差。求出组内平方和比求另两个平方和繁琐得多,故通常我们都是从总平方和减去组间平方和来求组内平方和的。
检验统计量 Fo =
4.相关比率
当方差分析的检验呈显著性后,进一步讨论两变量间的相关程度是很自然的。方差分析中相关程度的测定仍采用PRE法。
PRE===
正是因为上式,我们把SSB称为已解释的变差。显然,已解释的变差越大,预测Y所减少的误差就越多,X与Y之间的关系就越密切。据此,方差分析中把已解释的变差对总变差的比值称为相关比率,用符号表示
=1―
可用于一个定类变量与一个定距变量的相关程度的测定,当然也可以用于定序—定距变量或定距—定距变量的相关程度的测定。
相关比率研究的是定类旅洋级驱逐舰—单点系泊系统定距变量之间的相关程度。由于定类变量不具有数量大小的问题,不存在关系是否线性的问题。因此,当被用于研究定距—定距变量之间的关系时,不仅可以作为线性相关的量度,也可以作为非线性相关的量度。这意味着,对线性相关,相关比率与r2(积差系数之平方)有相同的PRE性质;但如果对非线性相关,用积差系数r来讨论就不行了。
对于定距—定距变量,曲线相关既然要用R来测量,那么反过来,同一资料通过相关指数R与积差系数r计算的比较,可以判断确定两定距变量的关系是不是直线。如果同时求出r与R,r等于或略大于R,可说明两变量关系是直线的,用r去测量是合适的;如果r<R,则说明两变量关系可能是曲线的。
5.关于方差分析的几点讨论
鉴于方差分析的重要性,我们有必要对它进行某些深入讨论:(1)MSB和MSW可以分别称为组间方差和组内方差,其中(在等方差的假设下)组内方差总是σ2的无偏估计;而组间方差,只有当诸总体(即各样本所代表的子总体)均值实际上相等时,它才是σ2的无偏估计。(2)方差分析的优点在于,一个检验可以代替多个检验。(3)方差分析中的自变量X如果是二分变量,也可以采用均值差t检验。(1)如果对因变量Y影响的自变量由一个变为两个以上,我们就将面对多元方差分析了。总变差分解的思想可以直接推广至多因素显著性检验。
第四节 回归方程与相关系数的检验
1.回归系数的检验
检验两个总体变量(定距—定距变量)是否具有线性关系,主要是检验总体的回归系数B是否等于零。在H0成立的条件下,检验回归直线的统计量可构造为
Fo=~ F(1,n―2)