(完整)非参数统计wilcoxon秩和检验

Wilcoxon 秩和检验

Wilcoxon 符号秩检验是由威尔科克森（F·Wilcoxon)于1945年提出的.该方法是在成对观测数据的符号检验基础上发展起来的，比传统的单独用正负号的检验更加有效。1947年，Mann 和Whitney 对Wilcoxon 秩和检验进行补充，得到Wilcoxon —Mann-Whitney 检验，由后续的Mann-Whitney 检验又继而得到Mann —Whitney-U 检验。

一、两样本的Wilcoxon 秩和检验

由Mann ，Whitney 和Wilcoxon 三人共同设计的一种检验，有时也称为Wilcoxon 秩和检验，用来决定两个独立样本是否来自相同的或相等的总体.如果这两个独立样本来自正态分布和具有相同方差时，我们可以采用t 检验比较均值。但当这两个条件都不能确定时，我们常替换t 检验法为Wilcoxon 秩和检验。

Wilcoxon 秩和检验是基于样本数据秩和。先将两样本看成是单一样本(混合样本）然后由小到大排列观察值统一编秩.如果原假设两个独立样本来自相同的总体为真，那么秩将大约均匀分布在两个样本中，即小的、中等的、大的秩值应该大约均匀被分在两个样本中。如果备选假设两个独立样本来自不相同的总体为真，那么其中一个样本将会有更多的小秩值，这样就会得到一个较小的秩和；另一个样本将会有更多的大秩值，因此就会得到一个较大的秩和。

设两个独立样本为：第一个x 的样本容量为1n ，第二个y 样本容量为2n ，在容量为21n n n +=的混合样本（第一个和第二个)中，x 样本的秩和为x W ，y 样本的秩和为y W ，且有

2)1(21+=

+++=+n n n W W y x (1）

我们定义 2

)1(111+-=n n W W x (2） 2)1(222+-=n n W W y (3)

以x 样本为例，若它们在混合样本中享有最小的1n 个秩，于是2

)1(11+=n n W x ，也是x W 可能取的最小值；同样y W 可能取的最小值为2

)1(22+n n 。那么，x W 的最大取值等于混合样本的总秩和减去y W 的最小值，即2)1(2)1(22+-+n n n n ；同样，y W 的最大取值等于2

体能训练服)1(2)1(11+-+n n n n .所以，(2）和(3）式中的1W 和2W 均为取值在0与2122112

)1(2)1(2)1(n n n n n n n n =+-+-+的变量。当原假设为真时，所有的i x 和i y 相当于从同一总体中抽得

的独立随机样本,i x 和i y 构成可分辨的排列情况，可看成一排n 个球随机地指定1n 个为x 球另2n 个为y

球，共有1n n C 种可能，而且它们是等可能的。基于这样分析，在原假设为真的条件下不难求出1W 和2W 的概率

分布，显然它们的分布还是相同的，这个分布称为样本大小为1n 和2n 的Mann —Whitney-Wilcoxon 分布。

一个具有实际价值的方法是，对于每个样本中的观察数大于等于8的大样本来说，我们可以采用标准正态分布z 来近似检验。由于1W 的中心点为2

21n n ，根据（28。2)式，x W 中心点μ为 2

)1(2)1(22111121++=++=n n n n n n n μ (4） x W 的方差2σ从数学上可推导出

12)1(21212++=n n n n σ （5）

如果样本中存在结，将影响到公式（28。5）中的方差，按结值调整方差的公式为

)1)((12)(12)1(212132121212-++--++=∑n n n n n n n n n n j j ττσ (6)

其中j τ第j 个结值的个数.结值的存在将使原方差变小，这是一个显然正确的事实。标准化后x W 为 )1,0(~)1)((12)(12)1(5.02)1(5

.021213212121211N n n n n n n n n n n n n n W W z j x x -++--++±++-

=±-=∑ττσμ （7）

其中分子加0。5或减0。5是为了对离散变量进行连续性修正，对于μ-x W 大于0减0。5修正，对于μ-x W 小于0加0.5修正。

<；例>某航空公司的CEO 注意到飞离亚特兰大的飞机放弃预定座位的旅客人数在增加，他特别有兴趣想知道，是否从亚特兰大起飞的飞机比从芝加哥起飞的飞机有更多的放弃预定座位的旅客.获得一个从亚特兰大起飞的9次航班和从芝加哥起飞的8次航班上放弃预定座位的旅客人数样本，见表1中的第2列和第4列所示。

如果假定放弃预定座位旅客人数的总体是正态分布且有相等的方差，我们可以采用两样本比较的t 检验.但航空公司的CEO 认为这两个假设条件不能满足，因此采用非参数的Wilcoxon 秩和检验.将x 组与y 组看成是单一样本进行编秩，见表1中的第3列和第5列所示。，最小值是8秩值为1，最大值是25秩值为17，有两个结值10和11，两个10平均分享秩值3和4为3.5，两个11平均分享秩值5和6为5.5。如果两组放弃预定座位的旅客人数是相同的，那么我们期望的两组秩和x W 和y W 大约是相同的；如果两组放弃预定座位的旅客人数是不相同的，那么我们期望的两组秩和x W 和y W 也是非常不相同的.

注意到=1n 9，=2n 8，x W =96。5，y W =56。5,:0H 两组放弃预定座位旅客人数的分布是相同的。标准正态分布z 值的计算结果为

44515.1)189)(89(12)2828)(8(912)189)(8(95.02)189(95.96=-++-+--++-++-

=z 如果设定显著水平=α0.05，我们知道标准正态分布在0。05显著水平时，上临界值为1.645，下临界值为－1.645，由于1。445<1。645，所以不能拒绝原假设。

在使用Wilcoxon 秩和检验时，也可以采用第二个样本的秩和y W 来计算标准正态分布z 值，但要注意公式中1n 和2n 的对换。z 值的计算结果为

44515.1)189)(89(12)2828)(8(912)189)(8(95.02)189(85.56-=-++-+--+++++-

=z 由于－1.445>－1.645，所以得到是相同的结果，不能拒绝原假设。

上海空气污染指数另外，要特别注意的是由于在连续型分布中随机地抽出n 个样本，几乎极少可能存在有些值相等的情况，但在社会经济中有很多离散变量，很可能存在数值相同的情况，即样本中存在着“结”。我们处理“结”的方法采用分享平均秩，但当大量“结”存在时，将可能直接影响x W 的方差，因此需要把(5）式中的方差修正为

(6)。但在手工计算和结值不多的情况下，常使用未修正方差来简化计算，因为与修正方差的计算结果比较只存在一些小差异，大多数情况下不影响最终的推断结果.

二、单因子非参数方差分析的npar1way 过程

单因子非参数方差分析的npar1way 过程是分析变量的秩，并计算几个基于经验分布的函数（EDF ）和通过一个单因子分类变量的响应变量确定的秩得分的统计量。秩的得分计算分成四种:Wilcoxon 得分、中位数得分、Savage 得分和Van der Waerden 得分。然后再由秩得分计算简单的线性秩统计量，由这个秩统计量可以检验一个变量的分布在不同组中是否具有相同的位置参数，或者在EDF 检验下，检验这个变量分布在不同组中是否分布相同。秩得分的统计量也可以先用proc rank 过程计算秩得分，然后用proc anova 过程分析这些秩得分而得到。

1. 四种不同的秩得分计算

用以下公式定义的统计量

)(1i n i i R a C S ∑==

(8）

称为线性秩统计量.其中i R 是第i 个观察的秩，)(i R a 是秩得分，i C 是一个指示向量（由0和1组成），它表示了第i 个观察所属的类，n 是观察的总数。npar1way 过程的四种不同的)(i R a 秩得分计算为：

1) Wilcoxon 得分

在Wilcoxon 得分中

)(i R a =i R (28.9)

它对Logistic 分布的位置移动是局部最优的。在计算两样本情况下的Wilcoxon 秩和统计量时，过程对零假设下的渐进标准正态分布的z 统计量进行一个连续的+0.5和－0。5校正。

2) Median 得分

Median 得分又称为中位数得分。当观察的秩大于中位点时，中位数得分为1，否则为0，即

2/)1(1

高泰克斯)(+>=n R R a i i 当 2/)1(0)(+≤=n R R a i i 当

(28。10）对于双指数分布，中位数得分是局部最优。

3) Van der Waerden 得分

Van der Waerden 得分简称为VW 的得分。它是对正态分布的次序统计量的期望值的近似，即

)(i R a =))1/((F 1－+n R i (28.11)

其中)(F 1x -函数是标准正态的累积分布函数的反函数，这个得分对正态分布是最优的.

4) Savage 得分

Savage 得分是指数分布的次序统计量的期望值。减去1使得得分以0为中心，既

)(i R a =1)1/(11-+-∑=i R i i n

（28。12)

Savage 得分在指数分布中比较尺度的不同性或在极值分布中的位置移动上是最优的.

2. npar1way 过程说明

proc npar1way 过程一般由下列语句控制：

proc npar1way data=数据集 <；选项〉;

class 分类变量；新密市实验初中

var 变量列表;

by 变量列表；

run ;

为了使用proc npar1way，必须要proc 和class 语句。其余语句是供选择的。

1) proc npar1way 语句的选项

● anova -—对原始数据执行标准方差分析。

● edf -—计算基于经验分布函数(EDF ）的统计量，如Kolmogorov —Smirnov 、Cramer-Von Meses 、Kuiper 统计量。

● missing --把class 变量的缺失值看作一个有效的分类水平.

● median ——执行一个中位数得分分析。对于两样本产生一个中位数检验，对于更多样本产生一个

Brown—Mood检验。

●savage——执行一个Savage得分分析。该检验适用于数据服从指数分布的组间比较。

●vw——执行一个Van der Waerden得分分析。这是一个通过应用反正态分布累积函数得到近似的正态得分。对于两个水平情况，这是一个标准Van der Waerden检验。

●wilcoxon-—对数据或Wilcox on得分进行秩分布。对于两个水平，它与Wilcoxon秩和检验一样；对于任何数量的水平，这是一个Kruskal—Wallis检验.对于两样本情况，该过程使用一个连续的校正.

2)class语句

class语句是必需的，它指定一个且只能一个分类变量。该变量用来标识数据中的各个类。Class语句变量可以是字符型或数值型。

3)var语句

var语句命名要分析的响应变量或自变量。如果省略var语句，过程分析数据集中除class语句指定的数据变量外的所有数值型变量.

4)by语句

一个by语句能够用来得到由by变量定义的几个观察组，并用proc npar1way过程分别进行分析。当一个by语句出现时，过程希望输入的数据集已按by变量排序。

三、实例分析

例1的SAS程序如下：

data study。noshows ；

do group=1 to 2；

input n；

do i=1 to n；

input x @@；

output；

end;

cards；

挂网喷浆9

11 15 10 18 11 20 24 22 25

13 14 10 8 16 9 17 21

；

proc npar1way shows wilcoxon;

class group；

进口开关var x;

run；

建立输入数据集noshows，数据的输入和成组t检验相同，先输入本组数据的总数，然后输入组中每个数

本文发布于:2024-09-22 22:25:49，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/118332.html

上一篇：抽样调查习题

下一篇：统计学(复习)

标签：变量得分样本检验数据分布

留言与评论（共有 0 条评论）