摘要
现实生活中,我们要对许多事物分类,有了新的事物,我们要将其划入已
知的类别,这就需要建立相关的模型和规则。有两种蠓虫Af和Apf巳由生物学 家W.L Grogan和W.W.Wirth(1981年)根据它们的触角长度和翼长加以区分。对
已知的18组数据(6只Apf和9只Af蠓虫的触角长度和翼长,3只待分类的蠓
虫数据)本文分别用距离判别模型和Bayes判别模型对蠓虫的分类问题进行了讨 论,用误判概率对模型的好坏进行了讨论,回代误判率和交叉确认误判率分别为 0和6.67%,得到合理的结果,并且用两种方法分别对未知的3只蠓虫分了类,
模型是在总体是二维正太总体假设下建立的,所以最后还对总体的正态性做了统 计检验。
关键字:判别分析 距离判别 Bayes判别
一、 问题重述
两种蠓虫Af和Apf巳由生物学家W.L Grogan和W.W.Wirth(1981年)根据它们的触角长度和翼长加以区分。现测得6只Apf和9只Af蠓虫的触角长度和翼长识别的依据是蠓虫的触角和翅膀的长度的数据(见附录一),现在要根据数据,制定一种方法,正确区分两类蠓虫;并且将建立的模型将用于已知触角长和翼长三个待定的样本进行识别。且在假设Af 是宝贵的传粉益虫,而Apf是某种疾病的载体的情况下,对模型加以改进。
二、 模型假设
1、假设两个蠓虫总体都服从二维正太分布;
2、假设两总体协方差矩阵相等;
3、两总体的先验概率“按比例分配”,即各自的容量与总容量的比值;
4、误判后造成的损失相等。
三、 符号约定与说明
1、:表示总体,i=1,2;
2、:总体协方差,i=1,2,该符号上面打尖角符表示估计值;
3、:总体均值向量,i=1,2;
4、:x到的马氏平方距离,i=1,2;
5、:判别函数,i=1,2;
6、:的先验概率,,其中是的训练样本的容量;
7、:的后验概率,;
泰国非洲马瘟疫情
8、:在判别准则R下,将来自的样品误判来自于的概率:9、:总体的概率密度函数;
10、:将来自的样品误判来自于后带来的损失。
其它需要用到的符号,在后面再做说明。
四、 模型建立
1、 模型一
——距离判别模型
(1):下面给出相关定义:
定义:若x、y来自均值向量为、协方差矩阵为的总体的两个样本,则x、y之间的马氏平方距离为:,x与G的马氏平方距离为:。
(2):距离判别的思想:
有两个总体,给定一个待判样品,我们要判断它来自哪个总体,通过比较样本到总体的距离大小,距哪个总体距离小就属于哪个总体。这里都是基于马氏平方距离。
(3):距离判别模型:
因为两总体协方差相等,即有,所以x到两总体马氏平方距离的差为:
=
记:
再结合上面距离判别思想很容易有下面的距离判别准则:
实际生活中,总体的分布往往是不知道的,我们只有根据样本去推断总体,所以我们只有用估计值代替上面各个式子中的相关变量,假设,i=1,2…,是来自的样本,,i=1,2,…,的样本,我们用、、、、S分别来估计总体的均值、协方差,即用它们分别替换上面式子中的、、、、,其中:
,,
,
,
。
(4):判别准则的评价
在一定的准则下,将一个样品判错的概率称为该准则的误判概率,简称误判率。误判率是评价判别准则好坏的标准。常用的误判率又两种,回代误判率、交叉确认误判率。
①、回代误判率
对已知类别的样品用线性判别函数进行判别归类,即回判,用以估计误判率。
误判率的回代估计:
,表示G1判为G2,表示G2判为G1
②、交叉确认误判率
为了判断第i个样品的判别正确与否,用删除第i个样品的样本数据集计算出判别函数,然后用此判别函数来判别第i个样品。对每一个样品都这样进行分析,然后以其误判的比例作为误判概率的估计。
求交叉确认误判率的步骤:
①从总体G1的容量为n1的训练样本开始,依次剔除其中的一个样品,用剩余的容量为n1-1的训练样本和总体G2的容量为n2的训练样本建立相应的判别函数。
②用建立的判别函数对剔除的那个样品作判别。
③重复步骤①和② ,直到的练样本中的n1个样品依次被剔除,又依次进行判别,其误判的样品个数记为
④对总体G2的训练样本重复步骤①,②和③ ,并计其误判的样品个数记为
误判率为:
2、模型二
——Bayes判别模型
(1):相关概念:
①先验概率:设2维总体G1,G2其概率密度分别为:、,任一样品来自总体G1,G2的先验概率为:
,i=1、2,p1+p2=1, 按照“按比例分配”原则取值。
②后验概率:已知取到样品 x时,它来自总体Gi ( i=1,2 ) 的后验概率为:
,
③广义平方距离函数:
(2):Bayes判别思想:
假定对所研究的对象(总体)在抽样前已有一定的认识,常用先验分布来描述这种认识,然后,基于抽取的样本对先验认识作修正,得到后验分布,而各种统计推断均基于后验分布进行。
(3):模型建立:
对于2维指标观测值,它的取值空间是2维欧氏空间,一个判别法实质上是对空间的一个划分,记为
故一个划分相当于一个判别准则。
在准则R下,将本属于总体Gi 的样品错判为来自其它总体造成的平均损失为:
当样品属于总体Gi 的先验概率为pj ,平均误判损失为:
一个最优的划分应使误判的平均损失L达到最小。故Bayes判别即寻求使平均误判损失达到最小
在判别准则R下,将属于总体G1的样品误判为属于总体G2的误判概率和误判损失分别为:
在判别准则R下,将属于总体G2的样品误判为属于总体G1的误判概率和误判损失分别为:
平均误判损失为:
现在求使平均误判损失达到最小
使平均误判损失达到最小也就是使误判概率p*达到最小
若时,可使误判概率p*达到最小
由后验概率的表达式可得
误判损失相等时,即c(2|1)=c(1|2)时
判别函数为:
判别准则为:
和距离判别一样,我们用、、、、S分别来估计总体的均值、协方差,即用它们分别替换上面式子中的、、、、。
判别准则为:
另外,后验概率的估计为:
,
其中
(4):判别准则的评价
误判率的回代估计
其中
当p1, p2按比例确定时粗略估计
五、 模型求解
现在,我们来对蠓虫分类问题用以上的模型分别求解(用SAS求解)
程序得到的结果整理如下:
1、用距离判别模型:
在协方差矩阵相等的假设下,得到的线性判别函数为:
将训练样本的数据代入上面判别函数,结合判别准则,得到判别结果:
(1) 若采用回代法,结果为:
即15个训练样本完全判别正确,回代误判率为:
将待判样品数据代入上面判别函数,3个样品都判为Apf;
(2)若采用交叉确认估计,得到的结果中,第七个样品判断错误
交叉确认误判率为: ==6.67%
待判样品结果
2、用Bayes判别模型
在协方差矩阵相等、误判损失相等,先验概率按比例分配的条件下,训练样本的后验概率、判别结果为:
(1) 回代
序号 | 回判结果 | | |
1 | Apf | 0.99891 | 0.00109 |
2 | Apf | 0.99999 | 0.00001 |
3 | Apf | 0.99829 | 0.00171 |
4 | Apf | 0.99973 | 0.00027 |
5 | Apf | 0.99913 | 0.00087 |
6 | Apf | 0.9873 | 0.0127 |
7 | Af | 0.2165 | 0.7835 |
8 | Af | 0.00055 | 0.99945 |
9 | Af | 0 | 1 |
10 | Af | 0.00356 | 0.99644 |
11 | Af | 0.06987 | 0.93013 |
12 | Af | 0.00001 | 0.99999 |
13 | Af | 0.00001 | 0.99999 |
14 | Af | 0 | 1 |
15 | Af | 0.00198 | 0.99802 |
| | | |
从上表可以看出,回代误判率
(2)交叉确认估计
只有第七个判断错误,如下表
序号 | 判别结果 | | |
1 | Apf | 0.99697 | 0.00303 |
2 | Apf | 0.99999 | 0.00001 |
3 | Apf | 0.99696 | 0.00304 |
4 | Apf | 0.99946 | 0.00054 |
5 | Apf | 0.99827 | 0.00173 |
6 | Apf | 0.98175 | 0.01825 |
7 | Apf | 0.68426 | 0.31574 |
8 | Af | 0.001 | 0.999 |
9 | Af | 0 | 1 悬架设计 |
10 | Af | 0.00469 | 0.99531 |
11 | Af | 0.0833 | 0.9617 |
12 | Af | 0.00001 | 0.99999 |
13 | Af | 雨霖铃说课稿 0.00001 | 0.99999 |
14 | Af | 0. | 1 |
15 | Af | 0.04986 | 0.95014 |
| | | |
交叉确认误判率为: ==6.67%
3个待判样品的结果为:
序号 | 判别结果 | | |
1 | Apf | 0.85302 | 0.14698 |
2 | Apf | 0.72139 | 0.27861 |
3 | Apf | 0.82846 智能行车电脑 | 0.17154 |
| | | |
六、 结果分析
(1)、模型一通过判别函数得到很好的结果,两种误判率都较小,说明模型合理。
(2)、模型二得到了相同的结果,说明模型判别的准确率高。
七、 模型改进及评价
(1)、两个模型都是在假设总体服从二维正太分布的条件下进行的,因此我们有必要对总体的正态性做检验,通过正太W检验对X1的正态性进行检验,通过
企业医生
SAS程序计算W统计量的值为:W=0.961894,p值为:p=0.7253,在检验水平
=0.05下,p>,同理对X2检验,也服从正太分布,可以看出,我们做的正太假设是合理的。另外通过下面正太QQ图也可以看出正太分布的假设是合理的。
X1的正太QQ图
X2的正太QQ图
(3)模型假设协方差矩阵相等,我们需要对它们是否相等进行检验,用修正的Bartlett似然比检验法检验,检验水平0.10,p=0.4359>0.1,所以协方差矩阵相等的假设合理,不需要对不相等的情况讨论。
(3)、若Af是宝贵的传粉益虫,Apf是某种疾病的载体,显然将Apf判为Af的损失比将Af判为Apf的损失大,那么我们假设误判造成的损失相等就有问题了,因此有必要对模型改进一下。假设c(2|1)≠c(1|2),此时判别准则为:
我们将误判损失的比例定为c(2|1)= c(1|2),即c(2|1)=0.25,c(1|2)=0.75,得到的结果回代和交叉估计都是全部判对,即误判率都是0,3个待判样品都是判为Apf。
八、 参考文献
<1>梅长林、范金城,《数据分析方法》,高等教育出版社,2006年2月出版
<2>邓祖新,《数据分析方法和SAS系统》,上海财经大学出版社,2006年8月出版
<3>全国大学生数学建模组委会,《全国大学生优秀论文汇编(1992-2000)》,中国物价出版社,2002年3月出版