SAS学习系列36.判别分析

36. 判别分析
(一)基本原理
判别分析,是用以判别个体所属类的一种统计方法。其原理是根据已掌握的一批分类明确的样品,建立一个较好的判别函数,使得用该判别函数进行判别时错判事例最少,进而能用此判别函数对给定的一个新样品判别它来自哪个总体
判别分析方法通常要给出一个判别指标(判别函数),同时还要指定一种判别规则。
一、距离判别法
未知总体的样品x离哪个总体的距离最近,就判断它属于哪个总体。
1. 对于两个正态总体G1, G2
距离选用马氏(Mahalanobis)距离:
d2(x, G1) = (x-μ1)T1-1(x-μ1)
d2(x, G2) = (x-μ2)T2-1(x-μ2)
其中,μ1, μ2, 1, 2分别为总体G1, G22的均值和协差矩阵。令
W(x) = d2(x, G1) - d2(x, G2)
称为判别函数,若1=2时,W(x)是线性函数,此时称为线性判别;若12,W(x)是二次函数。
2. 多总体情况
设有m个总体:G1, , Gm,其均值、协差阵分别为μi, i. 对给定的样品x,按距离最近的准则对x进行判别归类
首先计算样品xm个总体的马氏距离di2(x), 然后进行比较,把x判归距离最小的那个总体,即若dh2(x) = min{ di2(x) | i = 1,…,m},则xGh.
二、Fisher线性函数判别法
为了方便使用,需要寻尽量简单的判别函数,其中在Fisher准则下的线性判别函数就是只利用总体的一、二阶矩就可求得的判别函数。
图1 Fisher线性判别分析示意图
下面以两个总体为例来说明Fisher判别的思想。
    设有两个总体G1G2,其均值分别为 1 2,协方差阵分别 1 2,并假定 12 ,考虑线性组合:y = LTx。通过寻求合适的L向量,使得来自两个总体的数据间的距离较大,而来自同一个总体数据间的差异较小。为此,可以证明,当选L=c –1( 1 2),其中c   0时,所得的投影即满足要求。从而称c = 1时的线性函数:
ymaxstep = LTx = ( 1 2)T –1x
为Fisher线性判别函数。其判别规则为:
其中,m为两个总体均值在投影方向上的中点,即
三、贝叶斯判别法
m个总体G1, …, Gm,其分布密度分别为f1(x), , fm(x),各自的先验概率(可以根据经验事先给出或估出)分别为q1, …, qm,显然
当抽取了一个未知总体的样品x,要判断它属于哪个总体,可用著名的贝叶斯公式计算x属于第j个总体的后验概率:
则判断x属于第h个总体。
或者计算按先验概率加权的误判平均损失:
其中,C(j | i)为假定本来属于Gi的样品被判为属于Gj时造成的损失,当然C(i | i) = 0C(j | i)  0.
    再比较这m个误判平均损失的h1(x), , hm(x)的大小,选取其中最小的,就可以判定样品x来自该总体。
在实际问题中,错判的损失可以给出定性分析,但很难用数值来表示,但应用贝叶斯判别法时,要求定量给出C(j | i)C(j | i)的赋值。通常:根据经验人为赋值;假定各种错判的损失都相等。
    错判概率
    当样品x Gi,用判别法判别时,把x判给Gj (ij),出现错判。用P(j|i))表示实属Gi的样品错判为Gj的概率。
  广义平方距离判别法
    在正态总体的假定下,按贝叶斯判别的思想,在错判造成的损失认为相等的情况下得到的判别函数其实就是马氏距离判别在考虑先验概率及协方差阵是否相等情况下的推广,故在SASDISCRIM过程中称为广义平方距离判别法。
四、逐步判别法
  所有变量中,有的变量对区分k个总体的判别能力可能很强,有的可能很弱。如果不加区别地用全部变量来建立判别函数,则必增加大量的计算,还可能因为变量间的相关性引起计算上的困难(病态或退化等)及计算精度的降低。另一方面由于一些对区分k个总体的判别能力很小的变量的引入,产生干扰,致使建立的判别函数不稳定,反而影响判别效果,因此自然提出一个变量的选择问题。即如何从m个变量中挑选出对区分k个总体有显著判别能力的变量,来建立判别函数,用以判别归类。

本文发布于:2024-09-23 17:21:15,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/350507.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:判别   总体   判别函数   变量   错判   样品   距离   损失
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议