区别与联系---判别分析与聚类分析的

判别分析(Discriminant Analysis)
一、概述:
判别问题又称识别问题,或者归类问题。
判别分析是由Pearson于1921年提出,1936年由Fisher首先提出根据不同类别所提取的特征变量来定量的建立待判样品归属于哪一个已知类别的数学模型。
根据对训练样本的观测值建立判别函数,借助判别函数式判断未知类别的个体。
所谓训练样本由已知明确类别的个体组成,并且都完整准确地测量个体的有关的判别变量。
训练样本的要求:类别明确,测量指标完整准确。一般样本含量不宜过小,但不能为追求样本含量而牺牲类别的准确,如果类别不可靠、测量值不准确,即使样本含量再大,任何统计方法语法弥补这一缺陷。
判别分析的类别很多,常用的有:适用于定性指标或计数资料的有最大似然法、训练迭代法;适用于定量指标或计量资料的有:Fisher二类判别、Bayers多类判别以及逐步判别。半定量指标界于二者之间,可根据不同情况分别采用以上方法。
类别(有的称之为总体,但应与population的区别)的含义——具有相同属性或者特征指标的个体(有的人称之为样品)的集合。如何来表征相同属性、相同的特征指标呢?
同一类别的个体之间距离小,不同总体的样本之间距离大。
距离是一个原则性的定义,只要满足对称性、非负性和三角不等式的函数就可以称为距
绝对距离
马氏距离:(Manhattan distance)
设有两个个体(点)X与Y(假定为一维数据,即在数轴上)是来自均数为μ,协方差阵为∑的总体(类别)A的两个个体(点),则个体X与Y的马氏距离为
(,)X与总体(类别)A的距离D X Y=
(,)
为D X A=
明考斯基距离(Minkowski distance):明科夫斯基距离
欧几里德距离(欧氏距离)
二、Fisher两类判别
一、训练样本的测量值
A类训练样本
编号 1x  2x
m x
1 11A x  12A x    1A m x  2
21A x
22A x
2A m x
A n
1A An x  2A An x
A An m x  均数
1A x
哈尔滨理工大学学报2A x
Am x
B 类训练样本
编号 1x  2x    m x
1 11B x  12B x    1B m x  2
21B x
22B x
2B m x
B n
1B Bn x  2B Bn x    B Bn m x  均数
1B x
2B x
Bm x
二、建立判别函数(Discriminant Analysis Function)为:
1122m m Y C X C X C X =+++
其中:1C 、2C 和m C 为判别系数(Discriminant Coefficient ) 可解如下方程组得判别系数。
1111221112112222221122()()()()
()()
m m m m m m mm m m m w C w C w C x A x B w C w C w C x A x B w C w C w C x A x B +++=-+++=-+++=-
各类的离差阵分别以()L A 、()L B 表示
1112121
22212()()()()()()()()()()m m m m mm L A L A L A L A L A L A L A L A L A L A ⎛⎫
⎪ ⎪
= ⎪
⎪⎝⎭
1112121
22212()()()()()()()()()()m m m m mm L B L B L B L B L B L B L B L B L B L B ⎛⎫
⎪ ⎪
= ⎪
⎪⎝⎭
类内离差阵W 为()L A 、()L B 之和
()()W L A L B =+
11121212221
2
m m m m mm w w w w w w W w w w ⎛⎫
门的悬念⎪ ⎪
=
⎪ ⎪⎝⎭
三、Y 值的判别界值
将1()x A 、2()x A 、  、()m x A 代入判别函数,得到相应的()Y A , 将1()x B 、2()x B 、  、()m x B 代入判别函数,得到相应的()Y B ,
两类的判别界值为:
()()
2
c Y A Y B Y +=
当两类的样本含量相差较多时应加权,用下式计算判别界值
双城记电视剧()()
A B c A B
n Y A n Y B Y n n +=
+
将每个个体的1x 、2x 、  、m x 代入判别函数计算Y ,根据判别界值c Y 判别归
类。
四、对判别函数检验
T 为训练样本中两类和在一起的离差阵(注意与W 的区别)
111212122212
m m m m mm t t t t t t T t t t ⎛⎫ ⎪ ⎪= ⎪ ⎪⎝⎭        计算Wilks 统计量U
W U T
=
11微型燃气轮机
U N m F U m
---=
⋅,    1m ν=,21n m ν=--
五、回代  观察判别函数的判别效果
举例  设要建立一个判别函数来判别医院的工作情况,公认的A 类医院11所,
湛江师范学院图书馆
B 类医院9所。
X 1 :床位使用率 X 2 :治愈率 X 3 :诊断指数
判别指标如下两表:
A 类医院
编号 X 1 X 2 X 3 Y  1  98.82 85.49 93.18 7.9839  2  85.37 79.10 99.65 7.9879  3  86.64 80.64 96.94 7.9391  4  73.08 86.82 98.70 8.1008  5  78.73 80.44 97.61 7.8836  6 103.44 80.40 93.75 7.8807  7  91.99 80.77 93.93 7.8161  8  87.50 82.50 94.10 7.3665  9  81.82 88.45 97.90 8.1802 10  73.16 82.94 92.12 7.6592 11  86.19 83.55 93.30 7.8919 均数
89.3373
82.8273
94.7073
7.8781
B 类医院
编号 X 1 X 2 X 3 Y  1
72.48
78.12技嘉h67
82.38
7.0300
2 58.81 86.20 73.46    6.7616
3 72.48 84.87 74.09    6.8505
4 90.56 82.07 77.1
5 7.0413  5 73.73 66.63 93.98 7.2244
6 72.79 87.59 77.15 7.0550
7 74.27 93.91 85.54    6.7346
8 93.62 85.8
9 79.80 7.3152  9 78.69 77.01 86.79 7.2522 均数
76.3811
79.1433
81.1489
7.0331
合计均数
81.857 81.170 88.606
1.计算各类中的变量值均数
2.计算各类的离差阵及两类的离差阵之和
921.956085.6700104.7177()89.7890  6.1099187.6898L A --⎛⎫ ⎪
= ⎪ ⎪⎝⎭
867.113745.535261.9823()602.2566390.0085360.0057L B ⎛⎫ ⎪
=- ⎪ ⎪⎝⎭
1789.069740.134842.7354()()692.0456383.8986547.6955W L A L B --⎛⎫ ⎪
=+=- ⎪ ⎪⎝⎭
3.
11()()x A x B -=86.3376-76.3811=9.9562
22()()x A x B -=82.8273-79.1433=3.6840 33()()x A x B -=94.7073-81.1489=13.5584
4.

本文发布于:2024-09-23 17:14:20,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/33173.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:判别   类别   判别函数
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议