马氏距离(Mahalanobisdistance)和欧氏距离(Euclideandistance)

马⽒距离(Mahalanobisdistance)和欧⽒距离
(Euclideandistance)
我们熟悉的欧⽒距离虽然很有⽤,但也有明显的缺点。它将样品的不同属性(即各指标或各变量)之间的差别等同看待,这⼀点有时不能满⾜实际要求。例如,在教育研究中,经常遇到对⼈的分析和判别,个体的不同属性对于区分个体有着不同的重要性。因此,有时需要采⽤不同的距离函数。
如果⽤dij表⽰第i个样品和第j个样品之间的距离,那么对⼀切i,j和k,dij应该满⾜如下四个条件:
级进模具
①当且仅当i=j时,dij=0
②dij>0
③dij=dji(对称性)
④dij≤dik+dkj(三⾓不等式)
显然,欧⽒距离满⾜以上四个条件。满⾜以上条件的函数有多种,本节将要⽤到的马⽒距离也是其中的⼀种。
第i个样品与第j个样品的马⽒距离dij⽤下式计算
dij =(x i ⼀x j)'S-1(x i⼀xj)
其中,x i 和x j分别为第i个和第j个样品的m个指标所组成的向量,S为样本协⽅差矩阵。
马⽒距离有很多优点。它不受量纲的影响,两点之间的马⽒距离与原始数据的测量单位⽆关;由标准化数据和中⼼化数据(即原始数据与均值之差)计算出的⼆点之间的马⽒距离相同。马⽒距离还可以排除变量之间的相关性的⼲扰。它的缺点是夸⼤了变化微⼩的变量的作⽤。------------------------------------------------------------------------
欧⽒距离定义: 欧⽒距离( Euclidean distance)是⼀个通常采⽤的距离定义,它是在m维空间中两个点之间的真实距离。
在⼆维和三维空间中的欧式距离的就是两点之间的距离,⼆维的公式是
d = sqrt((x1-x2)^+(y1-y2)^)
三维的公式是
d=sqrt(x1-x2)^+(y1-y2)^+(z1-z2)^)
推⼴到n维空间,欧式距离的公式是
d=sqrt( ∑(xi1-xi2)^ ) 这⾥i=
bt欧洲xi1表⽰第⼀个点的第i维坐标,xi2表⽰第⼆个点的第i维坐标
n维欧⽒空间是⼀个点集,它的每个点可以表⽰为(x(1),x(2),...x(n)),其中x(i)(i=)是实数,称为x的第i个坐标,两个点x和y=
(y(1),y(2)...y(n))之间的距离d(x,y)定义为上⾯的公式.
欧⽒距离看作信号的相似程度。 距离越近就越相似,就越容易相互⼲扰,误码率就越⾼。
--------------------------------------------------------------------------------
马⽒距离是由印度统计学家马哈拉诺⽐斯(P. C. Mahalanobis)提出的,表⽰数据的协⽅差距离。它是⼀种有效的计算两个未知样本集的相似度的⽅法。与欧式距离不同的是它考虑到各种特性之间的联系(例如:⼀条关于⾝⾼的信息会带来⼀条关于体重的信息,因为两者是有关联的),并且是尺度⽆关的(scale-invariant),即独⽴于测量尺度。
马⽒距离不受量纲的影响,两点之间的马⽒距离与原始数据的测量单位⽆关;由标准化数据和中⼼化数据(即原始数据与均值之差)计算出的⼆点之间的马⽒距离相同。马⽒距离还可以排除变量之间的相关性的⼲扰。它的缺点是夸⼤了变化微⼩的变量的作⽤。孔府宴酒破产拍卖
两个样本:
His1 = {3,4,5,6}
His2 = {2,2,8,4}
难耐的残酷它们的均值为:
张远忠U = {2.5, 3, 6.5, 5}
协⽅差矩阵为:
S =
| 0.25 0.50 -0.75 0.50 |
| 0.50 1.00 -1.50 1.00 |
|-0.75 -1.50 2.25 -1.50 |
| 0.50 1.00 -1.50 1.00 |
其中S(i,j)={[His1(i)-u(i)]*[His1(j)-u(j)]+[His2(i)-u(i)]*[His2(j)-u(j)]}/2
下⼀步就是求出逆矩阵S^(-1)
马⽒距离 D=sqrt{[His1-His2] * S^(-1) * [(His1-His2)的转置列向量]}
马⽒距离(Mahalanobis distances)google 学术
1)马⽒距离的计算是建⽴在总体样本的基础上的,这⼀点可以从上述协⽅差矩阵的解释中可以得出,也就是说,如果拿同样的两个样本,放⼊两个不同的总体中,最后计算得出的两个样本间的马⽒距离通常是不相同的,除⾮这两个总体的协⽅差矩阵碰巧相同;
2)在计算马⽒距离过程中,要求总体样本数⼤于样本的维数,否则得到的总体样本协⽅差矩阵逆矩阵不存在,这种情况下,⽤欧式距离来代替马⽒距离,也可以理解为,如果样本数⼩于样本的维数,这种情况下求其中两个样本的距离,采⽤欧式距离计算即可。
3)还有⼀种情况,满⾜了条件总体样本数⼤于样本的维数,但是协⽅差矩阵的逆矩阵仍然不存在,⽐如A(3,4),B(5,6);
C(7,8),这种情况是因为这三个样本在其所处的⼆维空间平⾯内共线(如果是⼤于⼆维的话,⽐较复杂)。这种情况下,也采⽤欧式距离计算。
4)在实际应⽤中“总体样本数⼤于样本的维数”这个条件是很容易满⾜的,⽽所有样本点出现3)中所描述的情况是很少出现的,所以在绝⼤多数情况下,马⽒距离是可以顺利计算的,但是马⽒距离的计算是不稳定的,不稳定的来源是协⽅差矩阵,这也是马⽒距离与欧式距离的最⼤差异之处。
我们熟悉的欧⽒距离虽然很有⽤,但也有明显的缺点。它将样品的不同属性(即各指标或各变量)之间的差别等同看待,这⼀点有时不能满⾜实际要求。马⽒距离有很多优点。它不受量纲的影响,两点之间的马⽒距离与原始数据的测量单位⽆关;由标准化数据和中⼼化数据(即原始数据与均值之差)计算出的⼆点之间的马⽒距离相同。马⽒距离还可以排除变量之间的相关性的⼲扰。它的缺点是夸⼤了变化微⼩的变量的作⽤。
参考⾃:

本文发布于:2024-09-22 14:19:14,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/37157.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

上一篇:欧几里得空间
标签:距离   样本   欧式   计算
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议