数据挖掘中常用的相似性度量方法

数据挖掘中常⽤的相似性度量⽅法
⽬录
本⽂将介绍数据分析、数据挖掘、机器学习等领域中常⽤的相似性度量(Similarity Measurement)⽅法。
(1) Manhattan Distance (曼哈顿距离
我们知道曼哈顿街区有⼀个个⽅块构成,从⼀个⼗字路⼝(0,0)到另⼀个⼗字路⼝(3,3)的最短路程,不是两点的连线距离,⽽是两条垂直线的距离和,也就是“曼哈顿距离”。假设有两个维的向量,和可以分别表⽰为和,那么和的曼哈顿距离可以⽤范式表⽰,即
(2) Euclidean Distance (欧⽒距离)
假设有两个维的向量,和可以分别表⽰为和,那么和的欧式距离可以⽤范式表⽰,即
(3) Minkowsk Distance (闵可夫斯基距离)
假设有两个维的向量,和可以分别表⽰为和,那么和的闵可夫斯基距离可以⽤范式表⽰,即
其中,。可见,闵可夫斯基距离是曼哈顿距离与欧⽒距离的⼀般情形,或者说曼哈顿距离与欧⽒距离是闵可夫斯基距离的2种特殊情形。
Distance Norm
危险固废
Formula
Manhattan Distance
Euclidean Distance
Minkowsk Distance
(4) Chebyshev Distance (切⽐雪夫距离)
我们知道,在国际象棋游戏规则中,国王⾛⼀步,能够移动到相邻8个⽅格中任意⼀个,那么国王从格⼦⾛到格⼦最少需要多少步?从格⼦⾛到格⼦呢?从格⼦⾛到格⼦呢?
不难发现,从格⼦⾛到格⼦最少需要2步;从⾛到格⼦,最少需要⾛6步,事实上,从格⼦⾛到格⼦
需要的步数为,这就是2维向量的切⽐雪夫距离。
N x ,y x y x =(x ,x ,⋯,x )12N y =(y ,y ,⋯,y )12N x y L 1d (x ,y )=
∣x −i =1
N
i y ∣
i N x ,y x y x =(x ,x ,⋯,x )12N y =(y ,y ,⋯,y )12N x y L 2d (x ,y )=铜仁社区
(x −y )i =1∑
N
i i 2
广西中医学院专家楼N x ,y x y x =(x ,x ,⋯,x )12N y =(y ,y ,⋯,y )12N x y L p d (x ,y )=
p
(x −y )i =1∑
N
i i p
p ∈R L 1d (x ,y )=∥x −∑i =1i =N
i y ∥i 1L 2d (x ,y )=(x −y )∑i =1i =N
i i 2L p
d (x ,y )=
p
(x −y )∑i =1i =N
2012诺贝尔生理学奖i i p
(2,3)(4,4)(2,3)(7,9)(x ,y )i i (x ,y )j j (2,3)(4,4)(2,3)(7,9)(x ,y )11(x ,y )22max (∣x -x ∣,∣y -y ∣)1212
假设有两个维的向量,和可以分别表⽰为和,那么和的闵可夫斯基距离可以⽤范式表⽰,即
上式也可以表⽰为
(5) Hamming Distance (海明距离)
对于两个⼆进制串,它们对应的位上有⼏个不⼀样,那么海明距离就是⼏,值越⼩越相似。例如有两个⼆进制串,它们对应位上,除了第⼆位不⼀样之外,其他位上都⼀样,那么我们称⼆者的海明距离为1。同理,两个⼆进制串的海明距离为。
(6) Jaccard Coefficient (Jaccard 系数)
Jaccard 系数⼀般⽤来度量两个集合的相似度。假设有两个集合和,它们的Jaccard 系数定义为
其中,的值越⼤,表⽰和越相似。例如集合,则
其中值越⼤,表⽰相似度越⾼,当时表⽰。
(7) Pearson Correlation Coefficient (Pearson 相关系数)
假设有两个维的向量,和可以分别表⽰为和,那么和的Pearson相关系数为
其中的值越⼤,表⽰相关性越⾼。
多维视觉训练(8) Cosine Similarity (余弦相似度)
N x ,y x y x =(x ,x ,⋯,x )12N y =(y ,y ,⋯,y )12N x y L p d (x ,y )=
(∣x −i =1
max
N
i y ∣)
i d (x ,y )=(∣x −p →∞lim i =1∑
看雪教学设计
N
i y ∣)i p 1/p
x =1001,y =1011x =1111,y =1010H =2S 1S 2J (S ,S )=12∣S ∪S ∣
12∣S ∩S ∣
12d S 1S 2S =1{A ,B ,C ,D },S =2{A ,B ,D ,E }J (S ,S )=125
3
J J =1S =1S 2N x ,y x y x =(x ,x ,⋯,x )12N y =(y ,y ,⋯,y )12N x y r =
(x −)i =1∑N i x ˉ2(y −)i =1∑
N
i y
ˉ2(x −)(y −)i =1∑
N
i
x ˉi y ˉr
假设有两个维的向量,和可以分别表⽰为和,那么和的余弦相似度为
其中的值越⼤,表⽰与越相似。
(9) Mahalanobis Distance (马⽒距离)
假设有两个维的向量,和可以分别表⽰为和,那么和的马⽒距离为
其中为与的协⽅差矩阵,越⼩表⽰与相似度越⾼。
(10) Kullback-Leibler Divergence (KL 散度)
KL散度⽤来度量两个分布与之间的距离。分布P的集合和分布Q的集合的KL散度定义为
其中,越⼩,表⽰两个分布越相似。
(11) Pointwise Mutual Information (PMI ,点对互信息)
PMI利⽤co-occurance来衡量两个东西和的相似度,定义为
其中,表⽰与同时出现的概率,和分别表⽰出现的概率,出现的概率。值越⼤,与的相似度越⾼。
(12) Normalized Google Distance (NGD ,正则⾕歌距离)
NGD可以⽤来度量两个东西和之间的相关性,作⽤和PMI有点类似,定义为
其中是在⽂档集中出现的频率,是在⽂档集中出现的频率,是在⽂档集中⼀起出现的频率,是⽂档集的⼤⼩。
值越⼤,相关性越⾼。
N x ,y x y x =(x ,x ,⋯,x )12N y =(y ,y ,⋯,y )12N x y sim =∣x ∣∣y ∣
x ⋅y
r x y N x ,y x y x =(x ,x ,⋯,x )12N y =(y ,y ,⋯,y )12N x y d (x ,y )=
(x −y )S (x −y )
T −1S −1x y d (x ,y )x y P Q X ={X ,X ,⋯,X }12N Y ={Y ,Y ,⋯,Y }12N D (P ∣∣Q )=P (i )log i =1∑
N
Q (i )
P (i )
D (P ∣∣Q )x y PMI (x ,y )=log p (x )p (y )
p (x ,y )
p (x ,y )x y p (x )p (y )x y PMI x y x y NGD (x ,y )=logM −min {logf (x ),logf (y )}
max {logf (x ),logf (y )}−logf (x ,y )
f (x )x f (y )y f (x ,y )x ,y M NGD (x ,y )

本文发布于:2024-09-21 22:44:54,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/633838.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:距离   相似   集合   曼哈顿   出现
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议