一致性聚类(用于确定聚类算法中聚类的数目)

致性聚类(⽤于确定聚类算法中聚类的数⽬)
参考资料:
基本原理:
从原数据集不同的⼦类中提取出的样本构成⼀个新的数据集,并且从同⼀个⼦类中有不同的样本被提取出来,那么在新数据集上聚类分析之后的结果,⽆论是聚类的数⽬还是类内样本都应该和原数据集相差不⼤。因此所得到的聚类相对于抽样变异越稳定,我们越可以相信这⼀样的聚类代表了⼀个真实的⼦类结构。重采样的⽅法可以打乱原始数据集,这样对每⼀次重采样的样本进⾏聚类分析然后再综合评估多次聚类分析的结果给出⼀致性(Consensus)的评估。--上⽅描述参考⾃:福医⼤⽣物信息学“⼀致性聚类”课件
移动门具体过程为:
第⼀步:从原始数据中随机抽取⼦集,当然⼦集的规模不能太⼩,最好是原始数据集的半数以上,⼦集要尽量多,以确保⾥⾯的每⼀个数据都多次被取到(100次以上),然后,我们选择任意⼀种聚类⽅法,可以使K-means或者层次聚类,对所有的数据⼦集分别聚类。
水塔控制器第⼆步:这⼀步的关键在于建⽴⼀个新的矩阵:consensus matrix, 我们之前说聚类的输⼊通常是⼀个
蒸缸>0663.us
cn-mdistance matrix。 那么consensus matrix怎么建呢?假设有D1,D2...Dn这N个数据,那么consensus matrix是NxN 的⽅阵。
D1 Dn
D1 C11 C12 C13 (1)
D2 C21 C22 C23 (2)
(i)
抗衡阀
Dn Cn1 Cnn
Cij 代表的是在多次的聚类过程中,数据Di 和数据Dj 被聚到同⼀类⾥⾯的概率(该值在0和1之间),等于1代表100次聚类这两个数据点全部在同⼀个类⾥⾯,等于0代表代表100次聚类全部不在同⼀个类⾥⾯。
那么,好的聚类⽅法会得到怎么样的consensus matrix呢?对了,全部由0或1组成的⽅阵,代表着那些很像的数据总在⼀类,⽽不像的数据则总是不在⼀类,这正符合了聚类的初衷是吧。
再对consensus matrix做⼀次聚类(这⾥⽤层次聚类⽅便可视化),只有0和1的矩阵,就让是1的都聚在⼀起,⽽0的都分开来。

本文发布于:2024-09-21 19:54:19,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/283894.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:聚类   数据   代表   样本   致性   原始数据   结果
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议