一致性聚类(用于确定聚类算法中聚类的数目)

⼀致性聚类（⽤于确定聚类算法中聚类的数⽬）

参考资料：

基本原理：

从原数据集不同的⼦类中提取出的样本构成⼀个新的数据集，并且从同⼀个⼦类中有不同的样本被提取出来，那么在新数据集上聚类分析之后的结果，⽆论是聚类的数⽬还是类内样本都应该和原数据集相差不⼤。因此所得到的聚类相对于抽样变异越稳定，我们越可以相信这⼀样的聚类代表了⼀个真实的⼦类结构。重采样的⽅法可以打乱原始数据集，这样对每⼀次重采样的样本进⾏聚类分析然后再综合评估多次聚类分析的结果给出⼀致性(Consensus)的评估。--上⽅描述参考⾃：福医⼤⽣物信息学“⼀致性聚类”课件

移动门具体过程为：

第⼀步：从原始数据中随机抽取⼦集，当然⼦集的规模不能太⼩，最好是原始数据集的半数以上，⼦集要尽量多，以确保⾥⾯的每⼀个数据都多次被取到（100次以上），然后，我们选择任意⼀种聚类⽅法，可以使K-means或者层次聚类，对所有的数据⼦集分别聚类。

水塔控制器第⼆步：这⼀步的关键在于建⽴⼀个新的矩阵：consensus matrix，我们之前说聚类的输⼊通常是⼀个

蒸缸>0663.us

cn-mdistance matrix。那么consensus matrix怎么建呢？假设有D1，D2...Dn这N个数据，那么consensus matrix是NxN 的⽅阵。

D1 Dn

D1 C11 C12 C13 (1)

D2 C21 C22 C23 (2)

(i)

抗衡阀

Dn Cn1 Cnn

Cij 代表的是在多次的聚类过程中，数据Di 和数据Dj 被聚到同⼀类⾥⾯的概率（该值在0和1之间），等于1代表100次聚类这两个数据点全部在同⼀个类⾥⾯，等于0代表代表100次聚类全部不在同⼀个类⾥⾯。

那么，好的聚类⽅法会得到怎么样的consensus matrix呢？对了，全部由0或1组成的⽅阵，代表着那些很像的数据总在⼀类，⽽不像的数据则总是不在⼀类，这正符合了聚类的初衷是吧。

再对consensus matrix做⼀次聚类(这⾥⽤层次聚类⽅便可视化），只有0和1的矩阵，就让是1的都聚在⼀起，⽽0的都分开来。

本文发布于:2024-09-21 19:54:19，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/2/283894.html

上一篇：细胞爬片制备详细过程

下一篇：PBI聚苯并咪唑

标签：聚类数据代表样本致性原始数据结果

留言与评论（共有 0 条评论）