互信息(mutual information)和信息熵(information entropy)⼀样都是信息论⾥⾯的概念。信息熵在决策树⾥⾯⽤的⽐较多,可以度量样本集合的纯度。⽽互信息在聚类中有很⼤的作⽤,它可以衡量对同⼀个数据集不同的划分的之间的相似程度。 周菊英
假设表⽰数据集上的两个不同的划分,包括n的样本。穿孔机
包含个簇,= {}。
包含个簇,= {}。辽宁医学院护理学院
表⽰和中相同样本的个数。
表⽰中样本的个数,表⽰中样本的个数。
软件管理系统的互信息为:
接下来还要对进⾏标准化,使的值域为
甲乙酮标准化的互信息⽤表⽰:
其中 分别表⽰ 的信息熵
威海地税的值介于0到1之间,当划分 只有很⼩的差别时, 趋近于1,反之趋近于0。
如果我们通过先验信息,知道了真正的划分,那么就可以⽤来检验划分是否合理。