美林证券
特征降维(2):特征选择中特征评估函数详解t:代表特征,|C|:代表类别总数,c i 代表第i个类别分子生物学名词解释CF[i][j]:代表term class frequency,即表⽰在第j个类别的⽂档中出现了第i个term的⽂档数 DF[i]:代表term document frequency,即表⽰样本集中出现了该term的⽂档数
docsPerClass[i]:代表属于第i个类别的⽂档数
docs:代表训练⽂档总数
注意以上CF[i][j]、DF[i]、docsPersClass[i]的值都是⽂档数
1. 信息增益
P(c i)为⽂档集中出现类别c i的概率;P(t)为特征出现在⽂档集中的概率;P(c i |t)表⽰当t出现在⽂档集中,⽂档属于类c i的概率;
表⽰当t不出现在⽂档集中时,⽂档属于类c i的概率。
具体计算⽅式如下:
为了计算上的便利,当前特征t等价于第i个特征t i
1. 互信息
与信息增益不同的是,互信息是计算特征与某个类别的互信息,⽽信息增益是计算特征与所有类别的信息增益,在具体的应⽤当中,可以选取互信息的期望或则选取特征与某个类别互信息最⼤的那个值作为该特征的互信息的值。
计算公式如下:
集合的定义
其中P(t)为特征出现在⽂档集中的概率,P(t|c)表⽰类别c中,包含特征t的⽂档数。具体计算⽅式如下:
wj-6002. 卡⽅统计量
在具体的应⽤当中,常选取特征与某个类别卡⽅统计量最⼤的那个值作为该特征的卡⽅统计量的值。
其中N为⽂档总数,A:⽂档集中出现特征t和属于类c的⽂档数;B:特征t出现⽽类c不出现的⽂档数;C:特征t不出现⽽类C出现的⽂档数;D:特征t和类c都不出现的⽂档数。具体计算公式如下:
4、期望交叉熵
与信息增益唯⼀不同之处是,期望交叉熵(Expected Cross Entroy,ECE)不考虑特征未出现的情况。公式如下:
机电信息具体计算公式如下:
中国商标数据库