特征选择方法中三种度量的比较研究

特征选择方法中三种度量的比较研究
作者:宋智超 康健 孙广路 何勇军
阻垢剂来源:《哈尔滨理工大学学报》2018年第01
        摘要:不同类型数据中特征与类别以及特征与特征之间存在一定的线性和非线性相关性。针对基于不同度量的特征选择方法在不同类型数据集上选取的特征存在明显差别的问题,本文选择线性相关系数、对称不确定性和互信息三种常用的线性或非线性度量,将它们应用于基于相关性的快速特征选择方法中,对它们在基因微阵列和图像数据上的特征选择效果进行实验验证和比较。实验结果表明,基于相关性的快速特征选择方法使用线性相关系数在基因数据集上选取的特征集往往具有较好分类准确率,使用互信息在图像数据集上选取的特征集的分类效果较好,使用对称不确定性在两种类型数据上选取特征的分类效果较为稳定。
        关键词:特征选择;线性相关系数;对称不确定性;互信息;基于相关性的快速特征选择方法
        DOI10.15938/j.jhust.2018.01.020
        中图分类号: TM391.1小撒探会
        文献标志码: A
        文章编号: 1007-2683201801-0111-06
        AbstractIt has been known that either linear correlation or nonlinear correlation might exist between featuretofeature and featuretoclass in datasets. In this paper we study the differences of selected feature subset when different kinds of measures are applied with same feature selection method in different kinds of datasets. Three representative linear or nonlinear measures linear correlation coefficient symmetrical uncertainty新乡地震 and mutual information are selected. By combining them with the fast correlationbased filter FCBF理念识别 feature selection method we make the comparison of selected feature subset from 8 gene microarray and image datasets. Experimental results indicate that the feature subsets selected by linear correlation coefficient based FCBF obtain better classification accuracy in gene microarray datasets than in image datasets产能分析 while mutual information and symmetrical uncertainty based FCBF tend to obt
ain better results in image datasets. Moreover symmetrical uncertainty based FCBF is more robust in all datasets.
协查通报

本文发布于:2024-09-20 17:22:32,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/306090.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:特征   数据   选取   集上
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议