基于机器学习的收入预测研究

基于机器学习的收入预测研究
罗雨欣
(重庆市璧山中学校,重庆402760)
摘要:个人收入关系着居民幸福指数和国家经济发展水平,个人收入的分析与研究一直是人们关注的热点之一。现主要研究机器学习在个人收入预测方面的应用,涉及的机器学习模型主要包括KNN、SVM和随机森林。实验结果表明,在这三种模型中,随机森林模型的预测准确率最高。
关键词:收入预测;机器学习;SVM;KNN;随机森林
1研究背景
随着我国的经济发展越来越快,居民收入水平逐渐成为社会关注的焦点。个人收入预测主要是对居民的基本信息进行数据挖掘,预测居民的收入状况。个人收入预测在实际应用中有巨大的现实意义和参考价值,有利于社会研究和分析,可对经济发展进行有针对性的规划指导。李兆宗
日常生活中大量的常见问题,都可以使用数据挖掘的方法来解决[1-2]。数据分类被广泛应用于经济、生活、医学等领域[3-4],例如客户分析、生理指标的处理等,数据分类对各项工作都提供了有力的参考及有效的帮助。
笔者在互联网上下载了关于个人收入的数据集,涉及的特征包括性别、年龄、国籍、婚姻状况、工作状况、受教育程度等。本文选取了数据集中的一部分数据,通过多个机器学习模型进行实验,具体采用KNN、SVM、随机森林模型;随后通过实验结果分析了各种因素对收入预测准确性的影响,寻、调整各个模型的最优参数,并比较了基于最优参数的不同模型的实验结果,最终得到了一个最优预测模型。
2KNN、SVM、随机森林模型介绍
支持向量机模型(SVM)最初是一种处理数据二分类的方法,它是基于结构风险最小化和VC理论建立的[5-6]。SVM模型在训练过程中把低维不可分的数据转化成高维可分的数据,在转化后的高维平面中,SVM旨在到一个超平面,让训练集样本中的数据恰好分布在超平面两侧,并使得超平面两侧的数据到超平面的距离达到最大。这些特点使得SVM算法能够在有限数据集中得到最优解,同时对未知样本也具有较好的泛化能力。在图像、文本、时序预测等领域,SVM都有着广泛的应用。但SVM算法也有着速度慢、算法复杂、测试阶段运算量大等一系列缺点,这是应用SVM模型时需要重点考虑的因素。
K近邻模型(KNN)是一种无需训练的简单预测方法[7]。KNN具有良好的移植性,可用于小范围的数据统计,当参数合适时,实验精度较高。但KNN模型的限制较多,泛化能力弱,对参数有严格要求,
对于大范围的数据表现较差,且参数的选取一般较为主观。KNN模型的核心是距离度量的方式,它首先获得距离目标点最近的K个点,之后根据分类决策规则,进一步决定目标点的类别。KNN模型有三个关键点:K值的选择、距离度量和分类规则。K值的选择很关键,如果K值过小,预测误差会偏大;相反,如果K值过大,那么近似误差会偏大。对于距离度量来说,常用的距离是余弦距离和欧氏距离。KNN模型的分类决策规则可以是常见的简单多数规则,也就是在距离目标点最近的K个点中,哪种类别的数据量最大,就把目标点的类别归于哪一类。
二甘醇随机森林算法是Leo Breiman于2001年提出的一种算法[8],Breiman把随机子空间算法和集成学习算法相结合,得到了最终的随机森林算法。该算法解决了决策树过拟合的问题,对噪声和异常值有较强的容忍度,并且不需要分类的先验知识,是一种数据驱动的非参数分类方法。随机森林算法把决策树作为基本的分类器,训练时使用Bagging算法训练得到多个决策树模型。分类时由包含的多个决策树分别进行类别预测,再通过投票法判断输入数据的类别。哪种类别所获得的投票数最多,就把输入数据归于哪一类。随机森林模型的应用效果在理论和实践中得到了大量证明,它有着出的泛化能力,不易造成过拟合,预测误差较小。随机森林在实际应用中的良好表现使得它被广泛应用于各大领域,例如文本分类、经济问题建模、医学研究、生物信息分析等,并且都取得了不错的成果。
3实验分析
安康学院学报翁仲3.1实验数据和工具
笔者在UCI数据仓库网站上下载了关于个人收入预测的数据集,该数据集包含了14个代表个人基本信息的特征,这些特征包括年龄、工作单位、性别、受教育程度、婚姻状态、国籍等。每条数据包括一个类别标签,标签有两种取值:1或者0,表明该公民的年收入是大于5万美元还是小于5万美元。本文下载的数据集包含训练集和测试集,训练集含有10000+条数据,测试集含有5000+条数据。考虑到实验机器的配置较低,为了提高效率,本文从10000+条训练集中抽取了5000条数据用于实验。
本文使用Weka软件进行数据挖掘的实验。Weka基于Java 语言开发,是一个数据挖掘的第三方工具平台,该平台集成了大量的机器学习模型和数据挖掘的相关算法,在机器学习领域被广泛使用。本文在进行实验时,采用了五交叉验证的方法。
3.2实验结果
3.2.1KNN模型的实验结果
本文首先使用KNN模型进行实验。实验过程中首先调整KNN模型中K值的大小,设置K值分别为1、3、5、7、10,实验结果表1所示。广东爱国主义教育网
档案2013由表1可知,当K值从1~7逐渐变大时,模型的准确率逐步上升;7~10时,模型的准确率开始下降;KNN模型在K值为7时有着最高的准确率。因此,本文的KNN模型中参数K的最优值是7。另外,需要说明的是,KNN是一个较为特殊的模型,
yu Fenxi 114

本文发布于:2024-09-25 12:16:42,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/326286.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   模型   预测
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议