总结数据挖掘预测分类中的样本筛选和特征处理

总结数据挖掘预测分类中的样本筛选和特征处理
喷雾干燥法基于特征化⼯程进⾏⽤户特征化,结合相关的算法对业务进⾏挖掘建模,在⼴告的精准投放、预测、风控等领域中应⽤的⾮常⼴泛。⽆论是有监督的学习分类算法,还是⽆监督的聚类也罢,都需要建⽴特征向量,对特征进⾏预处理;其中对于有监督的训练时,还需要进⾏样本的筛选。本章节讲解⼀下样本选择和特征处理⽅⾯的⼀些⽅法技巧。
在做样本训练前需要挑选样本,需要注意样本不平衡的问题,⽐如在定向⼴告预估点击率⼆元模型中,点击的(正样本)和不点击(负样本)的数据量相差很⼤,对于最终的预测结果会严重倾向于多数的负样本类,导致对正的分类错误率很⾼。但从评价指标准确率来看,因正负样本量的差异⽐较⼤,准确率不重视正类对分类效果评测的影响,往往分类的准确率从整体看还是⽐较⾼的。
解决正负样本不平衡问题的⼿段,主要有两种,
1、样本采样:
对正样本采取上采样up sampling,对负样本进⾏下采样downsamping
上采样可以利⽤对稀有类样本的分布进⾏模拟⽣成和当前稀有样本临近的⼀些样本。
⼀般更多的⽅式是利⽤下采样去除噪⾳,去除冗余样本,对负样本进⾏聚类,在每个聚类层上按照⽐例抽取部分样本,以达到在负样本上抽样的尽量不影响原始分布。
2、算法层⾯的优化:
划分样本训练集,每个训练集上进⾏模型训练,再进⾏分类器融合集成⽅式
代价敏感学习⽅式Cost-sensitivelearning,赋予各个类别不同的错分代价,⽐如对错分正类样本做更⼤的惩罚。
灌水定额SVM,给样本数量少的正类更⼤的惩罚因⼦,表⽰我们重视这部分样本
其中i=1…p都是正样本,j=p+1…p+q都是负样本。
Adaboost,初始化时对每⼀个训练例赋相等的权重1/n,然后⽤该学算法对训练集训练t轮,每次训练后,对训练失败的训练例赋以较⼤的权重,也就是让学习算法在后续的学习中集中对⽐较难的训练集进⾏学习。在不均衡样本中,由于正类错分代价⽐负类要⾼很多,所以权重设置不⼀样,可以对Adaboost进⾏改进,对正类样本设置⽐较⾼的权重。
当然在样本选择时,需要进⾏先进⾏去噪,去噪的技术有很多,⽐如离点分析,分箱检测等等,当然最直观的是相同的特征,标签不⼀致,这个以后单独的章节介绍。
利⽤机器学习进⾏建模,另外⼀个成败的关键因素是特征的选择和特征的预处理。
特征选择使得准确性和模型的泛化能⼒效果更好,在保证经验风险最⼩化的基础上,尽量降低模型的复杂度,特征过多,模型过于复杂,过拟合,模型的泛化能⼒差。奥卡姆剃⼑原理说的就是,若⽆必要,勿增加实体。除了去掉不相关的特征和避免特征之间的相互依赖外,特征过多还可能导致特征分析训练的时间过长,模型过于复杂,泛化能⼒下降等问题。
先说⼀下特征刷选的⼀些⽅法:
⾸先要基于业务进⾏理解,和业务进⾏讨论,尽可能的评估对因变量有影响的所有的⾃变量。
自制保健茶初步选出⾃变量后,需要进⾏特征选择,特征选择有以下⼏种⽅式:(Filter—考虑⾃变量和⽬标变量之间的关联,Wrapper-离线和在线评估是否增加⼀个特征,Embedded-利⽤学习器⾃⾝的筛选功能)
Filter⽅式,主要考虑的是⾃变量和⽬标变量之间的关联。
对于连续型的变量之间的相关性,可以采⽤相关系数来评估,⽐如⽪尔逊相关系数。
对于类别型的可以采⽤假设检验的⽅式,⽐如卡⽅检验
对于连续型的⾃变量和⼆元的离散因变量,利⽤WOE,IV,通过WOE的变化来调整出最佳的分箱阀值,通过IV值,筛选出有较⾼预测价值的⾃变量。
R平⽅,⼀个变量的变化有百分之多少可以有另外⼀个变量来解释。
当然还有互信息、信息增益等等
泛裸体
还有就是需要避免⾃变量之间的共线性问题,所谓共线性,就是指⾃变量之间存在较强线性的关系。
Wrapper⽅式,主要考虑的是离线和在线评估是否增加⼀个特征,通过选定模型评估的指标(AUC、MAE、MSE)来评价对特征增加和去除后
regfix
模型的好坏,通常有前向和后向两种特征选择⽅式。
产科学Embedded⽅式,通过分类学习器本⾝对特征⾃动的进⾏刷选,⽐如逻辑回归中的L1 L2惩罚系数,决策树中的基于最⼤熵的信息增益选择特征。
特征的预处理主要有以下⽅式:
1、异常值和缺失值检测处理
2、归⼀化,不同⾃变量之间的数据范围不⼀致,导致⽐较复杂,两个维度范围相差的越⼤,梯度下降的越慢,还可能永远⽆法收敛,利⽤归⼀化加快收敛的速度。
归⼀化的⽅式
x-min/max-min
z-score=x–µ/σ
3、改变数据的分布
对于连续型的变量的原始分布严重不对称,会⼲扰模型的拟合。通过数据的转换使得成正态分布,提⾼模型的拟合能⼒,⽐如取 LOG,平⽅根,指数等。
4、离散化、交叉、衍⽣变量
离散化的意义主要有:
⼀⽅⾯可以减弱极端和异常值的影响;
另外⼀⽅⾯有利于对⾮线性的关系进⾏分析描述,使得⾃变量和因变量的关系变得清晰化,特征离散
化引⼊⾮线性,加⼤拟合,给线性模型(如逻辑回归)增加⾮线性的能⼒
离散化的做法主要有:
分段,⽅式有很多,等频率、等间隔、、、
优化离散:把⾃变量和因变量联系综合考虑。切分点是导致⽬标变量出现明显变化的折点。常⽤的检验指标有卡⽅、信息增益、基尼系数、WOE(⼆元的⽬标变量)
衍⽣变量通过对原始数据进⾏加⼯,⽣成更加有商业意义的新的变量,更加适合后续的数据建模。
5、正则化、降维
为了增强模型的泛化能⼒,解决过拟合的问题,正则化(惩罚)和降维(减少样本的维度)是两种常⽤的⽅法。结构风险最⼩化,就是除了要最⼩化经验风险,降低训练的误差,还要降低模型复杂度,正则化⼀般是在损失函数后增加⼀个正则化项,对特征进⾏惩罚,来降低模型复杂度。逻辑回归在损失函数后增加L1、L2 ,增强模型的泛化能⼒,L1俗称lasso 回归,L2俗称岭回归,在极⼤似然估计后加上对权重的L1或者L2等罚项后会让信号弱的特征权重很⼩甚⾄为0。降维的⽅式有很多,⽐如互信息、卡⽅检验、信息增益、主题等等,在⽂本的关键词筛选中,还可以基于样本数据集,选择出现频次最多的关键词作为最终的特征集合。

本文发布于:2024-09-22 11:20:05,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/68599.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:样本   特征   变量
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议