一种基于集成学习的申请评分卡模型建立方法

著录项
  • CN202010414727.X
  • 20200515
  • CN111583031A
  • 20200825
  • 上海海事大学
  • 郑志骏;韩德志
  • G06Q40/02
  • G06Q40/02 G06Q10/06 G06N3/08

  • 上海市浦东新区临港新城海港大道1550号
  • 上海(31)
  • 上海元好知识产权代理有限公司
  • 张妍;周乃鑫
摘要
本发明公开了一种基于集成学习的申请评分卡模型建立方法,通过对不同来源的数据进行数据预处理、特征工程、构筑深度神经网络的子模型来预测各个数据源给出的违约概率,再通过逻辑回归模型对各个深度神经网络子模型进行融合,得出整体的违约概率再转化为信用评分。本发明相较传统的基于单一的DNN或者逻辑回归的申请评分卡模型,兼顾了稳定性、准确度和可解释性,整体性能有了较大提升。
权利要求

1.一种基于集成学习的申请评分卡模型建立方法,其特征在于,包括以下步骤:

S1、分别对各个数据源的数据进行数据预处理,并对预处理后的数据进行特征工程,得出各个数据源的数据特征;

S2、分别对各个数据源构筑梯度提升决策树模型,从而从各个数据源的数据特征中筛选出重要特征;

S3、根据各个数据源的数据重要特征分别构建深度神经网络子模型,从而预测各个数据源给出的违约概率;

S4、通过构建逻辑回归模型对各个深度神经网络子模型进行融合,得出信用评分。

2.如权利要求1所述的一种基于集成学习的申请评分卡模型建立方法,其特征在于,所述的步骤S1包括以下步骤:

S1.1、根据缺失值的种类分别对各个数据源的数据进行去缺失值预处理;

S1.2、采用SMOTE方法对各个数据源中对应正例的数据进行过采样预处理;

S1.3、分别对预处理后的各个数据源的数据进行特征工程。

6.如权利要求2所述的一种基于集成学习的申请评分卡模型建立方法,其特征在于,所述的去缺失值预处理的方法为:

当缺失值的种类为连续型完全随机缺失值时,采用该缺失值邻近5-10个数的算术平均值来替代该缺失值;

当缺失值的种类为离散型完全随机缺失值时,采用随机状态替代该缺失值;

当缺失值的种类为随机缺失值或完全非随机缺失值缺失值时,采用新的状态值-1替代该缺失值。

7.如权利要求2所述的一种基于集成学习的申请评分卡模型建立方法,其特征在于,所述的SMOTE过采样预处理的方法为:

对于该对应正例的数据中的每个样本xi,采用欧式距离计算方法到距离样本xi最近的k个近邻,记为Xi(near),near∈{1,···,k};

然后从这k个近邻中随机选择n个近邻xi(nn),n∈{1,···,n}且n

8.如权利要求2所述的一种基于集成学习的申请评分卡模型建立方法,其特征在于,所述的特征工程包括以下步骤:

当数据特征的类型为离散型特征时,采用坏样本率进行编码;

当数据特征的类型为连续型特征时,采用卡分分箱法进行分箱,再对分箱完成的特征进行证据权重编码。

9.如权利要求8所述的一种基于集成学习的申请评分卡模型建立方法,其特征在于,所述的卡分分箱法包括以下步骤:

a、根据所需分箱数和所需置信度水平设定卡方阈值;

b、将需要进行分箱的连续型特征按取值大小进行降序排列,每个取值属于一个区间;

c、计算相邻区间的卡方值X2;

所述的的卡方值计算公式为:

其中,Aij表示第i区间第j类的取值数,Eij表示为Aij的期望频率,Ni是第i组样本数,Cj是第j类样本在全体样本中所占比例;

d、将卡方值最小的两个区间合并;

e、重复上述c、d两个步骤,直到分箱个数小于等于5,且卡方值大于卡方阈值。

10.如权利要求8所述的一种基于集成学习的申请评分卡模型建立方法,其特征在于,所述的证据权重编码的计算公式为:

Bi为特征i对应坏样本的个数,B为坏样本总数,Gi为特征i对应好样本的个数,G为好样本总数。

3.如权利要求1所述的一种基于集成学习的申请评分卡模型建立方法,其特征在于,所述的步骤S2包括以下步骤:

S2.1、分别对各个数据源构筑梯度提升决策树模型,梯度提升决策树模型中共有N棵决策树;

所述的梯度提升决策树模型的决策函数为:

其中,T(c;θm)是第m轮迭代中生成的弱分类器;

S2.2、采用CART决策树方法对N棵决策树进行处理,分别计算各个数据源的每个数据特征的重要性评分;

所述的特征的重要性评分为:

其中,VIMj是数据特征j在n棵树中的重要度之和,∑VIMi是所有数据特征的在n棵树中的重要度之和;

S2.3、分别筛选重要性评分值最大的特征作为各个数据源的重要特征。

4.如权利要求1所述的一种基于集成学习的申请评分卡模型建立方法,其特征在于,所述的步骤S3中的深度神经网络子模型,其输入层为重要特征的维度数目(20),隐藏层为2层,隐藏层大小等于14和10,输出层节点数为2,输出函数选用Softmax函数,损失函数选择交叉熵损失函数,同时激活函数选用RELU函数,通过Adam迭代优化器及反向传播算法更新各节点权重使得损失函数取得最小值。

5.如权利要求1所述的一种基于集成学习的申请评分卡模型建立方法,其特征在于,所述的步骤S4包括以下步骤:

S4.1、根据各个深度神经网络子模型的预测结果构建逻辑回归模型,从而对各个深度神经网络子模型进行融合,预测整体的违约概率;

所述的整体违约概率为:

其中,θ为影响目标值的因素,x为自变量;

S4.2、将整体的违约概率转化为信用评分。

说明书
技术领域

本发明涉及信贷风控领域,尤其涉及一种基于集成学习的申请评分卡模型建立方法。

申请评分卡模型是信贷风控领域的重要的模型,申请评分卡模型是指根据信贷申请客户的各种历史信用资料,利用一定的信用评分模型,按照逾期或违约概率得到不同信用等级的评分模型。随着大数据和人工智能的发展,申请评分卡模型从基于业务驱动的专家判断,到基于数据驱动的机器学习模型,基于数据驱动的风控系统相较传统的基于业务驱动的风控系统非常明显:一、在大数据的支持下,坏账率远低于人工判断;二、不过于依赖少数专家,便于规模化、标准化。

当前基于机器学习的申请评分卡模型多为基于逻辑回归模型开发,通过引入L1范数正则化,使得学习得到的结果满足稀疏化,从而方便提取特征,或根据分类信息度(IV值)来筛选特征。但随着互联网金融的盛行,由于互联网数据具有稀疏性强和单变量风险区分能力弱的特点,这种方法准确度偏低。

由于深度神经网络具有极高的分类精确度,通常能达到90%以上,因此经常用于代替传统机器学习算法作分类。但深度神经网络本身具有“黑盒”特性,不具可解释性,另外深度神经网络的稳定性不强,单纯的深度神经网络风控模型不适合用于金融风控这种敏感性强的业务中。

本发明提出了一种基于集成学习的申请评分卡模型建立方法,结合了集成学习和深度学习的特点,提高了申请评分卡模型的综合性能。

为了达到上述目的,本发明提供了一种基于集成学习的申请评分卡模型建立方法,包括以下步骤:

S1、分别对各个数据源的数据进行数据预处理,并对预处理后的数据进行特征工程,得出各个数据源的数据特征;

S2、分别对各个数据源构筑梯度提升决策树模型,从而从各个数据源的数据特征中筛选出重要特征;

S3、根据各个数据源的数据重要特征分别构建深度神经网络子模型,从而预测各个数据源给出的违约概率;

S4、通过构建逻辑回归模型对各个深度神经网络子模型进行融合,得出信用评分。

优选地,所述的步骤S1包括以下步骤:

S1.1、根据缺失值的种类分别对各个数据源的数据进行去缺失值预处理;

S1.2、采用SMOTE方法对各个数据源中对应正例的数据进行过采样预处理;

S1.3、分别对预处理后的各个数据源的数据进行特征工程。

优选地,所述的去缺失值预处理的方法为:

当缺失值的种类为连续型完全随机缺失值时,采用该缺失值邻近5-10个数的算术平均值来替代该缺失值;

当缺失值的种类为离散型完全随机缺失值时,采用随机状态替代该缺失值;

当缺失值的种类为随机缺失值或完全非随机缺失值时,采用新的状态值-1替代该缺失值。

优选地,所述的SMOTE过采样预处理的方法为:

对于该对应正例的数据中的每个样本xi,采用欧式距离计算方法到距离样本xi最近的k个近邻,记为Xi(near),near∈{1,···,k};

然后从这k个近邻中随机选择n个近邻xi(nn),n∈{1,···,n}且n

优选地,所述的特征工程包括以下步骤:

当数据特征的类型为离散型特征时,采用坏样本率进行编码;

当数据特征的类型为连续型特征时,采用卡分分箱法进行分箱,再对分箱完成的特征进行证据权重编码。

优选地,所述的卡分分箱法包括以下步骤:

a、根据所需分箱数和所需置信度水平设定卡方阈值;

b、将需要进行分箱的连续型特征按取值大小进行降序排列,每个取值属于一个区间;

c、计算相邻区间的卡方值X2;

d、将卡方值最小的两个区间合并;

e、重复上述c、d两个步骤,直到分箱个数小于等于5,且卡方值大于卡方阈值。

优选地,所述的的卡方值计算公式为:

其中,Aij表示第i区间第j类的取值数,Eij表示为Aij的期望频率,Ni是第i组样本数,Cj是第j类样本在全体样本中所占比例。

优选地,所述的证据权重编码的计算公式为:

Bi为特征i对应坏样本的个数,B为坏样本总数,Gi为特征i对应好样本的个数,G为好样本总数。

优选地,所述的步骤S2包括以下步骤:

S2.1、分别对各个数据源构筑梯度提升决策树模型,梯度提升决策树模型中共有N棵决策树;

所述的梯度提升决策树模型的决策函数为:

其中,T(x;θm)是第m轮迭代中生成的弱分类器;

S2.2、采用CART决策树方法对N棵决策树进行处理,分别计算各个数据源的每个数据特征的重要性评分;

所述的特征的重要性评分为:

其中,VIMj是数据特征j在n棵树中的重要度之和,∑VIMi是所有数据特征的在n棵树中的重要度之和;

S2.3、分别筛选重要性评分值最大的特征作为各个数据源的重要特征。

优选地,步骤S3所述的深度神经网络子模型,其输入层为重要特征的维度数目(20),隐藏层为2层,隐藏层大小等于14和10,输出层节点数为2,输出函数选用Softmax函数,损失函数选择交叉熵损失函数,同时激活函数选用RELU函数,通过Adam迭代优化器及反向传播算法更新各节点权重使得损失函数取得最小值。

优选地,所述的步骤S4包括以下步骤:

S4.1、根据各个深度神经网络子模型的预测结果构建逻辑回归模型,从而对各个深度神经网络子模型进行融合,预测整体的违约概率;

所述的整体违约概率为:

其中,θ为影响目标值的因素,x为自变量;

S4.2、将整体的违约概率转化为信用评分。

本发明具有以下优势:

本发明采用卡方分箱法对各个数据源的数据进行特征工程,并采用梯度提升决策树模型筛选各个数据源的重要特征,从而使得筛选出的特征具有较强区分度,同时基于具有较高分类准确度的深度神经网络建立各个数据源的子模型,最后再通过稳定性较强的逻辑回归模型对各个深度神经网络子模型进行融合,确保了申请评分卡模型的稳定性和可解释性。本发明的申请评分卡模型具有可扩展性,由于采用了多个深度神经子模型融合的方法,因此,若有第三方数据无法接入或损坏,也只是影响了其中一个子模型,不会对整体的申请评分卡模型产生很大影响。

图1为本发明提供的一种基于集成学习的申请评分卡模型建立方法的流程图。

图2为本发明实施例提供的数据源的数据进行预处理的执行过程。

图3为本发明实施例提供的梯度提升决策树模型进行数据特征的筛选结果。

图4为本发明实施例提供的深度神经网络子模型的训练结果。

以下结合附图和具体实施例对本发明提出的一种基于集成学习的申请评分卡模型建立方法作进一步详细说明。根据下面说明和权利要求书,本发明的优点和特征将更清楚。需说明的是,附图均采用非常简化的形式且均使用非精准的比率,仅用以方便、明晰地辅助说明本发明实施例的目的。

如图1所示,本发明提供了一种基于集成学习的申请评分卡模型建立方法,包括以下步骤:

S1、分别对各个数据源的数据进行数据预处理,并对预处理后的数据进行特征工程,得出各个数据源的数据特征;

具体地,所述的数据源为自由信贷数据源、央行征信数据源以及第三方借贷数据源等不同数据源,通过对各个不同数据源分别进行数据预处理以及特征工程,得出各个不同数据源的数据特征。

所述的步骤S1包括以下步骤:

S1.1、根据缺失值的种类分别对各个数据源的数据进行去缺失值预处理;

具体地,根据缺失值的业务含义确定缺失值的种类,如“工资收入”字段的缺失可能是人主观原因导致未填写,因此属于完全非随机缺失,而有些字段,如人员id等中间存在一些乱码导致的缺失,在业务上是由于系统的一些波动导致的,属于完全随机缺失值。采用缺失值邻近5-10个数的算术平均值来替代连续型完全随机缺失值;采用随机状态替代离散型完全随机缺失值;采用新的状态值-1替代随机缺失值和完全非随机缺失值。

S1.2、采用SMOTE方法对各个数据源中对应正例的数据进行过采样预处理;

具体地,所述的SMOTE方法是一种根据样本标签少的样本的规律去生成更多该标签样本,使得数据趋向于平衡的过采样方法。通过对数据源中少对应正例的数据(即有违约行为的数据)进行过采样预处理,可以解决数据源中各个类型的数据样本数量不平衡的问题。

所述的SMOTE过采样预处理的方法为:

对于该少数类的数据中的每个样本xi,采用欧式距离计算方法到距离样本xi最近的k个近邻,记为Xi(near),near∈{1,···,k};

然后从这k个近邻中随机选择n个近邻xi(nn),n∈{1,···,n}且n

S1.3、分别对预处理后的各个数据源的数据进行特征工程。

所述的特征工程包括以下步骤:

当数据特征的类型为离散型特征时,采用坏样本率进行编码,即将离散型的特征转化为对应的坏样本率;

当数据特征的类型为连续型特征时,采用卡分分箱法进行分箱,再对分箱完成的特征进行证据权重编码。

具体地,所述的卡分分箱法包括以下步骤:

a、根据自由度(所需分箱数)和所需置信度水平设定卡方阈值;

具体地,所需置信度水平需自行设定,银行通常需要90%或者95%的置信度。

b、将需要进行分箱的连续型特征按取值大小进行降序排列,每个取值属于一个区间;

具体地,步骤b设定的区间只是一个暂定的分箱,通过对区间的不断合并,形成最总的分箱结果。

c、计算相邻区间的卡方值X2;

所述的的卡方值计算公式为:

其中,Aij表示第i区间第j类的取值数,Eij表示为Aij的期望频率,Ni是第i组样本数,Cj是第j类样本在全体样本中所占比例。

d、将卡方值最小的两个区间合并;

e、重复上述c、d两个步骤,直到分箱个数小于等于5,且卡方值大于卡方阈值。

具体地,所述的证据权重的计算公式为:

Bi为特征i对应坏样本的个数,B为坏样本总数,Gi为特征i对应好样本的个数,G为好样本总数。

S2、分别对各个数据源构筑梯度提升决策树模型,从而从各个数据源的数据特征中筛选出重要特征;

具体地,所述的步骤S2包括以下步骤:

S2.1、分别对各个数据源构筑梯度提升决策树模型,梯度提升决策树模型中共有N棵决策树;

具体地,所述的梯度提升决策树(GBDT)模型是一种Boosting集成模型,是一种高度自适应的方法顺序地学习一系列同质弱学习器,即每个基础模型都依赖于前面的模型结果,并按照某种确定性的策略将它们组合起来。其决策函数Fm(x)可以表示为:

其中,T(x;θm)是第m轮迭代中生成的弱分类器;

S2.2、采用CART决策树方法对N棵决策树进行处理,分别计算各个数据源的每个数据特征的重要性评分;

具体地,采用CART决策树方法对N棵决策树进行处理:首先计算数据源的数据的基尼(gini)指数;然后选取数据的划分方式,即指选取基尼指数最小的数据特征,亦为去除该数据特征后数据基尼指数最小的数据特征,再根据选取的数据特征,根据其取值对数据进行划分,构建分枝;再然后去除已使用的数据特征,在每个数据分支中重复上述步骤直到每个分支中所有数据的类别都相同,或者所有数据特征都被使用。gini指数可以衡量数据的纯度,gini指数越小,数据纯度越高,不确定性越低。不妨设每个离散特征的K个样本可以被分为n类,在第m(m

为每个离散型特征的K个样本下,第k个样本点属于第m类的概率。

对于任意数据特征x在其对应节点m的重要度,即节点m分枝前后gini指数的变化量为:

VIMj=GIm-GIl-GIr

其中,GIl和GIr分别表示分枝后两个新节点的gini指数,GIm表示分支前的gini指数。

梯度提升决策树模型中共有N棵决策树,将N棵决策树的任意特征X的重要度进行归一化处理,得到数据特征的重要性评分:

其中,VIMj是数据特征j在n棵树中的重要度之和,∑VIMi是所有数据特征的在n棵树中的重要度之和;

S2.3、分别筛选重要性评分值最大的特征作为各个数据源的重要特征。

S3、根据各个数据源的数据重要特征分别构建深度神经网络子模型,从而预测各个数据源给出的违约概率;

具体地,所述的深度神经网络子模型,其输入层为重要特征的维度数目(20),隐藏层为2层,隐藏层大小等于14和10,输出层节点数为2,输出函数选用归一化指数函数(Softmax函数),损失函数选择交叉熵损失函数,同时激活函数选用线性整流函数(RELU函数),通过自适应矩阵(Adam)迭代优化器及反向传播算法更新各节点权重使得损失函数取得最小值。深度神经网络子模型训练过程中,一旦损失函数低于设定阈值,或者连续多轮损失函数下降量低于设定值,即停止训练。

Softmax函数表达式如下:

在多项逻辑回归和线性判别分析这类多分类模型中,Softmax函数的输入是从M个不同的线性函数得到的结果,而样本向量x属于第j个分类的概率为:

其中W为样本向量x的权重向量,表征样本向量x中每个元素对应的权重。

交叉熵损失函数定义如下:

H(p,q)=-∑xp(x)log(q(x))

其中p(x)是真实分布的概率,q(x)是模型通过数据计算出来的概率估计。

RELU函数表达式如下:

f(x)=max(0,x)

RELU函数可以有效避免梯度消失问题。

Adam优化器是对梯度的一阶矩估计和二阶矩估计进行综合考虑,计算出更新步长的迭代式优化器。

S4、通过构建逻辑回归模型对各个深度神经网络子模型进行融合,得出信用评分。

具体地,根据各个深度神经网络子模型的预测结果构建逻辑回归模型,从而对各个深度神经网络子模型进行融合,得出整体的违约概率,再将整体违约概率转化为信用评分。所述的整体违约概率为:

其中,θ为影响目标值的因素,x为自变量。

以下为本发明提供的实施例:

在服务器端Spark集中执行脚本,(或者通过可视化窗口,可视化窗口支持SQL语句查询),分别对不同数据源的数据执行数据预处理,数据预处理的执行过程如图2所示。

在服务器上执行脚本,对预处理完成的数据进行特征工程,对于连续型的数据特征采用卡方分箱法进行分箱,并对分箱完成后的数据特征进行WOE编码。

在服务器上执行脚本,使用GBDT模型进行数据特征选择,选择结果如图3所示。图3中,Best Score显示了GBDT模型最终的拟合得分,得分越高越接近1,则说明拟合得越好。Importances显示了各个特征的重要度得分,得分越高,则表示特征重要度越高。

在服务器上执行脚本,训练各个数据源的深度神经网络子模型。训练结果如图4所示,在使用了Adam优化器后,深度神经网络子模型损失随着训练批次的上升而下降,最终趋于稳定。

在服务器上执行脚本,对模型进行融合,给出最终预测结果。

本发明采用卡方分箱法对各个数据源的数据进行特征工程,并采用梯度提升决策树模型筛选各个数据源的重要特征,从而使得筛选出的特征具有较强区分度,同时基于具有较高分类准确度的深度神经网络建立各个数据源的子模型,最后再通过稳定性较强的逻辑回归模型对各个深度神经网络子模型进行融合,确保了申请评分卡模型的稳定性和可解释性。本发明的申请评分卡模型具有可扩展性,由于采用了多个深度神经子模型磨合的方法,因此,若有第三方数据无法接入或损坏,也只是影响了其中一个子模型,不会对整体的申请评分卡模型产生很大影响。

尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。

本文发布于:2024-09-23 11:22:45,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/85614.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议