一种基于深度学习与逻辑回归相融合的企业信用评估方法[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202010868081.2
(22)申请日 2020.08.26
(71)申请人 天元大数据信用管理有限公司
地址 250100 山东省济南市高新区浪潮路
1036号浪潮科技园S01楼23层
(72)发明人 尹盼盼 边松华 崔乐乐 
(74)专利代理机构 济南信达专利事务所有限公
司 37100
代理人 冯春连
(51)Int.Cl.
G06Q  40/02(2012.01)
G06Q  10/06(2012.01)
G06F  16/25(2019.01)
G06F  16/28(2019.01)
G06N  3/04(2006.01)
(54)发明名称
一种基于深度学习与逻辑回归相融合的企
业信用评估方法
(57)摘要
本发明公开一种基于深度学习与逻辑回归
相融合的企业信用评估方法,涉及金融信贷技术
领域,包括:将企业的政府、互联网、第三方数据
存储于关系型数据子表格,多个子表格融合为一
个总表格存储于标准数据仓库;筛选仓库数据,
构建企业信用指标体系;人工标注企业是否违
约,并将相应数据随机划分到训练样本和预测样
本;基于训练样本和指标体系,进行探索性数据
分析和数据清洗,确定初步入模指标;构建深度
学习与逻辑回归相融合的企业信用评估模型,基
于训练样本和初步入模指标,训练模型,输出最
终入模指标及最优模型;最优模型预测企业的违
约概率,并转换处理为信用评分。本发明可以提
高企业的信用评分准确度,为企业的金融信贷提
供重要评估。权利要求书4页  说明书11页  附图1页CN 112017025 A 2020.12.01
C N  112017025
A
1.一种基于深度学习与逻辑回归相融合的企业信用评估方法,其特征在于,包括如下步骤:
S1、获取多家企业的政府数据、互联网数据、第三方数据,将同一家企业的政府数据、互联网数据、第三方数据存储于同一个关系型数据子表格中;
S2、多家企业的关系型数据子表格经过汇聚、对齐、融合成至少一个关系型数据总表格,存储于标准数据仓库;
S3、分别筛选标准数据仓库中所有关系型数据总表格包含的数据,构建三层指标的企业信用指标体系;
S4、基于企业的关系型数据子表格包含的数据,人工将企业标注为违约用户或守约用户,随后,在标准
数据仓库存储的关系型数据总表格中,分别标记违约用户和守约用户的相关数据;
S5、将违约用户和守约用户随机划分到训练样本和预测样本,训练样本包含的用户个数多于预测样本包含的用户个数,随后,按照随机划分的结果将关系型数据总表格拆分为两个关系型数据表格,并将拆分得到的两个关系型数据表格对应存储到训练样本和预测样本;
S6、对训练样本的关系型数据表格包含的数据和企业信用指标体系的三层指标进行探索性数据分析和数据清洗,确定初步入模指标;
S7、基于神经网络构建深度学习与逻辑回归相融合的企业信用评估模型;
S8、基于训练样本和步骤S6确定的初步入模指标,训练步骤S7构建的企业信用评估模型,输出最终的入模指标及最优企业信用评估模型;
S9、基于步骤S8训练得到的最优企业信用评估模型预测企业的违约概率,并转化为标准信用评分,对整体企业信用评分分布进行正态分布检验,确定最终企业信用评分。
2.根据权利要求1所述的一种基于深度学习与逻辑回归相融合的企业信用评估方法,其特征在于,步骤S1中,
企业的政府数据包括工商、公积金、社保、发改委、银保监、行政处罚各项信息;
企业的互联网数据包括电商数据、上市信息、认定信息、网店信息、法律诉讼、失信被执行、招投标各项信息;
企业的第三方数据包括企业工商信息、人员信息、人企关系数据各项信息。
3.根据权利要求2所述的一种基于深度学习与逻辑回归相融合的企业信用评估方法,其特征在于,步骤S2中,对多家企业的关系型数据子表格进行汇聚、对齐、融合,得到至少一个关系型数据总表格,其具体操作为:
S2.1、数据汇聚阶段:采集企业数据,企业数据包含企业的政府数据、互联网数据、第三方数据,其中,企业的政府数据以接口形式对接,覆盖公积金、社保、工商、税务、食药监、银保监,企业的互联网数据覆盖企业背景、电商数据、裁判文书、招投标、司法数据,企业的第三方数据以接口形式对接,覆盖企业工商信息、人员信息、人企关系数据;
S2.2、数据对齐阶段:建立统一的数据标准规范,对企业入库的政府数据、互联网数据、第三方数据进行规范化管理,通过ETL数据治理工具进行上述三方数据的治理加工;
S2.3、数据融合阶段:将多家企业的政府数据、互联网数据、第三方数据进行横纵向数据融合,融合汇聚到至少一个关系型数据总表格中,至少一个关系型数据总表格统一存储
到标准数据仓库中,标准数据仓库存储上述三方数据融合之后的标准库数据、加工所得指标库、特征库三项信息。
4.根据权利要求1所述的一种基于深度学习与逻辑回归相融合的企业信用评估方法,其特征在于,步骤S3构建三层指标的企业信用指标体系,其具体操作包括:S3.1、基于企业信用评估这一业务目标,分别梳理标准数据仓库中关系型数据总表格的各表格字段,确定原始指标,
S3.2、对原始指标衍生形成三级指标内容,
S3.3、针对三级指标进行抽象概括形成二级指标内容,
S3.4、结合三级指标及二级指标的内容,分析指标体现的企业信用的评估维度,确定一级指标内容,
S3.5、基于三级指标内容、二级指标内容、一级指标的内容,构建覆盖三层指标的企业信用指标体系。
5.根据权利要求4所述的一种基于深度学习与逻辑回归相融合的企业信用评估方法,其特征在于,所述三级指标、二级指标、一级指标的内容依次减少,其中,
所述三级指标的内容包含通过关系型数据总表格抽取的具体的企业信用指标;
所述二级指标的内容是基于三级指标基础之上融入业务知识归类整理的企业信用指标;
所述一级指标的内容是评估企业信用风险最终确定的指标,包括偿债、行业、经营、履约、区域、现金流、营运共计7个指标,一级指标应用在企业画像的雷达图展示中,用以评估企业在各个细分维度上的信用风险情况。
6.根据权利要求1所述的一种基于深度学习与逻辑回归相融合的企业信用评估方法,其特征在于,步骤S6中,对训练样本的关系型数据表格包含的数据和企业信用指标体系的三层指标进行探索性数据分析,其具体操作为:
S6.1.1、对训练样本的关系型数据表格包含的数据及企业信用指标体系的三层指标进行描述统计;
S6.1.2、对步骤S6.1.1的描述统计进行分析,将含有时间信息的指标称为特定指标,对特定指标的描述数据进行切分,以进一步对数据的动态变化情况、某一特定条件下的取值情况进行深入的剖析;
S6.1.3、绘制单变量的直方图曲线、单变量与目标变量的关系曲线,以对三层指标进行可视化分析。
7.根据权利要求6所述的一种基于深度学习与逻辑回归相融合的企业信用评估方法,其特征在于,步骤S6中,对训练样本的关系型数据表格包含的数据和企业信用指标体系的三层指标进行数据清洗,其具体操作为:
S6.2.1、基于训练样本的关系型数据表格包含的数据,对企业信用指标体系的三层指标进行无效值处理,
S6.2.2、基于训练样本的关系型数据表格包含的数据,对企业信用指标体系中可以量化的三层指标进行数值量化,
S6.2.3、基于训练样本的关系型数据表格包含的数据,对企业信用指标体系的三层指标进行缺失值统计,去除缺失值大于60%的三层指标,
S6.2.4、基于训练样本的关系型数据表格包含的数据,对步骤S6.2.3后企业信用指标体系中剩余的三层指标进行同值率的统计,去除属性只有一个值的特征,去除属性同值率大于60%的三层指标,
S6.2.5、对步骤S6.2.4后剩余的三层指标,首先去除探索性数据分析过程中确定的不合理指标,随后进行VIF共线性分析,
S6.2.6、基于步骤S6.2.3进行的缺失值统计,根据训练样本的关系型数据表格包含的数据缺失占比,对训练样本的关系型数据表格包含的数据缺失比率进行计算,去除数据缺失占比大于50%的数据集;
S6.2.7、基于步骤S6.2.6后训练样本的关系型数据表格包含的剩余数据,对步骤S6.2.5后企业信用指标体系中剩余的三层指标采用箱型图的四分位距方法进行异常值检测,根据上四分位数标准筛选部分指标的异常值,筛选出的异常值当做缺失值用特定数值“-999”进行填充,
S6.2.8、采用RandomForest随机森林方法对步骤S6.2.7后训练样本的关系型数据表格中不存在缺失值的指标的特征作为特征变量,将训练样本的关系型数据表格中存在缺失值的指标分别选做目标函数,利用特征变量和目标函数的非缺失值作为训练样例,训练RandomForest模型,训练好的RandomForest模型可以预测缺失特征的缺失值,完成所有训练样例中缺失指标的填充;
S6.2.9、对缺失值填充后的训练样例进行Z-Score标准化处理,形成标准化后包含初步入模指标的训练样例向量,用于进行企业信用评估模型的训练。
8.根据权利要求7所述的一种基于深度学习与逻辑回归相融合的企业信用评估方法,其特征在于,步骤S7中,基于神经网络构建深度学习与逻辑回归相融合的企业信用评估模型,这一过程包括确定神经网络、确定神经网络的激活函数、确定神经网络的权重搜索策略三个阶段;
S7.1、确定神经网络阶段:
神经网络选用多层全连接神经网络,包括输入层、隐藏层、输出层三部分,神经网络的输入层节点个数即为输入初步入模指标的个数,神经网路的输出层节点个数对应训练样本包含的样本类别数,神经网络的隐藏层层数与神经网路的输出层节点个数相等,神经网络的隐藏层节点个数是输入层节点个数与输出层节点个数的乘积的倍数;
S4.2、确定神经网络的激活函数阶段:
神经网络的隐藏层输出采用Relu函数进行激活处理,神经网络的输出层采用softmax 激活函数进行处理,将神经网络的输出层与逻辑回归方法相融合,构建深度学习与逻辑回归相融合的企业信用评估模型;
S4.3、确定神经网络的权重搜索策略阶段:
基于步骤S4.2构建的企业信用评估模型,确定神经网络的权重搜索策略阶段包括确定损失函数、优化器、学习速率、迭代次数四方面,其中,
a)确定categorical crossentropy分类交叉熵函数作为企业信用评估模型的损失函数,
b)确定企业信用评估模型的优化器为tf.keras.optimizers.Adam,以根据损失函数的变化来寻权重的最优值,
c)确定学习速率为0.001,
d)确定企业信用评估模型的迭代次数为10000次。
9.根据权利要求8所述的一种基于深度学习与逻辑回归相融合的企业信用评估方法,其特征在于,步骤S8中,训练步骤S7构建的企业信用评估模型,输出最终的入模指标及最优企业信用评估模型,这一过程具体包括:
S8.1、训练企业信用评估模型:采用tensorflow和keras的开源包训练步骤S7构建的企业信用评估模型,企业信用评估模型的开发训练语言选择python,选取训练样本和预测样本进行10000次企业信用评估模型的迭代训练,训练过程中,绘制企业信用评估模型的学习曲线,观察企业信用评估模型训练过程中的损失函数、训练样本准确率、以及预测样本的准确率,并最终判断企业信用评估模型是否收敛、是否过拟合;
S8.2、进行初步入模指标的重要性评估:(1)对缺失值填充后的训练样例进行Z-Score 标准化处理,形成标准化后包含初步入模指标的训练样例向量,(2)随机生成一列扰动变量,来依次替换训练样例向量中初步入模指标的各列指标向量,并生成新的训练样例向量,将生成的新的训练样例向量输入确定的神经网络得到预测值,根据输入向量和输出预测值计算损失函数,(3)针对每个入模指标循环生成100次扰动变量,循环执行步骤(2),计算100次新生成的训练样例向量下所得损失函数的平均值,评估各个初步入模指标的重要性;
S8.3、对企业信用评估模型进行迭代调优:按照所得损失函数平均值排序初步入模指标,依次选择不同的阈值来筛选初步入模指标,将预测样本的初步入模指标输入企业信用评估模型进行训练,将预测样本的人工标注结果与企业信用评估模型的预测结果进行比对,确定最终入模指标,并生成最优企业信用评估模型。
10.根据权利要求1所述的一种基于深度学习与逻辑回归相融合的企业信用评估方法,其特征在于,步骤S9中,将最优企业信用评估模型预测的企业违约概率转化为标准信用评分,有以下两种方法:
S9a、基于WOE转换的方法,通过WOE值及最优企业信用评估模型预测所得特征的系数进行特征分值的计算;
S9b、基于最优企业信用评估模型预测所得的企业违约概率,根据违约概率进行标准分值的转换。

本文发布于:2024-09-26 04:27:07,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/429120.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   指标   企业信用   评估   进行   企业   模型
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议