汽车金融贷款等待时间的预估方法、设备及计算介质

著录项
  • CN202111220745.5
  • 20211020
  • CN113837873A
  • 20211224
  • 长安汽车金融有限公司
  • 陈邦玮;张胜庆;曹家楷;张浩
  • G06Q40/02
  • G06Q40/02 G06N3/04 G06N3/08 G06F16/25

  • 重庆市江北区永平门街14号27-1、28-1、29-1
  • 重庆(50)
  • 北京信远达知识产权代理有限公司
  • 李兆轩
摘要
汽车金融贷款等待时间的预估方法、设备及计算介质,预估方法包括数据采集和处理阶段、模型训练阶段和预测阶段,首先采集汽车金融贷款申请单并提取特征信息后编码,特征信息包括时间特征、风险级别特征和数量相关特征;然后构建神经网络模型,利用样本集对神经网络模型进行训练和验证,样本集包括在数据采集和处理阶段获得的每笔汽车金融贷款申请单对应的特征信息的编码值以及实际等待时间;最后获取待预测的汽车金融贷款申请单并提取出对应的特征信息编码后输入到训练好的神经网络模型中,训练好的神经网络模型输出预测的等待时间结果。本发明相比传统等时预估方案,能处理更为复杂的数据,获得更准确的预估时间,实现更自动化的模型部署。
权利要求

1.一种汽车金融贷款等待时间的预估方法,其特征在于,所述等待时间预估方法包括:

数据采集和处理阶段:采集多笔汽车金融贷款申请单,提取出每笔汽车金融贷款申请单的特征信息并进行编码,所述特征信息包括时间特征、风险级别特征和数量相关特征,所述数量相关特征包括每笔汽车金融贷款申请单在进入等待队列时对应的风险级别中申请单的积累数量、正在审核数量和加急数量;

模型训练阶段:构建神经网络模型,并利用样本集对所述神经网络模型进行训练和验证,所述样本集包括在所述数据采集和处理阶段获得的每笔汽车金融贷款申请单对应的特征信息的编码值以及实际等待时间;所述神经网络模型以汽车金融贷款申请单的特征信息的编码值为输入,以为输出实际等待时间为目标;

预测阶段:获取待预测的汽车金融贷款申请单并提取出对应的特征信息进行编码后输入到训练好的神经网络模型中,训练好的神经网络模型输出预测的等待时间。

2.根据权利要求1所述的汽车金融贷款等待时间的预估方法,其特征在于,在所述数据采集和处理阶段提取的所述时间特征的表现形式为(a,b,c),其中a、b和c均为正整数,a∈[1,7]分别表示星期一至星期日;将一天24小时按每30分钟划分一个时间段,b∈[0,47]表示经过了一天中的b个时间段;c∈[0,29]表示在b+1个时间段内的第c分钟。

3.根据权利要求1或2所述的汽车金融贷款等待时间的预估方法,其特征在于,在所述数据采集和处理阶段,对所述时间特征进行均值编码以得到所述时间特征的编码值,公式如下:

其中x为待进行编码的时间特征,y为目标值,ni是x=xi时的样本个数,N为总的样本个数,系数

4.根据权利要求1所述的汽车金融贷款等待时间的预估方法,其特征在于,在所述数据采集和处理阶段,对所述风险级别特征进行onehot编码以得到所述风险级别特征的编码值。

5.根据权利要求1所述的汽车金融贷款等待时间的预估方法,其特征在于,所述数据采集和处理阶段提取的所述时间特征包括汽车金融贷款申请单进入队列时间、处理开始时间和处理完成时间。

6.根据权利要求5所述的汽车金融贷款等待时间的预估方法,其特征在于,在所述数据采集和处理阶段,计算任意一个申请单在进入等待队列时对应的风险级别中申请单积累数量的方法为:令需要计算的申请单为apply_1,统计与申请单apply_1相同风险级别的申请单中处理完成时间晚于申请单apply_1进入队列时间,且进入队列时间早于申请单apply_1进入队列时间的申请单数量;

计算申请单apply_1在进入等待队列时对应的风险级别中申请单正在审核数量的方法为:统计与申请单apply_1相同风险级别的申请单中处理完成时间晚于申请单apply_1进入队列时间,且处理开始时间早于申请单apply_1进入队列时间的申请单数量;

计算申请单apply_1在进入等待队列时对应的风险级别中申请单加急数量的方法为:统计与申请单apply_1相同风险级别的申请单中进入队列时间晚于申请单apply_1进入队列时间,且处理开始时间早于申请单apply_1处理开始时间的申请单数量。

7.根据权利要求1所述的汽车金融贷款等待时间的预估方法,其特征在于,

在模型训练阶段,每训练设定次数后,计算根据当前神经网络模型预测得到的等待时间与对应申请单的实际等待时间的误差值作为当前误差;

将所述当前误差与设定的基准值比较,若所述当前误差小于所述基准值,则将所述当前误差与之前训练中得到的最小的误差值进行比较,若所述当前误差更小则保存当前神经网络模型的权重,继续训练;若所述当前误差不小于所述基准值或不小于之前训练中得到的最小的误差值,则不保存当前神经网络模型的权重,继续训练;

当多次比较中的所述当前误差均不小于所述基准值或均不小于之前训练中得到的最小的误差值,则终止训练。

8.一种实现汽车金融贷款等待时间预估方法的设备,其特征在于,包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述一种汽车金融贷款等待时间的预估方法的步骤。

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述一种汽车金融贷款等待时间的预估方法的步骤。

说明书
技术领域

本发明属于排队预测技术领域,涉及一种基于神经网络的汽车金融贷款等待时间的预估方法、设备及计算介质。

客户在等待汽车金融贷款审批时,不确定时间的等候比已知时间的有限等候更为漫长,等待时间预估模型可以提供精准的预估时间,让客户了解贷款进度与时间,方便客户确定购车安排,缓解因时间等待而造成的不满,尽最大可能地提高客户的体验。

目前在餐厅叫号等时预估以及外卖等待时间预测等领域提出了相关技术,但仍存在如下缺点:

(1)由于不同领域处理的数据类型不同、等时规则不同,一些在其他领域效果较好的等候时间预估方案并不适用于汽车金融业务场景:如外卖等候时间,客户在完成选餐后已经确定了餐厅,相当于每个餐厅都是一个独立的队列;而汽车金融业务场景中一个申请单在处理前都不能确定审核人员,因为一个审核员能处理多个风险等级的申请单;又比如,出行打车等候时间是基于车辆数量、距离、天气的因素来预估乘客等候时间,对其选取的数据类型的处理逻辑不符合汽车金融业务场景业务逻辑。

(2)传统的统计模型是每一时间段(10分钟)计算1个申请单的平均处理时间,然后对当前申请单之前的进行累计求和来得到等待时间。该方案适合排队人数随时间波动较小的场景,而汽车贷款受新车发布、节假日、车展等因素影响,无法利用当天实时申请数据变化,预测准确性较差。

(3)常规的排队,遵循先来先到,而汽车金融业务场景,由于特殊情况(如补交资料、客户原因等)会频繁出现加急(插队)的情况,相关等待时间预估方案中对加急的情况支持较少。此外贷款审核个体需要的处理时间差异较大,等待时间会受到其他不同级别的申请单影响,这都对准确预测时间造成了困难。

本发明的目的是针对现有技术中的不足,提供一种基于神经网络的汽车金融贷款等待时间的预估方法、设备及计算介质,针对汽车金融贷款领域涉及的数据类型设计数据处理方案和模型建立方案,能够通过代码实现自动化模型训练及部署,提高了预估精确度。

为实现上述目的,本发明采取的技术方案是:

一种汽车金融贷款等待时间的预估方法,所述等待时间预估方法包括:

数据采集和处理阶段:采集多笔汽车金融贷款申请单,提取出每笔汽车金融贷款申请单的特征信息并进行编码,所述特征信息包括时间特征、风险级别特征和数量相关特征,所述数量相关特征包括每笔汽车金融贷款申请单在进入等待队列时对应的风险级别中申请单的积累数量、正在审核数量和加急数量;

模型训练阶段:构建神经网络模型,并利用样本集对所述神经网络模型进行训练和验证,所述样本集包括在所述数据采集和处理阶段获得的每笔汽车金融贷款申请单对应的特征信息的编码值以及实际等待时间;所述神经网络模型以汽车金融贷款申请单的特征信息的编码值为输入,以为输出实际等待时间为目标;

预测阶段:获取待预测的汽车金融贷款申请单并提取出对应的特征信息进行编码后输入到训练好的神经网络模型中,训练好的神经网络模型输出预测的等待时间结果。

进一步地,在所述数据采集和处理阶段提取的所述时间特征的表现形式为(a,b,c),其中a、b和c均为正整数,a∈[1,7]分别表示星期一至星期日;将一天24小时按每30分钟划分一个时间段,b∈[0,47]表示经过了一天中的b个时间段;c∈[0,29]表示在b+1个时间段内的第c分钟。

进一步地,在所述数据采集和处理阶段,对所述时间特征进行均值编码以得到所述时间特征的编码值,公式如下:

其中x为待进行编码的时间特征,y为目标值,ni是x=xi时的样本个数,N为总的样本个数,系数

进一步地,在所述数据采集和处理阶段,对所述风险级别特征进行onehot编码以得到所述风险级别特征的编码值。

进一步地,所述数据采集和处理阶段提取的所述时间特征包括汽车金融贷款申请单进入队列时间、处理开始时间和处理完成时间。

进一步地,在所述数据采集和处理阶段,计算任意一个申请单在进入等待队列时对应的风险级别中申请单积累数量的方法为:令需要计算的申请单为apply_1,统计与申请单apply_1相同风险级别的申请单中处理完成时间晚于申请单apply_1进入队列时间,且进入队列时间早于申请单apply_1进入队列时间的申请单数量;

计算申请单apply_1在进入等待队列时对应的风险级别中申请单正在审核数量的方法为:统计与申请单apply_1相同风险级别的申请单中处理完成时间晚于申请单apply_1进入队列时间,且处理开始时间早于申请单apply_1进入队列时间的申请单数量;

计算申请单apply_1在进入等待队列时对应的风险级别中申请单加急数量的方法为:统计与申请单apply_1相同风险级别的申请单中进入队列时间晚于申请单apply_1进入队列时间,且处理开始时间早于申请单apply_1处理开始时间的申请单数量。

进一步地,在数据采集和处理阶段,将每笔汽车金融贷款申请单的特征信息进行归一化处理,将编码参数和归一化参数保存到数据库,所述样本集中的数据为归一化后的数据。

进一步地,在模型训练阶段,使用tensorflow构建3层全连接神经网络,激活函数为relu函数;将所述样本集输入神经网络,通过反向传播不断调整神经网络参数来拟合标签,获得最终训练好的神经网络模型,所述标签为所述样本集中每笔汽车金融贷款申请单的实际等待时间。

进一步地,所述神经网络模型包括基于树模型的lightgbm和xgboost。

进一步地,在模型训练阶段,每训练设定次数后,计算根据当前神经网络模型预测得到的等待时间与对应申请单的实际等待时间的误差值作为当前误差;将所述当前误差与设定的基准值比较,若所述当前误差小于所述基准值,则将所述当前误差与之前训练中得到的最小的误差值进行比较,若所述当前误差更小则保存当前神经网络模型的权重,继续训练;若所述当前误差不小于所述基准值或不小于之前训练中得到的最小的误差值,则不保存当前神经网络模型的权重,继续训练;当多次比较中的所述当前误差均不小于所述基准值或均不小于之前训练中得到的最小的误差值,则终止训练。

进一步地,在数据采集和处理阶段,首先利用ELT脚本自动拉取数据,其中ELT是利用数据库的处理能力,E=从源数据库抽取数据,L=把数据加载到目标库的临时表中,T=对临时表中的数据进行转换,然后加载到目标库目标表中;随后进行数据清洗和特征工程,将特征信息进行编码和归一化后得到的包括编码参数、编码规则和归一化参数保存作为模型部署数据;在模型训练阶段将训练好的神经网络模型进行模型部署,在预测阶段将待预测的汽车金融贷款申请单对应的特征信息输入到部署好的神经网络模型中,获得的预测等待时间结果保存到数据库中。

本发明还提供了一种实现汽车金融贷款等待时间预估方法的设备,包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序时实现上述的汽车金融贷款等待时间的预估方法的步骤。

本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述上汽车金融贷款等待时间的预估方法的步骤。

本发明的有益效果在于:

本发明根据汽车金融领域中的数据特点,设计了一种能够实现等待时间预估的方案,相比传统等时预估方案而言能够处理更为复杂的数据类型,更能适应数据的实时变化,以及能够处理个体级别不同的申请单。

本发明提高了预估精确度,经过试验表明预测平均绝对误差为3.8分钟,误差在4分钟之内的准确率达到了96.2%,且随着数据的增多,会越来越准确。

另外本发明能够通过代码实现自动化模型训练及部署,减少了操作人员负担,能够避免造成数据错误。

图1为本发明提出的一种基于神经网络的汽车金融贷款等待时间预估方法中实现数据采集和处理阶段的一种可行流程示意图。

图2为本发明提出的一种基于神经网络的汽车金融贷款等待时间预估方法中实现模型训练阶段的一种可行流程示意图。

图3为本发明提出的一种基于神经网络的汽车金融贷款等待时间预估方法中采用的一种神经网络连接示意图。

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。

应当理解,文中所使用的步骤编号仅是为了方便描述,不对作为对步骤执行先后顺序的限定。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”“及”“该”意在包括复数形式。术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

实施例一

本实施例提出一种基于神经网络的汽车金融贷款等待时间预估方法,包括数据采集和处理阶段、模型训练阶段和预测阶段。

在数据采集和处理阶段,首先需要采集多笔汽车金融贷款申请单,提取出每笔汽车金融贷款申请单的特征信息并进行编码。本实施例通过在大数据平台埋点采集了半年左右的排队时间相关数据,包括保单数据、人员数据、流程时间节点数据等;具体来说,从大数据平台抽取数据形成主要为4个表:申请单处理流程表、申请单等级表、申请单等级规则表和审批人等级规则表,进简单的数据加工如表连接,最终生产字段包括:申请单号、申请单等级、进入队列时间、处理开始时间、处理完成时间、审批人、审批人级别、加急标记等约40万条,字段还可根据需要进行扩展,本实施例以上述字段为例进行处理。

申请单等级可以包括风险等级,业务系统根据申请单中的信息(比如该申请人之前的信用记录)自动划分确定其对应的风险等级,是表征信用的风险等级,可以分为"A"、"AA"、"AAA"、"B"、"BB"、"BBB"、"C"、"CC"、"CCC"和"D"十个风险等级。

根据贷款审批流程,需要对排队时长影响较大的因素进行提取,本实施例提取的每笔汽车金融贷款申请单的特征信息包括时间特征、风险级别特征和数量相关特征。其中数量相关特征包括每笔汽车金融贷款申请单在进入等待队列时对应的风险级别中申请单的积累数量、正在审核数量和加急数量,由于本实施例将风险等级分为十个等级,因此数量相关特征共3*10个字段。

在模型训练阶段,构建神经网络模型并利用样本集对神经网络模型进行训练和验证,其中样本集就包括在数据采集和处理阶段获得的每笔汽车金融贷款申请单对应的特征信息(包括时间特征、风险级别特征和数量相关特征)以及实际等待时间,特征信息作为神经网络模型的输入,神经网络模型的输出是预测的等待时间,经过不断的训练和验证,优化模型的参数和权重,使得神经网络模型输出的预测等待时间尽可能接近实际等待时间。通常需要将样本集分为训练集和测试集供模型训练和测试时使用,本实施例按照8:1:1将样本集划分为训练集、验证集和测试集。

训练好模型后,进入预测阶段,首先获取待预测的汽车金融贷款申请单,接下来提取出该申请单对应的特征信息使得其变换为符合模型输入要求的形式,将提取出的特征信息输入到训练好的神经网络模型中,训练好的神经网络模型就会输出预测的等待时间结果。

实施例二

本实施例在实施例一的基础上进行改进,提出一种提取时间特征的具体方法,但很明显本发明的时间特征提取方式并不限于本实施例这一种形式。

时间特征可以包括汽车金融贷款申请单的进入队列时间、处理开始时间和处理完成时间,以进入队列时间的提取为例,时间特征的要素主要为申请单进入队列的时间、星期几、时间段,本实施例考虑到业务上下班和休息时间(比如8.30上班,午休11.30-1.30),以30分钟划分为一个时间段,时间段内第几分钟的形式来体现,令提取的时间特征的表现形式为(a,b,c),其中a、b和c均为正整数,a∈[1,7]分别表示星期一至星期日;将一天24小时按每30分钟划分一个时间段,b∈[0,47]表示经过了一天中的b个时间段;c∈[0,29]表示在b+1个时间段内的第c分钟。如2021-08-25 10:43:30,对时间提取后表现形式为(3,21,13),第一个3表示2021-08-25为星期三,第二个21和第三个13是表示10:43经过一天的21个时间段,在第22个时间段内的第13分钟。

经过验证,发现使用此方法,相对于直接使用小时数作为特征,误差在4分钟之内的准确率由92.1%提升到了96.2%。

实施例三

本实施例在实施例一和二的基础上进行改进,提出一种对时间特征进行编码的具体方法,本实施例对时间特征进行均值编码,公式如下:

其中x为待进行编码的时间特征,比如对实施例二提取的时间特征进行编码时,x就涉及到a、b、c三个字段,而xi表示某一实际取值的时间特征,比如实施例二中的(3,21,13)。ni是x=xi时的样本个数,N为总的样本个数,y为目标值,表示x=xi时对应的y的均值,是整个训练集上y的均值。

λ(ni)表示对特例和整体的平衡系数,λ(ni)∈[0,1]负责计算两个概率值的可靠性,λ(ni)=0.5表示两个概率的可靠性相等,随着ni的增大,先验概率的可靠性逐渐降低。如果测试集中出现了新的特征类别(未在训练集中出现,比如训练集的时间通常为上班时间,若测试集中业务员在下班后加班处理的情况,此时测试集中就出现了新的特征类别),那么λ(ni)=1,表示直接使用历史的平均值来推测未出现过的值。在本实施例中,经过业务分析以及上100次实验,最终使用如下公式表征系数λ(ni):

其中ni为x=xi的样本数量,共3个字段。本实施例相对于不使用均值编码的方案而言,误差在4分钟之内的准确率由89.3%提升到了96.2%。

另外还需对风险级别特征进行编码,本实施例采用onehot编码的方式,onehot编码又称为一位有效编码,主要是采用多位状态寄存器来对对应的多个状态进行编码,每个状态都有独立的寄存器位,并且在任意时候只有一位有效。比如实施例一将风险等级分为"A"、"AA"、"AAA"、"B"、"BB"、"BBB"、"C"、"CC"、"CCC"和"D"十个风险等级,风险等级为A的申请单按照onehot编码可以转化为[1,0,0,0,0,0,0,0,0,0],共10个字段;风险等级为AA的申请单按照onehot编码可以转化为[0,1,0,0,0,0,0,0,0,0];依此类推。

在数据采集和处理阶段,从大数据平台抽取了审批人等级规则表,可以获知审批人级别可以分为多级,每一级别审批人能够处理不同风险级别的申请单,使得实际审批时能够结合本发明的风险等级设定方案为审批人分配合适风险等级和合适数量的申请单,提高审批效率。

实施例四

本实施例在实施例一至三的基础上进行改进,对从申请单中计算数量相关特征的方式进行限定,数据处理时,对所有申请单按进入队列时间排序,按顺序选申请单,记目前所选申请单为apply_1,保留处理完成时间早于apply_1处理开始时间的,且处理开始时间晚于apply_1进入队列时间的。依次遍历所有申请单,分别统计3种数据,即每笔汽车金融贷款申请单在进入等待队列时对应的风险级别中申请单的积累数量、正在审核数量和加急数量。

计算申请单apply_1在进入等待队列时对应的风险级别中申请单积累数量的方法为:统计与申请单apply_1相同风险级别的申请单中处理完成时间晚于申请单apply_1进入队列时间,且进入队列时间早于申请单apply_1进入队列时间的申请单数量。

计算申请单apply_1在进入等待队列时对应的风险级别中申请单正在审核数量的方法为:统计与申请单apply_1相同风险级别的申请单中处理完成时间晚于申请单apply_1进入队列时间,且处理开始时间早于申请单apply_1进入队列时间的申请单数量。

计算申请单apply_1在进入等待队列时对应的风险级别中申请单加急数量的方法为:统计与申请单apply_1相同风险级别的申请单中进入队列时间晚于申请单apply_1进入队列时间,且处理开始时间早于申请单apply_1处理开始时间的申请单数量。

在获取每笔申请单的特征信息后,可以将每笔汽车金融贷款申请单的特征信息都进行归一化处理便于后续模型训练,归一化公式为

Zi为待进行归一化的特征参数。将编码参数(包括均值编码系数、onehot映射关系)和归一化参数保存到数据库,样本集中的数据为归一化后的数据,具体流程如图1所示。

实施例五

本实施例在上述实施例一以及实施例二至四对数据采集和处理阶段方案的基础上,进一步对模型训练阶段的方案进行改进。

在模型训练阶段,使用多种机器学习模型进行试验,包括基于树模型的lightgbm和xgboost,最终选择效果最好的神经网络模型。

神经网络是一种类似人类大脑神经突触的数学模型,本实施例使用tensorflow构建3层全连接神经网络,将样本集输入神经网络,通过反向传播不断调整神经网络参数来拟合标签,获得最终训练好的神经网络模型并保存,标签为样本集中每笔汽车金融贷款申请单的实际等待时间。

本实施例的模型结构如图3,每层神经元数量分别为20、12、12、1,目前数据量较少,故使用较简单的网络结构,激活函数经过实验旋转relu函数,relu函数比tanh函数效果高0.6%。

每一个神经元可以使用如下公式表示:

每一层神经层可以使用如下公式表示:

Yo*1=relu(wo*i×Xi*1+bo*1)

其中X表示神经层的输入,Y表示神经层的输出,w是神经网络模型的参数或者说权重,b为一个偏置量,w为输出维度*输入维度的矩阵,w和b由神经网络根据数据自主学习,b为输出维度*1的矩阵,o为输出维度,i为输入维度,每层神经层共o*i+o个可调参数。根据以上述实施例限定的输入特征信息包括3*10个字段的数量相关特征、10个字段的风险级别特征和3个字段的时间特征,神经网络模型的输入数据为每一笔申请单的43维特征向量,输出数据为1个代表等待时间的数字。神经网络模型中第一层神经层输入为43维度,又由于每层神经元数量分别为20、12、12、1,第二层神经层输入为20维度,第三层神经层输入为12维度,第四层神经层输入为12维度,整个模型通过1301(43×20+20+20×12+12+12×12+12+12×1+1)个参数的调整来对等待时间进行预测。

实施例六

本实施例在实施例五的基础上进行改进,对模型训练阶段进行优化。对神经网络进行训练就是将训练集中每笔申请单的特征信息作为模型的输入,模型输出一个预测等待时间与对应申请单的实际等待时间进行误差比较,不断调整模型的参数使得误差尽可能小。

本实施例设定每训练达到设定次数(比如3次)后,计算根据当前神经网络模型预测得到的等待时间与对应申请单的实际等待时间的误差值作为当前误差;将当前误差与设定的基准值(比如设置基准值为误差是10分钟)比较,若当前误差小于基准值,表示当前模型的误差可以接受,则将当前误差与之前训练中得到的最小的误差值(即之前训练获得的误差效果最好的值)进行比较,若当前误差更小,则说明当前模型预测更准确,保存当前神经网络模型的权重,继续训练;若当前误差不小于基准值,表示当前模型的误差太大不能被接受,直接进行下一轮训练;若当前误差不小于之前训练中得到的最小的误差值,说明当前模型的预测精度不如之前保存的最小误差值对应的模型,此时也不保存当前神经网络模型的权重,继续下一轮训练。

实际训练时,有可能只用部分样本集就能够得到最优的模型,因此本实施例还提出在多次比较中的当前误差均不小于基准值或均不小于之前训练中得到的最小的误差值时,就提前停止训练,防止过拟合。

经过试验发现,采用本实施例的方案在汽车贷款领域实现了等待时间预估的基础上,预测平均绝对误差为3.8分钟,误差在4分钟之内的准确率达到了96.2%。

实施例七

如图2所示,本实施例结合上述实施例的具体方案,提出一种自动化模型训练和部署的方法,以减少操作人员负担,避免造成数据错误。

首先在数据采集和处理阶段,利用ELT脚本从大数据平台抽取数据,实现自动数据拉取,获取申请单处理流程表、申请单等级表、申请单等级规则表和审批人等级规则表,进简单的数据加工如表连接,最终生产字段为申请单号、申请单等级、进入队列时间、处理开始时间、处理完成时间、审批人、审批人级别、加急标记等约40万条。

随后Python实现数据清洗,进行特性工程,所有申请单按进入队列时间排序,按顺序选申请单,获取该申请单对应风险等级的所有申请单中的积累数量、正在审核数量和加急数量,提取申请单进入队列时间、处理开始时间和处理完成时间的时间特征,增加申请单的风险等级和标签(标签即实际等待时间,为开始处理时间减去进入队列时间),重复上述操作直至遍历所有申请单,对每一个申请单都生成43维特征以及1个标签。

将特征信息进行编码(如时间特征进行均值编码,风险等级特征进行onehot编码)和归一化,然后将得到的包括编码参数、编码规则(如onehot编码映射)和归一化参数保存作为模型部署数据。

在模型训练阶段使用tensorflow训练模型输出模型并进行模型效果评估,将训练好的神经网络模型使用restful的方式进行模型部署,同时将预测结果保存到数据库。

在预测阶段,首先输入需要预测等待时间的申请单,记目前所选申请单为apply_2,ELT根据apply_2申请单号自动从数据库获取其申请单等级、排队列表和目前审核人员正在审核的申请单数据。

然后进行数据处理,获取需要预测等待时间的申请单对应的时间特征、风险级别特征和数量相关特征,其中数量相关特征中的累积数量为排队列表中进入队列时间早于apply_2进入队列时间的申请单数量,正在审核数量可以直接获取,加急数量为排队列表中有加急标记的申请单数量。对apply_2提取时间特征后使用均值编码,此时为读取之前保存的规则,无需重新计算;对apply_2的风险等级特征进行onehot编码,此时为读取之前保存的规则,无需重新计算。对所有数据进行归一化,此时为读取之前保存的规则,无需重新计算。最终生成apply_2对应的43维特征作为模型的输入。

最后将获得的apply_2对应的43维特征载入模型训练阶段保存的模型中,模型会自动进行预测,返还预测结果,预估需要等待的分钟数。将申请单号与预测结果保存到数据库,同时保存时间等待时间,积累一定数量后还可以重新进入训练阶段,自动更新迭代。累积的数量可以自行设定,比如设定一个季度自动更新迭代一次。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明方法的前提下,还可以做出若干改进和补充,这些改进和补充也应视为本发明的保护范围。

本文发布于:2024-09-25 16:39:05,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/85915.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议