基于银行用户行为数据的产品投资预测

2018年7月基于银行用户行为数据产品投资预测赵梓琛(西安市高新第一中学南校区)
【摘要】为了实现更加精准的客户定位和产品定位,用于辅助支持西班牙国际银行通过个性化的产品推荐向更多客户提供金融服务,本文提出了根据已有的银行客户行为数据来预测未知客户下个月可能会新增加购买的金融产品。我们的研究成果未来可用于分析产品潜在客户,针对特定体精准推荐投资产品。
【关键词】产品投资预测;银行用户行为;推荐系统
【中图分类号】F832.2【文献标识码】A【文章编号】1006-4222(2018)07-0262-03
1引言
西班牙国际银行有限公司为广大客户提供了各种金融服
务。为了支持一系列财务决策需求,银行通过个性化的产品推荐向客户提供借贷手段。但比较遗憾的是,就目前的推荐系统,只有少部分客户可以在每个月收到各种金融产品的推荐信息,大部分客户都无法享受这样的待遇,导致客户体验不均衡的情况。为了更加平等地对待各个客户,西班牙国际银行打算构建一个新的产品推荐系统。因此,希望可以了解到不同客户的真实需求。
在本课题中,西班牙国际银行希望可以根据已有客户过去的行为,预测类似未知客户下个月可能会新增加购买的金融产品,依此精准推荐,为更多客户提供个性化服务。
2关键技术分析
机器学习可以通过利用数据,训练出模型,再使用模型预测,这适用于本课题的基于银行用户行为的产品投资预测问题,所以选用机器学习相关技术解决。主要涉及的关键技术是机器学习中的推荐系统和XGBoost提升树算法。
2.1推荐系统
推荐算法是目前业界非常火的一种算法,在电商界,如亚马逊,天猫,京东等得到了广泛的运用。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
本课题中,我们采用基于信息内容和用户行为数据的混合推荐方式。在用户行为丰富的情况下,采用这样的效果较好。[1~2] 2.2XGBoost提升树算法
XGBoost提升树是机器学习中决策树算法的进阶算法, XGBoost用于解决监督学习的问题,xgboost是提升树模型,也属于集成学习模型,把多个分类准确率较低的CART决策树模型组合集成起来,通过不
断迭代,每次迭代生成一棵新的树,从而得到一个很强的分类器。其准确性和速度让它成为机
器学习的一个出工具。[3~5]硅胶模具制作方法
3数据探索及预处理
在开始实验之前,需要进行必要的数据探索和数据预处理工作,以帮助我们更深入的认识数据和业务需求。3.1数据探索
本课题的实验数据中训练集包括近100万条从2015-01-28到2016-05-28,以月度为单位的客户数据,包含客户各
种基本属性,与当月使用的产品数据。用户数据包括24个属性,包括用户的年龄和收入等个人信息。产品数据包含所有24种产品的布尔数值,表示用户是否在相应月份拥有该产品。实验目标是根据西班牙国际银行提供的客户前17个月的产品购买记彔以及用户属性来预测2016年6月每个用户最可能购买(7个)的商品。如果某产品在2016年6月拥有但2016年5月没有,则该产品被视为新产品。
如图1所示,训练集中的绝大多数用户在2015年1月已拥有第一个该银行产品,相对较多的用户在2015年7月拥有第一个该银行产品,我们推测这可能与西班牙的税制有关。
图2展示了训练集中排名前9种产品的新产品数量与时间的变化。通过数据可视化分析,产品的受欢迎程度随着时间的推移而浮动,但每年的季节性因素也会影响新产品的数量。2015年6月(图2中的左虚线)包含了与其他月份相比完全不同的新产品分布(特别是支票账户产品cco_fin和税务产品reca_fin),可能是因为6月标志着西班牙纳税年度的结束。在我们后续的分析中得知,2015年6月的产品信息是2016年6月新产品的最佳指标。
3.2数据预处理
三自由度
使用Python编程语言进行数据预处理工作。首先读取数据,所有属性值都是数值类型。其中家庭收入属性renta存在大量缺失值,所以无法计算中位数等基本统计指标。我们将在后续对脏数据与不一致数据进行数据清理,数据变换等工作。首先处理客户基本信息的相关属性。
将时间、月份等数据统一转换为标准格式,方便以后对比统计。
对数据集中每个属性的缺失值情况统计观察,客户基本情况大部分都存在缺失值,24项产品数据中只有2项存在缺失值。通过绘制用户年龄的分布直方图,如图3所示,可以看出用户年龄明显双峰分布,大部分用户年龄集中在20~30岁,次峰在40~50岁。对于离点(小于18岁或大于100岁
的用图1测试用户在训练数据中的首次出现时
图2排名前9的金融产品与时间关系图
论述262
2018年7月
Product/Lag 3
4
5Jun156
7
8
9
10
1112
13
14
15
16May16Cco_fin
0.30.3130.30.30.30.3
0.3
9
0.3
0.3
0.3
0.3
0.3Ctma_fin 000
000  1.8
1.9
2.0  2.1  2.2  2.3
2.4
2.5
Ecue_fin    1.20  1.4  1.5  1.6  1.7  1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
Reca_fin    1.2  1.3
52
1.5
1.6
1.7
1.8
1.9
2.0
长春密刺
2.1  2.2  2.3  2.4
2.5Recibo 0  1.3
13  1.5
1.6
1.7  1.8  1.9
2.0  2.1  2.2  2.3  2.4  2.5Other    1.2
1.313
1.5
1.6
1.7
图像拼接器
1.8
1.9
2.0
2.1
2.2  2.3
2.4
2.5
表1不同产品的不同lag 模型的权重设置
户),进行相应的替换处理。年龄小于18岁的用户采用18~30岁的用户年龄平均数代替;大于100岁的用户采用30~100岁的用户年龄平均数代替。修改后的年龄分布更正常,如图4所示。
ind_nuevo 属性表示是否为新客户(6个月内有购买新产品),统计有450个缺失值。且这450条数据中最长活跃时间为6个月,说明这450个全部为新客户,故将缺失值补充为1。
antiguedad 为客户注册时长属性,统计发现有450条缺失值,判断出这个450条数据跟原ind_nuevo 的450条缺失值为相同数据,故给客户时长的缺失值替换为最小值,且客户时长小于0的错误数据全部设置为0。
统计发现特征indrel 大部分都为1,就将少量缺失值填为1。由于区域代码和省代码与省的名称表示的含义重复,数据冗余,故做删除处理。
ind_actividad_cliente 属性表示为“是否活跃用户”,统计缺失项有450个,由于此项属性与投资行为有影响,所以保留这一项,将空缺填充为“\”。
观察区域名称的列表,对于名称的乱码依次处理,并将缺失值填成UNKNOWN 。
对于家庭收入renta 的缺失情况,根据图5可知,不同区域的收入水平存在差异,因而我们根据区域划分,将收入属性的缺失值填充为同一省份的收入中位数,这样处理更符合实际情况。
关于产品信息相关属性,我们将产品信息的缺失值替换为0,做未购买假设处理。另外将产品描述、雇员信息等属性做错误格式转换,填充缺失值等处理。
数据预处理后,得到规范化数据,与原始数据相比有了较大改善。
4预测模型设计
针对预处理后的数据,设计基于银行用户行为数据的产品投资预测模型。解决思路是针对所有24种产品的一个月的数据进行训练,建立基本模型。每个基本模型都包含新产品投
资概率的XGBoost 模型,依次令前一个月缺少产品信息,使用所有可用的历史信息训练基础模型,通过计算2015年2月到2016年5月之间所有月份的单独特征文件来实现。即2015年2月培训的模型仅使用1个滞后月,而2016年5月培训的模型使用16个滞后月。
以cco_fin 的lag5(考虑滞后月为5)模型为例进行说明,使用2015年6月及6月之前的历史数据进行模型训练,训练自变量数据为2015年1~6月的客户属性数据,2015年1~5月的产品购买数据;训练目标变量数据为2015年6月客户购买产品cco_fin 的概率。在多次迭代中添加特征。大多数有价值的特征都存在
于先前拥有的产品的滞后信息中。则在lag5的条件设置下,根据已训练模型与2016年1~6月数据进行预测,输入为2016年1~6月的客户属性数据和2016年1~5月的产品购买数据;输出为2016年6月客户购买产品cco_fin 的概率。
使用基础模型预测的线性组合来组合测试数据的基础模型预测。在为所有测试用户生成最有可能的2016年6月新产品的排名列表之前,将若干后处理步骤应用于加权产品预测。5实验及实验结果分析
实验目标是根据西班牙国际银行提供的客户前17个月的产品购买记彔以及用户属性来预测2016年6月每个用户最可能购买(7个)的商品。实验评价指标采用MAP@7标准计算。总分为所有用户的分数的平均值,如果没有购买新产品,则MAP 分数始终为零。
其中,|U|为测试集中所有的行数,P (k )=前k 中预测中正确预测的产品数/k ;n 为预测的推荐产品数目;m 是在当前月份客户新购买的产品数目,若m=0,则P=0。
MAP@7=1U U
u =1∑1min m ,7()min n ,7()
k =1
∑P k ()根据上一章的预测模型设计,采用R 语言编程,共生产24(产品)*16(lag )个二元XGBoost 模型。训练完单个模型后,需要将其进行模型组合———
将lag1-16的模型结果进行加权平
均,最终结果为该产品
的购买概率。当为24项金融产品分配相同权重时,试验结果不佳。考虑到不同的金融产品在模型中表现不一,模型权重的设置也应该不一样。基于不同模型之间的相关性分析,表1显示了所有产品在不同lag 模型下的相对滞后权重设置。
另外,ctma_fin 的权重在2015年10月之前设置为0,因
图4数据清洗后用户年龄分布
图3数据清洗前用户年龄分布
图5不同地区的平均收入水平
论述263
2018年7月
为在这个时间节点前后遵循的购买规律并不一样,我们并不关心2015年10月之前的具体规律,因为不需要预测在此之前的概率数据。所以直接设置为0表示丢弃。lag1和lag2的权重为0,该模型下数据贡献不大,所以没有显示。
与其他月份相比,cco_fin在2015年6月和12月表现不同,推测原因可能是因为这些月份代表着西班牙税收年度结束。
将基本模型整合为一个总模型后,最终MAP得分为0.03136,性能较优。
6总结
这篇论文主要介绍了运用西班牙国际银行提供的客户前17个月(2015-01-28到2016-05-28)的产品购买记彔和用户
基本信息来预测2016年6月每个用户可能会购买投资的新金融产品。此工作成果可以辅助支持该银行的精准推荐营销等领域,具有现实的工业应用价值。
参考文献
[1]项亮.推荐系统实践[M].人民邮电出版社,2012.
[2]王国霞,刘贺平.个性化推荐系统综述[J].计算机工程与应用,2012,48 (7):66~76.
[3]张昊,纪宏超,张红宇.XGBoost算法在电子商务商品推荐中的应用[J].物联网技术,2017,7(2):102~104.
[4]谢冬青,周成骥.基于Bagging策略的XGBoost算法在商品购买预测
中的应用[J].现代信息科技,2017(6):80~82.
[5]叶倩怡,饶泓,姬名书.基于Xgboost的商业销售预测[J].南昌大学学报(理科版),2017(3):275~281.
收稿日期:2018-6-10
浅谈个人信息的安全防护
张建军,王锋(山东省东营市公安局交通警察支队,东营257091)
【摘要】本文探讨了个人信息安全防护的重要性、防护方法,目的是提高个人信息安全防护意识、加强个人信息防护。【关键词】个人信息;安全防护
【中图分类号】TP309【文献标识码】A【文章编号】1006-4222(2018)07-0264-03
1引言
计算机、信息网络技术的飞速发展,方便了人们工作、生活,同时个人信息的安全防护也面临着严峻挑战,网络黑客无处不在,个人信息一不小心就会被恶意攻击、盗取进而非法利用,必须增强个人信息安全意识,防护个人信息。本文重点从账号信息、电脑系统、手机系统三个方面对个人信息的安全防护方法进行了探讨。
2账号信息安全防护
2.1账号信息的重要性
2.1.1账号管理不当造成的威胁
在当今很多地方使用账号和口令作为鉴权的世界,上网、取钱、办公等等都需要账号和口令,个人账号信息的重要性就可想而知了。个人账号信息相当于进入家门的钥匙,当别人有一把可以进入你家的钥匙,隐私安全、财物安全、人身安全都将无法保证。
(1)隐私安全
个人隐私泄露:包括姓名、年龄、住址、手机号码、私人照片、出行和住宿记录等。
对公司而言,公司内部资料(包括客户信息、商务信息等)的泄露可能会造成重大损失。
(2)财物安全
银行账号、支付宝、支付等信息泄露,导致财产损失。
(3)人身安全
犯罪分子利用个人信息进行犯罪活动,危害人身安全。2.1.2账号信息是薄弱的安全环节
由于人们对账号信息没有安全意识或意识不强,攻击账号信息是那么的轻而易举,成为最薄弱的安全环节。2.2账号信息安全防护方法氧气过滤器
2.2.1使用高强度口令
(1)什么是弱口令
并非只有类似123456、888888的口令才是弱口令,以下这些情形的口令都属于弱口令:
①单一的字符类型,例如只用小写字母,或只用数字;
②字典中包含的单词,或者只在单词后加简单的后缀;
③与个人信息相关的弱口令:自己、家人、朋友、亲戚、宠
物的名字,生日、结婚纪念日、电话号码等个人信息;
④工作中用到的专业术语,职业特征;
⑤用户名与口令相同;
⑥所有系统都使用相同的口令;
⑦口令一直不变。
(2)口令的设定原则
①口令至少应该由8个字符组成;
②口令应该是大小写字母、数字、特殊字符的混合体;
③不要使用名字、生日等个人信息和字典单词。
蜂窝煤采暖炉(3)选择易记强口令的几个窍门
①口令短语
到一个生僻但易记的短语或句子(可以摘自歌曲、书本或电影),然后创建它的缩写形式,其中包括大写字母和标点符号等。
②字符替换
用数字或符号来替换选定的字母,提高口令的复杂度。③单词误拼
将单词拼写错误,提高口令的安全性。
2.2.2不同的账号使用不同的口令并定期更改
很多人总喜欢使用相同的口令,不管是银行卡、微博等等,这样的话,一旦一个口令被人破解,其余的账号也将会面临着威胁。所以,自己可以想出一组口令,适用不同的账号。
2.2.3不要把账号口令写在纸上或电脑文件里
论述264

本文发布于:2024-09-22 16:44:05,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/182349.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:产品   数据   客户   用户
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议