从事风控工作所需知识技能大全

从事风控工作所需知识技能大全
风控体系是一个庞杂的系统,不同金融机构的风控部门关注的重点不同,其组织架构差异也较大,对应所需要的技能和知识也就不同。在相同金融机构的风险架构,不同部门不同岗位的职责和所需要的技能、知识也是各不相同的。土工合成材料
主控芯片
传统金融机构,银行、证券、基金的风控,更多需要的是偏信用风险、市场风险、流动性风险、政策风险方面的知识,一般不会涉及太复杂的量化模型或者计量分析。
国家税务总局公告2017年第45号互联网风控不同于传统风控的地方主要在于,依托大数据和机器学习算法,用线上的实时风险审批和监控来代替传统的人工授信,这大大节约了成本的同时还能有效的控制风险。
下面以大数据风控为方向,分析从事风控算法工程师所需知识技能。
01
业务知识
熟悉业务知识是基本功。
了解业务才能够建立实际可用的模型,目前还不存在解决所有问题万能算法,还是回到现实从业务学习开始。
互联网金融领域有着非常丰富的业务场景,同时它和传统银行业务场景差别非常大,用户没有面签不直接见面,依赖的数据是弱数据、大数据,是数据和技术驱动的业务场景,但这并不代表你不需要去理解业务的内涵。
策反者
每一个现实场景就是一个应用题,作为算法人员需要理解题干,从场景中抽象出需要解决问题,将它翻译成算法问题,然后再使用合适的算法。
很多时候对业务问题的理解和抽象,相当于在设定模型开发的大纲。比如在白条场景中,我们想要预测授信用户的信用风险,我们首先就需要考虑以下问题:
我们要观察多久的订单?逾期多少天才算坏用户?逾期定义中是否需要考虑金额限制?好用户怎么定义?需不需要考虑样本不均衡的问题?为了保证模型的稳定性如何进行窗口验证比较科学?针对业务的一些变动,比如订单制和账单制的调整,我们如何去修正模型的目标变量?
总之基本的信贷概念和业务模式是必须去了解的,有助于你设计开发大纲。
除了大纲,风控模型的开发也需要知道业务细节。这在Y变量定义,X变量加工,模型评估都会涉及。
桃花心木教学设计以Y变量定义为例,一般金融行业会把样本分为四部分:G(好用户);B(坏用户);I(不确定用户);E(剔除用户)。
实操中对这四个体通常会有不同定义的微调。有的时候是从算法角度考虑,但更多时候是从业务需求角度考虑。预测用户未来的白条消费金额,止付用户就会被划入E类用户;预测欺诈用户,因为样本很少,信用风险用户也被划入了B类坏用户。X变量除了根据业务知识挑选数据源外,更多时候业务知识指导特征构造。
这里我插一句,不要轻视特征工程,特征工程仍然是非常重要的内功,不是搞一个深度学习框架就可以解决一切。
金融行业的业务复杂通常和时间挂钩,必须掌握业务概念的细节。对于白条业务,就有下单,到账,应还款,实际还款,最低还款,逾期,退款等一系列细节概念,它们都是在一
个时间轴上的,特征加工很讲究这些细节。只有清楚这些概念,而且知道这些行为如何产生和被记录,才能够构造相关的有效特征。好的特征不但可以提高模型效果,也便于从业务上把握模型的跨时间有效性。
业务场景很多时候还决定了你模型效果评估的方式,因为业务很灵活,可以做到有取有舍。有些场景需要模型是为了在误杀尽可能少的情况下抓住更多的坏人;有些场景需要模型需要有更好的排序能力但并不注重绝对值预测;有些场景需要模型需要有很准确的数值预测。
了解场景,挑选合适的评估方式,才能够构造出合适的模型,当然争辩是免不了的。
02
算法理论
首先,算法很多,没有人能够面面俱到,重在基本功。
对于转行的同学,推荐两本入门的基础读物:周志华“西瓜书”和李航的“蓝皮书。
作为算法工程师,对算法本身在公式的层面并不一定像考试那样需要死记硬背。
比如工作中不会有人问你LBFGS算法对于海森矩阵是怎么估计的的(即便在面试中背出来都未必是加分项)。但是,LR的基本公式,SVM的基本原理还是需要去熟练掌握。
对各个算法的优缺点、适用范围以及可能失效的场景需要了熟于胸,某种程度上算法掌握深度和灵活度跟场景以及场景下数据很有关系。
企业工作时风控算法工程师的典型工作是在面对场景需求进行建模,理论深度是有一定必要的。因为实际工作没有时间让你研究理论,但是需要你掌握理论。
算法工程师搭建算法模型的时候,往往没有充分的时间去扫参调优,于是这会导致与在学校的时候建模发paper是完全不同的工作模式。
• 需要考虑的可能更应该是算法的鲁棒性,即算法模型在数据和计算环境一定幅度的波动下,仍然能够保持稳定的工作。
不然的话,支持线上工作的算法模型一旦崩溃,轻则是大半夜不定的报警短信把你招到公
司改bug,重则是造成重大财产损失——想想某业务本来大体只会授信一半的用户,结果被奔溃的模型完全放行了……这将会是什么画风?
• 因为没有太多的时间扫参数空间,所以最好对于各个常用模型的“性能”以及主要工作的参数空间有一个清晰的概念。
这意味着,你不能像以前在学校一样,对于每个模型都用效果最佳的参数,而需要“常见”的参数,去实现基本的业务功能,日后业务方有需要再去优化。工程上,过度的算法“洁癖”和“强迫症”都会耽误很多事情。
特征工程还得再强调一遍,虽然它看上去不像理论那么高大上,但其实很多时候模型效果还就得靠那么一点特征工程作为作料。在算法里面我们更强调特征工程的一些处理手法和技巧,比如点击流数据的处理方法,怎么设置窗口,一些缺值数据的处理技巧,噪声数据的去除等,都能提升模型的效果。
而且这其实有其近乎“艺术”的一面,正所谓“戏法人人会变,各有其奥妙不同”。
评价指标要选好,评价指标的坑很多,并不是说当你建好了模型之后,算一算precision、
AUC、KS、F-measure就好了。
要对这些指标的原理,特别是局限性了然于心。
再强调一遍,特别是他们的局限性!
甚至有时候你可能需要自己组合设计一些指标,来更好适应你的问题。
关于深度学习框架,目前各大厂小厂都在积极尝试,但是尚且没有全面推开在金融领域,我们在某些环节使用这些技术,同时也在向业务方普及这些技术。
深度学习作为趋势,日后广泛应用是一定的,所以我们坚定看好它。
lsd检验传统概率论和数理统计方面的知识也不能丢。
即便我们不去参与贝叶斯派和频率派的撕逼,古典概型在考虑问题的时候也很有用。另外还有诸如随机变量及其分布、随机过程、大数定理、中心极限定理等等。毕竟,金融产品的普遍是建立在人们对“未来”的预期上的,而这一过程则需要基于概统来理解。

本文发布于:2024-09-21 22:33:21,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/284301.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:模型   需要   算法   业务   用户   场景   数据   时候
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议