用于对公授信客户风险预警的风险传导评估系统及方法

著录项
  • CN201910072083.8
  • 20190125
  • CN109816245A
  • 20190528
  • 北京海致星图科技有限公司
  • 黄泓
  • G06Q10/06
  • G06Q10/06 G06Q30/00

  • 北京市海淀区学院路甲5号2幢平房B-1031室
  • 北京(11)
摘要
本发明提供了一种用于对公授信客户风险预警的风险传导评估系统及方法,包括如下系统和步骤:(一)风险传导单元,(二)标签构建,(三)特征构建,(四)模型训练和运用,(五)模型训练,(六)模型运用与风险传导范围估测,(七)建模总体流程。本发明的优点在于,可以定量地评估出风险企业的影响范围,由于本发明本质上是一个有监督的机器学习过程,因此他对比以往的风险传导评估方案,有以下特点:a.可以针对历史数据进行自学习和调整,避免专家经验的主观性;b.可以基于历史数据定量地评估出风险传导的传导概率;c.本专利模型既客观,又具有一定的可解释性。
权利要求

1.用于对公授信客户风险预警的风险传导评估系统及方法,包括如下系统和步骤:

(一)风险传导单元

1、风险传导单元的构成

假设公司(或者称″客户″,下同)之间拥有各种关联关系,包括担保关系,投资关系,实际控制关系和集团从属关系等构成一个图,本发明将客户之间风险传导的过程建模为有监督的机器学习问题,建模的单元是两两的客户对,将每个风险传导客户对的起点客户和终点客户的风险先后发生的状况作为有监督机器学习模型训练和预测的标签,起点客户和终点客户本身的特征,客户之间关联关系的特征,客户所在图结构的拓扑特征以及客户所在社区的特征作为该有监督模型的输入特征;

需要注意:

(1)客户对是有向的,也就是说假设有客户A和A客户B,AB和BA是两个不同的点对;

(2)构建模型时考虑的客户对是起点首次违约的客户对;

2、按照时间切片构造特征

本发明假设风险从一个企业传导到另外一个企业时,传导本身近似认为是很短时间内发生的。因此对时间进行切片,起点客户和终点客户的特征以及相应的关联关系特征在同一个时间切片内对应,构成一个建模单元,考察起点企业和终点企业的先后违约情况;

概括地说,一个风险传导单元包括:一个起点客户(选取在时间切片t首次违约的),一个终点客户(不限定是否违约),他们直接间接的关联关系的特征以及对应的时间切片t;一个风险传导单元对应构造一个特征向量供机器学习模型学习;在实际建模中,我们一般一个月做一个时间切片,构造一个向量;

(二)标签构建

假设起点客户为A,终点客户为B。选取A端在某个时间切片t开始首次发生风险的所有点对AB;以时间区间[t,t+m]内企业B的表现作为节点对AB在时间切片t的标签;假设企业B在时间区间[t,t+m]内首次发生风险,则节点对AB在时间切片t这个建模单元为正样本,如果B在时间区间[t,t+m]内没有发生风险,则节点对AB在时间切片t这个建模单元为负样本;这里称m为观察期,建模考虑的所有时间切片t构成的区间为表现期;

(三)特征构建

1、财务特征

财务特征表征客户本身抵抗风险的能力,本发明主要从客户的定期财报中进行抽取并计算,例如资产负债率,流动负债和流动资产的比例等,举例如下:

a.总资产负债率=总负债/总资产,表征企业长期偿债能力

b.流动资产负债率=流动负债/流动资产,表征企业短期偿债能力

c.违约比例=违约金额/借贷总额

2、社区特征

本发明对每个时间切片对应的担保关系构成的图进行社区探测,对得到的每个社区计算各种特征,打到客户身上,表征这个客户所属的局部体的成对这个客户的影响;具体的特征举例:

a.社区内违约企业的个数;

b.社区平均总资产负债率:对社区内每个企业求总资产负债率,求和除以社区内企业个数;

c.社区平均流动资产负债率:对社区内每个企业求流动资产负债率,求和除以社区内企业个数;

3、节点拓扑特征

本发明考虑节点拓扑特征以表征客户节点本身在图结构中抗风险的稳定性以及传播风险的危险性;所用的拓扑特征都用客户之间的担保关系构成的图计算得出,举例如下:

a.在担保关系构成的图上,起点和终点客户是否属于同一个强连通分支:这是一个二值型的特征,表征起点客户和终点客户是否在一个担保圈中;

b.节点的权威度(Authority值)和枢纽度(Hub值):用HITS算法[3]在担保关系图中计算得到,分别表征节点构成到达重要节点的路径的枢纽的重要程度以及节点本身的重要程度;

c.节点的出度k-core值和入度k-core值,使用有向k-core算法[5]在总的关系图中计算得出,分别表征节点被风险传导波及的难易程度以及该节点在出风险的时候波及到周边企业的难易程度;

4、关联关系特征

为了表征每一个客户对之间的关联关系特征,对每个客户对的关联关系进行加工。主要加工出以下特征

a.关系的有无(二值特征)

b.关系相关的特征,例如:对于担保关系,起点客户对终点客户的正向担保总额,反向担保总额(就是终点客户对起点客户的担保总额);对于持股关系,起点客户对终点客户的正向持股比例和反向持股比例(即终点客户对起点客户的持股比例);

(四)模型训练和运用

假设表现期对应的时间切片为集合:

[t1,t2,t3,...,tn]

(五)模型训练

假设训练样本使用T1,T2,...Tn这几个时间切片对应的客户之间关联关系构成的图以及相应的客户特征构建;对于某个时间切片Ti(1<=i<=n),假设观察期为m,选取起点节点在时间切片Ti内首次违约的客户对来构建一个特征向量,对应观察该客户对的终点客户在区间[Ti,Ti+m]内的表现作为该节点对的标签(违约为1,未违约为0),训练2分类模型;在训练的过程中,同时进行;

(六)模型运用与风险传导范围估测

使用T(n+1),T(n+2)...时间切片对应的图关系以及节点特征来构造特征向量,在这些向量上运行前面训练得到的2分类器;在时间切片Ti(i>n)中每个节点对AB使用2分类器得到的分类为1的概率p就是在时间切片Ti的时候,风险从客户A传导到客户B的传导概率;注意,每对客户节点AB有一正一反两个传导概率(AB,BA),传导是有方向的;

获得传导概率之后,当某个客户X在某个时间Ti(i>n)违约时,根据下面的规则估测客户X违约这个风险事件的影响范围:时间Ti违约的客户标记为1,每个客户对XY若X违约,X到Y的传导概率大于阈值s,则Y标记为1;持续运行这个规则直到停止;所有新的被标记为1的企业就是预测会受风险传导波及的企业;

(七)建模总体流程

总结起来,总体分为两大步:模型训练和模型运用;

模型训练具体可以分为以下几步:

a.拓扑特征计算(包括HITS算法,出度入度K-Core算法,强连通分支探测等);

b.社区探测:利用担保关系的担保额做无向加权图的社区探测;

c.标签构造:2分类问题的标签,通过表现期每个时间切片的候选(就是起点客户违约)客户对的终点客户在相应观察期的表现,构造标签;

d.训练点构造:每个客户对拼接对应的拓扑特征,社区特征,财务特征,结合标签,构造出训练点,入模型训练,同时用KS检验确定二分类阈值s;模型运用大同小异,具体可以分为以下几步:

a.拓扑特征计算(包括HITS算法,出度入度K-Core算法,强连通分支探测等);

b.社区探测:利用担保关系的担保额做无向加权图的社区探测;

d.训练点构造:每个客户对(不限定起点客户必须违约)拼接对应的拓扑特征,社区特征,财务特征,构造出数据点,入模型预测,得到每个客户对双向的传导概率;

c.传导范围评估:每个客户对XY若X违约或者受波及,X到Y的传导概率大于阈值s,则Y标记为受波及。

说明书
技术领域

本发明涉及一种风险传导评估系统及方法,尤其是一种可以针对历史数据进行自学习和调整,避免专家经验的主观性,可以基于历史数据定量地评估出风险传导的传导概率,可以既客观,又具有一定的可解释性的用于对公授信客户风险预警的风险传导评估系统及方法。

目前,企业风险传导规律的建模和分析还大部分处于定性的阶段,定量分析的模型比较少,而且普遍存在关键参数的确定依靠主观经验,模型结果可解释性差以及不能针对历史数据调整的缺点。

为解决上述问题,本发明提供了一种可以针对历史数据进行自学习和调整,避免专家经验的主观性,可以基于历史数据定量地评估出风险传导的传导概率,可以既客观,又具有一定的可解释性的用于对公授信客户风险预警的风险传导评估系统及方法。

实现本发明目的的用于对公授信客户风险预警的风险传导评估系统及方法,包括如下系统和步骤:

(一)风险传导单元

1、风险传导单元的构成

假设公司(或者称″客户″,下同)之间拥有各种关联关系,包括担保关系,投资关系,实际控制关系和集团从属关系等构成一个图,本发明将客户之间风险传导的过程建模为有监督的机器学习问题,建模的单元是两两的客户对,将每个风险传导客户对的起点客户和终点客户的风险先后发生的状况作为有监督机器学习模型训练和预测的标签,起点客户和终点客户本身的特征,客户之间关联关系的特征,客户所在图结构的拓扑特征以及客户所在社区的特征作为该有监督模型的输入特征。

需要注意:

(1)客户对是有向的,也就是说假设有客户A和A客户B,AB和BA是两个不同的点对;

(2)构建模型时考虑的客户对是起点首次违约的客户对;

2、按照时间切片构造特征

本发明假设风险从一个企业传导到另外一个企业时,传导本身近似认为是很短时间内发生的。因此对时间进行切片,起点客户和终点客户的特征以及相应的关联关系特征在同一个时间切片内对应,构成一个建模单元,考察起点企业和终点企业的先后违约情况;

概括地说,一个风险传导单元包括:一个起点客户(选取在时间切片t首次违约的),一个终点客户(不限定是否违约),他们直接间接的关联关系的特征以及对应的时间切片t;一个风险传导单元对应构造一个特征向量供机器学习模型学习;在实际建模中,我们一般一个月做一个时间切片,构造一个向量;

(二)标签构建

假设起点客户为A,终点客户为B。选取A端在某个时间切片t开始首次发生风险的所有点对AB;以时间区间[t,t+m]内企业B的表现作为节点对AB在时间切片t的标签;假设企业B在时间区间[t,t+m]内首次发生风险,则节点对AB在时间切片t这个建模单元为正样本,如果B在时间区间[t,t+m]内没有发生风险,则节点对AB在时间切片t这个建模单元为负样本;这里称m为观察期,建模考虑的所有时间切片t构成的区间为表现期;

(三)特征构建

1、财务特征

财务特征表征客户本身抵抗风险的能力,本发明主要从客户的定期财报中进行抽取并计算,例如资产负债率,流动负债和流动资产的比例等,举例如下:

a.总资产负债率=总负债/总资产,表征企业长期偿债能力

b.流动资产负债率=流动负债/流动资产,表征企业短期偿债能力

c.违约比例=违约金额/借贷总额

2、社区特征

本发明对每个时间切片对应的担保关系构成的图进行社区探测,对得到的每个社区计算各种特征,打到客户身上,表征这个客户所属的局部体的成对这个客户的影响;具体的特征举例:

a.社区内违约企业的个数;

b.社区平均总资产负债率:对社区内每个企业求总资产负债率,求和除以社区内企业个数;

c.社区平均流动资产负债率:对社区内每个企业求流动资产负债率,求和除以社区内企业个数;

3、节点拓扑特征

本发明考虑节点拓扑特征以表征客户节点本身在图结构中抗风险的稳定性以及传播风险的危险性;所用的拓扑特征都用客户之间的担保关系构成的图计算得出,举例如下:

a.在担保关系构成的图上,起点和终点客户是否属于同一个强连通分支:这是一个二值型的特征,表征起点客户和终点客户是否在一个担保圈中;

b.节点的权威度(Authority值)和枢纽度(Hub值):用HITS算法[3]在担保关系图中计算得到,分别表征节点构成到达重要节点的路径的枢纽的重要程度以及节点本身的重要程度;

c.节点的出度k-core值和入度k-core值,使用有向k-core算法[5]在总的关系图中计算得出,分别表征节点被风险传导波及的难易程度以及该节点在出风险的时候波及到周边企业的难易程度;

4、关联关系特征

为了表征每一个客户对之间的关联关系特征,对每个客户对的关联关系进行加工。主要加工出以下特征

a.关系的有无(二值特征)

b.关系相关的特征,例如:对于担保关系,起点客户对终点客户的正向担保总额,反向担保总额(就是终点客户对起点客户的担保总额);对于持股关系,起点客户对终点客户的正向持股比例和反向持股比例(即终点客户对起点客户的持股比例);

(四)模型训练和运用

假设表现期对应的时间切片为集合:

[t1,t2,t3,...,tn]

(五)模型训练

假设训练样本使用T1,T2,...Tn这几个时间切片对应的客户之间关联关系构成的图以及相应的客户特征构建;对于某个时间切片Ti(1<=i<=n),假设观察期为m,选取起点节点在时间切片Ti内首次违约的客户对来构建一个特征向量,对应观察该客户对的终点客户在区间[Ti,Ti+m]内的表现作为该节点对的标签(违约为1,未违约为0),训练2分类模型;在训练的过程中,同时进行;

(六)模型运用与风险传导范围估测

使用T(n+1),T(n+2)...时间切片对应的图关系以及节点特征来构造特征向量,在这些向量上运行前面训练得到的2分类器;在时间切片Ti(i>n)中每个节点对AB使用2分类器得到的分类为1的概率p就是在时间切片Ti的时候,风险从客户A传导到客户B的传导概率;注意,每对客户节点AB有一正一反两个传导概率(AB,BA),传导是有方向的;

获得传导概率之后,当某个客户X在某个时间Ti(i>n)违约时,根据下面的规则估测客户X违约这个风险事件的影响范围:时间Ti违约的客户标记为1,每个客户对XY若X违约,X到Y的传导概率大于阈值s,则Y标记为1;持续运行这个规则直到停止;所有新的被标记为1的企业就是预测会受风险传导波及的企业;

(七)建模总体流程

总结起来,总体分为两大步:模型训练和模型运用;

模型训练具体可以分为以下几步:

a.拓扑特征计算(包括HITS算法,出度入度K-Core算法,强连通分支探测等);

b.社区探测:利用担保关系的担保额做无向加权图的社区探测;

c.标签构造:2分类问题的标签,通过表现期每个时间切片的候选(就是起点客户违约)客户对的终点客户在相应观察期的表现,构造标签;

d.训练点构造:每个客户对拼接对应的拓扑特征,社区特征,财务特征,结合标签,构造出训练点,入模型训练,同时用KS检验确定二分类阈值s;

模型运用大同小异,具体可以分为以下几步:

a.拓扑特征计算(包括HITS算法,出度入度K-Core算法,强连通分支探测等);

b.社区探测:利用担保关系的担保额做无向加权图的社区探测;

d.训练点构造:每个客户对(不限定起点客户必须违约)拼接对应的拓扑特征,社区特征,财务特征,构造出数据点,入模型预测,得到每个客户对双向的传导概率;

c.传导范围评估:每个客户对XY若X违约或者受波及,X到Y的传导概率大于阈值s,则Y标记为受波及。

本发明可以定量地评估出风险企业的影响范围,由于本发明本质上是一个有监督的机器学习过程,因此他对比以往的风险传导评估方案,有以下特点:

a.可以针对历史数据进行自学习和调整,避免专家经验的主观性;

b.可以基于历史数据定量地评估出风险传导的传导概率;

c.可以定量地回答“不同关联关系对风险传导的重要性”这个问题,这个在本发明中就是不同关联关系加工的特征的权重,这使得模型既客观,又具有一定的可解释性;

另外,本发明从图的角度对客户之间关联关系进行建模,将图的拓扑特征以及社区特性融合到机器学习的建模过程中,使得模型更加稳定,效果更好。

图1为本专利的风险传导建模单元的架构示意图

如图1所示,本发明的用于对公授信客户风险预警的风险传导评估系统及方法,包括如下系统和步骤:

(一)风险传导单元

1、风险传导单元的构成

假设公司(或者称″客户″,下同)之间拥有各种关联关系,包括担保关系,投资关系,实际控制关系和集团从属关系等构成一个图,本发明将客户之间风险传导的过程建模为有监督的机器学习问题,建模的单元是两两的客户对,将每个风险传导客户对的起点客户和终点客户的风险先后发生的状况作为有监督机器学习模型训练和预测的标签,起点客户和终点客户本身的特征,客户之间关联关系的特征,客户所在图结构的拓扑特征以及客户所在社区的特征作为该有监督模型的输入特征;具体如图1所示。

需要注意:

(1)客户对是有向的,也就是说假设有客户A和A客户B,AB和BA是两个不同的点对;

(2)构建模型时考虑的客户对是起点首次违约的客户对;

2、按照时间切片构造特征

本发明假设风险从一个企业传导到另外一个企业时,传导本身近似认为是很短时间内发生的。因此对时间进行切片,起点客户和终点客户的特征以及相应的关联关系特征在同一个时间切片内对应,构成一个建模单元,考察起点企业和终点企业的先后违约情况;

概括地说,一个风险传导单元包括:一个起点客户(选取在时间切片t首次违约的),一个终点客户(不限定是否违约),他们直接间接的关联关系的特征以及对应的时间切片t;一个风险传导单元对应构造一个特征向量供机器学习模型学习;在实际建模中,我们一般一个月做一个时间切片,构造一个向量;

(二)标签构建

假设起点客户为A,终点客户为B。选取A端在某个时间切片t开始首次发生风险的所有点对AB;以时间区间[t,t+m]内企业B的表现作为节点对AB在时间切片t的标签;假设企业B在时间区间[t,t+m]内首次发生风险,则节点对AB在时间切片t这个建模单元为正样本,如果B在时间区间[t,t+m]内没有发生风险,则节点对AB在时间切片t这个建模单元为负样本;这里称m为观察期,建模考虑的所有时间切片t构成的区间为表现期;

(三)特征构建

1、财务特征

财务特征表征客户本身抵抗风险的能力,本发明主要从客户的定期财报中进行抽取并计算,例如资产负债率,流动负债和流动资产的比例等,举例如下:

a.总资产负债率=总负债/总资产,表征企业长期偿债能力

b.流动资产负债率=流动负债/流动资产,表征企业短期偿债能力

c.违约比例=违约金额/借贷总额

2、社区特征

本发明对每个时间切片对应的担保关系构成的图进行社区探测,对得到的每个社区计算各种特征,打到客户身上,表征这个客户所属的局部体的成对这个客户的影响;具体的特征举例:

a.社区内违约企业的个数;

b.社区平均总资产负债率:对社区内每个企业求总资产负债率,求和除以社区内企业个数;

c.社区平均流动资产负债率:对社区内每个企业求流动资产负债率,求和除以社区内企业个数;

3、节点拓扑特征

本发明考虑节点拓扑特征以表征客户节点本身在图结构中抗风险的稳定性以及传播风险的危险性;所用的拓扑特征都用客户之间的担保关系构成的图计算得出,举例如下:

a.在担保关系构成的图上,起点和终点客户是否属于同一个强连通分支:这是一个二值型的特征,表征起点客户和终点客户是否在一个担保圈中;

b.节点的权威度(Authority值)和枢纽度(Hub值):用HITS算法[3]在担保关系图中计算得到,分别表征节点构成到达重要节点的路径的枢纽的重要程度以及节点本身的重要程度;

c.节点的出度k-core值和入度k-core值,使用有向k-core算法[5]在总的关系图中计算得出,分别表征节点被风险传导波及的难易程度以及该节点在出风险的时候波及到周边企业的难易程度;

4、关联关系特征

为了表征每一个客户对之间的关联关系特征,对每个客户对的关联关系进行加工。主要加工出以下特征

a.关系的有无(二值特征)

b.关系相关的特征,例如:对于担保关系,起点客户对终点客户的正向担保总额,反向担保总额(就是终点客户对起点客户的担保总额);对于持股关系,起点客户对终点客户的正向持股比例和反向持股比例(即终点客户对起点客户的持股比例);

(四)模型训练和运用

假设表现期对应的时间切片为集合:

[t1,t2,t3,...,tn]

(五)模型训练

假设训练样本使用T1,T2,...Tn这几个时间切片对应的客户之间关联关系构成的图以及相应的客户特征构建;对于某个时间切片Ti(1<=i<=n),假设观察期为m,选取起点节点在时间切片Ti内首次违约的客户对来构建一个特征向量,对应观察该客户对的终点客户在区间[Ti,Ti+m]内的表现作为该节点对的标签(违约为1,未违约为0),训练2分类模型;在训练的过程中,同时进行;

(六)模型运用与风险传导范围估测

使用T(n+1),T(n+2)...时间切片对应的图关系以及节点特征来构造特征向量,在这些向量上运行前面训练得到的2分类器;在时间切片Ti(i>n)中每个节点对AB使用2分类器得到的分类为1的概率p就是在时间切片Ti的时候,风险从客户A传导到客户B的传导概率;注意,每对客户节点AB有一正一反两个传导概率(AB,BA),传导是有方向的;

获得传导概率之后,当某个客户X在某个时间Ti(i>n)违约时,根据下面的规则估测客户X违约这个风险事件的影响范围:时间Ti违约的客户标记为1,每个客户对XY若X违约,X到Y的传导概率大于阈值s,则Y标记为1;持续运行这个规则直到停止;所有新的被标记为1的企业就是预测会受风险传导波及的企业;

(七)建模总体流程

总结起来,总体分为两大步:模型训练和模型运用;

模型训练具体可以分为以下几步:

a.拓扑特征计算(包括HITS算法,出度入度K-Core算法,强连通分支探测等);

b.社区探测:利用担保关系的担保额做无向加权图的社区探测;

c.标签构造:2分类问题的标签,通过表现期每个时间切片的候选(就是起点客户违约)客户对的终点客户在相应观察期的表现,构造标签;

d.训练点构造:每个客户对拼接对应的拓扑特征,社区特征,财务特征,结合标签,构造出训练点,入模型训练,同时用KS检验确定二分类阈值s;

模型运用大同小异,具体可以分为以下几步:

a.拓扑特征计算(包括HITS算法,出度入度K-Core算法,强连通分支探测等);

b.社区探测:利用担保关系的担保额做无向加权图的社区探测;

d.训练点构造:每个客户对(不限定起点客户必须违约)拼接对应的拓扑特征,社区特征,财务特征,构造出数据点,入模型预测,得到每个客户对双向的传导概率;

c.传导范围评估:每个客户对XY若X违约或者受波及,X到Y的传导概率大于阈值s,则Y标记为受波及。

上面所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神前提下,本领域普通工程技术人员对本发明技术方案做出的各种变形和改进,均应落入本发明的权利要求书确定的保护范围内。

本文发布于:2024-09-24 04:22:14,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/73178.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议