一种企业关联风险判断方法与系统与流程

1.本发明涉及大数据、人工智能技术领域，具体为一种企业关联风险判断方法与系统。

背景技术：

2.数据产业的发展在很多方面改变了人们的生活，随着企业商事制度的改革，政府信息公开力度加大，金融机构对于数据的需求越来越高；
3.当前市场上主流公司数据收集整理企业工商信息并关联企业法律诉讼、知识产权、经营状况和对外投资等信息，提供多种查询方式，方便用户对企业进行多方位了解，节省用户收集信息的时间。随着市场对这种查询方式的接受和用户习惯的培养，市场企业主有意识的对投资关系进行隐藏，单一展现企业相关信息的方式不能满足金融机构对企业以及企业中相关人员之间的关系挖掘。而数据安全法律等法律法规的完善，公开的工商数据没有自然人的身份唯一标识信息，造成市场上的主流平台对挖掘企业关联关系存存无法量化，企业关系信息关系不准确等问题，造成金融机构在对具体一家企业或者法人进行贷款风险评估时，无法尽可能的挖掘其中的关联风险。
4.企业知识图谱的构建，是需要不断对企业，企业中的法定代表人，股东，主要人员，员工等自然人进行提取作为实体，更新知识图谱中的关联关系。当这张网络逐步丰富，可以将知识图谱中的知识进行推理，结合企业相关的其它维度数据，应用在不同的商业场景中。本节主要分析企业知识图谱使用到的几个场景和关键性技术问题：
5.(1)企业关联族谱：
6.在现实生活中，符合条件的企业或者自然人都可以投资成为企业的股东，而企业本身也可以直接参与对外投资，入股一家新的企业或者成立分公司。如同人类的自然繁殖，有父辈和子辈，组合成一个大的家族。企业也有类似这样的家族聚合，将一个企业的股东关系，对外投资关系抽丝剥茧的层层展示出来，构成了当前企业的族谱。
7.分析一家企业的族谱，能直观了解当前企业的股东关系、资金来源以及行业布局。2017年，中国人民银行下发了《中国人民银行关于加强反客户身份识别有关工作的通知》(银发[2017]235)，通知对“实际控制客户的自然人和交易的实际受益人”做了定义，但没有对具体识别措施做出很明确的定义，仅让金融机构根据实际用户情况，采取询问客户、要求客户提供证明材料、委托有关机构进行调查等手段，以对客户开展尽职调查。这些手段看似有效，但实际操作起来周期长，花费人工大，而且如果股东关系多的情况，非常容易遗漏重要线索。通过构建好的企业关联族谱，系统会很容易搜索出当前公司的相关干系人。
[0008]
(2)企业疑似控制人：
[0009]
企业在参与社会中的经营活动，会有商务资金往来。如何对企业的信用和实力进行估价，单纯看企业自身情况是很片面，不完整的。完整推导出企业的股份持股结构，提前规避风险。企业的风险具有传导性，对企业关联风险进行评估，除查看当前企业自身经营状态，同时也需要考察当前企业直接对外投资的企业、当前企业法定代表人和主要人员的关
联企业，法定代表人和高管人员等工作背景以及信用情况进行综合评估和考察，而这些衡量标准是需要通过持股比例量化出来。其中获得的关联信息，普通用户很难通过表面信息获取，有些是企业刻意隐藏，正是不愿让其它调查人员发现的风险点。
[0010]
将股东的持股比例放进企业与股东的关系链上，计算出当前企业所有的自然人股东或者法人股东的持股比例，辅助识别企业最终的实际受益人，判断出一家企业是否归属于同一个资本系。对企业疑似控制人的评估还涉及到对风险的量化，先将企业图谱中节点的重要度进行量化，考虑不同风险的等级，外加企业自身因素如企业规模、行业、地域、运营水平、历史信用等设置不同权重最后得到一个加权值。关联层级对目标企业的影响也是不一样，第一级关联的影响最大，第二级减少，其它层级依次类推影响越来越弱。
[0011]
(3)企业投资关系路径：
[0012]
在知识图谱中，对于路径的挖掘是一个经典的应用场景，在图计算时，经常会查两个或两个以上节点是否存在相互关联的路径，或者寻其中最短投资路径。挖掘投资关系路径，多用在投融资和证券监管行业，查看多家企业是否是当前法人的关联方，且与当前法人是否存在过原材料供应采购往来、商品销售往来、资产购买出售、资金往来、关联债权债务往来的实体，以此判断是否存在关联交易，鉴于此，提出一种企业关联风险判断方法与系统。

技术实现要素：

[0013]
本发明的目的在于提供一种企业关联风险判断方法与系统，在企业的对外关系中存在企业与企业之间的关系、企业与自然人投资者之间的关系、企业董监高之间的关系，通过这种关系构建图谱，利用相应的权重分析、关联路径远近分析，对企业的关联风险进行量化分析的方法与系统，以解决上述背景技术中提出的金融机构在对具体一家企业或者法人进行贷款风险评估时，无法尽可能的挖掘其中的关联风险的问题。
[0014]
为实现上述目的，本发明提供如下技术方案：一种企业关联风险判断方法，公司的组织人员构架由法定代表人、股东和主要人员组成；
[0015]
其中，a公司的组织结构组成是法定代表人为c；
[0016]
a公司的股东是c，d，e，其中，e是企业作为法人股东；
[0017]
a公司的主要人员有：c，f；
[0018]
b公司的组织人员构架组成是法定代表人为h；
[0019]
b公司的股东是：c，d，h；b公司的主要人员有：f，h；
[0020]
包括以下步骤；
[0021]
步骤一、计算a，b公司是否有疑似关联；
[0022]
a1，将公司a的所有直接相邻节点去掉重复名称后得到数组a{c,d,e,f}；
[0023]
a2，将公司b的所有直接相邻节点去掉重复名称后得到数组b{c,d,f,h}；
[0024]
a3，循环数组b中的元素，将b中的元素添加进a中，如果检测到b中的元素在a中存在，则返回为true，并将当前元素添加进临时数组temp中；
[0025]
a4，统计temp数组中元素数量，定义当前数量为相似度的数值；
[0026]
a5，预先设定一个相似度阈值，大于或等于设定的阈值表示两家公司有疑似关联，否则没有关联；
[0027]
步骤二、基于pagerank的企业关联风险分析；
[0028]
s1，如果一个企业被很多其他企业链接到的，说明这个企业比较重要，也就是pagerank值会相对较高；
[0029]
s2，如果一个pagerank值很高的企业链接到一个其他的企业，被链接到的企业的pagerank值会相应地因此而提高；
[0030]
其中企业的重要度，将其也定义成pr值，计算公式如下：
[0031][0032]
当前公式中mpi是所有对pi企业有出链的企业集合，而l(pj)是企业pj的出链数目，n是企业总数，α取0.85。
[0033]
优选的，s2中，根据公式和pagerank算法的本义，一家公司的重要度pr值为所有链向它的公司重要度经过迭代计算后的结果，针对目标公司的企业关联风险将由4个指标衡量，包括：
[0034]
通过pagerank计算出来的每家企业的pr值；
[0035]
受到直接影响的企业与目标评估企业相互关联层级数，第一层影响大于第二层，第二层影响大于第三层，依次递减；
[0036]
受到直接影响的企业与目标评估企业之间的持股比例，对目标企业持股比例越大，对目标企业影响就越大；
[0037]
对出来的影响事件进行风险评估分级，根据人员种类分析
[0038]
优选的，人员种类包括：法定代表人、股东、主要人员、或者普通员工对公司影响进行分级，法定代表人的影响大，股东其次，最后是普通员工；针对影响事件进行分级，行政处罚、经营异常、失信事件、被执行人事件、法院公告等事件划分不同影响等级；针对正负新闻舆情进行影响等级分类。
[0039]
优选的，经过这4个指标的综合衡量得到的风险影响因素，将对风险划分为五个等级，其中1为无风险，2表示有低风险，往上越大的数字表示风险依次递增，5为最严重风险，将这些风险定性分析后并最终显示给用户，为用户提供风险预警提示。
[0040]
一种企业关联风险判断系统，包括数据采集、数据处理系统和数据服务；
[0041]
所述数据采集包括采集政府公开数据、外部数据、新闻舆情和企业招聘；
[0042]
所述数据处理系统包括数据库和计算中心，将内部数据引入计算中心，且计算中心包括数据聚合、数据去重、风险模型、预警监控；
[0043]
所述数据服务包括移动应用查询、桌面版查询、专业版后台、大屏展示、接口服务。
[0044]
本发明提出的一种企业关联风险判断方法与系统，有益效果在于：
[0045]
1、关联风险量化问题：解决金融机构对于贷款目标企业相关联的风险进行具体量化；
[0046]
2.增加关联的准确性：对目标企业的关联关系基于多维指标的挖掘，尽可能挖掘关联风险；
[0047]
综上所述，本发明提升了企业关联关系分析的准确度，在市场公开数据没有自然人唯一标识的情况下，可以将企业的关系关联提升15％,对于一些隐藏的关系尽可能的发
现，对于风险的影响进行量化，方便金融机构对于授信金额等进行量化计算。
附图说明
[0048]
图1为本发明的a、b两家公司的直接人员关联节点图；
[0049]
图2为本发明的企业a关联族谱数据结构图；
[0050]
图3为本发明的关联风险分析图；
[0051]
图4为本发明的系统框图。
具体实施方式
[0052]
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0053]
请参阅图1-4，本发明提供一种技术方案：一种企业关联风险判断方法；
[0054]
通过企业关联族谱分析，需要将当前被调查的企业所有的股东节点往上依次遍历展开，搜索到最终的自然人股东，或者搜索到不能再展开的事业单位或机构为至，同时往下展开，将当前企业的对外投资企业展开，直至不可再细分的节点，如图2所示企业a的关联族谱的数据结构，企业a对外投资了企业g，而企业a的自然人股东有b,i和企业股东c，而企业c的股东有自然人股东e以及企业股东d，企业股东d有两位自然人股东e,f；
[0055]
构建了企业知识图谱，搜索企业对外投资和股东关系将会非常容易，如图2所示，根据图数据库自带的深度优先搜索可以满足节点的遍历，企业a的遍历结果分为两个方面，其中投资企业a的股东节点遍历结果为：a,b,c,d,f,e,i；而企业a对外投资节点的遍历结果为：a,g；
[0056]
搜索上下投资关联族谱是企业信息查询中的基础应用，但在构建企业族谱时，通过公开的工商数据生成企业的关于族谱数据结构，以企业名义的对外投资是可以根据公司名来做唯一标识，因为公司在取名时，需要经过工商局严格的验名环节，在同一个地区，即使读音相近也有可能被拒，从而避免因名称混淆问题后续带来经营上侵权问题，而一家企业的企业股东在工商中是全名登记的，理论上构建知识图谱也不会带来企业实体重名的问题；但对于越来越多的企业聚合在一起构建企业图谱，实体中的自然人，如法定代表人、股东、主要人员、历史法定代表人、股东、主要人员都没有唯一标识符，很难完全做到去重处理，本方案采用一种多特征维度识别去重算法，将尽可能识别去掉重复人名情况，将图谱中的节点进行合并，并构建企业间的疑似关联关系，疑似关联是指不能通过工商照面信息直接推断的关联关系，是通过其它参照物或特征隐式推断的关系，具体包括以下步骤：
[0057]
由于，公司的组织人员构架由法定代表人、股东和主要人员组成；
[0058]
其中，a公司的组织结构组成是法定代表人为c；
[0059]
a公司的股东是c，d，e，其中，e是企业作为法人股东；
[0060]
a公司的主要人员有：c，f；
[0061]
b公司的组织人员构架组成是法定代表人为h；
[0062]
b公司的股东是：c，d，h；b公司的主要人员有：f，h；
[0063]
其特征在于，包括以下步骤；
[0064]
步骤一、计算a，b公司是否有疑似关联；
[0065]
a1，将公司a的所有直接相邻节点去掉重复名称后得到数组a{c,d,e,f}；
[0066]
a2，将公司b的所有直接相邻节点去掉重复名称后得到数组b{c,d,f,h}；
[0067]
a3，循环数组b中的元素，将b中的元素添加进a中，如果检测到b中的元素在a中存在，则返回为true，并将当前元素添加进临时数组temp中；
[0068]
a4，统计temp数组中元素数量，定义当前数量为相似度的数值；
[0069]
a5，预先设定一个相似度阈值，大于或等于设定的阈值表示两家公司有疑似关联，否则没有关联；
[0070]
实施例，上述，数组最后得到的结果是temp{c,d,f}，相似度为3，将相似度阈值定义为3，意即相似度大于等于3的两家公司可以将相同结点进行合并，并在合并的节点属性中做好疑似关联的备注，同时可以在节点企业a和节点企业b中建立一条疑似关联关系；
[0071]
这个算法主要解决因企业信用信息公示平台对外发布的法定代表人、自然人股东和主要人员，没有类似身份证号码作为唯一标识信息，如果单以这些人员的名字去寻其对外的关联关系，重名的可能性非常高，以主要人员为例，截止2017的12月31日数据库中查询到的主要人员的记录数有10622.4万条记录，而直接在关系型数据库中通过distinct方法对名字字段去重，得到的结果只有1657.7万条记录，记录数只有原先的15.6％，可见重名的比率的确非常高，最开始在系统上通过单个自然人姓名去搜索对应的个人对外投资公司例表，即使配合地域范围的过滤，准确度也很差；但如果配合多个人名一起匹配，最后得到的结果范围会大大缩小，疑似关联的准确度大大提升；对于疑似关联关系，除了当前提出的根据公司中的法定代表人、股东、主要人员、历史法定代表人、历史股东、历史主要人员多特征维度识别去重算法，还可以从其它维度的数据，如根据被执行人数据，裁判文书部分的脱敏后人名身份信息进行交叉匹配，提升疑似关联关系的准确度；而在分析公司的对外投资关系，或者以公司作为股东的投资关系，因为公司名是可以视为唯一标识符，其搜索出来的关联关系是明确并且有意义的，不归为疑似关联关系范围；
[0072]
企业关联族谱关系当前主要挖掘企业外投资关系、股东关系、主要人员关系、历史人员间的关系、疑似关联关系；随着其它维度数据的提取，跟企业相关其它信息，如裁判文书关系，失信执行人关系，失信关系，法院公告关系，商标关系，专利关系以及新闻关系等都可以以类似方式融入到知识图谱中了；
[0073]
企业的工商基本信息、法律诉讼、经营状态、企业年报、知识产权和新闻舆情等信息，不管是最新的信息，还是过去历史的数据，对全面了解一家企业会有一个完整的认识。但企业也是人活动经营的产物，观察企业的状况也离不开监控企业中相关人员的变化情况，企业是有一个完整生命周期的实体，从创建、成长、成熟到最终被注销或吊销而消亡，其对应的数据也随着这个生命周期而不断发生变化，及时更新企业的数据，分析企业跟企业之间的关系，企业跟人之间的关系，企业之间的人跟人关系显得尤为重要。知识图谱的动态数据模式能很好支持这种变化，为后续的持续更新带来便利性，而使用传统数据库将面临数据库结构“变更灾难”，一个字段的变更是需要花费大量大力物力重新对数据进行修正，而知识图谱能随时允许添加修改节点和关系；
[0074]
通过对持股结构的分析，构建股权结构比例图，可以将企业中法人股东，以及自然
人股东对于公司的影响进行量化，在金融贷款，投融资过程中，用户非常关心被调查企业相关事件的出现，特别是负面信息，这个变化是否影响到当前目标企业的还款意愿，是否对企业的营收造成负面影响，是需要负责调查的人员认真评估的。这个影响是否能量化以便激活对应的应对措施，建立适当的风控模型。将企业风险在知识图谱中进行衡量，可以充分利用知识图谱边关系的传导性。分析企业关联风险量化指标可以对企业关联风险进行排查。该算法不仅考察目标企业直接面对的风险，同时会对其关联企业、法定代表人和主要人员相关的企业和关联人员进行风险识别，模拟人工对企业关联风险的评估。
[0075]
如图3所示，企业a关联风险分析案例，企业a准备向银行申请贷款，张三是企业a的法人及高管，张三在企业b中任大股东，而企业b出现“拖欠供应商贷款”的恶意事件，而张三的合伙股东李四在企业c中担任法人，而企业c又面临“行政处罚”事件，所以目标调查企业a会因为企业b，企业c的影响会出现较大的违约概率，经过综合评估，银行风控人员对企业a做出不建议贷款的建议；
[0076]
步骤二、基于pagerank的企业关联风险分析；
[0077]
s1，如果一个企业被很多其他企业链接到的，说明这个企业比较重要，也就是pagerank值会相对较高；
[0078]
s2，如果一个pagerank值很高的企业链接到一个其他的企业，被链接到的企业的pagerank值会相应地因此而提高；
[0079]
其中企业的重要度，将其也定义成pr值，计算公式如下：
[0080][0081]
当前公式中mpi是所有对pi企业有出链的企业集合，而l(pj)是企业pj的出链数目，n是企业总数，α取0.85。
[0082]
根据公式和pagerank算法的本义，一家公司的重要度pr值为所有链向它的公司重要度经过迭代计算后的结果，针对目标公司的企业关联风险将由4个指标衡量，包括：1、通过pagerank计算出来的每家企业的pr值；2、受到直接影响的企业与目标评估企业相互关联层级数，第一层影响大于第二层，第二层影响大于第三层，依次递减；3、受到直接影响的企业与目标评估企业之间的持股比例，对目标企业持股比例越大，对目标企业影响就越大；4、对出来的影响事件进行风险评估分级，根据人员种类分析，人员种类包括：法定代表人、股东、主要人员、或者普通员工对公司影响进行分级，法定代表人的影响大，股东其次，最后是普通员工；针对影响事件进行分级，行政处罚、经营异常、失信事件、被执行人事件、法院公告等事件划分不同影响等级；针对正负新闻舆情进行影响等级分类，总体来说，越重要的人物对企业影响越大，越重要的事件对企业影响越大，负面新闻对公司影响大；
[0083]
经过这4个指标的综合衡量得到的风险影响因素，将对风险划分为五个等级，其中1为无风险，2表示有低风险，往上越大的数字表示风险依次递增，5为最严重风险，将这些风险定性分析后并最终显示给用户，为用户提供风险预警提示。
[0084]
一种企业关联风险判断系统，包括数据采集、数据处理系统和数据服务；
[0085]
所述数据采集包括采集政府公开数据、外部数据、新闻舆情和企业招聘；
[0086]
所述数据处理系统包括数据库和计算中心，将内部数据引入计算中心，且计算中
心包括数据聚合、数据去重、风险模型、预警监控；
[0087]
所述数据服务包括移动应用查询、桌面版查询、专业版后台、大屏展示、接口服务；
[0088]
数据采集将采集到的数据经流式计算输送到数据库，数据库将外部数据输送到计算中心，计算中心同时可以将内部数据进行引入，计算中心对数据进行计算后推送至数据服务；
[0089]
计算计算包括数据清洗、加工、转化和分析；
[0090]
计算中心具有检索、整合、挖掘和技术的功能。
[0091]
尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

技术特征：

1.一种企业关联风险判断方法，其特征在于，包括以下步骤：步骤一、计算a，b公司是否有疑似关联；a1，将公司a的所有直接相邻节点去掉重复名称后得到数组a{c,d,e,f}；a2，将公司b的所有直接相邻节点去掉重复名称后得到数组b{c,d,f,h}；a3，循环数组b中的元素，将b中的元素添加进a中，如果检测到b中的元素在a中存在，则返回为true，并将当前元素添加进临时数组temp中；a4，统计temp数组中元素数量，定义当前数量为相似度的数值；a5，预先设定一个相似度阈值，大于或等于设定的阈值表示两家公司有疑似关联，否则没有关联；步骤二、基于pagerank的企业关联风险分析；s1，如果一个企业被很多其他企业链接到的，说明这个企业比较重要，也就是pagerank值会相对较高；s2，如果一个pagerank值很高的企业链接到一个其他的企业，被链接到的企业的pagerank值会相应地因此而提高；其中企业的重要度，将其也定义成pr值，计算公式如下：当前公式中mpi是所有对pi企业有出链的企业集合，而l(pj)是企业pj的出链数目，n是企业总数，α取0.85。2.根据权利要求1所述的一种企业关联风险判断方法，其特征在于，s2中，根据公式和pagerank算法的本义，一家公司的重要度pr值为所有链向它的公司重要度经过迭代计算后的结果，针对目标公司的企业关联风险将由4个指标衡量。3.根据权利要求2所述的一种企业关联风险判断方法，其特征在于，指标为：通过pagerank计算出来的每家企业的pr值。4.根据权利要求2所述的一种企业关联风险判断方法，其特征在于，指标为：受到直接影响的企业与目标评估企业相互关联层级数，第一层影响大于第二层，第二层影响大于第三层，依次递减。5.根据权利要求2所述的一种企业关联风险判断方法，其特征在于，指标为：受到直接影响的企业与目标评估企业之间的持股比例，对目标企业持股比例越大，对目标企业影响就越大。6.根据权利要求2所述的一种企业关联风险判断方法，其特征在于，指标为：对出来的影响事件进行风险评估分级，根据人员种类分析。7.根据权利要求6所述的一种企业关联风险判断方法，其特征在于，人员种类包括：法定代表人、股东、主要人员、或者普通员工对公司影响进行分级，法定代表人的影响大，股东其次，最后是普通员工；针对影响事件进行分级，行政处罚、经营异常、失信事件、被执行人事件、法院公告等事件划分不同影响等级；针对正负新闻舆情进行影响等级分类。8.根据权利要求1-7任一项所述的一种企业关联风险判断方法，其特征在于，经过这4个指标的综合衡量得到的风险影响因素，将对风险划分为五个等级，其中1为无风险，2表示
有低风险，往上越大的数字表示风险依次递增，5为最严重风险，将这些风险定性分析后并最终显示给用户，为用户提供风险预警提示。9.根据权利要求1-8任一项所述的一种企业关联风险判断系统，其特征在于，包括数据采集、数据处理系统和数据服务；所述数据采集包括采集政府公开数据、外部数据、新闻舆情和企业招聘；所述数据处理系统包括数据库和计算中心，将内部数据引入计算中心，且计算中心包括数据聚合、数据去重、风险模型、预警监控；所述数据服务包括移动应用查询、桌面版查询、专业版后台、大屏展示、接口服务。

技术总结

本发明公开了一种企业关联风险判断方法，包括以下步骤：将公司A的所有直接相邻节点去掉重复名称后得到数组A；将公司B的所有直接相邻节点去掉重复名称后得到数组B；循环数组B中的元素，将B中的元素添加进A中，如果检测到B中的元素在A中存在，则返回为true，并将当前元素添加进临时数组temp中；统计temp数组中元素数量，定义当前数量为相似度的数值；预先设定一个相似度阈值，大于或等于设定的阈值表示两家公司有疑似关联，否则没有关联。本发明提升了企业关联关系分析的准确度，在市场公开数据没有自然人唯一标识的情况下，可以将企业的关系关联提升15％，对于风险的影响进行量化，方便金融机构对于授信金额等进行量化计算。金融机构对于授信金额等进行量化计算。金融机构对于授信金额等进行量化计算。