一种企业外迁预警识别的方法、系统及装置与流程

1.本发明涉及大数据与ai中企业风控的技术领域，尤其是涉及一种企业外迁预警识别的方法、系统及装置。

背景技术：

2.随着社会经济的发展和制度的改革，企业出于经营定位、成本上升、环境、政策等因素考虑外迁。虽然企业外迁是正常市场行为，但对于地方政府而言，企业外迁将减少财政税收，不利就业，影响区域经济平稳健康发展，进而影响地方gdp增长，尤其是高新技术行业，将影响区域产业转型升级。目前，地方政府获取企业外迁消息存在一定滞后，无法事前预判，并提出针对性地应对措施。因此，当前地方政府亟需一种能有效识别出潜在外迁风险企业的方法。
3.尽管当前业界存在传统机器学习方法挖掘潜在外迁企业，但此类方法主要是提取企业工商数据并进行简单预处理后，采用常规、单一的机器学习算法和训练方式获取挖掘模型，如采用逻辑回归、随机森林的方法得到的模型，并最终输出企业即将流失的概率，这种预测效果最终不是很理想。这使得相关政府部门不能快速准确地事前挖掘可能外迁企业，同时也不能提前做好应对措施并制定科学合理政策。
4.因此，亟待设计出一种企业外迁预警识别的方法，以便更好的为地方政府提供准确的预判。

技术实现要素：

5.本发明的第一目的在于提供一种企业外迁预警识别的方法，该预警识别的方法能够客观准确地对企业外迁风险进行量化预测评估，具有准确率高、鲁棒性好、综合泛化性优的特点。
6.本发明的第二目的在于提供一种企业外迁预警识别的系统，该系统能够有效帮助预警识别的企业外迁风险。本发明的第三目的是提供执行该预警识别系统的装置。
7.本发明采用的第一技术方案如下：
8.一种企业外迁预警识别的方法，包括以下步骤：
9.(1)利用特征采集器按指定要求获取符合条件的企业工商信息数据，以及该企业的运营商数据和该企业所在地的企业扶持政策相关指标数据，再进行匹配、拼接、清洗和标准化处理后得到企业特征数据集，将已有的外迁企业实例与企业特征数据集进行匹配；
10.(2)利用特征选择器在企业特征数据集的所有特征项中选出重要特征项，生成重要特征项子集；
11.(3)利用特征融合器将重要特征项子集融合得融合特征数据集；
12.(4)将融合特征数据集随机分成训练用企业特征数据集和测试用企业特征数据集；
13.(5)将训练用企业特征数据集输入算法策略模块获得预警识别模型，将测试用企
业特征数据集输入预警识别模型得各个测试用企业的外迁概率集，计算所得预警识别模型的评估值；
14.(6)选择训练得到的评估值良好的预警识别模型，将需要进行预警识别的企业特征数据输入选定的预警识别模型得到的输出值即为该企业的外迁概率。
15.进一步的，所述的步骤(1)包括以下步骤：
16.(1.1)启动特征采集器，调用多源数据接口，从企业工商信息数据中获取全国企业的企业编码、企业名称、统一社会信用代码、企业类型、企业所属最新行业类型、注册资本、实缴资本、在营时长、经营范围、办理社保人数、对外投资次数、是否纳税a级等维度指标数据；
17.(1.2)从运营商数据中获取存量企业客户的证件号码、固话安装数、宽带安装数、上月固话安装数、上月宽带安装数、固话新装数、宽带新装数、固话拆机数、宽带拆机数、固话移机数、宽带移机数等维度指标数据；
18.(1.3)从政策数据源中获取企业所在地的企业扶持政策相关的指标数据，将工商企业画像数据和运营商企业画像数据按社会统一信用代码进行匹配，同时将各企业所在地的企业扶持政策相关的指标数据按企业所在地进行匹配，得到拼接的原始特征数据集；
19.(1.4)将拼接的原始特征数据集进行清洗和标准化处理后得到企业特征数据集；
20.(1.5)将已有的外迁企业实例与企业特征数据集进行匹配，匹配成功的企业标注为正例，未匹配成功的企业标注为负例。
21.进一步的，所述的步骤(1)还包括以下步骤：
22.(1.6)利用特征生成器将原始特征数据集进行基于人工经验的时间处理、数据分箱处理、组合分类处理以及基于自动化集成的feature tools模块调用；
23.(1.7)利用特征提取器对原始特征数据集进行one-hotencoding处理或者lda处理或者余弦相似度处理或者神经网络处理。
24.进一步的，所述的步骤(2)包括以下步骤：
25.(2.1)在企业特征数据集的所有特征项中选出一个最优的特征项作为选定集；
26.(2.2)在企业特征数据集中除选定集外的特征项中选出一个最优的特征项，将该特征项加入选定集中，计算此时选定集的增益值；
27.(2.3)对选定集的增益值进行评价，若选定集的增益值不是最大，则重复步骤(2.2)；
28.(2.4)将企业特征数据集中与选定集中各个特征项对应的数据组合，生成重要特征项子集。
29.进一步的，所述的步骤(2.2)中，增益值的计算公式为：
[0030][0031]
其中，gain(a)为选定集的增益值，ent(d)为企业特征数据集的信息熵，d为企业特征数据集，v为企业特征数据集的子集个数，dv为企业特征数据集的第v个子集；
[0032]
信息熵ent(d)的公式为：
[0033]
[0034]
其中，pk为企业特征数据集中第k个样本的比例，n为企业特征数据集中的子集个数。
[0035]
进一步的，所述的步骤(5)中，计算所得预警识别模型的评估值的计算公式为：
[0036][0037]
其中，f1为评估值，precision为预警识别模型预测为正的样本中，真正的正样本数占预测为正的样本数的比例，recall值为实际样本中，真正的正样本数占实际为正的样本数的比例。
[0038]
进一步的，所述的步骤(6)中，所述的输出值范围为0～1，当所述的输出值《0.25时，表示企业外迁风险为低风险，当所述的输出值≥0.25且《0.5时，表示企业外迁风险为中风险，当所述的输出值≥0.5且《0.75时，表示企业外迁风险为中高风险，当所述的输出值≥0.75且《1时，表示企业外迁风险为极高风险。
[0039]
本发明采用的第二技术方案如下：
[0040]
一种企业外迁预警识别的系统，包括：
[0041]
特征采集器：用于对需要进行预警识别的企业工商信息数据、运营商的企业画像数据以及企业所在地的企业扶持政策相关指标数据的采集、清洗和标准化处理；
[0042]
特征选择器：用于在特征采集器输出的特征中选取重要特征；
[0043]
特征融合器：用于将特征采集器输出的特征和特征选择器的输出的特征进行融合；
[0044]
算法策略模块：用于训练若干个弱学习器，并根据若干个弱学习器的输出结果融合构建预警识别模型；
[0045]
所述特征采集器的输出端与特征选择器的输入端连接，所述特征选择器的输出端与特征融合器的输入端连接，所述特征融合器的输出端与算法策略模块的输入端连接。
[0046]
进一步的，还包括：
[0047]
特征生成器：用于将特征采集器输出的数据通过模型标签预测的方式创造新的数据特征；
[0048]
特征提取器：用于将特征生成器输出的数据中的文本数据，进行特征提取；
[0049]
所述特征采集器的输出端分别与特征生成器的输入端和特征提取器的输入端连接，所述特征生成器的输出端和特征提取器的输出端均与特征选择器的输入端连接。
[0050]
本发明采用的第三技术方案如下：
[0051]
一种企业外迁预警识别的装置，包括存储器和处理器，所述的存储器存储有计算机程序，所述处理器执行计算机程序时实现权利要求书1-7中任一所述方法的步骤。
[0052]
与现有技术相比，本发明具有的有益效果为：准确率高、鲁棒性好、综合泛化性优的特点。
[0053]
1.本发明的一种企业外迁预警识别的方法，通过运用客观的方法，使用相关性分析从复杂的企业样本中筛选出适合企业外迁预警识别模型的特征，避免了人工筛选带来的主观性与局限性，准确率高、鲁棒性好，综合泛化性优；
[0054]
通过设置特征选择器装置，从涉及的多个原始特征集中获得最具差异性的信息，消除因不同特征集之间的相关性而产生的冗余信息，提高了模型性能；并能够进一步提升特征多样性，在不调用或者是缺失该系统组件的情况下，该系统装置依旧具备很强的健壮
性；
[0055]
通过设置特征融合器，使得映射后的样本集仍然具有良好的可分性，同时也加快了梯度下降求最优解的计算时间，有助于后续计算提高模型精度，降低精度损失；
[0056]
通过采用模型融合的方法进行企业外迁预测，准确率更高且模型鲁棒性更好，综合泛化性能更优；
[0057]
所设置的特征采集器、特征生成器、特征提取器、特征融合器、算法策略模块是独立工作的系统组件，相互运行且不会相互打扰。
[0058]
2.本发明的一种企业外迁预警识别的系统，通过设置特征采集器、特征选择器、特征融合器和算法策略模块，各模块间相互协作，是一套完整的、且具备移植能力的系统，能够有效帮助预警识别的企业外迁风险。
附图说明
[0059]
此处所说明的附图用来提供对本发明的进一步理解，构成本技术的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
[0060]
图1是本系统的结构示意图；
[0061]
图2是本系统中特征采集器的结构示意图；
[0062]
图3是本系统中特征生成器的结构示意图；
[0063]
图4是本系统中特征提取器的结构示意图；
[0064]
图5是本系统中特征选择器的结构示意图；
[0065]
图6是本系统中特征融合器的结构示意图；
[0066]
图7是本系统中算法策略模块的结构示意图.
具体实施方式
[0067]
下面结合具体实施方式，对本发明的技术方案作进一步的详细说明，但不构成对本发明的任何限制。
[0068]
本发明的一种企业外迁预警识别的方法，包括以下步骤：
[0069]
(1)利用特征采集器按指定要求获取符合条件的企业工商信息数据，以及该企业的运营商数据和该企业所在地的企业扶持政策相关指标数据，再进行匹配、拼接、清洗和标准化处理后得到企业特征数据集，将已有的外迁企业实例与企业特征数据集进行匹配。
[0070]
其中，所述的步骤(1)包括以下步骤：
[0071]
(1.1)启动特征采集器，调用多源数据接口，从企业工商信息数据中获取全国企业的企业编码、企业名称、统一社会信用代码、企业类型、企业所属最新行业类型、注册资本、实缴资本、在营时长、经营范围、办理社保人数、对外投资次数、是否纳税a级等维度指标数据。
[0072]
(1.2)从运营商数据中获取存量企业客户的证件号码、固话安装数、宽带安装数、上月固话安装数、上月宽带安装数、固话新装数、宽带新装数、固话拆机数、宽带拆机数、固话移机数、宽带移机数等维度指标数据。
[0073]
(1.3)从政策数据源中获取企业所在地的企业扶持政策相关的指标数据，将工商企业画像数据和运营商企业画像数据按社会统一信用代码进行匹配，同时将各企业所在地
的企业扶持政策相关的指标数据按企业所在地进行匹配，得到拼接的原始特征数据集。
[0074]
(1.4)将拼接的原始特征数据集进行清洗和标准化处理后得到企业特征数据集。特征采集器特征预处理接口的调用，会对拼接的原始特征数据集中特征数据的缺失值、异常值、离散型、数值型特征进行处理；所述缺失值的处理方式包括但不限于均值填充、中位数填充、样本删除的处理方式；所述异常值的处理方式是在检测到偏离数据分布后，采用不限于均值填充、中位数填充、样本删除的处理方式；所述离散型特征处理方式包括但不限于labelencoding、one-hotencoding、平均数编码；所述数值型特征处理方式包括但不限于区间缩放、二值化、标准化的处理方式。
[0075]
(1.4)将拼接的原始特征数据集进行清洗和标准化处理后得到企业特征数据集；
[0076]
(1.5)将已有的外迁企业实例与企业特征数据集进行匹配，匹配成功的企业标注为正例，未匹配成功的企业标注为负例。
[0077]
进一步的，还包括以下步骤：
[0078]
(1.6)利用特征生成器将原始特征数据集进行基于人工经验的时间处理、数据分箱处理、组合分类处理以及基于自动化集成的feature tools模块调用。
[0079]
特征生成器的调用可通过参数的形式，指定选择人工经验的特征生成方式或者是基于自动化集成的特征生成方式。所述基于人工经验的时间处理可以将时间分类从而生成特征，如工作日、周末或者上午、下午、晚上。所述数据分箱处理是将选定的特征数据进行分箱分析，生成相应的特征分类数据，如企业注册资本、在营时长字段，分别计算出最小观察值(下边缘)，25％分位数(q1)，中位数，75％分位数(q3)，最大观察值，即按其数据点分布得出[最小观察值，25％分位数]、[25％分位数，中位数]、[中位数，75％分位数]、[75％分位数，最大观测值]的值域区间划分，分别对应1、2、3、4这四种分类。所述组合分类处理是对字段间进行特征交叉，包括但不限于采用加减乘除、或者是加权等运算生成数据特征的过程；所述基于自动化集成的featuretools模块，是针对数据之间的关系，通过转换(transformation)和聚合(aggregation)操作自动生成新的特征。
[0080]
(1.7)利用特征提取器对原始特征数据集进行one-hotencoding处理或者lda处理或者余弦相似度处理或者神经网络处理。
[0081]
特征提取器封装了lda主题模型以进行lda处理，用于提取各企业所在地的企业扶持政策的文本的主题类型，并将类型进行one-hotencoding处理，得到企业扶持政策标签。lda主题模型认为主题可以由一个词汇分布来表示，而文章可以由主题分布来表示。lda主题生成方式如下：从狄利克雷分布α中取样生成文档θi的主题分布；从主题的多项式分布θi中取样生成文档i第j个词的主题z
ij
；从狄利克雷分布β中取样生成主题z
ij
的词语分布从词语的多项式分布中采样最终生成词语w
ij
。因此，得到的该企业所在地扶持政策与企业的类型关联匹配，匹配上则为企业策略标签赋赋予相关的概率正值，反之赋值为0。
[0082]
特征提取器封装了余弦相似度方法以进行余弦相似度处理，用于计算企业经营范畴的词与企业所在地的企业扶持政策高频词之间的相关性，将其相关性的高低作为新的特征。所述相关性是基于杰卡德相似度的文本相似度为：
[0083][0084]
其中，a为企业经营范畴的词语，b为企业所在地的企业扶持政策高频词。一般地，
对于短文本可采用基于词级的近似度计算，还可以采用基于自然语言理解的词向量进行度量。
[0085]
(2)利用特征选择器在企业特征数据集的所有特征项中选出重要特征项，生成重要特征项子集。
[0086]
其中，包括以下步骤：
[0087]
(2.1)在企业特征数据集的所有特征项中选出一个最优的特征项作为选定集。
[0088]
(2.2)在企业特征数据集中除选定集外的特征项中选出一个最优的特征项，将该特征项加入选定集中，计算此时选定集的增益值。
[0089]
(2.3)对选定集的增益值进行评价，若选定集的增益值不是最大，则重复步骤(2.2)。
[0090]
(2.4)将企业特征数据集中与选定集中各个特征项对应的数据组合，生成重要特征项子集。
[0091]
在给定的特征集合{a1,a2,
…
,an}，首先选择一个最优的特征项，比如{a2}作为第一轮选定集。然后在此基础上加入一个特征项，构建包含两个特征项的候选子集，比如{a2，a4}，选择最优的双特征子集作为第二轮选定子集，依次类推，直到不到更优的特征子集才停止。在这样搜索策略下，对于数据集d，假定d中第i类样本的比例为pi(i＝1,2,
…
,n)，则信息熵的定义为：
[0092][0093]
对于属性子集a，假定根据其取值将d成了v个子集{d1,d2,
…
,dv}，每个子集的样本在a上取值相同，于是我们可以计算属性子集a的信息增益为：
[0094][0095]
信息增益gain(a)越大，意味着特征子集a包含的有助于分类的信息越多。于是，对每个候选特征子集，我们基于可训练的数据集d来计算其信息增益值，并以此作为评价标准。将特征子集搜索机制和子集评价机制相结合，即为特征选择器的基本原理。
[0096]
特征选择器封装了多种特征选择的方法调用，包括但不限于过滤式方法(filter method)、包裹式方法(wrapper method)、嵌入式方法(embedding method)。
[0097]
s21、所述过滤式方法是对数据集进行特征选择，然后再将数据输入用于训练模型。relief(relevant features)方法设计了一个“相关统计量”来度量特征的重要性。该统计量是一个向量，其每个分量分别对应于一个初始特征，而特征子集的重要性则是由子集中每个特征所对应的相关统计量分量之和来决定。给定的训练集{(x1,y1),(x
21
,y2),
…
,(xm,ym)}对每个实例xi，在xi的同类样本中寻最近邻x
i,nh
，称为“猜中近邻”(near-hit),再从xi的异类样本中寻其最近邻x
i,nm
，称为“猜错近邻”(near-miss)，然后，相关统计量对应的属性j的分量为
[0098]
[0099]
其中表示xa在属性j上的取值，取决于属性j的类型：若属性j为离散型，则时否则为1；若属性j为连续型，则其中已经规范化到[0,1]区间。
[0100]
s22、所述包裹式方法，是直接把最终将要使用的学习器的性能作为特征自己的评价指标，即包裹式的特征选择方法的目的就是为了给定学习器选择最有利于的其性能的特征子集。本发明提供的包裹式特征选择方法，是在拉斯维加斯方法(lasvegasmethod)框架下使用随机策略来进行子集搜索，并以最终分类器的误差为特征子集评价准则。所述拉斯维加斯算法在特征子集中采用随机搜索策略，并设置了停止条件控制参数，规避了在参数过大时导致的长时间运行不能停止的问题。
[0101]
s23、所述嵌入式方法，是将特征选择过程和学习器训练过程融合，两者在同一个优化过程中完成，即在学习器训练的过程自动地进行了特征选择。对于给定的数据集
[0102]
d＝{(x1,y1),(x2,y2),
…
,(xm,ym)}
[0103]
其中，x∈rd,y∈r，在本发明中回归模型为其一实施例中，优化目标为
[0104][0105]
其中，正则化参数λ》0,||w||是l1正则化范数，本发明采用的l1范数比l2范数更容易获得稀疏解，即求得的w会有更少的非零解。
[0106]
(3)利用特征融合器将重要特征项子集融合得融合特征数据集。
[0107]
特征融合器封装了add融合方法和concat融合方法。所述add融合方法是一种并行策略，将这两个特征向量组合成复向量，即对于输入特征x1和x2，z＝x1+ix2，其中i是虚数单位；所述concat融合方法是直接将两个特征进行连接，两个输入特征x和y的维数若为p和q，输出特征z的维数为p+q。
[0108]
进一步地，特征融合器还可以在前端融合的基础上，封装中间融合以及后端融合。
[0109]
(4)将融合特征数据集随机分成训练用企业特征数据集和测试用企业特征数据集。其中，训练用企业特征数据集和测试用企业特征数据集的数据项数比为1～4：1。
[0110]
(5)将融合特征数据集输入算法策略模块获得预警识别模型，将测试用企业特征数据集输入预警识别模型得各个测试用企业的外迁概率集，计算所得预警识别模型的评估值。
[0111]
所述算法策略模块是利用k折交叉验证法训练若干基学习模型，并根据若干基学习模型的输出结果做进一步融合，融合的结果即为预测的企业外迁概率。具体地，算法策略模块对于接收到的特征数据，会将特征数据集分为k等分，优选地，k＝10。其中每个弱学习器的模型通过训练其中的k-1份数据集，其余的一份作为测试集，将所有弱学习器的预测结果作为训练集，并作为融合模型的输入。特别地，所述弱学习器可以是随机森林模型、决策树模型、支持向量机模型，还可以是深度神经网络模型。本发明的预警识别方法选取了k折交叉验证方法，在弱学习器中遍历选择其中k-1份数据分别采用逻辑回归、lightgbm、随机森林和神经网络等模型；在融合学习层中选取了逻辑回归进行融合，将前面k个弱学习器训练出的模型预测结果作为第二层融合模型的输入。一般地，所述k》＝3,并为正整数。
[0112]
计算所得预警识别模型的评估值的计算公式为：
[0113][0114]
其中，f1为评估值，是precision值和recall值的调和均值，precision为预警识别模型预测为正的样本中，真正的正样本数占预测为正的样本数的比例，recall值为实际样本中，真正的正样本数占实际为正的样本数的比例。
[0115]
(6)选择评估值良好的预警识别模型，将需要进行预警识别的企业特征数据输入选定的预警识别模型得到的输出值即为该企业的外迁概率。
[0116]
所述的输出值范围为0～1，当所述的输出值《0.25时，表示企业外迁风险为低风险，当所述的输出值≥0.25且《0.5时，表示企业外迁风险为中风险，当所述的输出值≥0.5且《0.75时，表示企业外迁风险为中高风险，当所述的输出值≥0.75且《1时，表示企业外迁风险为极高风险。
[0117]
输出值示例结果如下：
[0118]
企业编码外迁概率非外迁概率label标签10**210.1210.879低外迁风险10**320.6220.378中高外迁风险10**130.110.89低外迁风险10**440.210.79低外迁风险10**150.9610.039极高外迁风险10**750.1010.899低外迁风险
[0119]
本发明的一种企业外迁预警识别的方法，通过运用客观的方法，使用相关性分析从复杂的企业样本中筛选出适合企业外迁预警识别模型的特征，避免了人工筛选带来的主观性与局限性，准确率高、鲁棒性好，综合泛化性优；
[0120]
通过设置特征选择器装置，从涉及的多个原始特征集中获得最具差异性的信息，消除因不同特征集之间的相关性而产生的冗余信息，提高了模型性能；并能够进一步提升特征多样性，在不调用或者是缺失该系统组件的情况下，该系统装置依旧具备很强的健壮性；
[0121]
通过设置特征融合器，使得映射后的样本集仍然具有良好的可分性，同时也加快了梯度下降求最优解的计算时间，有助于后续计算提高模型精度，降低精度损失；
[0122]
通过采用模型融合的方法进行企业外迁预测，准确率更高且模型鲁棒性更好，综合泛化性能更优；
[0123]
所设置的特征采集器、特征生成器、特征提取器、特征融合器、算法策略模块是独立工作的系统组件，相互运行且不会相互打扰。
[0124]
参照图1-7所示，本发明的一种企业外迁预警识别的系统，包括：
[0125]
特征采集器：用于对需要进行预警识别的企业工商信息数据、运营商的企业画像数据以及企业所在地的企业扶持政策相关指标数据的采集、清洗和标准化处理；
[0126]
特征选择器：用于在特征采集器输出的特征中选取重要特征，特征选择器的目的是为了选取重要特征，消除特征的维度灾难，提高模型训练效率，降低过拟合的风险。
[0127]
特征融合器：用于将特征采集器输出的特征和特征选择器的输出的特征进行融
合，构建特征融合器是为了实现多特征的优势互补，为预警识别模型获得更好的鲁棒性和准确性的识别结果。
[0128]
算法策略模块：用于训练若干个弱学习器，并根据若干个弱学习器的输出结果融合构建预警识别模型，构建算法策略模块是为了在模型层提高算法的准确率和精确率。
[0129]
所述特征采集器的输出端与特征选择器的输入端连接，所述特征选择器的输出端与特征融合器的输入端连接，所述特征融合器的输出端与算法策略模块的输入端连接。
[0130]
本发明的一种企业外迁预警识别的系统，通过设置特征采集器、特征选择器、特征融合器和算法策略模块，各模块间相互协作，是一套完整的、且具备移植能力的系统，能够有效帮助预警识别的企业外迁风险。
[0131]
进一步的，还包括：
[0132]
特征生成器：用于将特征采集器输出的数据通过模型标签预测的方式创造新的数据特征，特征生成器可以对特征采集器输出的特征数据集进行深度处理。
[0133]
特征提取器：用于将特征生成器输出的数据中的文本数据，进行特征提取，特征提取器可以对拼接后的原始特征数据集中的文本数据，进行特征提取。
[0134]
所述特征采集器的输出端分别与特征生成器的输入端和特征提取器的输入端连接，所述特征生成器的输出端和特征提取器的输出端均与特征选择器的输入端连接。
[0135]
本发明的一种企业外迁预警识别的装置，包括存储器和处理器，所述的存储器存储有计算机程序，其中，所述处理器执行计算机程序时实现上述方法的步骤。
[0136]
以上所述仅为本发明的较佳实施例，凡在本发明的精神和原则范围内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

技术特征：

1.一种企业外迁预警识别的方法，其特征在于，包括以下步骤：(1)利用特征采集器按指定要求获取符合条件的企业工商信息数据，以及该企业的运营商数据和该企业所在地的企业扶持政策相关指标数据，再进行匹配、拼接、清洗和标准化处理后得到企业特征数据集，将已有的外迁企业实例与企业特征数据集进行匹配；(2)利用特征选择器在企业特征数据集的所有特征项中选出重要特征项，生成重要特征项子集；(3)利用特征融合器将重要特征项子集融合得融合特征数据集；(4)将融合特征数据集随机分成训练用企业特征数据集和测试用企业特征数据集；(5)将训练用企业特征数据集输入算法策略模块获得预警识别模型，将测试用企业特征数据集输入预警识别模型得各个测试用企业的外迁概率集，计算所得预警识别模型的评估值；(6)选择训练得到的评估值良好的预警识别模型，将需要进行预警识别的企业特征数据输入选定的预警识别模型得到的输出值即为该企业的外迁概率。2.根据权利要求1所述的一种企业外迁预警识别的方法，其特征在于，所述的步骤(1)包括以下步骤：(1.1)启动特征采集器，调用多源数据接口，从企业工商信息数据中获取全国企业的企业编码、企业名称、统一社会信用代码、企业类型、企业所属最新行业类型、注册资本、实缴资本、在营时长、经营范围、办理社保人数、对外投资次数、是否纳税a级等维度指标数据；(1.2)从运营商数据中获取存量企业客户的证件号码、固话安装数、宽带安装数、上月固话安装数、上月宽带安装数、固话新装数、宽带新装数、固话拆机数、宽带拆机数、固话移机数、宽带移机数等维度指标数据；(1.3)从政策数据源中获取企业所在地的企业扶持政策相关的指标数据，将工商企业画像数据和运营商企业画像数据按社会统一信用代码进行匹配，同时将各企业所在地的企业扶持政策相关的指标数据按企业所在地进行匹配，得到拼接的原始特征数据集；(1.4)将拼接的原始特征数据集进行清洗和标准化处理后得到企业特征数据集；(1.5)将已有的外迁企业实例与企业特征数据集进行匹配，匹配成功的企业标注为正例，未匹配成功的企业标注为负例。3.根据权利要求2所述的一种企业外迁预警识别的方法，其特征在于，所述的步骤(1)还包括以下步骤：(1.6)利用特征生成器将原始特征数据集进行基于人工经验的时间处理、数据分箱处理、组合分类处理以及基于自动化集成的feature tools模块调用；(1.7)利用特征提取器对原始特征数据集进行one-hotencoding处理或者lda处理或者余弦相似度处理或者神经网络处理。4.根据权利要求1所述的一种企业外迁预警识别的方法，其特征在于，所述的步骤(2)包括以下步骤：(2.1)在企业特征数据集的所有特征项中选出一个最优的特征项作为选定集；(2.2)在企业特征数据集中除选定集外的特征项中选出一个最优的特征项，将该特征项加入选定集中，计算此时选定集的增益值；(2.3)对选定集的增益值进行评价，若选定集的增益值不是最大，则重复步骤(2.2)；
(2.4)将企业特征数据集中与选定集中各个特征项对应的数据组合，生成重要特征项子集。5.根据权利要求4所述的一种企业外迁预警识别的方法，其特征在于，所述的步骤(2.2)中，增益值的计算公式为：其中，gain(a)为选定集的增益值，ent(d)为企业特征数据集的信息熵，d为企业特征数据集，v为企业特征数据集的子集个数，d
v
为企业特征数据集的第v个子集；信息熵ent(d)的公式为：其中，p
k
为企业特征数据集中第k个样本的比例，n为企业特征数据集中的子集个数。6.根据权利要求1所述的一种企业外迁预警识别的方法，其特征在于，所述的步骤(5)中，计算所得预警识别模型的评估值的计算公式为：其中，f1为评估值，precision为预警识别模型预测为正的样本中，真正的正样本数占预测为正的样本数的比例，recall值为实际样本中，真正的正样本数占实际为正的样本数的比例。7.根据权利要求1所述的一种企业外迁预警识别的方法，其特征在于，所述的步骤(6)中，所述的输出值范围为0～1，当所述的输出值<0.25时，表示企业外迁风险为低风险，当所述的输出值≥0.25且<0.5时，表示企业外迁风险为中风险，当所述的输出值≥0.5且<0.75时，表示企业外迁风险为中高风险，当所述的输出值≥0.75且<1时，表示企业外迁风险为极高风险。8.根据权利要求1所述的一种企业外迁预警识别的系统，其特征在于，包括：特征采集器：用于对需要进行预警识别的企业工商信息数据、运营商的企业画像数据以及企业所在地的企业扶持政策相关指标数据的采集、清洗和标准化处理；特征选择器：用于在特征采集器输出的特征中选取重要特征；特征融合器：用于将特征采集器输出的特征和特征选择器的输出的特征进行融合；算法策略模块：用于训练若干个弱学习器，并根据若干个弱学习器的输出结果融合构建预警识别模型；所述特征采集器的输出端与特征选择器的输入端连接，所述特征选择器的输出端与特征融合器的输入端连接，所述特征融合器的输出端与算法策略模块的输入端连接。9.根据权利要求8所述的一种企业外迁预警识别的系统，其特征在于，还包括：特征生成器：用于将特征采集器输出的数据通过模型标签预测的方式创造新的数据特征；特征提取器：用于将特征生成器输出的数据中的文本数据，进行特征提取；所述特征采集器的输出端分别与特征生成器的输入端和特征提取器的输入端连接，所述特征生成器的输出端和特征提取器的输出端均与特征选择器的输入端连接。10.根据权利要求8-9所述的一种企业外迁预警识别的装置，包括存储器和处理器，所
述的存储器存储有计算机程序，其特征在于，所述处理器执行计算机程序时实现权利要求书1-7中任一所述方法的步骤。

技术总结

本发明公开了一种企业外迁预警识别的方法，属于大数据与AI中企业风控的技术领域，该预警识别的方法能够客观准确地对企业外迁风险进行量化预测评估，具有准确率高、鲁棒性好、综合泛化性优的特点；包括以下步骤：利用特征采集器按指定要求获取符合条件的企业工商信息数据，以及运营商数据和该企业扶持政策相关指标数据，再进行匹配、拼接、清洗和标准化处理后得到企业特征数据集；利用特征选择器在企业特征数据集的所有特征项中选出重要特征项，生成重要特征项子集；利用特征融合器将重要特征项子集融合得融合特征数据集；将融合特征数据集随机分成训练用企业特征数据集和测试用企业特征数据集。本发明还公开了该预警识别的系统及装置。统及装置。统及装置。