违约预测和违约预测模型的训练方法、装置及存储介质与流程

1.本技术涉及信息技术领域，特别是涉及一种违约预测和违约预测模型的训练方法、装置以及存储介质。

背景技术：

2.债券违约是指债券发债主体不能按照事先达成的债券协议按期履行其义务的行为。近年来高发的债券违约现象给投资者带来了巨大财产损失，因此，能够对债券违约的风险进行识别显得尤为重要。
3.传统的债券分析工具，往往只能提供债券信用评级以及一些发债主体的财务信息，信息内容单一，投资者无法通过上述信息获得债券的直观评级，更难以对债券违约风险进行全面实时的跟踪。
4.后来随着机器学习技术的不断发展，越来越多开始尝试利用机器学习技术进行债券违约预测，例如逻辑回归(lr)、支持向量机(svm)、随机森林(rf)、梯度提升决策树(gbdt)等，这些方法主要基于发债主体的财务数据，将这些数据结构化之后，送到机器学习模型进行训练，最后对新债券进行违约预测。
5.现有技术中，机器学习技术在使用过程免不了存在以下缺陷：1.由于训练样本中真实违约企业数量远少于未违约的企业，导致机器学习模型正负样本严重不均衡，往往导致过拟合结果的出现；2.传统机器学习方法对于类别特征支持不好，往往需要人工处理之后才能放入模型中进行训练，导致人工噪声的引入从而降低了模型的效果。
6.针对上述的现有技术中存在的模型训练所需样本的局限性高的技术问题，目前尚未提出有效的解决方案。

技术实现要素：

7.本技术的实施例提供了一种违约预测和违约预测模型的训练方法、装置以及存储介质，以至少解决现有技术中存在的模型训练所需样本的局限性高的技术问题。
8.根据本技术实施例的一个方面，提供了一种违约预测模型的训练方法，包括：获取未标记的第一企业数据集和已标记的第二企业数据集，其中未标记的第一企业数据集为已上市但无续存期债券的企业的企业数据，已标记的第二企业数据集为根据企业债券是否发生违约而标记的企业的企业数据；根据已标记的第二企业数据集对第一企业数据集进行标记，确定第三企业数据集；以及根据第三企业数据集对违约预测模型进行训练。
9.根据本技术实施例的另一方面，还提供了一种违约预测方法，包括：获取有存续期债券的企业的企业数据；以及通过预设的违约预测模型，根据企业数据，预测企业的违约概率。
10.根据本技术实施例的另一个方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时由处理器执行以上任意一项的方法。
11.根据本技术实施例的另一个方面，还提供了一种违约预测模型的训练装置，包括：
第一获取模块，用于获取未标记的第一企业数据集和已标记的第二企业数据集，其中未标记的第一企业数据集为已上市但无续存期债券的企业的企业数据，已标记的第二企业数据集为根据企业债券是否发生违约而标记的企业的企业数据；数据确定模块，用于根据已标记的第二企业数据集对第一企业数据集进行标记，确定第三企业数据集；以及模型训练模块，用于根据第三企业数据集对违约预测模型进行训练。
12.根据本技术实施例的另一个方面，还提供了一种违约预测装置，包括：第二获取模块，用于获取有存续期债券的企业的企业数据；以及概率预测模块，用于通过预设的违约预测模型，根据企业数据，预测企业的违约概率。
13.根据本技术实施例的另一个方面，还提供了一种违约预测模型的训练装置，包括：第一处理器；以及第一存储器，与第一处理器连接，用于为第一处理器提供处理以下处理步骤的指令：获取未标记的第一企业数据集和已标记的第二企业数据集，其中未标记的第一企业数据集为已上市但无续存期债券的企业的企业数据，已标记的第二企业数据集为根据企业债券是否发生违约而标记的企业的企业数据；根据已标记的第二企业数据集对第一企业数据集进行标记，确定第三企业数据集；以及根据第三企业数据集对违约预测模型进行训练。
14.根据本技术实施例的另一个方面，还提供了一种违约预测装置，包括：第二处理器；以及第二存储器，与第二处理器连接，用于为第二处理器提供处理以下处理步骤的指令：获取有存续期债券的企业的企业数据；以及通过预设的违约预测模型，根据企业数据，预测企业的违约概率。
15.在本技术实施例中，利用上市公司未发债的企业通过协同学习的方式进行正样本的预测学习，增加正样本的数量平衡了正负样本的数量。改进了协同学习的判别方式，引入了加权knn修正，协同学习中可能存在的类别错误预测问题；引入了自动的类别特征处理算法进行企业违约推理的预测，增加的特征的丰富性，对提高准确率有重要意义。
附图说明
16.此处所说明的附图用来提供对本技术的进一步理解，构成本技术的一部分，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
17.图1是用于实现根据本技术实施例1所述的方法的计算设备的硬件结构框图；
18.图2是根据本技术实施例1的第一个方面所述的违约预测模型的训练方法的流程示意图；
19.图3是根据本技术实施例1的第一个方面所述的违约预测模型的训练方法的另一个流程示意图；
20.图4是根据本技术实施例1的第二个方面所述的违约预测方法的流程示意图；
21.图5是根据本技术实施例2的第一个方面所述的违约预测模型的训练装置的示意图；
22.图6是根据本技术实施例2的第二个方面所述的违约预测装置的示意图；
23.图7是根据本技术实施例3的第一个方面所述的违约预测模型的训练装置的示意图；以及
24.图8是根据本技术实施例3的第二个方面所述的违约预测装置的示意图。
具体实施方式
25.为了使本技术领域的人员更好地理解本技术的技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本技术一部分的实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本技术保护的范围。
26.需要说明的是，本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
27.实施例1
28.根据本实施例，提供了一种违约预测和违约预测模型的训练方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
29.本实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的计算设备中执行。图1示出了一种用于实现违约预测和违约预测模型的训练方法的计算设备的硬件结构框图。如图1所示，计算设备可以包括一个或多个处理器(处理器可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器、以及用于通信功能的传输装置。除此以外，还可以包括：显示器、输入/输出接口(i/o接口)、通用串行总线(usb)端口(可以作为i/o接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算设备还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。
30.应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算设备中的其他元件中的任意一个内。如本技术实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
31.存储器可用于存储应用软件的软件程序以及模块，如本技术实施例中的违约预测和违约预测模型的训练方法对应的程序指令/数据存储装置，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的违约预测和违约预测模型的训练方法。存储器可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信
网及其组合。
32.传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备的通信供应商提供的无线网络。在一个实例中，传输装置包括一个网络适配器(network interface controller，nic)，其可通过与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置可以为射频(radio frequency，rf)模块，其用于通过无线方式与互联网进行通讯。
33.显示器可以例如触摸屏式的液晶显示器(lcd)，该液晶显示器可使得用户能够与计算设备的用户界面进行交互。k
34.此处需要说明的是，在一些可选实施例中，上述图1所示的计算设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算设备中的部件的类型。
35.在上述运行环境下，根据本实施例的第一个方面，提供了一种违约预测模型的训练方法，该方法由图1中所示的计算设备实现。图2示出了该方法的流程示意图，参考图2所示，该方法包括：
36.s202：获取未标记的第一企业数据集和已标记的第二企业数据集，其中未标记的第一企业数据集为已上市但无续存期债券的企业的企业数据，已标记的第二企业数据集为根据企业债券是否发生违约而标记的企业的企业数据；
37.s204：根据已标记的第二企业数据集对第一企业数据集进行标记，确定第三企业数据集；以及
38.s206：根据第三企业数据集对违约预测模型进行训练。
39.具体地，计算设备设置的样本数据包括未标记的第一企业数据集u和已标记的第二企业数据集l。其中未标记的第一企业数据集为已上市但无续存期债券的企业的企业数据，已标记的第二企业数据集为根据企业债券是否发生违约而标记的企业的企业数据。
40.并且其中已标记的第二企业数据集l包括发债企业的历年财务数据、评级数据、企业行业和事件数据，其中事件信息包括企业是否被列为失信人、欠税、经营异常、动产抵押等信息。未标记的第一企业数据集u包括发债企业的历年财务数据、评级数据、企业行业和事件数据，其中事件信息包括企业是否被列为失信人、欠税、经营异常、动产抵押等信息。
41.进一步地，计算设备根据已标记的第二企业数据集对第一企业数据集进行标记，确定第三企业数据集，之后根据第三企业数据集对违约预测模型进行训练，其中违约预测模型为基于catboost的预测模型。
42.可选地，根据已标记的第二企业数据集对第一企业数据集进行标记，确定第三企业数据集的操作，包括：根据已标记的第二企业数据集对所数据第一企业数据集进行第一标记；通过迭代方式利用第二企业数据集训练的分类器确定对第一企业数据集进行第二标记；以及将第一企业数据集中各个企业数据的第一标记与第二标记进行比较，标记一致的情况下，将企业数据加入第三企业数据集。
43.具体地，参考图3所示，例如计算设备获取第一企业数据集中的一个企业数据(例如企业数据1)，利用加权knn算法从第二企业数据集中出与企业数据1最邻近的k个企业数据，之后根据k个企业数据的标记对企业数据1进行标记(即，第一标记)。例如k个企业数
据中40％的数据的标记为违约，60％的数据的标记为不违约，则将企业数据1标记为违约。从而通过上述方法将第一企业数据集中的所有数据都进行第一标记，从而形成第一标记集合c。
44.进一步地，计算设备将第二企业数据集l随机划分为两个训练集x1和x2。之后进入在迭代循环中，计算设备利用训练集x1训练出第一分类器h1，利用训练集x2训练出第二分类器h2。其中第一分类器和第二分类器为二分类，用于判断训练集中的数据是否为违约数据。之后计算设备利用第一分类器对第一企业数据集u中的所有企业数据进行标记(即，第二标记)，并计算第一企业数据集u中的所有企业数据相应的标记的置信度，获取置信度最高的p1个正标记(即，违约的数据标记)。并且计算设备利用第二分类器对第一企业数据集u中的所有企业数据进行标记(即，第二标记)，并计算第一企业数据集u中的所有企业数据相应的标记的置信度，获取置信度最高的p2个正标记。
45.之后计算设备将p1个正标记分别与第一标记集合c进行比较，当标记一致，则将该正标记记入训练集x2中。并且计算设备将p2个正标记分别与第一标记集合c进行比较，当标记一致，则将该正标记记入训练集x1中。当标签不一致则将该标记丢弃。至此第一次循环结束，开始第二次循环。计算设备利用更新后的训练集x1训练出第一分类器，利用更新后的训练集x2训练出第二分类器。之后依据上述方式对第一企业数据集进行第一标记和第二标记，之后对训练集x1和x2进行更新。若循环次数达到k次或第二企业数据集l不再发生变化时即可停止迭代，从而得到标记的第三企业数据集。
46.可选地，根据已标记的第二企业数据集对所数据第一企业数据集进行第一标记的操作，包括：利用加权knn算法，确定最邻近第一企业数据集中各个企业数据的k个第二数据集中的企业数据；以及根据k个第二数据集中的企业数据对相应的第一企业数据集中的企业数据进行第一标记。
47.具体地，参考图3所示，例如计算设备获取第一企业数据集中的一个企业数据(例如企业数据1)，利用加权knn算法从第二企业数据集中出与企业数据1最邻近的k个企业数据，之后根据k个企业数据的标记对企业数据1进行标记(即，第一标记)。例如k个企业数据中40％的数据的标记为违约，60％的数据的标记为不违约，则将企业数据1标记为违约。从而通过上述方法将第一企业数据集中的所有数据都进行第一标记，从而形成第一标记集合c。
48.可选地，通过迭代方式利用第二企业数据集训练的分类器确定对第一企业数据集进行第二标记的操作，包括：在迭代过程中，根据第二企业数据集中的第四数据集训练得到第一分类器，利用第一分类器对第一企业数据集进行第二标记；以及在迭代过程中，根据第二企业数据集中的第五数据集训练得到第二分类器利用第二分类器对第一企业数据集进行第二标记。
49.具体地，计算设备将第二企业数据集l随机划分为两个训练集x1和x2。之后进入在迭代循环中，计算设备利用训练集x1训练出第一分类器，利用训练集x2训练出第二分类器。其中第一分类器和第二分类器为二分类，用于判断训练集中的数据是否违约。之后计算设备利用第一分类器对第一企业数据集u中的所有企业数据进行标记(即，第二标记)，并计算第一企业数据集u中的所有企业数据相应的标记的置信度，获取置信度最高的p1个正标记。并且计算设备利用第二分类器对第一企业数据集u中的所有企业数据进行标记(即，第二标
记)，并计算第一企业数据集u中的所有企业数据相应的标记的置信度，获取置信度最高的p2个正标记。
50.之后计算设备将p1个正标记分别与第一标记集合c进行比较，当标记一致，则将该正标记记入训练集x2中。并且计算设备将p2个正标记分别与第一标记集合c进行比较，当标记一致，则将该正标记记入训练集x1中。当标签不一致则将该标记丢弃。至此第一次循环结束，开始第二次循环。计算设备利用更新后的训练集x1训练出第一分类器，利用更新后的训练集x2训练出第二分类器。之后依据上述方式对第一企业数据集进行第一标记和第二标记，之后对训练集x1和x2进行更新。若循环次数达到k次或第二企业数据集l不再发生变化时即可停止迭代，最终通过上述协同学习方式得到标记的第三企业数据集。
51.从而根据本实施例的第一个方面，利用上市公司未发债的企业通过协同学习的方式进行正样本的预测学习，增加正样本的数量平衡了正负样本的数量。改进了协同学习的判别方式，引入了加权knn修正，协同学习中可能存在的类别错误预测问题；引入了自动的类别特征处理算法进行企业违约推理的预测，增加的特征的丰富性，对提高准确率有重要意义。
52.此外，根据本实施例的第二个方面，提供了一种违约预测方法，该方法由图1中所示的计算设备实现。图4示出了该方法的流程示意图，参考图4所示，该方法包括：
53.s402：获取有存续期债券的企业的企业数据；以及
54.s404：通过预设的违约预测模型，根据企业数据，预测企业的违约概率。
55.具体地，有存续期债券的企业的企业数据集r包括发债企业的历年财务数据、评级数据、企业行业和事件数据，其中事件信息包括企业是否被列为失信人、欠税、经营异常、动产抵押等信息。进一步地，计算设备预先设置有违约预测模型，从而计算设备将企业数据输入至违约预测模型，则可以确定该企业的违约概率。其中该违约预测模型为基于catboost的预测模型。
56.从而根据本实施例的第二个方面，利用上市公司未发债的企业通过协同学习的方式进行正样本的预测学习，增加正样本的数量平衡了正负样本的数量。改进了协同学习的判别方式，引入了加权knn修正，协同学习中可能存在的类别错误预测问题；引入了自动的类别特征处理算法进行企业违约推理的预测，增加的特征的丰富性，对提高准确率有重要意义。
57.此外，参考图1所示，根据本实施例的第三个方面，提供了一种存储介质。所述存储介质包括存储的程序，其中，在所述程序运行时由处理器执行以上任意一项所述的方法。
58.从而根据本实施例，利用上市公司未发债的企业通过协同学习的方式进行正样本的预测学习，增加正样本的数量平衡了正负样本的数量。改进了协同学习的判别方式，引入了加权knn修正，协同学习中可能存在的类别错误预测问题；引入了自动的类别特征处理算法进行企业违约推理的预测，增加的特征的丰富性，对提高准确率有重要意义。
59.需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。
60.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。
61.实施例2
62.图5示出了根据本实施例的第一个方面所述的违约预测模型的训练装置500，该装置500与根据实施例1的第一个方面所述的方法相对应。参考图5所示，该装置500包括：第一获取模块510，用于获取未标记的第一企业数据集和已标记的第二企业数据集，其中未标记的第一企业数据集为已上市但无续存期债券的企业的企业数据，已标记的第二企业数据集为根据企业债券是否发生违约而标记的企业的企业数据；数据确定模块520，用于根据已标记的第二企业数据集对第一企业数据集进行标记，确定第三企业数据集；以及模型训练模块530，用于根据第三企业数据集对违约预测模型进行训练。
63.可选地，数据确定模块520，包括：第一标记子模块，用于根据已标记的第二企业数据集对所数据第一企业数据集进行第一标记；第二标记子模块，用于通过迭代方式利用第二企业数据集训练的分类器确定对第一企业数据集进行第二标记；以及比较子模块，用于将第一企业数据集中各个企业数据的第一标记与第二标记进行比较，标记一致的情况下，将企业数据加入第三企业数据集。
64.可选地，根据已标记的第二企业数据集对所数据第一企业数据集进行第一标记的操作，包括：确定单元，用于利用加权knn算法，确定最邻近第一企业数据集中各个企业数据的k个第二数据集中的企业数据；以及第一标记单元，用于根据k个第二数据集中的企业数据对相应的第一企业数据集中的企业数据进行第一标记。
65.可选地，通过迭代方式利用第二企业数据集训练的分类器确定对第一企业数据集进行第二标记的操作，包括：第二标记单元，用于在迭代过程中，根据第二企业数据集中的第四数据集训练得到第一分类器，利用第一分类器对第一企业数据集进行第二标记；以及第三标记单元，用于在迭代过程中，根据第二企业数据集中的第五数据集训练得到第二分类器利用第二分类器对第一企业数据集进行第二标记。
66.此外，图6示出了根据本实施例的第二个方面的违约预测装置600，该装置600与根据实施例1的第二个方面的方法相对应。参考图6所示，该装置600包括：第二获取模块610，用于获取有存续期债券的企业的企业数据；以及概率预测模块620，用于通过预设的违约预测模型，根据企业数据，预测企业的违约概率。
67.从而根据本实施例，利用上市公司未发债的企业通过协同学习的方式进行正样本的预测学习，增加正样本的数量平衡了正负样本的数量。改进了协同学习的判别方式，引入了加权knn修正，协同学习中可能存在的类别错误预测问题；引入了自动的类别特征处理算法进行企业违约推理的预测，增加的特征的丰富性，对提高准确率有重要意义。
68.实施例3
69.图7示出了根据本实施例的第一个方面所述的违约预测模型的训练装置700，该装置700与根据实施例1的第一个方面所述的方法相对应。参考图7所示，该装置700包括：第一
处理器710；以及第一存储器720，与第一处理器710连接，用于为第一处理器710提供处理以下处理步骤的指令：获取未标记的第一企业数据集和已标记的第二企业数据集，其中未标记的第一企业数据集为已上市但无续存期债券的企业的企业数据，已标记的第二企业数据集为根据企业债券是否发生违约而标记的企业的企业数据；根据已标记的第二企业数据集对第一企业数据集进行标记，确定第三企业数据集；以及根据第三企业数据集对违约预测模型进行训练。
70.可选地，根据已标记的第二企业数据集对第一企业数据集进行标记，确定第三企业数据集的操作，包括：根据已标记的第二企业数据集对所数据第一企业数据集进行第一标记；通过迭代方式利用第二企业数据集训练的分类器确定对第一企业数据集进行第二标记；以及将第一企业数据集中各个企业数据的第一标记与第二标记进行比较，标记一致的情况下，将企业数据加入第三企业数据集。
71.可选地，根据已标记的第二企业数据集对所数据第一企业数据集进行第一标记的操作，包括：利用加权knn算法，确定最邻近第一企业数据集中各个企业数据的k个第二数据集中的企业数据；以及根据k个第二数据集中的企业数据对相应的第一企业数据集中的企业数据进行第一标记。
72.可选地，通过迭代方式利用第二企业数据集训练的分类器确定对第一企业数据集进行第二标记的操作，包括：在迭代过程中，根据第二企业数据集中的第四数据集训练得到第一分类器，利用第一分类器对第一企业数据集进行第二标记；以及在迭代过程中，根据第二企业数据集中的第五数据集训练得到第二分类器利用第二分类器对第一企业数据集进行第二标记。
73.此外，图8示出了根据本实施例的第二个方面的违约预测装置800，该装置800与根据实施例1的第二个方面的方法相对应。参考图8所示，该装置800包括：第二处理器810；以及第二存储器820，与第二处理器810连接，用于为第二处理器810提供处理以下处理步骤的指令：获取有存续期债券的企业的企业数据；以及通过预设的违约预测模型，根据企业数据，预测企业的违约概率。
74.从而根据本实施例，利用上市公司未发债的企业通过协同学习的方式进行正样本的预测学习，增加正样本的数量平衡了正负样本的数量。改进了协同学习的判别方式，引入了加权knn修正，协同学习中可能存在的类别错误预测问题；引入了自动的类别特征处理算法进行企业违约推理的预测，增加的特征的丰富性，对提高准确率有重要意义。
75.上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
76.在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
77.在本技术所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
78.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显
示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
79.另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
80.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，randomaccess memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
81.以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

技术特征：

1.一种违约预测模型的训练方法，其特征在于，包括：获取未标记的第一企业数据集和已标记的第二企业数据集，其中所述未标记的第一企业数据集为已上市但无续存期债券的企业的企业数据，所述已标记的第二企业数据集为根据企业债券是否发生违约而标记的企业的企业数据；根据所述已标记的第二企业数据集对所述第一企业数据集进行标记，确定第三企业数据集；以及根据所述第三企业数据集对违约预测模型进行训练。2.根据权利要求1所述的方法，其特征在于，根据所述已标记的第二企业数据集对所述第一企业数据集进行标记，确定第三企业数据集的操作，包括：根据所述已标记的第二企业数据集对所数据第一企业数据集进行第一标记；通过迭代方式利用所述第二企业数据集训练的分类器确定对所述第一企业数据集进行第二标记；以及将所述第一企业数据集中各个企业数据的第一标记与第二标记进行比较，标记一致的情况下，将所述企业数据加入所述第三企业数据集。3.根据权利要求2所述的方法，其特征在于，根据所述已标记的第二企业数据集对所数据第一企业数据集进行第一标记的操作，包括：利用加权knn算法，确定最邻近第一企业数据集中各个企业数据的k个第二数据集中的企业数据；以及根据所述k个第二数据集中的企业数据对相应的第一企业数据集中的企业数据进行第一标记。4.根据权利要求2所述的方法，其特征在于，通过迭代方式利用所述第二企业数据集训练的分类器确定对所述第一企业数据集进行第二标记的操作，包括：在迭代过程中，根据所述第二企业数据集中的第四数据集训练得到第一分类器，利用所述第一分类器对所述第一企业数据集进行第二标记；以及在迭代过程中，根据所述第二企业数据集中的第五数据集训练得到第二分类器利用所述第二分类器对所述第一企业数据集进行第二标记。5.一种违约预测方法，其特征在于，包括：获取有存续期债券的企业的企业数据；以及通过预设的违约预测模型，根据所述企业数据，预测所述企业的违约概率。6.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时由处理器执行权利要求1至5中任意一项所述的方法。7.一种违约预测模型的训练装置，其特征在于，包括：第一获取模块，用于获取未标记的第一企业数据集和已标记的第二企业数据集，其中所述未标记的第一企业数据集为已上市但无续存期债券的企业的企业数据，所述已标记的第二企业数据集为根据企业债券是否发生违约而标记的企业的企业数据；数据确定模块，用于根据所述已标记的第二企业数据集对所述第一企业数据集进行标记，确定第三企业数据集；以及模型训练模块，用于根据所述第三企业数据集对违约预测模型进行训练。8.一种违约预测装置，其特征在于，包括：
第二获取模块，用于获取有存续期债券的企业的企业数据；以及概率预测模块，用于通过预设的违约预测模型，根据所述企业数据，预测所述企业的违约概率。9.一种违约预测模型的训练装置，其特征在于，包括：第一处理器；以及第一存储器，与所述第一处理器连接，用于为所述第一处理器提供处理以下处理步骤的指令：获取未标记的第一企业数据集和已标记的第二企业数据集，其中所述未标记的第一企业数据集为已上市但无续存期债券的企业的企业数据，所述已标记的第二企业数据集为根据企业债券是否发生违约而标记的企业的企业数据；根据所述已标记的第二企业数据集对所述第一企业数据集进行标记，确定第三企业数据集；以及根据所述第三企业数据集对违约预测模型进行训练。10.一种违约预测装置，其特征在于，包括：第二处理器；以及第二存储器，与所述第二处理器连接，用于为所述第二处理器提供处理以下处理步骤的指令：获取有存续期债券的企业的企业数据；以及通过预设的违约预测模型，根据所述企业数据，预测所述企业的违约概率。

技术总结

本申请公开了一种违约预测和违约预测模型的训练方法、装置以及存储介质。其中，一种违约预测模型的训练方法，包括：获取未标记的第一企业数据集和已标记的第二企业数据集，其中未标记的第一企业数据集为已上市但无续存期债券的企业的企业数据，已标记的第二企业数据集为根据企业债券是否发生违约而标记的企业的企业数据；根据已标记的第二企业数据集对第一企业数据集进行标记，确定第三企业数据集；以及根据第三企业数据集对违约预测模型进行训练。训练。训练。