数据传输方法及数据传输系统与流程



1.本发明涉及风险控制领域,尤其涉及数据传输方法及数据传输系统。


背景技术:



2.随着现代社会的科技水平的发展,大数据以其巨大的资料规模量、超高的更新速度和对决策的有效依据性,成为现代社会中的重要信息挖掘来源。
3.然而,由于大数据的价值密度低,在其海量的数据信息中,真正具有价值的数据信息少之又少,且存在许多错误的、不完整的数据信息,这些数据信息将会对决策带来风险,因此为了保证决策的可靠性,避免因数据风险造成决策错误,需要对数据信息进行风险控制判断与处理。传统的风控技术,多由决策机构的风控工作人员以人工的方式根据历史经验进行数据信息风险控制。在现有技术中,往往根据风控需求配置风控策略,以使配置后的风控策略能够达到预期的风控效果,例如,需要根据实际的风控需求,确定出预期风控效果,而后通过对以往大量历史业务信息的分析,确定出符合该预设风控效果的风控策略,进而将该风控策略进行配置,例如中国专利zl201710416942.1公开了一种风控策略配置以及业务风控的方法及装置,该发明中设备可根据预设的各风险概率、各历史业务信息以及各历史业务信息对应的实际风控结果,确定出若干风控策略及其对应的风控效果表征值,并从各风控效果表征值中选择出落入目标范围的风控效果表征值,进而将该风控效果表征值对应的风控策略进行配置,风控人员在对风控策略进行配置时,只需将确定出的风控效果表征值的目标范围输入到该设备中,该设备即可根据风控人员输入的风控效果表征值的目标范围,确定出与该目标范围相适应的风控策略并配置,此发明虽然减少了配置风控策略所需的时间,但对数据风险程度的评估能力低。


技术实现要素:



4.为此,本发明提供数据传输方法及数据传输系统,可以解决现有技术对数据风险程度的评估能力低的问题。
5.为实现上述目的,一方面,本发明提供一种数据传输方法,包括:
6.获取样本数据,对样本数据进行数据清洗,构建数据可信度自动评分模型并对数据可信度自动评分模型进行评估和优化,建立数据可信度自动评分模块;
7.构建数据可信度评分请求,并由所述数据可信度自动评分模块对所述数据可信度评分请求中的初始信息数据进行风险程度评估。
8.进一步地,建立数据可信度自动评分模块方法,包括:
9.根据所述样本数据预设描述指标库,并对样本数据进行数据清洗,将清洗后所得的符合数据质量要求的良性样本数据转化成可用作模型开发的格式化样本数据;
10.根据所述格式化样本数据和所述描述指标库,确定若干个用于描述格式化样本数据的风险程度的描述指标;
11.从所述描述指标中筛选出对格式化样本数据的风险程度影响最显著的指示指标;
12.根据所述指示指标和格式化样本数据,构建数据可信度自动评分模型;
13.对所述数据可信度自动评分模型的可靠性进行评估,判断该数据可信度自动评分模型是否可用,并根据判断结果选择拟合度最大的数据可信度自动评分模型作为数据可信度自动评分应用模型;
14.根据格式化样本数据的风险程度和所述数据可信度自动评分应用模型,确定划分格式化样本数据的风险程度等级,并将所述风险程度等级转化为相应的标准评分等级;
15.根据数据可信度自动评分应用模型和所述标准评分等级建立数据可信度自动评分模块。
16.进一步地,对样本数据进行清洗方法,包括:
17.对样本数据进行一致性处理,获得一级样本数据;
18.对一级样本数据进行缺失值判断,并根据一级样本数据的误差量在一级样本数据总量中的误差占比调整一致性处理的取值范围或对一级样本数据进行缺失值处理并获取二级样本数据,根据一级样本数据与二级样本数据的第一差值判断描述指标库的指标范围是否需要调整;
19.对二级样本数据进行异常值判断,并根据二级样本数据的异常量在二级样本数据总量中的异常占比调整一致性处理的取值范围或对二级样本数据进行缺失值处理并获取三级样本数据,根据二级样本数据与三级样本数据的第二差值的大小判断描述指标库的指标范围是否需要调整。
20.进一步地,当比较一级样本数据的误差量在一级样本数据总量中的误差占比与标准误差占比时,预设标准误差占比,比较误差占比与标准误差占比的大小关系,
21.当误差占比≥标准误差占比时,缩小一致性处理的取值范围;
22.当误差占比《标准误差占比时,对一级样本数据进行缺失值处理并获取二级样本数据,根据一级样本数据与二级样本数据的第一差值的大小判断描述指标库是否需要调整。
23.进一步地,当误差占比q≥标准误差占比q0,缩小一致性处理的取值范围[m0,n0]时,设置第一调整参数k1,令一致性处理的取值范围缩小为[m1,n1],其中,m1=(1+k1)
×
m0,n1=(1-k1)
×
n0,k1=q/q0,
[0024]
当m1《n1时,对一级样本数据进行缺失值处理并获取二级样本数据,根据一级样本数据与二级样本数据的第一差值的大小判断描述指标库的指标范围是否需要调整;
[0025]
当m1≥n1时,更换缺失值的处理方法,并再次比较误差占比与标准误差占比的大小。
[0026]
进一步地,当比较二级样本数据中的异常量在二级样本数据总量中的异常占比与标准异常占比时,预设标准异常占比,比较异常占比和标准异常占比的大小关系,
[0027]
当异常占比≥标准异常占比时,缩小一致性处理的取值范围;
[0028]
当异常占比《标准异常占比时,对二级样本数据进行缺失值处理,获取三级样本数据并将三级样本数据,根据二级样本数据与三级样本数据的第二差值的大小判断描述指标库的指标范围是否需要调整。
[0029]
进一步地,当异常占比p≥标准异常占比p0,缩小一致性处理的取值范围[m0,n0]时,设置第二调整参数k2,令一致性处理的取值范围缩小为[m2,n2],其中,m2=(1+k2)
×
m0,n1=(1-k2)
×
n0,k2=p/p0,
[0030]
当m2《n2时,对二级样本数据进行缺失值处理并获取三级样本数据,根据二级样本数据与三级样本数据的第二差值的大小判断描述指标库的指标范围是否需要调整;
[0031]
当m2≥n2时,更换异常值的处理方法,并再次比较异常占比与标准异常占比的大小。
[0032]
进一步地,当根据一级样本数据n1与二级样本数据n2的第一差值

n1的大小判断描述指标库的指标范围是否需要调整时,预先设置有第一标准差值,比较第一差值

n1与第一标准差值的大小关系,其中,

n1=n1-n2,
[0033]


n1≧第一标准差值时,认为描述指标库一级合格,不对描述指标库的指标范围进行调整,
[0034]


n1《第一标准差值时,认为描述指标库一级不合格,调整描述指标库的指标范围;
[0035]
当根据二级样本数据n2与三级样本数据n3的第二差值

n12的大小判断描述指标库的指标范围是否需要调整时,预先设置有第二标准差值,比较第二差值

n2与第二标准差值的大小关系,其中,

n2=n2-n3,
[0036]


n2≧第二标准差值时,认为描述指标库二级合格,不对描述指标库的指标范围进行调整,
[0037]


n2《第二标准差值时,认为描述指标库二级不合格,调整描述指标库的指标范围。
[0038]
进一步地,对所述数据可信度自动评分模型的可靠性进行评估,包括:
[0039]
统计数据可信度自动评分模型正确分类的训练数据的正确分类量,并根据所述正确分类量占训练数据总量的正确分类百分比,判断所述数据可信度自动评分模型是否可用,并根据判断结果选择拟合度最大的数据可信度自动评分模型作为数据可信度自动评分应用模型时,
[0040]
当正确分类百分比》标准正确分类百分比时,认为数据可信度自动评分模型对训练数据分类的准确分类能力符合标准,
[0041]
当正确分类百分比≦标准正确分类百分比时,认为数据可信度自动评分模型对训练数据分类的准确分类能力不符合标准,数据可信度自动评分模型不可用,构建新数据可信度自动评分模型;
[0042]
统计数据可信度自动评分模型正确预测属于正确类别的训练数据的正确预测量,并根据所述正确预测量占训练数据总量的正确预测百分比,判断所述数据可信度自动评分模型是否可用,
[0043]
当正确预测百分比》标准正确预测百分比时,认为数据可信度自动评分模型对训练数据分类的预测能力符合标准,
[0044]
当正确预测百分比≦标准正确预测百分比时,数据可信度自动评分模型对训练数据分类的预测能力不符合标准,认为数据可信度自动评分模型不可用,构建新数据可信度自动评分模型;
[0045]
当数据可信度自动评分模型的所述准确分类能力和所述预测能力同时符合标准时,认为评估结果为合格,将数据可信度自动评分模型作为数据可信度自动评分应用模型,
[0046]
当数据可信度自动评分模型的所述准确分类能力和所述预测能力中至少有一个不符合标准时,认为评估结果为不合格,构建新数据可信度自动评分模型。
[0047]
另一方面,本发明还提供一种数据传输系统,其数据传输方法为上述数据传输方法,其特征在于,包括:
[0048]
数据读取模块,用于接收系统外部传输的数据可信度评分请求并读取所述数据可信度评分请求中的初始数据信息,将所述初始数据信息传输至数据处理模块;
[0049]
所述数据处理模块,用于接收初始数据信息,对初始数据信息进行数据清洗并将数据清洗后得到的良性初始数据信息转化为格式化的风险评估数据;
[0050]
数据可信度自动评分模块,用于构建数据可信度自动评分模型并对数据可信度自动评分模型的可靠性进行评估,将评估结果为合格的数据可信度自动评分模型作为数据可信度自动评分应用模型,接收风险评估数据并对所述风险评估数据的进行风险程度等级进行评估。
[0051]
与现有技术相比,本发明的有益效果在于,通过利用样本数据构建数据可信度自动评分模块,使用数据可信度自动评分模块对风险程度未知的初始信息数据进行风险程度的评估,使数据可信度自动评分模块的建立依据数据具有真实性,从建立依据数据层面保证了数据可信度自动评分模块的可靠性,从而提高了数据传输方法的数据风险评估能力。
[0052]
通过预设描述指标库,对样本数据进行清洗,获取可用作模型开发的格式化样本数据,根据所述格式化样本数据和所述描述指标库确定对格式化样本数据的风险程度影响最显著的指示指标,根据所述指示指标和格式化样本数据,构建数据可信度自动评分模型,对数据可信度自动评分模型的可靠性进行评估,最终选定拟合度最大的数据可信度自动评分模型作为数据可信度自动评分应用模型,以数据可信度自动评分应用模型为基础建立数据可信度自动评分模块,不仅从样本数据的处理层面和指示指标的选择层面保证数据可信度自动评分模型的数据风险程度评估的可靠性,而且对数据可信度自动评分模型的可靠性进行评估和优化,提高数据可信度自动评分模型的数据风险程度评估的测试能力,进而提高了数据可信度自动评分模块的数据风险程度评估的可靠性,从而提高了数据传输方法的数据风险评估能力。
[0053]
通过对样本数据按照一致性处理、缺失值处理和异常值处理的顺序进行数据清洗,并且在进行每一步数据清洗时,根据误差占比和异常占比判断一致性处理的取值范围是否合理并在一致性处理的取值范围不合理时及时调整,保证一致性处理的取值范围的合理性,根据第一差值和第二差值判断描述指标库的指标范围是否合理并在描述指标库的指标范围不合理时及时调整,保证描述指标库的指标范围的合理性,在样本数据的处理层面和指示指标的选择层面保证数据可信度自动评分模型的数据风险程度评估的可靠性,进而提高了数据可信度自动评分模块的数据风险程度评估的可靠性,从而提高了数据传输方法的数据风险评估能力。
[0054]
通过根据误差占比判断一致性处理的取值范围是否合理并在一致性处理的取值范围不合理时及时调整,保证一致性处理的取值范围的合理性,根据第一差值判断描述指标库的指标范围是否合理并在描述指标库的指标范围不合理时及时调整,保证描述指标库的指标范围的合理性,在样本数据的处理层面和指示指标的选择层面保证数据可信度自动评分模型的数据风险程度评估的可靠性,进而提高了数据可信度自动评分模块的数据风险
程度评估的可靠性,从而提高了数据传输方法的数据风险评估能力。
[0055]
通过根据误差占比判断一致性处理的取值范围是否合理,并设置第一调整参数k1,在一致性处理的取值范围不合理时对一致性处理的取值范围及时调整,保证一致性处理的取值范围的合理性,在样本数据的处理层面保证数据可信度自动评分模型的数据风险程度评估的可靠性,进而提高了数据可信度自动评分模块的数据风险程度评估的可靠性,从而提高了数据传输方法的数据风险评估能力。
[0056]
通过根据异常占比判断一致性处理的取值范围是否合理并在一致性处理的取值范围不合理时及时调整,保证一致性处理的取值范围的合理性,根据第二差值判断描述指标库的指标范围是否合理并在描述指标库的指标范围不合理时及时调整,保证描述指标库的指标范围的合理性,在样本数据的处理层面和指示指标的选择层面保证数据可信度自动评分模型的数据风险程度评估的可靠性,进而提高了数据可信度自动评分模块的数据风险程度评估的可靠性,从而提高了数据传输方法的数据风险评估能力。
[0057]
通过根据异常占比判断一致性处理的取值范围是否合理,并设置第二调整参数k2,在一致性处理的取值范围不合理时对一致性处理的取值范围及时调整,保证一致性处理的取值范围的合理性,在样本数据的处理层面保证数据可信度自动评分模型的数据风险程度评估的可靠性,进而提高了数据可信度自动评分模块的数据风险程度评估的可靠性,从而提高了数据传输方法的数据风险评估能力。
[0058]
通过根据第一差值和第二差值判断描述指标库的指标范围是否合理并在描述指标库的指标范围不合理时及时调整,保证描述指标库的指标范围的合理性,在样本数据的处理层面和指示指标的选择层面保证数据可信度自动评分模型的数据风险程度评估的可靠性,进而提高了数据可信度自动评分模块的数据风险程度评估的可靠性,从而提高了数据传输方法的数据风险评估能力。
[0059]
通过对数据可信度自动评分模型的准确分类能力和预测能力分别进行检验,并且在准确分类能力和预测能力中至少有一个不符合标准时即认定数据可信度自动评分模型的评估结果不合格,重新构建新数据可信度自动评分模型,只有在准确分类能力和预测能力同时符合标准时认为数据可信度自动评分模型的评估结果为合格,为数据可信度自动评分模型的数据风险程度评估的可靠性提供了保证,进而保证了数据可信度自动评分模块的数据风险程度评估的可靠性,从而提高了数据传输方法的数据风险评估能力。
[0060]
通过以数据可信度自动评分模块为主体,使用数据风险程度评估的可靠性高的数据传输方法构建数据风险程度评估能力可靠的数据可信度自动评分模型,由数据读取模块将数据可信度评分请求中的初始数据信息攫取,由数据处理模块对待评估的初始数据信息进行数据清洗获得格式化的风险评估数据,由数据可信度自动评分模块对风险评估数据进行风险评估,使风险评估数据的风险评估结果可靠,从而提高了数据传输方法的数据风险评估能力。
附图说明
[0061]
图1为本发明实施例提供的数据传输方法的简易流程图;
[0062]
图2为本发明实施例提供的数据传输方法中的建立数据可信度自动评分模块步骤的简易流程图;
[0063]
图3为本发明实施例提供的数据传输方法中的建立数据可信度自动评分模块步骤中数据清洗的简易流程图;
[0064]
图4为本发明实施例提供的数据传输系统的结构示意图;
[0065]
图5为本发明实施例提供的数据可信度自动评分模型b与数据可信度自动评分模型a的拟合度对比图。
具体实施方式
[0066]
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
[0067]
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
[0068]
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
[0069]
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
[0070]
请参阅图1所示,本发明实施例提供一种数据传输方法,包括:
[0071]
获取样本数据,对样本数据进行数据清洗,构建数据可信度自动评分模型并对数据可信度自动评分模型进行评估和优化,建立数据可信度自动评分模块;
[0072]
构建数据可信度评分请求,并由所述数据可信度自动评分模块对所述数据可信度评分请求中的初始信息数据进行风险程度评估。
[0073]
工作人员通过各种途径获取大量来自存量客户及潜在客户的样本数据,以支持数据可信度自动评分模块的构建,在数据可信度自动评分模块构建完成后,即可投入使用,数据可信度自动评分模块接收数据可信度评分请求并对数据可信度评分请求中的初始信息数据进行风险程度评估,从而获得初始信息数据的风险程度的评估结果。
[0074]
通过利用样本数据构建数据可信度自动评分模块,使用数据可信度自动评分模块对风险程度未知的初始信息数据进行风险程度的评估,使数据可信度自动评分模块的建立依据数据具有真实性,从建立依据数据层面保证了数据可信度自动评分模块的可靠性,从而提高了数据传输方法的数据风险评估能力。
[0075]
请参阅图2所示,本发明实施例所提供的数据传输方法中的。建立数据可信度自动评分模型步骤的简易流程图
[0076]
具体而言,建立数据可信度自动评分模块方法,包括:
[0077]
根据所述样本数据预设描述指标库,并对样本数据进行数据清洗,并将清洗后所得的符合数据质量要求的良性样本数据转化成可用作模型开发的格式化样本数据;
[0078]
根据所述格式化样本数据和所述描述指标库,确定若干个用于描述格式化样本数
据的风险程度的描述指标;
[0079]
从所述描述指标中筛选出对格式化样本数据的风险程度影响最显著的指示指标;
[0080]
根据所述指示指标和格式化样本数据,构建数据可信度自动评分模型;
[0081]
对所述数据可信度自动评分模型的可靠性进行评估,判断该数据可信度自动评分模型是否可用,并根据判断结果选择拟合度最大的数据可信度自动评分模型作为数据可信度自动评分应用模型;
[0082]
根据格式化样本数据的风险程度和所述数据可信度自动评分应用模型,确定划分格式化样本数据的风险程度等级,并将所述风险程度等级转化为相应的标准评分等级;
[0083]
根据数据可信度自动评分应用模型和所述标准评分等级建立数据可信度自动评分模块。
[0084]
通过预设描述指标库,对样本数据进行清洗,获取可用作模型开发的格式化样本数据,根据所述格式化样本数据和所述描述指标库确定对格式化样本数据的风险程度影响最显著的指示指标,根据所述指示指标和格式化样本数据,构建数据可信度自动评分模型,对数据可信度自动评分模型的可靠性进行评估,最终选定拟合度最大的数据可信度自动评分模型作为数据可信度自动评分应用模型,以数据可信度自动评分应用模型为基础建立数据可信度自动评分模块,不仅从样本数据的处理层面和指示指标的选择层面保证数据可信度自动评分模型的数据风险程度评估的可靠性,而且对数据可信度自动评分模型的可靠性进行评估和优化,提高数据可信度自动评分模型的数据风险程度评估的测试能力,进而提高了数据可信度自动评分模块的数据风险程度评估的可靠性,从而提高了数据传输方法的数据风险评估能力。
[0085]
请参阅图3所示,本发明实施例提供的数据传输方法中的建立数据可信度自动评分模型步骤中数据清洗的简易流程图。
[0086]
具体而言,根据所述样本数据预设描述指标库并对样本数据进行数据清洗方法,包括:
[0087]
对样本数据进行一致性处理,获得一级样本数据;
[0088]
对一级样本数据进行缺失值判断,并根据一级样本数据中的误差样本数据的误差量在一级样本数据总量中的误差占比调整一致性处理的取值范围或对一级样本数据进行缺失值处理并获取二级样本数据,根据一级样本数据与二级样本数据的第一差值的大小判断描述指标库的指标范围是否需要调整;
[0089]
对二级样本数据进行异常值判断,并根据二级样本数据中的异常样本数据的异常量在二级样本数据总量中的异常占比调整一致性处理的取值范围或对二级样本数据进行缺失值处理并获取三级样本数据,根据一级样本数据与二级样本数据的第一差值的大小判断描述指标库的指标范围是否需要调整。
[0090]
工作人员获取的样本数据并非全部可用,其中一些样本数据可能会存在数据不符合范围要求、不符合逻辑要求、数据缺失、数据重复等等一系列影响数据可信度自动评分模型构建的问题,因此需要在构建数据可信度自动评分模型之前,对样本数据进行数据清洗,进行数据清洗时,首先进行一致性处理,将不符合一致性标准的样本数据剔除,所得剩余的样本数据作为第一样本数据进行缺失值判断,将判断为缺失的第一样本数据的数量,即误差量进行计算,并且计算误差量占第一样本数据的总量的误差占比,当误差占比不符合要
求时,认为一致性处理的取值范围不合理,即对一致性处理的取值范围进行调整,当误差占比符合要求时,认为一致性处理的取值范围合理,即对第一样本数据进行缺失值处理,获取第二样本数据并且根据第一样本数据与第二样本数据的第一差值的大小判断预设的描述指标库中所选择的描述指标的指标范围是否合理,当认为描述指标库的指标范围不合理时,调整描述指标库的指标范围并重新对样本数据进行清洗,当认为描述指标库的指标范围合理时,对第二样本数据进行异常值判断,将判断为异常的第二样本数据的数量,即异常量进行计算,并且计算异常量占第二样本数据的总量的异常占比,当异常占比不符合要求时,认为一致性处理的取值范围不合理,即对一致性处理的取值范围进行调整,当异常占比符合要求时,认为一致性处理的取值范围合理,即对第二样本数据进行异常值处理,获取第三样本数据并且根据第二样本数据与第三样本数据的第二差值的大小判断预设的描述指标库中所选择的描述指标的指标范围是否合理,当认为描述指标库的指标范围不合理时,调整描述指标库的指标范围并重新对样本数据进行清洗,当认为描述指标库的指标范围合理时,将第三样本数据作为良性样本数据。
[0091]
通过对样本数据按照一致性处理、缺失值处理和异常值处理的顺序进行数据清洗,并且在进行每一步数据清洗时,根据误差占比和异常占比判断一致性处理的取值范围是否合理并在一致性处理的取值范围不合理时及时调整,保证一致性处理的取值范围的合理性,根据第一差值和第二差值判断描述指标库的指标范围是否合理并在描述指标库的指标范围不合理时及时调整,保证描述指标库的指标范围的合理性,在样本数据的处理层面和指示指标的选择层面保证数据可信度自动评分模型的数据风险程度评估的可靠性,进而提高了数据可信度自动评分模块的数据风险程度评估的可靠性,从而提高了数据传输方法的数据风险评估能力。
[0092]
具体而言,当根据一级样本数据中的误差样本数据的误差量在一级样本数据总量中的误差占比调整一致性处理的取值范围或对一级样本数据进行缺失值处理并获取二级样本数据时,预设标准误差占比,比较误差占比与标准误差占比的大小关系,
[0093]
当误差占比≥标准误差占比时,缩小一致性处理的取值范围;
[0094]
当误差占比《标准误差占比时,对一级样本数据进行缺失值处理并获取二级样本数据,根据一级样本数据与二级样本数据的第一差值的大小判断描述指标库是否需要调整。
[0095]
通过根据误差占比判断一致性处理的取值范围是否合理并在一致性处理的取值范围不合理时及时调整,保证一致性处理的取值范围的合理性,根据第一差值判断描述指标库的指标范围是否合理并在描述指标库的指标范围不合理时及时调整,保证描述指标库的指标范围的合理性,在样本数据的处理层面和指示指标的选择层面保证数据可信度自动评分模型的数据风险程度评估的可靠性,进而提高了数据可信度自动评分模块的数据风险程度评估的可靠性,从而提高了数据传输方法的数据风险评估能力。
[0096]
具体而言,当误差占比q≥标准误差占比q0,缩小一致性处理的取值范围[m0,n0]时,设置第一调整参数k1,令一致性处理的取值范围缩小为[m1,n1],其中,m1=(1+k1)
×
m0,n1=(1-k1)
×
n0,k1=q/q0,
[0097]
当m1《n1时,对一级样本数据进行缺失值处理并获取二级样本数据,根据一级样本数据与二级样本数据的第一差值的大小判断描述指标库的指标范围是否需要调整;
[0098]
当m1≥n1时,更换缺失值的处理方法,并再次比较误差占比与标准误差占比的大小。
[0099]
在具体实施例中,缺失值的处理方法首先采用通过分析变量之间的相关分析或逻辑推论进行估计的估算法,但当估算法不符合数据清洗的要求时,将缺失值的处理方法由估算法更换为其他缺失值的处理方法,如整例删除、变量删除、成对删除等方法。
[0100]
通过根据误差占比判断一致性处理的取值范围是否合理,并设置第一调整参数k1,在一致性处理的取值范围不合理时对一致性处理的取值范围及时调整,保证一致性处理的取值范围的合理性,在样本数据的处理层面保证数据可信度自动评分模型的数据风险程度评估的可靠性,进而提高了数据可信度自动评分模块的数据风险程度评估的可靠性,从而提高了数据传输方法的数据风险评估能力。
[0101]
具体而言,当根据二级样本数据中的异常样本数据的异常量在二级样本数据总量中的异常占比调整一致性处理的取值范围或对二级样本数据进行缺失值处理并获取三级样本数据时,预设标准异常占比,比较异常占比和标准异常占比的大小关系,
[0102]
当异常占比≥标准异常占比时,缩小一致性处理的取值范围;
[0103]
当异常占比《标准异常占比时,对二级样本数据进行缺失值处理,获取三级样本数据并将三级样本数据,根据二级样本数据与三级样本数据的第二差值的大小判断描述指标库的指标范围是否需要调整。
[0104]
通过根据异常占比判断一致性处理的取值范围是否合理并在一致性处理的取值范围不合理时及时调整,保证一致性处理的取值范围的合理性,根据第二差值判断描述指标库的指标范围是否合理并在描述指标库的指标范围不合理时及时调整,保证描述指标库的指标范围的合理性,在样本数据的处理层面和指示指标的选择层面保证数据可信度自动评分模型的数据风险程度评估的可靠性,进而提高了数据可信度自动评分模块的数据风险程度评估的可靠性,从而提高了数据传输方法的数据风险评估能力。
[0105]
具体而言,当异常占比p≥标准异常占比p0,缩小一致性处理的取值范围[m0,n0]时,设置第二调整参数k2,令一致性处理的取值范围缩小为[m2,n2],其中,m2=(1+k2)
×
m0,n1=(1-k2)
×
n0,k2=p/p0,
[0106]
当m2《n2时,对二级样本数据进行缺失值处理并获取三级样本数据,根据二级样本数据与三级样本数据的第二差值的大小判断描述指标库的指标范围是否需要调整;
[0107]
当m2≥n2时,更换异常值的处理方法,并再次比较异常占比与标准异常占比的大小。
[0108]
在具体实施例中,异常值的处理方法首先采用能够最大程度保留样本数据的成对删除法,但当成对删除法不符合数据清洗的要求时,将成对删除法更换为其他缺失值的处理方法,如估算法、整例删除和变量删除等方法。
[0109]
通过根据异常占比判断一致性处理的取值范围是否合理,并设置第二调整参数k2,在一致性处理的取值范围不合理时对一致性处理的取值范围及时调整,保证一致性处理的取值范围的合理性,在样本数据的处理层面保证数据可信度自动评分模型的数据风险程度评估的可靠性,进而提高了数据可信度自动评分模块的数据风险程度评估的可靠性,从而提高了数据传输方法的数据风险评估能力。
[0110]
具体而言,当根据一级样本数据n1与二级样本数据n2的第一差值

n1的大小判断
描述指标库的指标范围是否需要调整时,预先设置有第一标准差值,比较第一差值

n1与第一标准差值的大小关系,其中,

n1=n1-n2,
[0111]


n1≧第一标准差值时,认为描述指标库一级合格,不对描述指标库的指标范围进行调整,
[0112]


n1《第一标准差值时,认为描述指标库一级不合格,调整描述指标库的指标范围;
[0113]
当根据二级样本数据n2与三级样本数据n3的第二差值

n12的大小判断描述指标库的指标范围是否需要调整时,预先设置有第二标准差值,比较第二差值

n2与第二标准差值的大小关系,其中,

n2=n2-n3,
[0114]


n2≧第二标准差值时,认为描述指标库二级合格,不对描述指标库的指标范围进行调整,
[0115]


n2《第二标准差值时,认为描述指标库二级不合格,调整描述指标库的指标范围。
[0116]
通过根据第一差值和第二差值判断描述指标库的指标范围是否合理并在描述指标库的指标范围不合理时及时调整,保证描述指标库的指标范围的合理性,在样本数据的处理层面和指示指标的选择层面保证数据可信度自动评分模型的数据风险程度评估的可靠性,进而提高了数据可信度自动评分模块的数据风险程度评估的可靠性,从而提高了数据传输方法的数据风险评估能力。
[0117]
具体而言,对所述数据可信度自动评分模型的可靠性进行评估,包括:
[0118]
统计数据可信度自动评分模型正确分类的训练数据的正确分类量,并根据所述正确分类量占训练数据总量的正确分类百分比,判断所述数据可信度自动评分模型是否可用,并根据判断结果选择拟合度最大的数据可信度自动评分模型作为数据可信度自动评分应用模型时,
[0119]
当正确分类百分比》标准正确分类百分比时,认为数据可信度自动评分模型对训练数据分类的准确分类能力符合标准,
[0120]
当正确分类百分比≦标准正确分类百分比时,认为数据可信度自动评分模型对训练数据分类的准确分类能力不符合标准,数据可信度自动评分模型不可用,构建新数据可信度自动评分模型;
[0121]
统计数据可信度自动评分模型正确预测属于正确类别的训练数据的正确预测量,并根据所述正确预测量占训练数据总量的正确预测百分比,判断所述数据可信度自动评分模型是否可用,
[0122]
当正确预测百分比》标准正确预测百分比时,认为数据可信度自动评分模型对训练数据分类的预测能力符合标准,
[0123]
当正确预测百分比≦标准正确预测百分比时,数据可信度自动评分模型对训练数据分类的预测能力不符合标准,认为数据可信度自动评分模型不可用,构建新数据可信度自动评分模型;
[0124]
当数据可信度自动评分模型的所述准确分类能力和所述预测能力同时符合标准时,认为评估结果为合格,将数据可信度自动评分模型作为数据可信度自动评分应用模型,
[0125]
当数据可信度自动评分模型的所述准确分类能力和所述预测能力中至少有一个
不符合标准时,认为评估结果为不合格,构建新数据可信度自动评分模型。
[0126]
通过对数据可信度自动评分模型的准确分类能力和预测能力分别进行检验,并且在准确分类能力和预测能力中至少有一个不符合标准时即认定数据可信度自动评分模型的评估结果不合格,重新构建新数据可信度自动评分模型,只有在准确分类能力和预测能力同时符合标准时认为数据可信度自动评分模型的评估结果为合格,为数据可信度自动评分模型的数据风险程度评估的可靠性提供了保证,进而保证了数据可信度自动评分模块的数据风险程度评估的可靠性,从而提高了数据传输方法的数据风险评估能力。
[0127]
请参照图4所示,本发明实施例还提供一种数据传输系统,其数据传输方法为上述数据传输方法,该数据传输系统包括:
[0128]
数据读取模块1,用于接收系统外部传输的数据可信度评分请求并读取所述数据可信度评分请求中的初始数据信息,将所述初始数据信息传输至数据处理模块;
[0129]
所述数据处理模块2,用于接收初始数据信息,对初始数据信息进行数据清洗并将数据清洗后得到的良性初始数据信息转化为格式化的风险评估数据;
[0130]
数据可信度自动评分模块3,用于构建数据可信度自动评分模型并对数据可信度自动评分模型的可靠性进行评估,将评估结果为合格的数据可信度自动评分模型作为数据可信度自动评分应用模型,接收风险评估数据并对所述风险评估数据的进行风险程度等级进行评估。
[0131]
通过以数据可信度自动评分模块为主体,使用数据风险程度评估的可靠性高的数据传输方法构建数据风险程度评估能力可靠的数据可信度自动评分模型,由数据读取模块将数据可信度评分请求中的初始数据信息攫取,由数据处理模块对待评估的初始数据信息进行数据清洗获得格式化的风险评估数据,由数据可信度自动评分模块对风险评估数据进行风险评估,使风险评估数据的风险评估结果可靠,从而提高了数据传输方法的数据风险评估能力。
[0132]
在实际操作过程中,本发明实施例提供的一种数据传输方法的具体步骤如下:
[0133]
步骤s1:获取样本数据,根据所述样本数据建立数据可信度自动评分模块。
[0134]
其中,步骤s1包括:步骤s101:数据获取,获取存量客户及潜在客户的访问数据;
[0135]
步骤s102:数据预处理,主要工作包括数据清洗、缺失值处理、异常值处理,主要是为了将获取的原始数据转化为可用作模型开发的格式化数据;
[0136]
步骤s103:探索性数据分析,该步骤主要是获取样本总体的大概情况,描述样本总体情况的指标主要有直方图、箱形图等;
[0137]
步骤s104:变量选择,该步骤主要是通过统计学的方法,筛选出对违约状态影响最显著的指标,主要有单变量特征选择方法和基于机器学习模型的方法;
[0138]
步骤s105:模型开发,该步骤主要包括变量分段、变量的woe(证据权重)变换和逻辑回归估算三部分;
[0139]
步骤s106:模型评估,该步骤主要是评估模型的区分能力、预测能力、稳定性,并形成模型评估报告,得出模型是否可以使用的结论;
[0140]
步骤s107:信用评分,根据逻辑回归的系数和woe等确定信用评分的方法,将logistic模型转换为标准评分的形式;
[0141]
步骤s108:建立评分系统,根据信用评分方法,建立自动信用评分系统。
[0142]
步骤s2:构建数据可信度评分请求,并由所述数据可信度自动评分模块对所述数据可信度评分请求中的初始信息数据进行风险程度评估。
[0143]
其中,构建数据可信度评分请求如下:
[0144]
步骤s201:服务器端接收到客户端的第一数据请求信息,进入步骤s202;
[0145]
步骤s202:服务器端对客户端请求数据进行判断,是否是白名单,如果不是,则进入步骤s203,如果是,则进入步骤s204;
[0146]
步骤s203:服务器端根据客户端的请求信息,从风控算法中进行计算,如果通过,进入步骤s204;
[0147]
步骤s204:请求客户端端接收服务器端的回传结果信息。
[0148]
其中,服务器风控算法在校验时,是利用下述公式计算运行状态值:
[0149][0150]
sigmoid函数中z的值表示输入值的加权和,可以写成如下形式:
[0151][0152]
其中,x=输入值,y=预测输出,b0=偏差或截距项,b1=输入系数。
[0153]
使用最大似然训练逻辑回归中的参数,逻辑回归的训练函数定义为:
[0154][0155]
j(θ)中,h代表前面所示的sigmoid函数的参数,y代表训练数据的类别标签,x代表训练数据,如果是二分类算法,可以直观的表示如下:
[0156][0157]
为了拟合参数,需要最小化目标函数j(θ)。梯度下降算法可用于优化目标函数。这是执行梯度下降算法时更新参数的方程的样子。确保梯度下降正确运行,为θ计算j(θ)的值,并检查它是否在每次迭代中都在减小.
[0158][0159]
此步骤中也可以使用其他优化算法,例如:bfgs、l-bfgs等。
[0160]
并评估数据可信度自动评分模型的拟合优度时,可以从以下方面进行评估,
[0161]
1、准确度:表示正确分类样本的百分比,90%的准确度分数将告诉我们,数据可信度自动评分模型正确分类了90%的所有示例。
[0162]
2、roc auc:roc auc描述了trp-即数据可信度自动评分模型正确预测属于正确类别的样本的比率与假阳性率(fpr)之间的关系,尤其是在多类预测设置中或遇到类不平衡问题时,roc auc优于准确性。
[0163]
评估数据可信度自动评分模型拟合度,以选择在预测方面表现出的模型,如图5所示,具体实施例中,数据可信度自动评分模型b比数据可信度自动评分模型a的拟合度更好,这是因为,尽管a显示出高变异性,但b对数据的描述更精确。
[0164]
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
[0165]
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:


1.一种数据传输方法,其特征在于,包括:获取样本数据,对样本数据进行数据清洗,通过清洗后的样本数据构建数据可信度自动评分模型并对数据可信度自动评分模型进行评估和优化,建立数据可信度自动评分模块;构建数据可信度评分请求,并由所述数据可信度自动评分模块对所述数据可信度评分请求中的初始信息数据进行风险程度评估。2.根据权利要求1所述的数据传输方法,其特征在于,建立数据可信度自动评分模块方法,包括:根据所述样本数据预设描述指标库,并对样本数据进行数据清洗,将清洗后所得的符合数据质量要求的良性样本数据转化成可用作模型开发的格式化样本数据;根据所述格式化样本数据和所述描述指标库,确定若干个用于描述格式化样本数据的风险程度的描述指标;从所述描述指标中筛选出对格式化样本数据的风险程度影响最显著的指示指标;根据所述指示指标和格式化样本数据,构建数据可信度自动评分模型;对所述数据可信度自动评分模型的可靠性进行评估,判断该数据可信度自动评分模型是否可用,并根据判断结果选择拟合度最大的数据可信度自动评分模型作为数据可信度自动评分应用模型;根据格式化样本数据的风险程度和所述数据可信度自动评分应用模型,确定划分格式化样本数据的风险程度等级,并将所述风险程度等级转化为相应的标准评分等级;根据数据可信度自动评分应用模型和所述标准评分等级建立数据可信度自动评分模块。3.根据权利要求2所述的数据传输方法,其特征在于,对样本数据进行清洗方法,包括:对样本数据进行一致性处理,获得一级样本数据;对一级样本数据进行缺失值判断,并根据一级样本数据的误差量在一级样本数据总量中的误差占比调整一致性处理的取值范围或对一级样本数据进行缺失值处理并获取二级样本数据,根据一级样本数据与二级样本数据的第一差值判断描述指标库的指标范围是否需要调整;对二级样本数据进行异常值判断,并根据二级样本数据的异常量在二级样本数据总量中的异常占比调整一致性处理的取值范围或对二级样本数据进行缺失值处理并获取三级样本数据,根据二级样本数据与三级样本数据的第二差值的大小判断描述指标库的指标范围是否需要调整。4.根据权利要求3所述的数据传输方法,其特征在于,当比较一级样本数据的误差量在一级样本数据总量中的误差占比与标准误差占比时,预设标准误差占比,比较误差占比与标准误差占比的大小关系,当误差占比≥标准误差占比时,缩小一致性处理的取值范围;当误差占比<标准误差占比时,对一级样本数据进行缺失值处理并获取二级样本数据,根据一级样本数据与二级样本数据的第一差值的大小判断描述指标库是否需要调整。5.根据权利要求4所述的数据传输方法,其特征在于,当误差占比q≥标准误差占比q0,缩小一致性处理的取值范围[m0,n0]时,设置第一调整参数k1,令一致性处理的取值范围缩
小为[m1,n1],其中,m1=(1+k1)
×
m0,n1=(1-k1)
×
n0,k1=q/q0,当m1<n1时,对一级样本数据进行缺失值处理并获取二级样本数据,根据一级样本数据与二级样本数据的第一差值的大小判断描述指标库的指标范围是否需要调整;当m1≥n1时,更换缺失值的处理方法,并再次比较误差占比与标准误差占比的大小。6.根据权利要求5所述的数据传输方法,其特征在于,当比较二级样本数据中的异常量在二级样本数据总量中的异常占比与标准异常占比时,预设标准异常占比,比较异常占比和标准异常占比的大小关系,当异常占比≥标准异常占比时,缩小一致性处理的取值范围;当异常占比<标准异常占比时,对二级样本数据进行缺失值处理,获取三级样本数据并将三级样本数据,根据二级样本数据与三级样本数据的第二差值的大小判断描述指标库的指标范围是否需要调整。7.根据权利要求6所述的数据传输系统,其特征在于,当异常占比p≥标准异常占比p0,缩小一致性处理的取值范围[m0,n0]时,设置第二调整参数k2,令一致性处理的取值范围缩小为[m2,n2],其中,m2=(1+k2)
×
m0,n1=(1-k2)
×
n0,k2=p/p0,当m2<n2时,对二级样本数据进行缺失值处理并获取三级样本数据,根据二级样本数据与三级样本数据的第二差值的大小判断描述指标库的指标范围是否需要调整;当m2≥n2时,更换异常值的处理方法,并再次比较异常占比与标准异常占比的大小。8.根据权利要求7所述的数据传输方法,其特征在于,当根据一级样本数据n1与二级样本数据n2的第一差值

n1的大小判断描述指标库的指标范围是否需要调整时,预先设置有第一标准差值,比较第一差值

n1与第一标准差值的大小关系,其中,

n1=n1-n2,若

n1≧第一标准差值时,认为描述指标库一级合格,不对描述指标库的指标范围进行调整,若

n1<第一标准差值时,认为描述指标库一级不合格,调整描述指标库的指标范围;当根据二级样本数据n2与三级样本数据n3的第二差值

n2的大小判断描述指标库的指标范围是否需要调整时,预先设置有第二标准差值,比较第二差值

n2与第二标准差值的大小关系,其中,

n2=n2-n3,若

n2≧第二标准差值时,认为描述指标库二级合格,不对描述指标库的指标范围进行调整,若

n2<第二标准差值时,认为描述指标库二级不合格,调整描述指标库的指标范围。9.根据权利要求8所述的数据传输方法,其特征在于,对所述数据可信度自动评分模型的可靠性进行评估,包括:统计数据可信度自动评分模型正确分类的训练数据的正确分类量,并根据所述正确分类量占训练数据总量的正确分类百分比,判断所述数据可信度自动评分模型是否可用,并根据判断结果选择拟合度最大的数据可信度自动评分模型作为数据可信度自动评分应用模型时,当正确分类百分比>标准正确分类百分比时,认为数据可信度自动评分模型对训练数据分类的准确分类能力符合标准,当正确分类百分比≦标准正确分类百分比时,认为数据可信度自动评分模型对训练数据分类的准确分类能力不符合标准,数据可信度自动评分模型不可用,构建新数据可信度
自动评分模型;统计数据可信度自动评分模型正确预测属于正确类别的训练数据的正确预测量,并根据所述正确预测量占训练数据总量的正确预测百分比,判断所述数据可信度自动评分模型是否可用,当正确预测百分比>标准正确预测百分比时,认为数据可信度自动评分模型对训练数据分类的预测能力符合标准,当正确预测百分比≦标准正确预测百分比时,数据可信度自动评分模型对训练数据分类的预测能力不符合标准,认为数据可信度自动评分模型不可用,构建新数据可信度自动评分模型;当数据可信度自动评分模型的所述准确分类能力和所述预测能力同时符合标准时,认为评估结果为合格,将数据可信度自动评分模型作为数据可信度自动评分应用模型,当数据可信度自动评分模型的所述准确分类能力和所述预测能力中至少有一个不符合标准时,认为评估结果为不合格,构建新数据可信度自动评分模型。10.一种数据传输系统,其数据传输方法根据权利要求1-9所述的数据传输方法,其特征在于,包括:数据读取模块,用于接收系统外部传输的数据可信度评分请求并读取所述数据可信度评分请求中的初始数据信息,将所述初始数据信息传输至数据处理模块;所述数据处理模块,用于接收初始数据信息,对初始数据信息进行数据清洗并将数据清洗后得到的良性初始数据信息转化为格式化的风险评估数据;数据可信度自动评分模块,用于构建数据可信度自动评分模型并对数据可信度自动评分模型的可靠性进行评估,将评估结果为合格的数据可信度自动评分模型作为数据可信度自动评分应用模型,接收风险评估数据并对所述风险评估数据的进行风险程度等级进行评估。

技术总结


本发明涉及一种数据传输方法,其中数据传输方法包括:获取样本数据,预设描述指标库,对样本数据进行数据清洗,根据样本数据建立数据可信度自动评分模块;构建数据可信度评分请求,并由数据可信度自动评分模块对数据可信度评分请求中的初始信息数据进行风险程度评估。本发明通过预设描述指标库,对样本数据进行清洗,确定对格式化样本数据的风险程度影响最显著的指示指标,评估数据可信度自动评分模型的可靠性并进行优选,建立数据可信度自动评分模块,从样本数据的处理层面和指示指标的选择层面保证数据可信度自动评分模型的数据风险程度评估的可靠性,提高了数据传输方法的数据风险评估能力。险评估能力。险评估能力。


技术研发人员:

李传根 赵斌

受保护的技术使用者:

鼎翰文化股份有限公司

技术研发日:

2022.08.31

技术公布日:

2022/12/12

本文发布于:2024-09-26 02:24:23,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/32650.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   可信度   样本   评分
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议