一种联邦学习方法及联邦学习系统[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202111486280.8
(22)申请日 2021.12.07
(71)申请人 浙江网商银行股份有限公司
地址 310012 浙江省杭州市西湖区学院路
28-38号德力西大厦1幢15-17层
(72)发明人 娄思源 
(74)专利代理机构 北京国昊天诚知识产权代理
有限公司 11315
代理人 徐晨影
(51)Int.Cl.
G06K  9/62(2022.01)
G06N  20/20(2019.01)
(54)发明名称一种联邦学习方法及联邦学习系统(57)摘要本说明书实施例提供一种联邦学习方法及联邦学习系统。方法包括:在联邦学习用于训练的目标模型确定特征配置前,联邦学习的成员对象按照所述联邦学习的数据仓库的数据结构化配置,对本地的私有数据进行预处理;以及,联邦学习的成员对象基于多方安全计算协议,将预处理后的私有数据发送至所述集中计算平台,以由所述集中计算平台上传至数据仓库。在所述目标模型确定特征配置后,所述集中计算平台根据所述目标模型的特征配置,对所述数据仓库记录的私有数据进行特征提取,得到适用于训练所述目标模型的特征数据;以及,所述集中计算平台基于提取到的特征数据,对所述目标模型进行训练,并将所述目标模型的训练结果发送至所述联
邦学习的成员对象。权利要求书2页  说明书8页  附图3页CN 114266293 A 2022.04.01
C N  114266293
A
1.一种联邦学习方法,包括:
在联邦学习用于训练的目标模型确定特征配置前,所述联邦学习的成员对象按照所述联邦学习的数据仓库的数据结构化配置,对本地的私有数据进行预处理;以及,所述联邦学习的成员对象基于多方安全计算协议,将预处理后的私有数据发送至所述集中计算平台,以由所述集中计算平台上传至所述数据仓库;
在所述目标模型确定特征配置后,所述集中计算平台根据所述目标模型的特征配置,对所述数据仓库记录的私有数据进行特征提取,得到适用于训练所述目标模型的特征数据;以及,
所述集中计算平台基于提取到的特征数据,对所述目标模型进行训练,并将所述目标模型的训练结果发送至所述联邦学习的成员对象。
2.根据权利要求1所述的方法,
所述目标模型针对所属应用场景的输出识别类目是在所述联邦学习的成员对象将预处理后的私有数据发送至所述集中计算平台前确定的;
所述方法还包括:
所述联邦学习的成员对象在将预处理后的私有数据发送至所述集中计算平台前,根据所述目标模型针对所述目标场景的输出识别类目,对本地需要发送至所述集中计算平台的私有数据进行标注。
3.根据权利要求1所述的方法,
所述目标模型针对所属应用场景的输出识别类目是在所述联邦学习的成员对象将预处理后的私有数据发送至所述集中计算平台后确定的,所述方法还包括:所述集中计算平台将目标模型对应的输出识别类目发送至所述联邦学习的成员对象;
所述联邦学习的成员对象基于所述目标模型对应的输出识别类目,对已发送至所述集中计算平台的私有数据进行标注,并将标注结果发送至所述集中计算平台。
4.根据权利要求1所述的方法,
所述集中计算平台根据所述目标模型的特征配置,对所述数据仓库记录的私有数据进行特征提取前,所述方法还包括:
所述集中计算平台对所述联邦学习的成员对象预设批次提供的私有数据进行质量评估,得到质量评估结果;
所述集中计算平台定所述联邦学习中各授信成员对象所对应的质量评估结果,从联邦学习中确定出授信成员对象,其中,所述集中计算平台基于从联邦学习中授信成员对象对应的特征数据,训练所述目标模型。
5.根据权利要求4所述的方法,
所述质量评估包括:对私有数据的上传维度的质量评估和/或对私有数据的字段维度的质量评估。
6.根据权利要求5所述的方法,
所述上传维度包括:私有数据的数据生成时间稳定性、数据大小稳定性和数据主键重复性中的至少一者;
所述字段维度包括:私有数据的字段空置率、字段重复值占比、字段异常值占比和字段枚举值一致性中的至少一者。
7.根据权利要求4所述的方法,还包括:
所述集中计算平台基于所述联邦学习中各成员对象提供私有数据的数据量和质量评估结果,确定所述联邦学习中各成员对象的贡献度,并为所述联邦学习中各成员对象配置与贡献度相匹配的联邦学习资源使用权益。
8.根据权利要求1所述的方法,
在联邦学习的成员对象按照所述联邦学习的集中计算平台的数据结构化配置,对本地的私有数据进行预处理前,所述方法还包括:
联邦学习的成员对象基于私有集交集协议,将本地的私有数据所对应的客户信息发送至所述集中计算平台;
所述集中计算平台基于私有集交集协议,从所述联邦学习的成员对象提供的客户信息中确定出交集客户,并将确定到的交集客户反馈至所述联邦学习的成员对象,其中,所述联邦学习的成员对象按照所述集中计算平台规定的数据结构化配置,对本地交集客户的私有数据进行预处理。
9.根据权利要求1所述的方法,
所述预处理包括异常值剔除、枚举值转换、缺失值填充和同态加密中的至少一者。
10.一种联邦学习系统,包括集中计算平台和多个成员对象,所述集中计算平台配置有所述联邦学习系统的数据仓库;其中:
在联邦学习用于训练的目标模型确定特征配置前,所述联邦学习的成员对象按照所述数据仓库的数据结构化配置,对本地的私有数据进行预处理;以及,
所述联邦学习的成员对象基于多方安全计算协议,将预处理后的私有数据发送至所述集中计算平台,以由所述集中计算平台上传至所述数据仓库;
在所述目标模型确定特征配置后,所述集中计算平台根据所述目标模型的特征配置,对所述数据仓库记录的私有数据进行特征提取,得到适用于训练所述目标模型的特征数据;
以及,
所述集中计算平台基于提取到的特征数据,对所述目标模型进行训练,并将所述目标模型的训练结果发送至所述联邦学习的成员对象。
一种联邦学习方法及联邦学习系统
技术领域
[0001]本文件属于信息处理技术领域,尤其涉及一种联邦学习方法及联邦学习系统。
背景技术
[0002]联邦学习又称联邦机械学习,是一种多机构遵守用户隐私保护和政府法规的要求下,进行联合建模的机器学习框架。作为联邦学习成员对象的机构需要按照多方安全计算协议将自身私有数据作为模型训练样本发送至联邦学习的集中计算平台,由集中计算平台完成模型训练。在多方安全计算协议下,私有数据经加密后实现隐私保护,并依然具有明文时的数学计算效力,不会对模型训练造成影响。
[0003]通常的模型构建流程是先根据应用场景的需求,进行初步建模,也就是确定模型的特征配置,定性训练任务的方向;之后,再按照训练任务,进行有针对性的数据准备,数据准备的主要工作包括数据收集和数据预处理,这一阶段的耗时一般占模型构建全流程的70%至80%。对于联邦学习而言,各成员对象数据收集情况并不一样,导致数据准备阶段耗时加剧,严重影响了模型构建的效率。为此,当前亟需一种能够优化联邦学习数据准备阶段的技术方案。
发明内容
[0004]本说明书实施例目的是提供一种联邦学习方法及联邦学习系统,对联邦学习数据准备阶段进行优化,从而有效提升联邦学习模型构建的效率。
[0005]为了实现上述目的,本说明书实施例是这样实现的:
[0006]第一方面,提供了一种联邦学习方法,包括:
[0007]在联邦学习用于训练的目标模型确定特征配置前,所述联邦学习的成员对象按照所述联邦学习的数据仓库的数据结构化配置,对本地的私有数据进行预处理;以及,[0008]所述联邦学习的成员对象基于多方安全计算协议,将预处理后的私有数据发送至所述集中计算平台,以由所述集中计算平台上传至所述数据仓库;
[0009]在所述目标模型确定特征配置后,所述集中计算平台根据所述目标模型的特征配置,对所述数据仓库记录的私有数据进行特征提取,得到适用于训练所述目标模型的特征数据;以及,
[0010]所述集中计算平台基于提取到的特征数据,对所述目标模型进行训练,并将所述目标模型的训练结果发送至所述联邦学习的成员对象。
[0011]第二方面,提供了一种数据处理系统,联邦学习系统,包括集中计算平台和多个成员对象,所述集中计算平台配置有所述联邦学习系统的数据仓库;其中:
[0012]在联邦学习用于训练的目标模型确定特征配置前,所述联邦学习的成员对象按照所述数据仓库的数据结构化配置,对本地的私有数据进行预处理;以及,
[0013]所述联邦学习的成员对象基于多方安全计算协议,将预处理后的私有数据发送至所述集中计算平台,以由所述集中计算平台上传至所述数据仓库;
[0014]在所述目标模型确定特征配置后,所述集中计算平台根据所述目标模型的特征配置,对所述数据仓库记录的私有数据进行特征提取,得到适用于训练所述目标模型的特征数据;以及,
[0015]所述集中计算平台基于提取到的特征数据,对所述目标模型进行训练,并将所述目标模型的训练结果发送至所述联邦学习的成员对象。
[0016]本说明书实施例的方案在联邦学习的集中计算平台侧引入数据仓库。在联邦学习用于训练的目标模型确定特征配置前,由成员对象按照数据仓库的数据结构化配置将本地的私有数据进行预处理后,基于多方安全计算协议提交至集中计算平台,以由集中计算平台存储至数据仓库中作为训练目标模型的数据储备。当目标模型确定特征配置后,集中计算平台即可直接按照目标模型的特征配置对数据仓库储备的数据进行特征提取,从而快速执行对目标模型的训练,以达到提高模型构建效率的目的。
附图说明
[0017]为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些
实施例,对于本领域普通相关负责人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0018]图1为本说明书实施例提供的联邦学习方法的第一种流程示意图。
[0019]图2为本说明书实施例提供的联邦学习方法的第二种流程示意图。
[0020]图3为本说明书实施例提供的联邦学习系统的结构示意图。
[0021]图4为本说明书实施例提供的电子设备的结构示意图。
具体实施方式
[0022]为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通相关负责人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
[0023]如前所述,通常的模型构建流程是先根据应用场景的需求,进行初步建模,也就是确定模型的特征配置,定性训练任务的方向;之后,再按照训练任务,进行有针对性的数据准备,数据准备的主要工
作包括数据收集和数据预处理,这一阶段的耗时一般占模型构建全流程的70%至80%。对于联邦学习而言,各成员对象的数据收集情况并不一样,导致数据准备阶段耗时加剧,严重影响了模型构建的效率。针对问题,本文件旨在提出一种针对联邦学习数据准备阶段进行优化的技术方案,能够有效提升联邦学习模型构建的效率。[0024]通常而言,具有较强业务相关性的机构,由于模型使用需求相似,因此会选择联邦学习的方式参与联合建模。在业务场景大方向确定下,虽然模型的具体选用特征配置尚未确定,但训练模型所用的特征数据肯定是来自各机构各自所积累的业务数据。为此,本申请可以在模型初始建模前,各机构提前进行数据收集,并上传至集中计算平台,作为训练模型的数据储备。在模型的特征配置确定后,集中计算平台再按照特征配置从数据储备的数据

本文发布于:2024-09-23 14:33:02,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/417691.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:联邦   学习   数据   模型   目标   计算
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议