一种基于k8s的机器学习模型训练方法及系统[发明专利]

(19)国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202210296057.5
(22)申请日 2022.03.24
(71)申请人 西安交通大学
地址 710049 陕西省西安市咸宁西路28号
(72)发明人 秦志强 王超勇 邱壮壮 魏星 
韩鑫 张扬 
(74)专利代理机构 西安通大专利代理有限责任
公司 61200
专利代理师 陈翠兰
(51)Int.Cl.
G06N  20/00(2019.01)
G06F  8/61(2018.01)
(54)发明名称一种基于k8s的机器学习模型训练方法及系统(57)摘要本发明公开了一种基于k8s的机器学习模型训练方法及系统,包括以下步骤:依次构建模型训练所需的镜像、算法和数据集;添加模型信息,并创建模型训练输出和训练任务日志输出的文件夹;将模型训练所需的信息保存到数据库;扫描数据库中的任务训练数据表,查看可执行任务,如果有,执行下一步,没有则等待下一次调度;查看K
8S机器当前的资源是否满足任务执行需求,如果满足,执行下一步,不满足,则等待下一次调度;构建任务所需的yaml文件;调用k8s创建执行模型训练的job和相关的pv和pvc,开始模型训练。可以有效降低模型训练的难度,可以有效的降低系统的资源使用率,降低模型开发成本,解决了现有技术中维护成本高,模型支撑改
进中支持的种类少的问题。权利要求书2页  说明书7页  附图3页CN 114676850 A 2022.06.28
C N  114676850
A
1.一种基于k8s的机器学习模型训练方法,其特征在于,包括以下步骤:
S1:依次构建模型训练所需的镜像、算法和数据集,添加模型信息,并创建模型训练输出和训练任务日志输出的文件夹;
S2:将模型训练所需的镜像、算法、数据集、模型信息和文件夹保存到数据库;
S3:扫描数据库中的任务训练数据表,查看可执行任务,如果有,执行S5,没有则等待下一次调度;
S4:查看K8S机器当前的资源是否满足任务执行需求,如果满足,执行S6,不满足,则等待下一次调度;
S5:构建任务所需的yaml文件;
S6:调用k8s创建执行模型训练的job和相关的pv和pvc,开始模型训练。
2.根据权利要求1所述的一种基于k8s的机器学习模型训练方法,其特征在于,所述S1中,构建模型所需的镜像包括以下步骤:
选择模型训练所需的基础镜像和模型训练任务执行所需的依赖;
添加关于镜像的描述信息,构建镜像信息并将这些信息保存到数据库中;
扫描需要创建镜像的任务表,查需要执行的任务;
在NFS服务器的/images/image_name文件夹创建Dockerfile和文件;
docker通过Dockerfile和创建镜像;
把镜像push到私有镜像仓库。
3.根据权利要求1所述的一种基于k8s的机器学习模型训练方法,其特征在于,所述S1中,构建模型所需的算法包括以下步骤:
上传算法的压缩包;
添加算法的描述信息;
解压算法压缩包到NFS服务器/algorithms/algorithm_name文件夹下;
构建算法信息,并保存到数据库。
4.根据权利要求1所述的一种基于k8s的机器学习模型训练方法,其特征在于,所述S1中,构建模型所需的数据集包括以下步骤:
上传数据集压缩包;
添加数据集的描述信息;
解压数据集压缩包到NFS服务器下的/datasets/dataset_name文件夹下;
构建数据集信息,并保存到数据库。
5.根据权利要求1所述的一种基于k8s的机器学习模型训练方法,其特征在于,所述S7包括:
构建pv和pvc所需的yaml文件;
构建job所需的yaml文件。
6.根据权利要求1所述的一种基于k8s的机器学习模型训练系统,其特征在于,包括任务信息构建模块、任务信息存储模块和任务执行模块;
任务信息构建模块,用于依次构建模型训练所需的镜像、算法和数据集,添加模型信息,并创建模型训练输出和训练任务日志输出的文件夹;
任务信息存储模块,用于将模型训练所需的镜像、算法、数据集、模型信息和文件夹保
存到数据库;
任务执行模块,用于扫描数据库中的任务训练数据表,查看可执行任务,如果没有,则等待下一次调度,如果有,查看K8S机器当前的资源是否满足任务执行的需求,如果不满足,等待下一次调度,如果满足,则构建任务所需的yaml文件,调用k8s创建执行模型训练的job 和相关的pv和pvc,开始模型训练。
7.根据权利要求7所述的一种基于k8s的机器学习模型训练系统,其特征在于,所述任务信息构建模块包括镜像单元、算法单元和数据集单元;
所述镜像单元用于选择模型训练所需的基础镜像和模型训练任务执行所需的依赖,添加关于镜像的描述信息,构建镜像信息并将这些信息保存到数据库中;扫描需要创建镜像的任务表,查需要执行的任务;在NFS服务器的/images/image_name文件夹创建Dockerfile和文件;docker通过Dockerfile和创建镜像;把镜像push到私有镜像仓库;
算法单元,用于上传算法的压缩包;添加算法的描述信息;解压算法压缩包到NFS服务器/algorithms/algorithm_name文件夹下;构建算法信息,并保存到数据库;
数据集单元,用于上传数据集压缩包;添加数据集的描述信息;解压数据集压缩包到NFS服务器下的/datasets/dataset_name文件夹下;构建数据集信息,并保存到数据库。
8.根据权利要求7所述的一种基于k8s的机器学习模型训练系统,其特征在于,
所述镜像构建单元还用于把镜像标识为删除和通过异步的方式把镜像删除;
所述算法构建单元还用于算法信息的查看、迭代和删除;
所述数据集构建单元还用于数据集的查看和删除。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1‑5任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1‑5任一项所述方法的步骤。
一种基于k8s的机器学习模型训练方法及系统
技术领域
[0001]本发明属于人工智能技术领域,涉及一种基于k8s的机器学习模型训练方法及系统。
背景技术
[0002]随着人工智能的迅速发展,各个公司都有模型训练的需求。现阶段模型训练过程有以下几个环节,每个环节都存在着一些问题。在模型训练前,需要配置训练环境,有时一台机器上可能搭建了许多运行环境,这些运行环境可能互相影响,导致任务的执行出错。在模型训练过程中,需要许多依赖文件,比如说数据集、算法等,现阶段这些都由算法工程师来管理。由于没有统一的管理方案,算法工程师需要花费一定的精力去管理这些文件。模型训练的过程一般用时很长,算法工程师需要长时间等待模型训练的结果,再去根据结果优化,不断迭代等。如果减弱算法工程师参与度,提高模型训练
的效率,是亟待解决的问题。
发明内容
[0003]本发明的目的在于解决现有技术中的问题,提供一种基于k8s的机器学习模型训练方法及系统。
[0004]为达到上述目的,本发明采用以下技术方案予以实现:
[0005]一种基于k8s的机器学习模型训练方法,包括以下步骤:
[0006]S1:依次构建模型训练所需的镜像、算法和数据集,添加模型信息,并创建模型训练输出和训练任务日志输出的文件夹;
[0007]S2:将模型训练所需的镜像、算法、数据集、模型信息和文件夹保存到数据库;[0008]S3:扫描数据库中的任务训练数据表,查看可执行任务,如果有,执行S5,没有则等待下一次调度;
[0009]S4:查看K8S机器当前的资源是否满足任务执行需求,如果满足,执行S6,不满足,则等待下一次调度;
[0010]S5:构建任务所需的yaml文件;
[0011]S6:调用k8s创建执行模型训练的job和相关的pv和pvc,开始模型训练。
[0012]本发明的进一步改进在于:
[0013]所述S1中,构建模型所需的镜像包括以下步骤:
[0014]选择模型训练所需的基础镜像和模型训练任务执行所需的依赖;
[0015]添加关于镜像的描述信息,构建镜像信息并将这些信息保存到数据库中;[0016]扫描需要创建镜像的任务表,查需要执行的任务;
[0017]在NFS服务器的/images/image_name文件夹创建Dockerfile和 文件;
[0018]docker通过Dockerfile和创建镜像;
[0019]把镜像push到私有镜像仓库。
[0020]所述S1中,构建模型所需的算法包括以下步骤:
[0021]上传算法的压缩包;
[0022]添加算法的描述信息;
[0023]解压算法压缩包到NFS服务器/algorithms/algorithm_name文件夹下;[0024]构建算法信息,并保存到数据库。
[0025]所述S1中,构建模型所需的数据集包括以下步骤:
[0026]上传数据集压缩包;
[0027]添加数据集的描述信息;
[0028]解压数据集压缩包到NFS服务器下的/datasets/dataset_name文件夹下;[0029]构建数据集信息,并保存到数据库。
[0030]所述S7包括:
[0031]构建pv和pvc所需的yaml文件;
[0032]构建job所需的yaml文件。
[0033]一种基于k8s的机器学习模型训练系统,包括任务信息构建模块、任务信息存储模块和任务执行模块;
[0034]任务信息构建模块,用于依次构建模型训练所需的镜像、算法和数据集,添加模型信息,并创建模型训练输出和训练任务日志输出的文件夹;
[0035]任务信息存储模块,用于将模型训练所需的镜像、算法、数据集、模型信息和文件夹保存到数据库;
[0036]任务执行模块,用于扫描数据库中的任务训练数据表,查看可执行任务,如果没有,则等待下一次调度,如果有,查看K8S机器当前的资源是否满足任务执行的需求,如果不满足,等待下一次调度,如果满足,则构建任务所需的yaml文件,调用k8s创建执行模型训练的job和相关的pv和pvc,开始模型训练。
[0037]本系统的进一步改进在于:
[0038]所述任务信息构建模块包括镜像单元、算法单元和数据集单元;
[0039]所述镜像单元用于选择模型训练所需的基础镜像和模型训练任务执行所需的依赖,添加关于镜像的描述信息,构建镜像信息并将这些信息保存到数据库中;扫描需要创建镜像的任务表,查需要执行的任务;在NFS服务器的/images/image_name文件夹创建Dockerfile和文件;docker通过Dockerfile和创建镜像;把镜像push到私有镜像仓库;
[0040]算法单元,用于上传算法的压缩包;添加算法的描述信息;解压算法压缩包到NFS 服务器/algorithms/algorithm_name文件夹下;构建算法信息,并保存到数据库;[0041]数据集单元,用于上传数据集压缩包;添加数据集的描述信息;解压数据集压缩包到NFS服务器下的/datasets/dataset_name文件夹下;构建数据集信息,并保存到数据库。[0042]所述镜像构建单元还用于把镜像标识为删除和通过异步的方式把镜像删除;[0043]所述算法构建单元还用于算法信息的查看、迭代和删除;
[0044]所述数据集构建单元还用于数据集的查看和删除。
[0045]一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1‑5任一项所述

本文发布于:2024-09-22 11:32:08,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/402814.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:模型   训练   任务   镜像
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议