一种高性能云计算混合计算系统及其方法

著录项
  • CN201610291648.8
  • 20160505
  • CN106020969A
  • 20161012
  • 云神科技投资股份有限公司
  • 于欣
  • G06F9/50
  • G06F9/50

  • 江苏省镇江市镇江新区丁卯经十五路99号科技产业发展区49号楼E48
  • 江苏(32)
  • 北京科亿知识产权代理事务所(普通合伙)
  • 汤东凤
摘要
本发明涉及一种高性能云计算混合计算系统及其方法。该方法在高性能计算资源池的每一个计算节点中设置云计算代理服务模块同时与高性能计算调度系统和云计算管理系统连接。云计算资源不足时,由云计算管理系统向高性能计算调度系统发送节点资源申请,并根据高性能计算调度系统通知的空闲计算节点信息向对应云计算代理服务模块发送第一清理命令以清理该空闲计算节点并将其加入到云计算资源池。云计算资源冗余时,由云计算管理系统释放一部分计算节点,并向对应云计算代理服务模块发送第二清理命令以清理待释放的计算节点,然后由高性能计算调度系统回收到高性能计算资源池。本发明避免资源闲置,提高资源利用率。
权利要求

1.一种高性能云计算混合计算系统及其方法,包括高性能计算资源池和云计算资源 池,所述高性能计算资源池包括高性能计算调度系统和由其管理的多个计算节点,所述云 计算资源池包括云计算管理系统和由其管理的多个计算节点,其特征在于,所述高性能计 算资源池中的计算节点均设有云计算代理服务模块,所述云计算代理服务模块同时与高性 能计算调度系统和云计算管理系统连接;

所述云计算管理系统在监控到资源不足时向高性能计算调度系统发送节点资源申请, 并根据高性能计算调度系统通知的空闲的计算节点信息向该空闲的计算节点的云计算代 理服务模块发送第一清理命令以由所述云计算代理服务模块清理该空闲的计算节点并将 其加入到云计算资源池,以及在监控到资源冗余时释放从高性能计算资源池申请到的一部 分计算节点,并向待释放的计算节点的云计算代理服务模块发送第二清理命令以由所述云 计算代理服务模块清理待释放的计算节点;

所述高性能计算调度系统基于云计算管理系统发送的节点资源申请调度空闲的计算 节点并通知给云计算管理系统,以及根据所述云计算代理服务模块基于所述第二清理命令 清理相应的计算节点后返回的信息将该清理后的计算节点回收到高性能计算资源池。

2.根据权利要求1所述的系统,其特征在于,所述高性能计算调度系统基于云计算管理 系统发送的节点资源申请调度空闲的计算节点并通知给云计算管理系统,进一步包括:将 所述节点资源申请设置为最高优先级,当出现空闲的计算节点时,锁定该空闲的计算节点, 并将该空闲的计算节点信息通知给云计算管理系统。

3.根据权利要求1所述的系统,其特征在于,所述云计算代理服务模块基于所述第一清 理命令清理空闲的计算节点包括:

结束所有的高性能计算作业进程;

卸载高性能计算作业使用的分布式文件系统;

设置防火墙策略,设置cgroup资源策略,以禁止高性能计算用户访问该空闲的计算节 点;

将该空闲的计算节点从高性能计算环境需要的服务切换到云计算环境需要的服务;

从云计算管理系统获取云计算需要使用的分布式文件系统或存储资源的连接数据,挂 载对应的文件系统或存储资源,并将连接信息反馈给云计算管理系统;

创建虚拟交换机,并将该虚拟交换机信息返回给云计算管理系统。

4.根据权利要求1所述的系统,其特征在于,所述云计算代理服务模块基于所述第二清 理命令清理相应的计算节点包括:

卸载云计算使用的分布式文件系统或存储资源;

将该计算节点从云计算环境需要的服务切换到高性能计算环境需要的服务,并在成功 后通知云计算管理系统以便云计算管理系统将该计算节点从云计算资源池中删除;

挂载高性能计算需要的分布式文件系统;

设置防火墙和cgroup资源策略,以允许高性能计算用户访问该计算节点;

返回相应的信息给高性能计算调度系统以将该计算节点回收到高性能计算资源池中。

5.一种高性能云计算混合计算系统及其方法的资源管理方法,其中所述系统包括高性 能计算资源池和云计算资源池,所述高性能计算资源池包括高性能计算调度系统和由其管 理的多个计算节点,所述云计算资源池包括云计算管理系统和由其管理的多个计算节点, 其特征在于,所述方法包括如下步骤:

S1、在所述高性能计算资源池的每一个计算节点中设置云计算代理服务模块,所述云 计算代理服务模块同时与高性能计算调度系统和云计算管理系统连接;

S2、在云计算管理系统监控到云计算资源池的资源不足时,由所述云计算管理系统向 高性能计算调度系统发送节点资源申请,并根据高性能计算调度系统通知的空闲的计算节 点信息向该空闲的计算节点的云计算代理服务模块发送第一清理命令以由所述云计算代 理服务模块清理该空闲的计算节点并将其加入到云计算资源池;

S3、在云计算管理系统监控到云计算资源池的资源冗余时,由所述云计算管理系统释 放从高性能计算资源池申请到的一部分计算节点,并向待释放的计算节点的云计算代理服 务模块发送第二清理命令以由所述云计算代理服务模块清理待释放的计算节点,然后由所 述高性能计算调度系统根据所述云计算代理服务模块清理相应的计算节点后返回的信息 将该清理后的计算节点回收到高性能计算资源池。

6.根据权利要求5所述的方法,其特征在于,所述步骤S2进一步包括:

由所述高性能计算调度系统将所述云计算管理系统发送的节点资源申请设置为最高 优先级,当出现空闲的计算节点时,锁定该空闲的计算节点,并将该空闲的计算节点信息通 知给云计算管理系统。

7.根据权利要求5所述的方法,其特征在于,所述步骤S2中由所述云计算代理服务模块 清理该空闲的计算节点进一步包括:

结束所有的高性能计算作业进程;

卸载高性能计算作业使用的分布式文件系统;

设置防火墙策略,设置cgroup资源策略,以禁止高性能计算用户访问该空闲的计算节 点;

将该空闲的计算节点从高性能计算环境需要的服务切换到云计算环境需要的服务;

从云计算管理系统获取云计算需要使用的分布式文件系统或存储资源的连接数据,挂 载对应的文件系统或存储资源,并将连接信息反馈给云计算管理系统;

创建虚拟交换机,并将该虚拟交换机信息返回给云计算管理系统。

8.根据权利要求5所述的方法,其特征在于,所述步骤S2中通过判断当前云计算资源池 中的剩余资源是否小于预设的资源剩余量阈值或判断当前云计算资源池中的剩余资源是 否满足资源申请需求来监控资源是否不足。

9.根据权利要求5所述的方法,其特征在于,所述步骤S3中由所述云计算代理服务模块 清理待释放的计算节点进一步包括:

卸载云计算使用的分布式文件系统或存储资源;

将该计算节点从云计算环境需要的服务切换到高性能计算环境需要的服务,并在成功 后通知云计算管理系统以便云计算管理系统将该计算节点从云计算资源池中删除;

挂载高性能计算需要的分布式文件系统;

设置防火墙和cgroup资源策略,以允许高性能计算用户访问该计算节点;

返回相应的信息给高性能计算调度系统以将该计算节点回收到高性能计算资源池中。

10.根据权利要求5所述的方法,其特征在于,所述步骤S3中由所述云计算管理系统释 放从高性能计算资源池申请到的一部分计算节点进一步包括:

由所述云计算管理系统通过统计云计算资源池中的剩余资源来确定可以释放的计算 节点数量,并在完全空闲的计算节点的数量不够时,将只有少量虚拟机在运行的计算节点 中的虚拟机迁出,直到有足够数量的空闲计算节点。

说明书
技术领域

本发明涉及计算技术,更具体地说,涉及一种高性能云计算混合计算系统及其方 法。

高性能计算(highperformancecomputing,缩写HPC)在工程计算、科学研究、遗传 基因以及金融风险分析中已经取得了巨大的成就。高性能计算历经几十年的发展,如今不 仅是作为实验和理论以外的第三大科学研究手段,而且可以被当作是一个国家综合国力的 主要评价标准。云计算是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互 联网来提供动态易扩展且经常是虚拟化的资源。

目前的中国对于云计算和高性能计算的支持力度非常大,建立了不少超级计算中 心,组成大规模的计算集。云计算采用的关键技术是虚拟化,这样可以使资源按需调度, 但也势必导致一部分的性能损失,而高性能计算以计算速度为第一追求,因而在性能方面 与云计算会有一定的冲突。各个超级计算中心一般都会根据业务、服务的不同将计算集 分为云计算分区和高性能计算分区,云计算分区运行云操作系统,应用于云计算服务,而高 性能计算分区则运行高性能作业调度系统,应用于高性能计算服务。当高性能计算业务不 忙而云计算业务比较紧张的时候,如果按照以往计算中心常规的分区划分方式,那么将会 出现高性能计算资源闲置的情况,因此需要到一个更好的合理分配使用超级计算中心计 算资源的技术。

本发明要解决的技术问题在于,针对传统的计算中心资源分配存在的上述不足之处, 提供一种高性能云计算混合计算系统及其方法。

本发明在第一方面为解决其技术问题所采用的技术方案是:提出一种高性能云计 算混合计算系统及其方法,包括高性能计算资源池和云计算资源池,所述高性能计算资源 池包括高性能计算调度系统和由其管理的多个计算节点,所述云计算资源池包括云计算管 理系统和由其管理的多个计算节点,所述高性能计算资源池中的计算节点均设有云计算代 理服务模块,所述云计算代理服务模块同时与高性能计算调度系统和云计算管理系统连 接;

所述云计算管理系统在监控到资源不足时向高性能计算调度系统发送节点资源申请, 并根据高性能计算调度系统通知的空闲的计算节点信息向该空闲的计算节点的云计算代 理服务模块发送第一清理命令以由所述云计算代理服务模块清理该空闲的计算节点并将 其加入到云计算资源池,以及在监控到资源冗余时释放从高性能计算资源池申请到的一部 分计算节点,并向待释放的计算节点的云计算代理服务模块发送第二清理命令以由所述云 计算代理服务模块清理待释放的计算节点;

所述高性能计算调度系统基于云计算管理系统发送的节点资源申请调度空闲的计算 节点并通知给云计算管理系统,以及根据所述云计算代理服务模块基于所述第二清理命令 清理相应的计算节点后返回的信息将该清理后的计算节点回收到高性能计算资源池。

根据本发明第一方面的一个实施例中,所述高性能计算调度系统基于云计算管理 系统发送的节点资源申请调度空闲的计算节点并通知给云计算管理系统,进一步包括:将 所述节点资源申请设置为最高优先级,当出现空闲的计算节点时,锁定该空闲的计算节点, 并将该空闲的计算节点信息通知给云计算管理系统。

根据本发明第一方面的一个实施例中,所述云计算代理服务模块基于所述第一清 理命令清理空闲的计算节点包括:

结束所有的高性能计算作业进程;

卸载高性能计算作业使用的分布式文件系统;

设置防火墙策略,设置cgroup资源策略,以禁止高性能计算用户访问该空闲的计算节 点;

将该空闲的计算节点从高性能计算环境需要的服务切换到云计算环境需要的服务;

从云计算管理系统获取云计算需要使用的分布式文件系统或存储资源的连接数据,挂 载对应的文件系统或存储资源,并将连接信息反馈给云计算管理系统;

创建虚拟交换机,并将该虚拟交换机信息返回给云计算管理系统。

根据本发明第一方面的一个实施例中,所述云计算代理服务模块基于所述第二清 理命令清理相应的计算节点包括:

卸载云计算使用的分布式文件系统或存储资源;

将该计算节点从云计算环境需要的服务切换到高性能计算环境需要的服务,并在成功 后通知云计算管理系统以便云计算管理系统将该计算节点从云计算资源池中删除;

挂载高性能计算需要的分布式文件系统;

设置防火墙和cgroup资源策略,以允许高性能计算用户访问该计算节点;

返回相应的信息给高性能计算调度系统以将该计算节点回收到高性能计算资源池中。

本发明在第二方面为解决其技术问题所采用的技术方案是:提出一种高性能云计 算混合计算系统及其方法的资源管理方法,其中所述系统包括高性能计算资源池和云计算 资源池,所述高性能计算资源池包括高性能计算调度系统和由其管理的多个计算节点,所 述云计算资源池包括云计算管理系统和由其管理的多个计算节点,所述方法包括如下步 骤:

S1、在所述高性能计算资源池的每一个计算节点中设置云计算代理服务模块,所述云 计算代理服务模块同时与高性能计算调度系统和云计算管理系统连接;

S2、在云计算管理系统监控到云计算资源池的资源不足时,由所述云计算管理系统向 高性能计算调度系统发送节点资源申请,并根据高性能计算调度系统通知的空闲的计算节 点信息向该空闲的计算节点的云计算代理服务模块发送第一清理命令以由所述云计算代 理服务模块清理该空闲的计算节点并将其加入到云计算资源池;

S3、在云计算管理系统监控到云计算资源池的资源冗余时,由所述云计算管理系统释 放从高性能计算资源池申请到的一部分计算节点,并向待释放的计算节点的云计算代理服 务模块发送第二清理命令以由所述云计算代理服务模块清理待释放的计算节点,然后由所 述高性能计算调度系统根据所述云计算代理服务模块清理相应的计算节点后返回的信息 将该清理后的计算节点回收到高性能计算资源池。

根据本发明第二方面的一个实施例中,所述步骤S2进一步包括:

由所述高性能计算调度系统将所述云计算管理系统发送的节点资源申请设置为最高 优先级,当出现空闲的计算节点时,锁定该空闲的计算节点,并将该空闲的计算节点信息通 知给云计算管理系统。

根据本发明第二方面的一个实施例中,所述步骤S2中由所述云计算代理服务模块 清理该空闲的计算节点进一步包括:

结束所有的高性能计算作业进程;

卸载高性能计算作业使用的分布式文件系统;

设置防火墙策略,设置cgroup资源策略,以禁止高性能计算用户访问该空闲的计算节 点;

将该空闲的计算节点从高性能计算环境需要的服务切换到云计算环境需要的服务;

从云计算管理系统获取云计算需要使用的分布式文件系统或存储资源的连接数据,挂 载对应的文件系统或存储资源,并将连接信息反馈给云计算管理系统;

创建虚拟交换机,并将该虚拟交换机信息返回给云计算管理系统。

根据本发明第二方面的一个实施例中,所述步骤S2中通过判断当前云计算资源池 中的剩余资源是否小于预设的资源剩余量阈值或判断当前云计算资源池中的剩余资源是 否满足资源申请需求来监控资源是否不足。

根据本发明第二方面的一个实施例中,所述步骤S3中由所述云计算代理服务模块 清理待释放的计算节点进一步包括:

卸载云计算使用的分布式文件系统或存储资源;

将该计算节点从云计算环境需要的服务切换到高性能计算环境需要的服务,并在成功 后通知云计算管理系统以便云计算管理系统将该计算节点从云计算资源池中删除;

挂载高性能计算需要的分布式文件系统;

设置防火墙和cgroup资源策略,以允许高性能计算用户访问该计算节点;

返回相应的信息给高性能计算调度系统以将该计算节点回收到高性能计算资源池中。

根据本发明第二方面的一个实施例中,所述步骤S3中由所述云计算管理系统释放 从高性能计算资源池申请到的一部分计算节点进一步包括:

由所述云计算管理系统通过统计云计算资源池中的剩余资源来确定可以释放的计算 节点数量,并在完全空闲的计算节点的数量不够时,将只有少量虚拟机在运行的计算节点 中的虚拟机迁出,直到有足够数量的空闲计算节点。

本发明的高性能计算与云计算混合计算系统及其资源管理方法,可以在高性能计 算资源闲置时,将闲置的高性能计算资源进行相应管理设置,加入到云计算资源池中,以满 足云计算资源池的业务应用,并可以在云计算资源冗余时将加入云计算资源池的计算节点 释放出来,由高性能计算资源池回收,从而避免资源闲置,提高资源利用率。本发明的混合 计算系统结合高性能计算的应用特点和云计算平台的优势,通过虚拟化技术和自动化技 术,同时支持物理机和虚拟机环境,实现硬件资源的统一管理、统一分配、统一部署、统一监 控,打破单个业务对资源的独占,提供动态的计算服务平台。

下面将结合附图及实施例对本发明作进一步说明,附图中:

图1是本发明一个实施例的高性能计算与云计算混合计算系统的初始状态结构示意 图;

图2是图1所示的高性能计算与云计算混合计算系统进行资源调度后的结构示意图;

图3是本发明一个实施例的高性能计算与云计算混合计算系统的资源管理方法的流程 图;

图4是本发明另一具体实施例的高性能计算与云计算混合计算系统的资源管理方法的 流程图。

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发 明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用 于限定本发明。

现在的超级计算中心都会根据业务需求将整个计算资源池直接划分为两个大的 分区:高性能计算分区和云计算分区,分别应对高性能和云计算业务。对于高性能计算,其 资源一般相对固定,通常通过资源的合理调度提高资源的利用率。在一个高性能计算集 中,所有的计算节点使用linux,并由高性能计算调度系统统一管理,每个计算节点都可以 挂载分布式文件系统。而对于云计算,所有计算节点部署虚拟化Hypervisor,所有 Hypervisor由云计算管理系统统一管理。Hypervisor是一种运行在物理服务器和操作系统 之间的中间软件层,可允许多个操作系统和应用共享一套基础物理硬件,因此也可以看作 是虚拟环境中的“元”操作系统,它可以协调访问服务器上的所有物理设备和虚拟机,也叫 虚拟机监视器(VirtualMachineMonitor)。Hypervisor是所有虚拟化技术的核心。非中断地 支持多工作负载迁移的能力是Hypervisor的基本功能。当服务器启动并执行Hypervisor 时,它会给每一台虚拟机分配适量的内存、CPU、网络和磁盘,并加载所有虚拟机的客户操作 系统。

当整个计算资源池存在高性能计算分区和云计算分区这种物理划分时,只要两者 的业务量不均衡,都会造成资源的闲置。因此,本发明提出可以将闲置的高性能计算资源加 入到云计算资源池中以满足云计算业务应用的混合计算系统。

图1示出了根据本发明一个实施例的高性能计算与云计算混合计算系统100的初 始状态结构示意图。如图1所示,该混合计算系统100包括高性能计算资源池110和云计算资 源池120。高性能计算资源池110进一步包括高性能计算调度系统111和由其管理的多个计 算节点112。云计算资源池120包括云计算管理系统121和由其管理的多个计算节点122。为 了使高性能计算资源池110中空闲的计算节点112能够加入云计算资源池120中以满足云计 算业务应用,本申请在高性能计算资源池110中的每一计算节点112内设置云计算代理服务 模块1121,以便能够接收云计算管理系统121发来的部署操作命令。每个云计算代理服务模 块1121同时与高性能计算调度系统111和云计算管理系统121连接,例如同时通过高性能计 算调度系统111的API(ApplicationProgrammingInterface,应用程序编程接口)和云计算 管理系统121的API进行通信连接。

高性能计算调度系统111使用cgroup对高性能计算用户的作业严格控制资源使 用。cgroups是Linux内核提供的一种可以限制、记录、隔离进程组(processgroups)所使用 物理资源(如cpu,memory,IO等等)的机制。为了使高性能计算资源池110中空闲的计算节点 112能够加入云计算资源池120,高性能计算使用的Linux操作系统(比如CentOS,SLES, Ubuntu)必须能支持云计算资源池120的Hypervisor。Linux操作系统主流的Hypervisor有 KVM和Xen,本申请优选KVM作为Hypervisor。KVM和xen的最大区别在于架构的不同,KVM直接 构建在Linuxkernel之上,把Linuxkernel变成Hypervisor,利用kernel已有的功能开发KVM 所需的功能。Xen的Hypervisor则是从零开始构建,对硬件资源的调度管理、虚拟机的管理, 还有很多接口与Linuxkernel不兼容,需对Linuxkernel进行修改,这样的操作系统不是很 适合用于做高性能计算。

图1所示的混合计算系统100中,当云计算资源池120的云计算管理系统121监控到 云计算资源不足(例如当前云计算资源池中的剩余资源小于预设的资源剩余量阈值或当前 云计算资源池中的剩余资源不足以满足资源申请需求)时,向高性能计算资源池110的高性 能计算调度系统111发送节点资源申请。云计算管理系统121可以调用高性能计算调度系统 111的API以普通作业形式申请节点资源。高性能计算调度系统111基于该节点资源申请调 度空闲的计算节点112给云计算管理系统121。例如,高性能计算调度系统111可将该节点资 源申请设置为最高优先级,当出现空闲的计算节点112后,高性能计算调度系统111锁定该 空闲的计算节点112,并将该空闲的计算节点信息通知给云计算管理系统121。云计算管理 系统121根据高性能计算调度系统111通知的空闲的计算节点信息向空闲的计算节点112的 云计算代理服务模块1121发送第一清理命令以由该云计算代理服务模块1121清理该空闲 计算节点,清理完后将其加入到云计算资源池120中,如图2所示。

图2所示的混合计算系统100中,当云计算管理系统121监控到云计算资源冗余(例 如云计算业务需求下降)时,将之前从高性能计算资源池110申请到的一部分计算节点112 释放以返还给高性能计算资源池110。云计算管理系统121向待释放的计算节点112的云计 算代理服务模块1121发送第二清理命令以由云计算代理服务模块1121清理待释放的计算 节点。然后高性能计算调度系统111根据云计算代理服务模块1121清理相应的计算节点后 返回的信息将该清理后的计算节点112回收到高性能计算资源池。

基于以上所介绍的高性能计算与云计算混合计算系统,本发明还提出一种高性能 云计算混合计算系统及其方法的资源管理方法。图3示出了根据本发明一个实施例的高性 能计算与云计算混合计算系统的资源管理方法200的流程图。如图3所示,该资源管理方法 200包括如下步骤:

步骤S201中,在高性能计算资源池的每一个计算节点中设置云计算代理服务模块,所 述云计算代理服务模块同时与高性能计算调度系统和云计算管理系统连接。

步骤S202中,在云计算管理系统监控到云计算资源池的资源不足时,由所述云计 算管理系统向高性能计算调度系统发送节点资源申请,并根据高性能计算调度系统通知的 空闲的计算节点信息向该空闲的计算节点的云计算代理服务模块发送第一清理命令以由 所述云计算代理服务模块清理该空闲的计算节点并将其加入到云计算资源池。

步骤S203中,在云计算管理系统监控到云计算资源池的资源冗余时,由所述云计 算管理系统释放从高性能计算资源池申请到的一部分计算节点,并向待释放的计算节点的 云计算代理服务模块发送第二清理命令以由所述云计算代理服务模块清理待释放的计算 节点,然后由所述高性能计算调度系统根据所述云计算代理服务模块清理相应的计算节点 后返回的信息将该清理后的计算节点回收到高性能计算资源池。

通过以上所述的资源管理方法,本发明的高性能计算与云计算混合计算系统可以 在高性能计算资源闲置时,将闲置的高性能计算资源进行相应管理设置,加入到云计算资 源池中,以满足云计算资源池的业务应用,并可以在云计算资源冗余时将加入云计算资源 池的计算节点释放出来,由高性能计算资源池回收,从而避免资源闲置,提高资源利用率。

图4示出了根据本发明另一具体实施例的高性能计算与云计算混合计算系统的资 源管理方法300的流程图。如图4所示,该资源管理方法300的具体流程如下:

步骤S301中,云计算管理系统监控云计算资源的使用情况。例如,云计算管理系统可通 过判断当前云计算资源池中的剩余资源是否小于预设的资源剩余量阈值或判断当前云计 算资源池中的剩余资源是否满足资源申请需求来判断资源是不足还是冗余。当云计算资源 不足时,方法300执行步骤S302,当云计算资源冗余时,方法300执行步骤S308。

步骤S302中,当云计算资源不足时,云计算管理系统向高性能计算调度系统发送 节点资源申请,以申请空闲的计算节点。例如,云计算管理系统可以调用高性能计算调度系 统API以普通作业形式申请节点资源。

步骤S303中,高性能计算调度系统调度空闲的计算节点。高性能计算调度系统可 将云计算管理系统发送的节点资源申请设置为最高优先级。当前没有空闲的计算节点时, 方法300接着执行步骤S304,等待出现空闲的计算节点。当出现空闲的计算节点时,方法300 接着执行步骤S305,高性能计算调度系统锁定该空闲的计算节点,并将该空闲的计算节点 信息通知给云计算管理系统。

步骤S306中,云计算管理系统根据高性能计算调度系统通知的空闲的计算节点信 息向该空闲的计算节点的云计算代理服务模块发送第一清理命令以由云计算代理服务模 块清理该空闲的计算节点。具体实施例中,云计算代理服务模块执行以下清理工作:

1.结束所有的高性能计算作业进程。云计算代理服务模块将所有ssh登陆的用户(包含 root)及ssh服务器子进程强制下线,防止对后面的操作造成影响;云计算代理服务模块遍 历所有系统进程,将非系统内置程序的进程全部结束。

2.卸载高性能计算作业使用的分布式文件系统。

3.设置防火墙策略,设置cgroup资源策略,以禁止高性能计算用户访问该计算节 点。

4.对计算节点进行服务切换,即将该空闲的计算节点从高性能计算环境需要的服 务切换到云计算环境需要的服务。

5.调用云计算管理系统API从云计算管理系统获取云计算需要使用的分布式文件 系统或IP-SAN、FC-SAN等存储资源的连接数据,挂载对应的文件系统或存储资源,并将连接 信息反馈给云计算管理系统。

6.创建虚拟交换机,并将该虚拟交换机信息返回给云计算管理系统。

步骤S307中,云计算管理系统将该清理后的计算节点的CPU、内存、本地磁盘等资 源加入到云计算资源池中。

至此,云计算资源池从高性能计算资源池申请计算资源的过程结束。

当步骤S301中监控到云计算资源冗余(例如云计算业务需求下降)时,方法300执 行步骤S308。

步骤S308中,云计算管理系统释放从高性能计算资源池申请到的一部分计算节 点。具体实施例中,云计算管理系统统计云计算资源池中有多少CPU、内存剩余,通过计算剩 余资源来确定可以返还给高性能计算资源池的计算节点数量。如果完全空闲的计算节点数 量不够,将只有少量虚拟机在运行的计算节点中的虚拟机迁出,直到有足够数量的空闲计 算节点。

步骤S309中,云计算管理系统向待释放的计算节点的云计算代理服务模块发送第 二清理命令以由云计算代理服务模块清理待释放的计算节点。具体实施例中,云计算代理 服务模块执行以下清理工作:

1.卸载云计算使用的分布式文件系统或存储资源。云计算代理服务模块确认无虚拟机 在相应节点上运行后卸载云计算使用的分布式文件系统或者IP-SAN、FC-SAN等存储资源。

2.对计算节点进行服务切换,即将该计算节点从云计算环境需要的服务切换到高 性能计算环境需要的服务,并在成功后通知云计算管理系统以便云计算管理系统将该计算 节点从云计算资源池中删除。

3.挂载高性能计算需要的分布式文件系统。

4.设置防火墙和cgroup资源策略,以允许高性能计算用户通过高性能计算调度系 统正常访问该计算节点。

5.返回相应的信息给高性能计算调度系统表示该计算节点当前已无作业,可以接 受新的作业。

然后步骤S310中,高性能计算调度系统将该清理后的计算节点回收到高性能计算 资源池中,提供给高性能计算业务使用。

至此,云计算资源池将从高性能计算资源池申请的计算资源返还给高性能计算资 源池的过程结束。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精 神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

本文发布于:2024-09-25 02:26:25,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/87201.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议