上海超级计算中心三期作业调度系统软件项目需求书

上海超级计算中心三期--作业调度系统软件项目需求书
一、项目概况
上海超级计算中心三期配套工程项目是引进峰值速度为200Tflops的高效能可信计算系统提供满足其运营和应用的机房环境、网络平台、存储系统、商业和半商业软件、主机信息系统、综合布线、系统安全建设、网格服务环境和网格应用平台、主机计算前后处理系统、培训等内容,并继续承担国家863网格主结点建设任务;
二、软件技术指标要求
所采购作业调度系统,其配置满足如下指标要求:
(一)基本指标
开路电压(1)安装要求:可在上海超级计算中心三期200T主机系统全机范围内调度所有计算资源;
(2)高可靠性:具有大规模集商业系统可靠运营的成功案例,在国内具有可靠运营的大规模集成功案例
(3)作业运行正确性:在大规模集的并行作业运行环境中,作业调度和运行正确性达到%以上
(4)高可扩展性:单一机具有可管理5000个以上节点、10000个以上CPU的能力;可同时支持1000个以上作业并行运行
(5)良好的可操作性:可支持系统管理员根据实际需求变化,在线动态调整系统配置参数,不影响作业运行和用户使用,同时确保作业运行统计准确性
(6)多集管理能力:可以同时在同一作业管理系统下管理多个物理或逻辑分割的集系统,作业可以在不同集间根据条件自动迁移
(7)统一的系统级管理平台:提供系统监控、计费、作业调度等功能的统一管理平台,可通过web方式管理,并可同时管理多个集
(8)Linux及windows 混合机的支持:具备统一管理单一机中的WINDOWS服务器、LINUX服务器以及其它UNIX服务器等混合异构平台的能力
(9)多路多核CPU的调度和支持:支持自定义调度策略,支持应用程序在多路多核CPU上运行的情况,可自动扩展调度策略处理
(10)作业控制能力:可对作业的运行时间、CPU 时间、内存大小、数据区大小、CPU数量、文件大小等进行设置和控制
(11)支持并行文件系统,并可根据并行文件系统的技术架构特点灵活部署:支持如Lustre、PVFS、CXFS、GPFS、PFS等主流并行文件系统;
(12)Web Portal开发支持:支持二次开发与用户自行开发,可根据用户需求进行二次开发
(13)基于X Windows的交互式图形支持:提供基于X Windows的交互式作业的提交和管理,且具有实际成熟客户案例
(14)动态服务器即无须重启服务:支持服务器对调度规则的手工、自动移出或者加入,而无须重启服务或配置,操作不影响实际业务运行
(15)支持网格计算环境,如863国家网格环境的Globus网格计算平台:支持主流网格计算平台,提供详细技术规范要求;
(16)支持同构、异构机系统互相提交作业:支持在同一的机内具有不同的操作系统的机器统一调度;用户可根据情况,从Linux提交作业到windows机器上执行或者相反;
矿泉水瓶盖
(17)与主机厂商建立良好合作关系;
(18)支持并提供与如下系统软件及商业应用软件的集成接口:
仿真分析领域:ANSYS、Start CD/StartNet、FLUENT、Abaqus、LS-DYNA、NASTRAN、ISIGHT、PATRAN、PAM-CRASH、Analysis Manager、MARC、FEKO、HyperWorks、ICEM-CFD、AIENVIRONMENT、GEFEP-P、CADEM-P等
生命科学领域:SRS、Mascot、QicProp、Macromodel、Impact、Glide、Pipeline Pilot等
石油物探领域:Paradigm、CGG、Omega、FOCUS、ProMAX、Grisys、JASON、Eclipse、VIP;
科学计算领域:Amber、Gaussian03、Dock、VASP、NWCHEM、matlab、CPMD、EGO、DOCK、BLAST、WIEN 2000、NAMD、ABINIT、MM5、WRF、ARPS、GRAPES、FDS;
电子设计行业:ADS、Verifier、Creative Genius、Explorer、Taurus-Workbench、Hspice、Xcite、SPW、NC-VHDL、Verifault、NC-Verilog、NC-Sim、Analog Artist、Ambit Buildgates、Mercury & MercuryPlus、MMAV
(二)调度策略指标
调度系统提供的所有调度策略均可进行一定程度的自由组合,且都可以对某个队列进行单独控制,包括:
(1)先来先服务FCFS:最基本、常用调度策略,可配置成单一的调度策略;
(2)公平调度及份额控制Fair share:对主机资源进行公平竞争;也可对用户资源进行一定的预分配,保证某些资源对特定用户的需求;
(3)抢占式调度 Preemption:用户按照不同的权限可进行对主机资源的抢占式调度;尤其可采用抢占的计算资源来满足特定需求工程商业软件的用户使用; 
(4)独占式调度 Exclusive:需支持
(5)主机公平调度 Host Paration:需支持
(6)资源预约调度Resource Reservation:需支持
(7)高级处理器预约 Advance Reservation:需支持
(8)提供作业控制能力:对作业的运行时间、CPU 时间、内存大小、数据区大小、CPU数量、文件大小等进行控制;
(三)软件许可证管理指标
(1)许可证可预约:应用程序启动前,可预约程序所需的许可证,避免互相冲突;
(2)许可证抢占式调度:高优先级的作业可抢占低优先级作业正在使用的许可证;而低优先级作业将被挂起直到有许可证可用为止;
(3)许可证所有权控制:用户可保留自己的许可证,确保需要时能立即获得所需要的许可证;
(4)使用份额控制:每个用户可使用所分配的许可证份额;
(四)统计报表分析指标
作业管理系统可查询所有计算节点和许可证的运行和使用信息,并将所有运行数据收集起来,通过数据库管理,同时充分考虑所有数据的备份与容灾;
1、统计报表
a提供系统各种资源CPU、内存、许可证等的全面使用情况统计报表
b对各种硬件性能nice值的统计
网带窑c 具有权限管理: 对每种报表,可规定用户权限,只有满足权限的用户才能查看该报表,用户权限支持至少三级:系统管理员、主管领导、用户
2、分析报表
A、软件许可证分析
在商业软件license昂贵的前提下,确保调度系统具有软件许可证分析能力,确保使用合理化
、最优化,解决许可证的无效占用,获得最大的投资回报;在提供各种分析报表的同时,系统支持分析报表定制;打印机共享器
a)许可证使用分析,包括峰值、平均值、利用率等情况:可按具体Feature统计的许可证统计使用情况,包括平均使用、峰值使用、平均利用率、峰值利用率和有效数目
b)许可证利用率峰值分析: 可根据许可证利用率峰值排行榜分析;
c)许可证拒绝分析:可根据许可证、服务器、用户统计的许可证拒绝统计分析
d)按具体Feature统计的许可证使用情况
e)按具体Feature统计的各用户、部门使用情况
f)按用户统计的许可证使用情况
B、机工作负载分析
a)基于机的工作负载分析
b)基于项目的工作负载分析
c)基于用户的工作负载分析
d)基于主机的工作负载分析
袜子定型机e)基于队列的工作负载分析
f)基于资源使用的负载分析
g)用户和项目的作业统计分析
(五)计费系统指标
作业调度系统具有以各种指标进行计费,尤其是提供针对软件许可证进行统计计费的功能,同时具有灵活方便的管理账单工具或者平台,可以WEB界面方式进行费率设定、费用查询、账单生成;可根据不同需求设定不同费率;根据的许可证的不同价格设定相应费率,体现出不同的计算资源以及软件的不同进行收费;
所有计费数据形成可定制报表,并以电子或纸质方式输出;
a)以用户使用计算资源进行计费
b)以CPU时间进行计费
c)以运行时间进行计费
d)以CPU数目进行计费
e)以作业队列进行计费
f)以存储资源进行计费
g)以商业软件许可证资源进行计费
(六)web管理平台指标
基于WEB技术所提供的易用性,为系统管理员及用户提供可视化的、统一的web管理平台以及访问接口,同时根据要求进行不同的用户授权;
1、系统管理员远程管理和控制
为系统管理员提供主机系统的web远程管理和控制:
a)系统监控:包括整个机运行状况实时监视以及单个计算节点的实时监视;
b)用户管理:可对用户信息,权限等以及所使用的主机资源进行管理;
c)队列管理:可对队列资源进行管理
d)作业管理:用户作业的在线监视、查询,杀除、监控等
e)节点管理:支持对节点的状态等监测及配置
f)软件管理:支持对软件集成的配置、调整等
g)软件许可证的监视和管理:通过WEB方式实时监视各商业软件许可证的使用情况,包括最大许可证数目和当时实际使用数量,以及使用用户及具体节点;
h)计算资源使用统计分析:
i)软件许可证使用统计分析
j)计费管理:以通过Web界面进行:费率设定、费用查询、 账单生成等
k)用户使用及收费查询:根据不同的主机资源进行查询
2、用户远程使用基本功能
为用户提供高性能计算资源使用基本功能:
a)用户作业的提交和管理:实现Web方式作业的提交和管理
b)用户作业查询、杀除、监控等:提供用户在作业运行中的在线操作
c)X Windows交互作业的提交、管理:支持基于X Windows的交互式作业的提交和管理,且具有实际成熟客户采用;
d)X Windows的交互式作业许可证调度和管理:包括份额控制、公平调度、许可证所有权调度、优先级控制、强占式调度等
e)用户数据管理
f)用户作业统计与查询:用户可以通过Web界面进行统计与查询
(七)二次开发
在主机系统整体安装前后,根据上海超级计算中心实际需求对调度系统的部分模块进行二次开发,并在实际运行中,根据业务需求,配合上海超级计算中心进行开发;
1、基本模块的开发与定制
      1在主机采用作业调度软件后可根据实际的需求变化对整个
系统的定制调整以及根据安全可定制开发,完善和提高系统架构的
健壮性;
      2对提供的管理平台可根据实际需求进行改造、开发定制;
      3根据多核、多CPU、网络通信等硬件结构的特点,对基本
功能的优化开发;
2、调度策略的开发定制
1自定义调度策略的开发和定制:允许根据用户需求进行定自动投篮机
制开发调度策略;同时随着实际业务的运行的需求不断改变提供不同的定制与开发;
2多路多核CPU的调度和支持:可以根据硬件多核、多CPU、
网络通信等以及应用软件的情况开发专用的、有针对性的调度策略;
3、软件集成优化与许可证管理
1定期对主要商业应用软件版本升级提供集成、策略制定和优
化开发:可根据商业软件版本的升级,及时对新版本进行集成、优化等工作;
2根据不同软件的特点提供许可证管理监控、调度、统计、计
费等,根据需求定制开发;
4、统计报表计费
1统计报表的定制:提供方便的扩展机制,从而可以根据用户

本文发布于:2024-09-23 07:28:40,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/283145.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:用户   作业   调度   进行   管理   使用   支持
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议