高性能计算集(HPC_CLUSTER)

高性能计算HPC CLUSTER)
1.1什么是高性能计算集
简单地说,高性能计算High-Performance Computing是计算机科学的一个分支,它致力于开发超级计算机,研究并行算法和开发相关软件。
阿比吉尔 布莱斯林高性能集主要用于处理复杂的计算问题,应用在需要大规模科学计算的环境中,如天气预报、石油勘探与油藏模拟、分子模拟、基因测序等。高性能集上运行的应用程序一般使用并行算法,把一个大的普通问题根据一定的规则分为许多小的子问题,在集内的不同节点上进行计算,而这些小问题的处理结果,经过处理可合并为原问题的最终结果。由于这些小问题的计算一般是可以并行完成的,从而可以缩短问题的处理时间。
高性能集在计算过程中,各节点是协同工作的,它们分别处理大问题的一部分,并在处理中根据需要进行数据交换,各节点的处理结果都是最终结果的一部分。高性能集的处理能力与集的规模成正比,是集内各节点处理能力之和,但这种集一般没有高可用性。
1.2高性能计算分类
高性能计算的分类方法很多。这里从并行任务间的关系角度来对高性能计算分类。
1.2.1高吞吐计算High-throughput Computing)
有一类高性能计算,可以把它分成若干可以并行的子任务,而且各个子任务彼此间没有什么关联。因为这种类型应用的一个共同特征是在海量数据上搜索某些特定模式,所以把这类计算称为高吞吐计算。所谓的Internet计算都属于这一类。按照Flynn的分类,高吞吐计算属于SIMD(Single Instruction/Multiple Data单指令流多数据流)的范畴。
1.2.2分布计算Distributed Computing)
另一类计算刚好和高吞吐计算相反,它们虽然可以给分成若干并行的子任务,但是子任务间联系很紧密,需要大量的数据交换。按照Flynn的分类,分布式的高性能计算属于MIMD(Multiple Instruction/Multiple Data,多指令流多数据流)的范畴。
1.3高性能计算集系统的特点
可以采用现成的通用硬件设备或特殊应用的硬件设备,研制周期短;
可实现单一系统映像,即操作控制、IP登录点、文件结构、存储空间、I/O空间、作业管理系统等等的
单一化;
高性能(因为CPU处理能力与磁盘均衡分布,用高速网络连接后具有并行吞吐能力);
高可用性,本身互为冗余节点,能够为用户提供不间断的服务,由于系统中包括了多个结点,当一个结
点出现故障的时候,整个系统仍然能够继续为用户提供服务;
高可扩展性,在集系统中可以动态地加入新的服务器和删除需要淘汰的服务器,从而能够最大限度地
扩展系统以满足不断增长的应用的需要;
安全性,天然的防火墙;
资源可充分利用,集系统的每个结点都是相对独立的机器,当这些机器不提供服务或者不需要使用的
时候,仍然能够被充分利用。而大型主机上更新下来的配件就难以被重新利用了。
具有极高的性能价格比,和传统的大型主机相比,具有很大的价格优势;
1.4 Linux高性能集系统
当论及Linux高性能集时,许多人的第一反应就是Beowulf。起初,Beowulf只是一个著名的科学计算集系统。以后的很多集都采用Beowulf类似的架构,所以,实际上,现在Beowulf已经成为一类广为接受的高性能集的类型。尽管名称各异,很多集系统都是Beowulf集的衍生物。当然也存在有别于Beowulf的集系统,COW和Mosix就是另两类著名的集系统。
1.4.1 Beowulf集
简单地说,Beowulf是一种能够将多台计算机用于并行计算的体系结构。通常Beowulf系统
由通过以太网或其他网络连接的多个计算节点和管理节点构成。管理节点控制整个集系统,同时为计算节点提供文件服务和对外的网络连接。它使用的是常见的硬件设备,像普通PC、以太网卡和集线器。它很少使用特别定制的硬件和特殊的设备。Beowulf集的软件也是随处可见的,像Linux、PVM和MPI。
1.4.2 COW集
像Beowulf楚盛家具一样,COW(Cluster Of Workstation)也是由最常见的硬件设备和软件系统搭建而成。通常也是由一个控制节点和多个计算节点构成。
COW和Beowulf的主要区别在于:
COW中的计算节点主要都是闲置的计算资源,如办公室中的桌面工作站,它们就是普通的PC,采用普通的局域网进行连接。因为这些计算节点白天会作为工作站使用,所以主要的集计算发生在晚上和周末等空闲时间。而Beowulf中的计算节点都是专职于并行计算,并且进行了性能优化。Beowulf采用高速网(InfiniBand,SCI,Myrinet)上的消息传递(PVM或MPI)进行进程间通信(IPC)。
因为COW中的计算节点主要的目的是桌面应用,所以它们都具有显示器、键盘和鼠标等外设。而Beowulf的计算节点通常没有这些外设,对这些计算节点的访问通常是在管理节点上通过网络或串口线实现的。
1.4.3 Mosix集
实际上把Mosix集放在高性能集这一节是相当牵强的,但是和Beowulf等其他集相比,Mosix集确实是一种非常特别的集,它致力于在Linux系统上实现集系统的单一系统映像SSI(Single System Image)。Mosix集将网络上运行Linux的计算机连接成一个集系统。系统自动均衡节点间的负载。因为Mosix是在Linux系统内核中实现的集,所以用户态的应用程序不需要任何修改就可以在Mosix集上运行。通常用户很少会注意到Linux和Mosix的差别。对于他来说,Mosix集就是运行Linux的一台PC。尽管现在存在着不少的问题,Mosix始终是引人注目的集系统
2如何架构高性能计算集
在搭建高性能计算集(HPC CLUSTER)之前,我们首先要根据具体的应用需求,在节点的部署、高速因特网的选择,以及集管理和通信软件,三个方面作出配置。
2.1节点的部署
根据功能,我们可以把集中的节点划分为6种类型:
金冷法中国思维
用户节点User Node)
控制节点Control Node)
管理节点Management Node)
存储节点Storage Node)
lbe
安装节点Installation Node)
计算节点Compute Node)
虽然由多种类型的节点,但并不是说一台计算机只能是一种类型的节点。一台计算机所扮演的节点类型要由集的实际需求和计算机的配置决定。在小型集系统中,用户节点、控制节点、管理节点、存储节点和安装节点往往就是同一台计算机。下面我们分别解释这些类型节点的作用。
2.1.1用户节点User Node)
用户节点是外部世界访问集系统的网关。用户通常登录到这个节点上编译并运行作业。
用户节点是外部访问集系统强大计算或存储能力的唯一入口,是整个系统的关键点。为了保证用户节点的高可用性,应该采用硬件冗余的容错方法,如采用双机热备份。至少应该采用RAID(Redundant Array of Independent Disks技术保证用户节点的数据安全性。
2.1.2控制节点Control Node)
控制节点主要承担两种任务为计算节点提供基本的网络服务,如DHCP、DNS和NFS调度计算节点上的作业,通常集的作业调度程序如PBS应该运行在这个节点上。
通常控制节点是计算网络中的关键点,如果它失效,所有的计算节点都会失效。所以控制节点也应该有硬件冗余保护。广州地铁二号线
2.1.3管理节点Management Node)
管理节点是集系统各种管理措施的控制节点。管理网络的控制点,监控集中各个节点和网络的运行状况。通常的集的管理软件也运行在这个节点上。
2.1.4存储节点Storage Node)
如果集系统的应用运行需要大量的数据,还需要一个存储节点。顾名思义,存储节点就是集系统的数据存储器和数据服务器。如果需要存储TB级的数据,一个存储节点是不够的。这时候你需要一个存储网络。通常存储节点需要如下配置:ServerRAID保护数据的安全性高速网保证足够的数据传输速度。
2.1.5安装节点Installation Node)
安装节点提供安装集系统的各种软件,包括操作系统、各种运行库、管理软件和应用。它还必须开放文件服务,如FTP或NFS。
2.1.6计算节点Computing Node)
计算节点是整个集系统的计算核心。它的功能就是执行计算。你需要根据你的需要和预算来决定采用什么样的配置。理想地说,最好一个计算节点一个CPU。但是如果考虑到预算限制,也可以采用SMP。从性价比角度说,两个CPU的SMP优于3或4个CPU的SMP机器。

本文发布于:2024-09-21 22:25:24,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/262796.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:节点   集群   计算   系统   高性能   需要   用户   采用
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议