南京大学IBM HS22刀片集群系统用户手册
一、IBM HS22刀片集群系统的硬件架构和软件配置
1. 硬件架构
1.1 系统总体逻辑图
1.2 节点命名规则:
根据用途系统内各节点分为:
(1) 登录节点:c01n01, c01n02….c01n10对应的网址:172.19.18.11…..172.19.18.20 (2) 计算节点:c02n01,c02n02…c02n14 c03n01,c02n02…c03n14 …….
c28n01,c28n02…c28n10 c29n01,c29n02…c30n14 c30n01,c30n02…c30n14 (3) 并行存储节点: fnode01-----fnode20
(4) 作业管理调度节点:qnode01,qnode02,qnode03 1.3 登录节点配置:
? HS22刀片中心9U高度,2X2900W 电源,20Gb14口Infiniband交换机,双千兆
对内14口对外六口交换机,双百兆管理网口,14个刀片插槽
每刀片2路 Intel Xeon 5550 2.67GHz 4核处理器 每节点配备24GB DDRIII ECC 1333GHz 内存 内置2块146GB SAS本地硬盘 内置2双 1000Mbps网卡
一块Infiniband(20Gb/S)网卡 一块光纤存储卡(4Gb/S)
OS RedHad Linux 5.3 64Bit Server Edition
登录节点包括5套网络:千兆外部接入网络、千兆作业调度、管理网络、Infiniband并行互联网络、百兆管理网络和光纤存储网络
1.4计算节点配置:
? HS22刀片中心9U高度,2X2950W 电源,20Gb14口Infiniband交换机,千兆对
内14口对外六口交换机,双百兆管理网口,14个刀片插槽 ? 每刀片2路 Intel Xeon 5550 2.67GHz 4核处理器 ? 每节点配备12GB DDRIII ECC 1333GHz 内存 ? 内置146GB SAS本地硬盘
? 内置 1000Mbps网卡,用于作业管理、调度
? 一块Infiniband(20Gb/S)网卡,用于作业并行计算高速互联
? 计算节点包括3套网络:千兆作业调度、管理网络、Infiniband并行互联网络、百
兆管理网络
1.5 存储系统:
存储系统分为两部分:
第一部分作为用户的家目录和备份用,由IBM DS5300 SAN存储构成,SATA磁盘阵列,裸容量128TB,双存储控制器,16GB共享缓存,16个4Gb光纤主机接口,4Gb光纤存储网络,做成两个GPFS文件系统、通过光纤接口分别连接到10个登录节点上,可提供2GB的I/O总带宽,用户家目录在登录节点上的路径为:/gpfssan1/home/username 或/gpfssan2/home/username
第二部分作为并行计算时的临时工作缓冲区,总共由20台IBM X3650 机架服务器组成: (1) Infiniband 存储网络数据传输带宽20Gb/s,连接集群系统中所有节点
(2) 配置成两个GPFS网络文件系统,挂接在10个登录节点和402个计算节点上,为每个
用户开辟一块tmp区挂接在家目录下,用户将需要并行计算的作业脚本、运行数据及有关程序拷贝到该区后,用bsub递交作业
(3) 20个存储节点分别命名为fnode01~fnode20,存储节点通过SAS卡与6块450GB SAS
盘直连,其中一块硬盘作为系统盘,另5块盘做成raid5磁盘阵列, 提供320Mb/s的IO带宽;通过Infiniband交换机与高速网络系统连接,组成1个gpfs文件系统,可提供6GB/s的I/O总带宽
存储节点上的挂载路径为:/gpfsTMP
2 软件
2.1 操作系统:
RedHad Linux 5.3 64 bits Enterprise Server Edition 编译软件:
Intel C 11.0、C++ 11.0、Fotran 11.0、MKL10.0库、OpenMPI、MPI3.2 Mpich 2.0
? ? ? ? ? ? ? ?
2.2 应用软件:(安装在 /gpfssan1/apps目录下) 1.Gaussian 03 2. VASP 4.6 3. AMBER 4. gromacs
5. Material Studio 3.作业管理系统与调度策略
南京大学高性能计算中心采用Platform公司的LSF资源调度软件对集群上的计算资源进行统一调度管理,用户提交作业时将统一使用LSF作业管理系统进行作业提交、管理、监控、删除、卸载等操作。
3.1 lsf 基本介绍
LSF HPC是智能化的、基于调度策略的高性能计算负载均衡管理系统,通过集中监控、调度和分析联网计算机的负载,LSF HPC可最大限度地共享计算机的CPU、内存、磁盘、License等计算资源。IBM HS22集群系统上安装集成了LSF HPC 7.0。 3.2 LSF作业生命周期流程 注:作业提交只可在登录节点c01n01….c01n10上 3.3IBM HS22集群系统的队列划分
常用的任务队列名称和说明见下表:
Qseq
用户作业为串行进程的提交队列。C02、C03、C04、C05和C06刀片中心的节点被调度,按照先进先运行策略调度
小规模应用作业队列。限制任务的进程数在2—8个进程,按照先进先运行策略调度,C11、C10、C09、C08、C07、C06、C05、C04、C03和C02刀片中心的节点被调度
中规模应用作业队列。限制任务的进程数在9—64个进程,按照先进先运行策略调度,
qmedium
C12、C13、C14、C15、C16、C17、C18、C19、C20、C21和C22刀片中心的节点被调度
qlarge
用户大作业队列,限制任务的进程数在9---512个进程,按照先进先运行策略调度,C30、C29、C27、C26、C25、C24、C23、C22刀片中心的节点被调度
qsmall
3.4 队列管理及其调度策略
? qlarge队列:
(1) 大作业调度队列,且CPU数目必须为8的整数倍;
?
?
?
? ?
(2) qlarge队列调度策略上采用8cpu/node限制措施,严格按FIFO方式预约节点资源; qmedium队列:
(1) 用户中规模作业调度队列; (2) 此队列可被qlarge队列抢占。
(3) 优先在qsmall和qseq队列对应节点区域调度,资源不够可抢占qsmall和qseq队列; qsmall队列:
(1) 小规模计算队列;
(2) 优先在qseq队列对应节点区域调度,资源不够可抢占qseq队列; qseq队列:
(1) 串行作业默认调度队列;
(2) Qmedium和qsmall队列在资源不够的情况下,可以抢占并suspend相关qseq队列作业; 上述各队列中的用户都具有相同的优先级; 除特殊说明外,所有队列都不作cpu/node限制,不采用FIFO方式预约节点资源,都遵循fairshare调度策略;
4.IBM 刀片集群系统的接入方式
所有c01n01?.c01n10十个登录节点,Linux 用户可用ssh登录,Windows 用户可用F-Secure SSH Client等远程登录方式接入。Linux用户可利用sftp,Windows用户利用F-Secure SSH File transfer等软件上传和下载文件及数据。
校外用户可利用南京大学VPN或bras先进入南大网络,再利用以上方法操作即可。
用户的家目录在:/gpfssan1/home/user, 同时在高速并行存储上为您开辟了目录 /gpfTMP/user 这里的user就是您的用户名,如果您做并行计算,在/gpfsTMP/user下递交作业将更快。 IBM刀片系统用户使用手册和LSF的使用手册在:/gpfssan1/home/userguide
用户的环境设置:(.bashrc)可根据自己的需要进行修改
# Source global definitions if [ -f /etc/bashrc ]; then . /etc/bashrc fi
# User specific aliases and functions #设置并行环境为openmpi
#export PATH=/gpfssan1/apps/openmpi/bin:$PATH
#export LD_LIBRARY_PATH=/gpfssan1/apps/openmpi/lib:$LD_LIBRARY_PATH #设置C,C++,fortran 的编译器和mkl为Intel Ver 11.1
Source /gpfssan1/apps/intel/Compiler/11.1/064/bin/intel64/iccvars_intel64.sh Source /gpfssan1/apps/intel/Compiler/11.1/064/bin/intel64/ifortvars_intel64.sh source /gpfssan1/apps/intel/Compiler/11.1/064/bin/intel64/idbvars.sh
source /gpfssan1/apps/intel/Compiler/11.1/064/mkl/tools/environment/mklvars64.sh ##设置并行环境为intel MPI 3.2.1
source /gpfssan1/apps/intel/impi/3.2.1.009/bin64/mpivars.sh export NETCDF=/gpfssan1/apps/netcdf-4.0.1-intel
#export NETCDF=/gpfssan1/apps/netcdf-4.0.1-tmp/netcdf-4.0.1 export PATH=$NETCDF/bin:$PATH:./ export I_MPI_DEVICE=rdssm
./gpfssan1/apps/lsf/conf/profile.lsf
二、IBM HS22刀片集群系统的用户作业管理
5.作业提交基本流程
Step1 : 用户准备数据输入文件与作业脚本文件; Step2 : ftp上传数据文件至用户目录; Step3 : 登录到c01n01?c01n10登录节点上,利用bsub命令提交作业。对于一些商业化软件可
利用Web Portal 提交作业(正在实施中);
Step4 : 监控作业完成,并通过ftp下载结果文件。
用户准备数据文件 ftp 上传至用户目录
ftp下载结果文件 提交作业
6.编译系统与并行环境
包括GNU Fortran, GNU C/C++, f77和f95命令在/usr/bin中.
以下是用于编译、链接的常用命令:
G77: 用于Fortran程序编译和链接. 优化选项用 \或 \即可。 例:对于单进程FORTRAN程序编译、链接用
% g77 –O3 –o mytest mytest.f
cc, gcc, g++, c++等: 用于C/C++程序的编译和链接. 优化选项可用 \或 \
例:对于单进程C程序编译、链接用
% gcc –O3 –o mytest mytest.c
关于g77,gcc,gc++,g++这几个命令更详细的说明,可以用“%man 命令” 查看。
Intel Compiler软件装在/gpfssan1/apps/intel/Compiler/11.1/064/bin/intel64目录中,支持C, C++, FORTRAN90, FORTRAN95,包括MKL10.0动态和静态链接库。
以下是用于编译、链接的常用命令: icc 是Intel 公司的C语言编译器 例:对于单进程C程序编译、链接用 % icc –O2 –o tt tt.c
ifort是Intel 公司的FORTRAN语言编译器 例:对于单进程FORTRAN程序编译、链接用 % ifort –O2 –o tt tt.f
并行环境为Intel公司的MPI,该MPI支持MPI-2.0标准。
Intel MPI 3.2软件装在/gpfssan1/apps/intel/impi/3.2.1.009/bin64目录中,常用编译命令有mpif77、mpif90、mpiifort、mpigcc、mpig77、mpigxx、mpiicc和mpicc等,常用并行运行命令有mpirun和mpiexec等。
编译并行源程序的例:
% mpiicc –O3 –o tc tc.c
这里的tc.c为用MPI并行C语言编写的源程序,-O3指定优化级别,-o tc是指定生成的运
南京大学IBMHS22刀片集群系统用户手册



