高性能集群性能评测课件.pptx-得力文库

资源描述

《高性能集群性能评测课件.pptx》由会员分享，可在线阅读，更多相关《高性能集群性能评测课件.pptx（89页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、高性能集群性能评价曙光信息产业股份有限公司解决方案中心目录n1高性能集群性能评价概述n2集群性能评价2.1计算性能测试linpack2.2 NPB（NASA Parallel Benchmarks）测试2.3 SPEC测试套件2.64可靠性测试HPCC包n3集群网络性能评价n4IO性能测试n5内存带宽性能测试n6其它测试1高性能集群性能评价概述高性能计算架构变化数据来源：数据来源：数据来源：数据来源：2010 TOP 500 2010 TOP 500 2010 TOP 500 2010 TOP 500 排行榜排行榜排行榜排行榜高性能计算网络发展数据来源：数据来源：数据来源：数据来源：2010

2、 TOP 500 2010 TOP 500 2010 TOP 500 2010 TOP 500 排行榜排行榜排行榜排行榜高性能集群操作系统份额数据来源：数据来源：数据来源：数据来源：2010 TOP 500 2010 TOP 500 2010 TOP 500 2010 TOP 500 排行榜排行榜排行榜排行榜千兆交换机千兆交换机局域网局域网InternetInternet路由器路由器防火墙防火墙远程控制远程控制内网内网外网外网以太网以太网交换机交换机控制台控制台本地本地KVMKVM以太网光纤网Infiniband网KVM管理网登陆登陆/管理节点管理节点机房环境机房环境并行存储系统并行存储系统高

3、速高速InifinibandInifiniband交换机交换机刀片集群刀片集群GPGPUGPGPU节点节点计计计计算算算算系系系系统统统统存存存存储储储储系系系系统统统统 SMPSMP胖节点胖节点2 2算例上传算例上传作业提交作业提交本地建模本地建模1 1本地建模本地建模1 11011000110101001000100100100100110001101010010001001001100011010100100010010011000110101001000100100001001001100011010100001001001100011010100001001001100011010

4、10000100100110001101010 作业运行作业运行3 3 数据访问与存储数据访问与存储4 4 系统管理与用户管理系统管理与用户管理5 5高性能计算作业的工作流程系统软件层系统软件层基础设施层基础设施层IT核心硬件层核心硬件层存储系统计算系统网络系统操作系统作业调度软件、管理系统并行环境编译器、数学库、MPI网络网络PC机笔记本平板电脑瘦客户端工作站应用软件层应用软件层生命科学CAE仿真功能节点空调系统物理化学气象海洋配电系统防雷系统机房装修机柜及KVM石油勘探动漫渲染高性能计算机系统架构高性能计算机系统架构高性能计算机中的关键技术一计算系统二基础设施三功能节点四存储系统五网络系统

5、六操作系统七管理调度软件八并行环境九应用软件高性能集群三要素无密码访问配通统一的系统印象统一的文件印象对于普通用户来说，所有节点看到的某一个文件都是相同的文件。通过nfs或者并行文件系统实现。通过NIS或同步用户信息来实现。网络全通 rsh或ssh无密码访问配通 CAE（CFD）石油勘探石油勘探气象环境气象环境海洋海洋图像渲染图像渲染物质的物理化物质的物理化学材料属性的学材料属性的科研工作中科研工作中基因科学、蛋基因科学、蛋白质科学的研白质科学的研究以及新药的究以及新药的研发研发地震资料处理，地震资料处理，用于油气勘探用于油气勘探气象环境海洋气象环境海洋的数值预报的数值预报动画、电影、图像的高

6、动画、电影、图像的高逼真效果制作逼真效果制作物理化学物理化学材料材料生命科学生命科学六大应六大应六大应六大应用领域用领域用领域用领域高性能计算在国内的六大应用领域计算机辅助工程，广计算机辅助工程，广泛应用于工业生产中泛应用于工业生产中其它：卫星图像处理、金融计算等其它：卫星图像处理、金融计算等物理化学材料：计算物理材料：vasp，cpmd，MaterialStudio。计算化学：gaussian、gamess，ADF。CAE领域：结构计算：ansys、abaques,nastran流体计算：fluent，CFX电磁仿真：Fecko生命科学：生物信息学：MPIBLAST，BWA等分子动力学：Na

7、md，gromacs，lammps。药物设计：dock，autodock，DiscoveryStudio。主流高性能应用介绍n气象海洋环境科学p气象预报：WRF，MM5，Graphesp海洋科学：romsn石油勘探nOmega，cgg等n动漫渲染n3dmax，Maya等主流高性能应用介绍高性能应用典型特征串行程序串行程序大多数用大多数用户的自的自编程序，但是由于无法程序，但是由于无法并行，无法利用多核并行，无法利用多核多多节点的点的优势，所以，所以无法无法实现海量海量计算。算。多多线程程序程程序可以可以实现单节点内点内的并行，支持的并行，支持openmp，编程程较为简单，核心数太多效，核心

8、数太多效率降低，同率降低，同时无法无法实现多多节点大点大规模并行模并行消息消息传递并行程序并行程序MPI并行程序（目前并行程序（目前主流的高性能主流的高性能应用普用普遍采用的并行方式，遍采用的并行方式，效率高，性能好）效率高，性能好）PVM并行程序并行程序任任务级并行程序并行程序高性能应用软件的编程模型衡量高性能系统性能的评价指标 -理论峰值（FLOPS）FLOPS（浮点运算每秒）1、如何计算理论峰值：峰值主频(GHz)*总核心数*4(4代表每个时钟周期做4次浮点运算)例如：10个AMD双路12核刀片（CPU6174，主频2.2）总核心数10212240 峰值2.224042112GFLOPS

9、2.1TFLOPS=2.1万亿次。GPU峰值：每C2050卡双精度峰值0.515TFLOPS 单精度峰值1.03TFOPS 双精度峰值0.515*GPGPU卡数目（TFLOPS）单精度峰值1.03*GPGPU卡数目（TFLOPS）衡量高性能系统性能的评价指标 -实测峰值（FLOPS）HPL(Linpach)测试-对系统进行整体计算能力的评价Linapck测试：采用主元高斯消去法求解双精度稠密线性代数方程组，结果按每秒浮点运算次数（flops）表示。HPL：针对大规模并行计算系统的测试，其名称为High Performance Linpack(HPL)，是第一个标准的公开版本并行Linpac

10、k测试软件包。用于TOP500与国内TOP100排名依据。使用者可以改变问题规模。有相当大的优化空间。衡量高性能系统性能的评价指标 -系统效率系统效率=实测峰值/理论峰值如何提高效率：（1）通过优化网络（2）通过优化测试程序的编译与设置（3）通过优化内存的配置与容量（4）通过优化运行参数及系统参数！目前:一套通过Infiniband网络互连的集群，效率一般在70%以上。加速比定律在并行计算系统，并行算法（并行程序）的执行速度相对于串行算法（串行程序）加快的倍数，就是该并行算法（并行程序）的加速比；加速比是衡量“并行收益”的重要指标；Amdahl定律适用于固定计算规模的加速比性能描述，G

11、ustafson定律适用于可扩展问题。Amdahl定律S=(WS+WP)/(WS+WP/p)=1/(1/p+f(1-1/p)显然，当p时，S=1/f，即对于固定规模的问题，并行系统所能达到的加速上限为1/f一度引发了并行界部分人士的悲观情绪Gustafson定律S=（WS+pwp）/（WS+WP）=p-f（p-1）=f+p（1-f）并行计算是为了解决大规模并行问题，可并行部分的比例是可扩大的加速比与处理器数成斜率为（1-f）的线性关系这样串行比例f就不再是程序扩展性的瓶颈，当然，f越低，斜率会越大，加速性能越好。1定量测试系统的性能指标2验证整个系统配置的正确性3给系统加压，考量系统的可靠性高

12、性能集群性能评测的目的高性能集群综合性能测评1Linpack测试2NPB测试3SPEC测试4可靠性可靠性测试HPCC包包综合性能测评指标HPL(Linpach)测试-对系统进行整体计算能力的评价Linapck测试：采用主元高斯消去法求解双精度稠密线性代数方程组，结果按每秒浮点运算次数（flops）表示。HPL：针对大规模并行计算系统的测试，其名称为High Performance Linpack(HPL)，是第一个标准的公开版本并行Linpack测试软件包，用于TOP500与国内TOP100排名依据。使用者可以改变问题规模。有相当大的优化空间。Linpack测试n1依赖环境：编译安装标准MPI

13、程序，openmpi、intelmpi、mvapich2或mpich2均可编译安装优化的blas库，一般建议对于Intel平台，使用MKL，对于AMD平台，使用Gotoblas。2下载hpl-2.0.tar.gz源码包。3编译linpack程序。a)tar-zxfhpl-2.0.tar.gznb)cdhpl-2.0nc)cpsetup/Make.Linux_ATHLON_FBLASMake.gcc_openmpi(gcc_openmpi只是一个名字，可以随便取)基于CPU的Linpack测试步骤nd)编辑Make.gcc_openmpin修改第64行为ARCH=gcc_openmpi(和Mak

14、e.icc_openmpi保持一致)n修改第70行为TOPdir=/public/sourcecode/hpl-2.0（此处目录为hpl-2.0所在的目录，根据具体情况修改）n修改第84行为MPdir=（或者注释此行）n修改第85行为MPinc=（或者注释此行）n修改第86行为MPlib=（或者注释此行）n修改第95行为LAdir=（或者注释此行）n如果blas选用MKL库，可以参考http:/ ngnu 编译器修改第171行为CCFLAGS=-pipe-O3-fomit-frame-pointer-march=native-funroll-loops-ffast-mathnpgi编译器修改第

15、171行为CCFLAGS=-Bstatic-V-fastsse-Munroll=n:4-Mipa=fast,inlinen修改第174行为LINKER=mpicc，intelmpi修改为mpiiccne)载入环境变量，确认自己使用的编译器环境以及MPInsource/public/software/mpi/openmpi-1.4.3-gnu.shnf)make arch=gcc_openmping)cd bin/gcc_openmpin此目录中的xhpl为编译成功的可执行程序,HPL.dat为数据文件基于CPU的Linpack测试步骤n修改HPL.dat，一般需要修改3处n1.问题规模的组数及

16、大小，一般为1组：p1#of problems sizes(N)p40000 Nsp占用内存=N*N*8字节，一般占用所有测试节点物理内存总和的75%左右性能较优p比如N=40000，占用物理内存=40000*40000*8Byte=12800000000Byte=11.92GBn2.NB值，即矩阵分块大小，这个是经验值，一般设置为128、192、232p 2#of NBsp 128 192 NBsp这里表示运行2组，NB值分别为128和192运行linpackn3、P和Q的设置（进程数目的设置），P和Q设置一般为1组p1#of process grids(P x Q)p4 Psp4 Qsp要

17、求：pPQ进程数pP=1)p1#ofpanelsinrecursionp2NDIVsp1#ofrecursivepanelfact.p01RFACTs(0=left,1=Crout,2=Right)这些值对最终的结果影响较小，但是也有少量的影响，但是这些结果对测试的时间（数据组）有较大的影响。运行linpackn载入环境变量，确认你要用的mpinsource/public/software/mpi/openmpi1.4.3-gnu.shn考虑到可能测试时间比较长，使用nohup到后台运行nmpirun-np16-machinefilema./xhpl&out.log&nma的格式为：nnode

18、1 slots=8nnode2 slots=8n详细运行方法参见4.3，运行OpenMPI程序。测试结果在out.log里查看运行HPLn版本:1.4.3ntarzxvfopenmpi-1.4.3.tar.gzncdopenmpi-1.4.3/n./configure-prefix=/public/software/mpi/openmpi1.4.3-gnu-without-psm-enable-mpirun-prefix-by-defaultnnmake-j8nmakeinstallnmakedistcleannn添加环境变量脚本nvim/public/software/mpi/openmpi

19、1.4.3-gnu.shnMPI_HOME=/public/software/mpi/openmpi1.4.3-gnunexport PATH=$MPI_HOME/bin:$PATHnexport LD_LIBRARY_PATH=$MPI_HOME/lib:$LD_LIBRARY_PATHnexport MANPATH=$MPI_HOME/share/man:$MANPATH附录：如何编译openmpin版本:1.13nGotoBLAS2为优化的BLAS数学库，在版本2以后，可以将LAPACK库也集成其中，编译好的Gotoblas2包含了BLAS和LAPACK数学库，在LINPACK和常用物理

20、化学软件中使用ntarxvzfGotoBLAS2-1.13.tar.gzncplapack-3.1.1.tgzGotoBLAS2/ncdGotoBLAS2n修改Makefile.rule文件：n第17行，CC=gccn 20行 FC=ifortn 27行 BINARY=64n 34行 USE_THREAD=0nmakenmkdir-p/public/software/mathlib/goto2ncplibgoto2*.a/public/software/mathlib/goto2/附录:如何编译gotoblas库n安装基本需求：p1）NvidiaCUDA环境搭建NvidiaCUDA运行环境，需

21、要安装以下两个包：NvidiaGPU驱动；CUDA开发工具包cudaToolkit。可通过下载安装。p2）编译器系统必须安装了支持C语言和Fortran编译器。推荐采用在Intel编译器11.0版本及以上。p3）并行环境并行环境是指MPI。可采用Openmpi，Intelmpi，mvapich等，推荐使用openmpi，编译时采用intel编译器编译。p4）BLAS库BLAS库及基本线性代数库，采用BLAS库的性能对最终测得的Linpack性能有密切的关系。目前NvidiaGPULinpack支持IntelMKL，其中MKL可采用intel编译器中自带的MKL。基于GPU的Linpack测试n

22、编译cuda HPLnCUDA版本的HPL可在dawning服务器下载。相比较于CPU版本HPL，CUDAHPL主要是把HPL程序中主dgemm(double-precisiongenericmatrix-matrixmuliplication)划分为两部分，分别交给CPU、GPU协同完成，这样就可以把整个计算系统的计算能力充分利用起来。n在cudaHPl编译时主要修改两个Makefile文件：p修改 Make.CUDA_pinned文件p修改$hpl/src/cuda/Makefile基于GPU的Linpack测试n在CUDA HPL文件夹中，提供了Makefile模板“Make.CUDA_

23、pinned”,通过修改Make.CUDA_pinned文件可以指定linpack所使用编译器、库函数、编译选项等。n主要修改的变量有：nARCH：必须与文件名Make.中的一致nTOPDIR：当前所在的路径nMPdir：指明MPI所在目录nMPinc：指明MPI头文件目录nMPlib：指明MPI库文件目录nLAdir：BLAS库所在的目录nLAinc、LAlib：BLAS库头文件、库文件nCUDAinc：CUDA头文件目录nCUDAlib：CUDA库文件目录nCC：C语言编译器nCCFLAGS：C编译选项基于GPU的Linpack测试n2）修改$hpl/src/cuda/Makefilen此

24、文件中主要修改nMPInc指定mpi头文件目录nMPICC指定mpicc目录n如下表所示：nnMPInc=/public/software/ompi142-intel/includenMPICC=/public/software/ompi142-intel/bin/mpiccn基于GPU的Linpack测试n编译n在CUDAhpl目录下执行makearch=CUDA_pinnedn编译后在$cuda_hpl目录/bin/CUDA_pinned下生成可执行文件xhpl编译n修改HPL.dat与基于CPU的linpack修改方法相同，主要修改N值（问题规模）、NB值（分块大小）、P和Q的值等。基于

25、GPU的Linpack测试-运行n在cudalinpack程序中每个GPUdevice对应一个CPU进程，所以在每个节点的进程数应该与GPUdevice相等，为了充分利用计算节点的计算能力，可以在每个CPU进程设置多个线程。n在$cuda_hpl目录下修改run脚本，指定每个节点执行的进程数；在run_linpack中修改每个进程所包含的线程数。/public/software/ompi142-intel/bin/mpirun-mcabtltcp,self,sm-np2-machinefile./run_linpack#进程数目基于GPU的Linpack测试-运行n说明：p基于GPU的linp

26、ack程序为一个杂化程序。p整个测试过程中为了完全的利用CPU的GPU资源，降MPI程序设计，多线程程序设计、及GPU程序设计三种编程方式融合在一起。p每个GPU需要一个进程进行启动，为了利用CPU多核优势，一个进程起多个线程。l以一台曙光W580I，使用4个GPU卡为例，系统配置2颗Intel56506核处理器，共12核心。l对于此系统，需要启动4个MPI进程，每个进程对应一个GPUdevice，由于系统共12核心，故每进程启动3个OMP线程。基于GPU的Linpack测试-运行n修改 Run_linpackn#!/bin/bashnHPL_DIR=/public/dawn/hpl-2.0_

27、FERMI_v11n#Number of CPU cores(per GPU used=per MPI processes)nCPU_CORES_PER_GPU=3nexport HPL_MAX_PERF=2136.8n#FORMKLnexportMKL_NUM_THREADS=$CPU_CORES_PER_GPUn#FORGOTOnexportGOTO_NUM_THREADS=$CPU_CORES_PER_GPUn#FOROMPnexportOMP_NUM_THREADS=$CPU_CORES_PER_GPUnexportMKL_DYNAMIC=FALSE基于GPU的Linpack测试-运行

28、n#hint:try 350/(350+MKL_NUM_THREADS*4*cpu frequency in GHz)nexport CUDA_DGEMM_SPLIT=0.973n#hint:try CUDA_DGEMM_SPLIT-0.10nexport CUDA_DTRSM_SPLIT=0.873nexportLD_LIBRARY_PATH=$HPL_DIR/src/cuda:/usr/local/cuda/lib64:/public/soft/intel/Compiler/11.1/073/mkl/lib/em64t:$LD_LIBRARY_PATHn$HPL_DIR/bin/CUDA_

29、pinned/xhpl基于GPU的Linpack测试-运行如何计算Linpack效率1、如何计算理论峰值：峰值主频(GHz)*总核心数*4(4代表每个时钟周期做4次浮点运算)例如：10个AMD双路12核刀片（CPU6174，主频2.2）总核心数10212240 峰值2.224042112GFLOPS2.1TFLOPS=2.1万亿次。GPU峰值：每C2050卡双精度峰值0.515TFLOPS 单精度峰值1.03TFOPS 双精度峰值0.515*GPGPU卡数目（TFLOPS）单精度峰值1.03*GPGPU卡数目（TFLOPS）n2如何获得实测峰值p直接从Linpack的输出结果获得pXxxxd

30、03Gflopsn3如何获得效率系统效率=实测峰值/理论峰值想要获得高的系统效率，Infiniband网络是必须的。目前CPU系统的效率一般在80%以上。GPU系统根据卡得数量，一般在30%-60%之间。如何计算Linpack效率1Linpack测试2NPB测试3SPEC测试4可靠性可靠性测试HPCC包包综合性能测评指标n1Linpack简单、直观、能发挥系统的整个计算能力，能够较为简单的、有效的评价一个高性能计算机系统的整体计算能力。所以linpack仍然是高性能计算系统评价的最为广泛的使用指标。n2但是高性能计算系统的计算类型丰富多样，仅仅通过衡量一个系统的求解稠密线性方程组的能力来衡量一

31、个高性能系统的能力，显然是不客观的。n3如何寻求一个更为全面的指标，能涵盖主流的高性能应用，从而更全面，更客观的评价一个系统的能力？Linpack测试的问题nNPB套件由八个程序组成、以每秒百万次运算为单位输出结果。整数排序(IS)快速Fourier变换（FT）多栅格基准测试（MG）共轭梯度(CG)基准测试稀疏矩阵分解（LU）五对角方程（SP）和块状三角(BT)求解密集并行(EP)n每个基准测试有五类：A、B、C、D、W(工作站)，S（sample）。A最小，D最大NAS Parallel Benchmark（BPB）n版本：目前NPB版本为2.4和3.3两个版本，NPB3除了能进行MPI

32、程序的测试外，还可以支持串行的测试和OPENMP的测试。n下载NPB源码包：NPB3.3.tar.gzntarxvzfNPB3.3.tar.gzncdNPB3.3/NPB3.3-MPInNPB测试程序编译ncpconfig/suite.def.templateconfig/suite.defn修改config/suite.defn修改测试程序、测试类别、测试的进程数nftS1nmgS1nspS1nluS1nbtS1nisS1nepS1ncgS1NPB测试程序ncpconfig/make.def.templateconfig/make.defn修改config/make.defpMPIF77=m

33、pif90pFMPI_LIB=pFMPI_INC=pMPICC=mpiccpCMPI_LIB=pCMPI_INC=n执行编译命令nmakesuite查看bin路径下面有若干可执行程序。n运行NPB测试nMpirun-np16machinefilemabin/cg.S.16NPB测试程序1Linpack测试2NPB测试3SPEC测试4可靠性可靠性测试HPCC包包综合性能测评指标n(StandardPerformanceEvaluationCorporation，系统性能评估测试)测试系统总体性能的Benchmark。n在英文中表示“规格”。n(StandardPerformanceEvaluat

34、ionCorporation标准性能评估机构)是一个全球性的、权威的第三方应用性能测试组织，它旨在确立、修改以及认定一系列服务器应用性能评估的标准。n该组织成立于1988年，是由斯坦福大学、清华大学、微软、等全球几十所知名大学、研究机构、IT企业组成的第三方测试组织。SPEC经过多年的发展积累，该测试标准得到了全球众多用户的广泛认可。n具体参看www.spec.orgSPEC 测试概述nCPUnGraphics/WorkstationsnMPI/OMPnJavaClient/ServernMailServersnNetworkFileSystemnPowernSIP(SessionInitia

35、tionProtocol)nSOA（ServiceOrientedArchitecture）nVirtualizationnWebServersSPEC 测试benchmark种类n用于衡量服务器的CPU计算能力。n目前的版本为SpecCPU2006，在这之前还发布了SPECCPUv6、SPECCPU2000、SPECCPU95、SPECCPU92nSpecCPU的benchmark分为CINT2006、CINT2006Rates和CFP2006、CFP2006Rates。CINT2006衡量处理器单个核心运行串行程序的整形计算能力，CINT2006Rates衡量整个节点运行与核心数相等数量组

36、的串行程序的整形计算能力。CFP2006衡量处理器单个核心运行串行程序的浮点计算能力，CFP2006Rates衡量整个节点运行与核心数相等数量组的串行程序的浮点计算能力。Spec CPU测试CINt2006 rates的测试结果Base runtimeBase ratepeak runtimePeak rate400.perlbench2472232524610384401.bzip2241048221241005231403.gcc2479124424787246429.mcf2474429412299366445.gobmk2467737224637395456.hmmer24477469

37、12202555458.sjeng2480536124764380462.libquantum242721830242721830464.h264ref241052505241037512471.omnetpp2465722824638235473.astar2474322724743227483.xalancbmk2445936124459361SPECint(R)_rate_base2006365SPECint_rate2006389CFP2006 rates 结果的查看Base runtimeBase ratepeak runtimePeak rate410.bwaves24170119

38、212834196416.gamess24145732312710331433.milc241048210241027214434.zeusmp2473829624738296435.gromacs2456730224569301436.cactusADM2489032224890322437.leslie3d24160614012775146444.namd2467828424672286447.dealII2470039224691398450.soplex24130515312618162453.povray2429743024249513454.calculix245513592455

39、1359459.GemsFDTD241868136241868136465.tonto2483928224810292470.lbm24116628312551299481.wrf241126238241126238482.sphinx3242114221242006233SPECfp(R)_rate_base2006255SPECfp_rate2006262n1spec测试的benchmark非常多，能够涉及到服务器相关的各类应用。n2与高性能计算相关的测试有CPU、MPI/OMP,等，其中specCPU的评测结果较为权威，被各个厂商业界广泛承认。n3尤其SPECCFP2006rates的测

40、试，较为全面的评价了一台服务器进行浮点运算的能力，同时，除了生物信息学的应用外，大部分高性能计算的应用均为浮点计算，所以他的测试结果与众多应用的测试结果较为吻合。n4SpecCFP共设计17种浮点计算应用，其中涉及C，C+，Fortran，很多应用均为目前业界广泛使用的主流高性能应用，所以的确较为全面的客观的反映了单台服务器的计算能力。Spec 测试特点1Linpack测试2NPB测试3SPEC测试4可靠性可靠性测试HPCC包包综合性能测评指标nHPCC（HPCChallenge）benchmark与NPB测试类似，目的仍然为了寻找一个更为全面的评价整个系统性能的测试工具。nHPCCbench

41、mark包含如下7个测试nHPL-the Linpack TPP benchmark which measures the floating point rate of execution for solving a linear system of equations.nDGEMM-measures the floating point rate of execution of double precision real matrix-matrix multiplication.nSTREAM-a simple synthetic benchmark program that measure

42、s sustainable memory bandwidth(in GB/s)and the corresponding computation rate for simple vector kernel.HPCC 测试nPTRANS(parallel matrix transpose)-exercises the communications where pairs of processors communicate with each other simultaneously.It is a useful test of the total communications capacity

43、of the network.nRandomAccess-measures the rate of integer random updates of memory(GUPS).nFFT-measures the floating point rate of execution of double precision complex one-dimensional Discrete Fourier Transform(DFT).nCommunication bandwidth and latency-a set of tests to measure latency and bandwidth

44、 of a number of simultaneous communication patterns;based on b_eff(effective bandwidthbenchmark).HPCC benchmark高性能集群网络性能评价nIMB（IntelMPIBenchmark）用来测试各种MPI函数的执行性能。n编译IMBpa）tarzxftarzxfIMB_3.2.2.tgzpb)cdimb/srcpc)cpmake_ictmake_openmpipd)编辑make_openmpip修改第3行CC=mpiccpe)make-fmake_openmpiIMB测试IMP 测试benc

45、hmarkPingPong测试PingPing 测试Sendrecv 测试Exchange 测试nmpirunnp8hostfilemaIMB-MPI1optionspIMB-MPI1-helpp-npminp-multip-off_cachep-iterpp-timep-memp-msglenp-mapp-inputpbenchmark1,benchmark2,.p(wherethe11majormayappearinanyorder).p-Examples:pmpirun-np8IMB-IOpmpirunnp10IMB-MPI1PingPingReduceIMB运行nIMB能够全面的获取整

46、个系统各个MPI函数的性能，但是当一个节点数目众多大系统，如何能够快速的获得任意2点的互联通信性能，从而能够快速排除整个系统的网络故障，需要通过MPIgraph来实现MPIGraphna)tarzxfmpigraph-1.4.tgznb)cdmpigraph-1.4nc)载入环境变量source/public/software/mpi/openmpi-1.4.3-intel.shnd)make编译MPIgraphnmpirun-np4-hostfilemampiGraph/mpiGraphpMPIgraph的测试中一般一个节点仅仅启动一个进程。nMPIgraph的输出结果。MPI会遍历出系统中

47、任意2个节点的MPI通讯带宽，从而能够使得管理人员快速定位系统故障。运行MPI-graphnIMB与MPIgraph均为通过MPI的通讯函数来网络的互联性能和MPI程序的消息传递性能进行评测，iperf则为专门测量TCP/IP协议的测试网络测试工具。nIperf的编译ptarxvzfiperf-2.0.5tar.gzpcdiperf-2.0.5p./configure-prefix=/public/software/iperfpmakepmakeinstall/public/software/iperf/bin/iperf为编译好的可执行程序Iperf 测试n在server节点上运行p/pub

48、lic/software/iperf/bin/iperfsn在client节点上运行p/public/software/iperf/bin/iperf-cserverIPnIperf输出结果nClientconnectingtonode210,TCPport5001nTCPwindowsize:64.0KByte(default)n-n3local10.10.10.40port57558connectedwith10.10.10.210port5001nIDIntervalTransferBandwidthn30.0-10.0sec1.12GBytes958Mbits/secIperf 运行高

49、性能集群IO性能评价nIOZONE为Linux操作系统下使用最为广泛的IO测试工具nIozone的编译pa)tarxfiozone3_397.tarpb)cdiozone3_397pc)cdsrc/currentpd)makeLinux-AMD64(目前测试平台为linux64bit)pe)cpiozone././;cd./.IOZONE性能评价工具n单个客户端运行IOZONEp因为如果想要测试存储设备的IO性能，需要尽可能的将IO的负载加满，所以单个节点测试的时候最好启动的进程数与单节点的CPU核心数相同。p执行命令iozone-s4g-r1m-I-i0-i1-i2-i5-t12f/tmpp

50、-s测试用的文件大小，,k,m,g分别代表Kb,Mb,Gb，这里-s标示的为一个进程测试的文件大小，一般保证总的测试的文件大小（单个进程文件大小*进程数）大于内存的2倍p-r测试文件文件传输的块大小,k,m,g分别代表Kb,Mb,Gbp-I指定写文件的时候不写入内存中，规避内存的影响！p-i运行哪些测试0=write/rewrite,1=read/re-read,2=random-read/write3=Read-backwards,4=Re-write-record,5=stride-read,6=fwrite/re-fwriteIOZONE的运行p7=fread/Re-fread,8=ra

展开阅读全文