일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 가우시안
- cuda
- vasp
- 신바람
- ansys
- skl
- 슈퍼컴퓨팅교육
- sinbaram
- 슈퍼컴퓨터
- abaqus
- 5호기
- Linux
- nurion
- Gaussian
- GROMACS
- KISTI
- neuron
- SGE
- GPU
- HPC
- 슈퍼컴퓨팅
- 타키온2
- Kat
- 누리온
- TACHYON2
- G16
- KNL
- openfoam
- 뉴론
- 국가슈퍼컴퓨팅센터
- Today
- Total
목록시스템 활용 & 팁 (29)
KISTI 슈퍼컴퓨팅 기술 블로그
1. oneAPI Base ToolKit - 특징 및 장점 1) oneAPI - Base Toolkit oneAPI와 인텔 oneAPI 툴킷은 함께 생산적이고 성능 기준에 맞는 이기종 프로그래밍을 개발자들에게 제공합니다. ㅇ 하드웨어의 가치를 모두 실현 최신 하드웨어의 모든 최첨단 기능을 도입하고 이용합니다. 예를 들어, AI 가속을 위한 인텔 딥러닝 부스트를 포함해 인텔 어드밴스드 익스텐션 512(인텔 AVX-512)를 지원하는 3세대 인텔 제온 스케일러블 프로세서를 최대한 활용할 수 있습니다. 또한 인텔 CPU, GPU, FPGA에서 성능을 극대화하여 가속 컴퓨팅을 충분히 활용할 수 있습니다. ㅇ 성능 기준에 맞는 코드를 빠르고 자신감 있게 개발 가능 아키텍처 간 라이브러리와 고급 도구 세트 전체를 ..
다음은 KISTI 뉴론 시스템의 AMD 노드와 Cascade 노드의 CPU 만을 활용한 application 간 성능을 보여주는 예제이다. 1. 개요 비교 노드 cas_v100_2 amd core 수 1, 10, 20, 40 1, 10, 20, 40, 64 컴파일러 GNU, intel MPI OpenMPI, impi 라이브러리 fftw3_single, fftw3_double, MKL applications NAMD, GROMACS, OpenFOAM 2. applications 별 성능 분석 1) NAMD 단일 코어 단순 컴파일러 기준 gcc 는 AMD 노드에서 보다 좋은 성능을 보여줌 단순 컴파일러 기준 intel 은 Cascade 노드에서 보다 좋은 성능을 보여줌 2) NAMD 멀티 코어 gcc 의 경..
AMD Instinct MI100은 AMD CDNA 아키텍처를 기반으로 설계된 GPU로 HPC와 AI를 모두 지원하도록 설계되어 있다. 일반 연산을 위한 Stream Processor (FP64: 11.5TFLOPs, FP32 23.1 TFLOPs) 및 FP32, F16 matrix (46.1TFLOPs, 184.6 TFLOPs) 가속을 위한 Matrix Core 두가지로 나뉘어 설계되어 있다. HBM2 32GB를 GPU 메모리로 사용하며 PCIe 4.0까지 지원하며 Infinity Fabric Link로 GPU 간 통신이 가능하나 테스트 보드 설계의 한계로 인해 본 성능 테스트에서는 PCIe 3.0을 활용하였다. NVIDIA GPU와 비교하였을 때 AMD GPU의 가장 큰 차이점은 warp에 해당하는 ..
1. Checkpoint 기능의 정의 모종의 이유로 계산이 완료되기 전에 중단되었을 때(walltime limit 초과 및 에러 발생 등) 계산을 특정 지점부터 이어서 수행할 수 있도록 작업의 상태를 주기적으로 저장하는 기능 2. Checkpoint 기능 관련 문서 Checkpoint 기능의 명칭이나(Autosave 등) 활성화 여부는 애플리케이션의 종류 및 버전에 따라 다를 수 있으며, 일부 애플리케이션의 경우 수동으로 활성화해야 할 수도 있다. Checkpoint 기능 관련 세부 사항은 다음과 같은 기술 문서를 통해 확인할 수 있다. 1) Abaqus - Abaqus execution (abaqus-docs.mit.edu/2017/English/SIMACAEEXCRefMap/simaexc-c-anal..
1. 개요 MVAPICH2-X는 MVAPICH2를 기반으로 개발된 MPI 라이브러리로, 엑사스케일 컴퓨팅 환경에서의 통신 성능 최적화를 목표로 노드 간 통신 성능 및 노 내 통신 성능을 모두 고려하여 개발되었다. MVAPICH2-X는 ‘Advanced MPI and Unified MPI+PGAS Communication Runtime for Exascale Systems’ 을 의미하며, 매니코어 CPU 기반의 슈퍼컴퓨터에서 많이 활용되고 있으며 최근 클라우드 컴퓨팅 산업의 발전에 따라 Microsoft Azure 및 Amazon Web Service (AWS) 등 여러 시스템에서도 활용되고 있다. 계산 과학에서 Message Passing Interface (MPI) 는 가장 많이 사용되는 프로그래밍 모..
KISTI 슈퍼컴퓨터 시스템에서는 기본적으로 스케줄러를 이용하여 작업을 제출하고 계산을 수행하도록 되어 있지만, 코드 개발이나 컴파일, 디버깅을 위해 자원을 할당받아 인터렉티브 모드로 작업을 수행할 수도 있다. 누리온과 뉴론은 각각 다른 스케줄러를 사용하고 있기 때문에 계산 자원을 할당받아 사용하는 명령은 다르다. ※ 2020년 6월 PM 이후, 2시간 이상 미사용시 타임아웃으로 작업이 종료되고 할당 받은 자원이 회수되며 인터렉티브 작업의 walltime은 최대 12시간으로 고정된다. ※ 인터렉티브 작업을 포함한 모든 작업 제출은 scratch 디렉토리에서 제출되어야 한다. ■ 누리온 인터렉티브 작업 제출 ○ 인터렉티브 작업 제출 $ qsub -I -l select=1:ncpus=64:ompthreads..
1. 누리온 시스템누리온 시스템에서는 git이 기본 명령어로 설정되어 있지 않기 때문에, module 환경설정을 이용하여 사용 가능 $ module load git/1.8.3.4 $ git --help usage: git [--version] [--help] [-c name=value] [--exec-path[=]] [--html-path] [--man-path] [--info-path] [-p|--paginate|--no-pager] [--no-replace-objects] [--bare] [--git-dir=] [--work-tree=] [--namespace=] [] The most commonly used git commands are: add Add file contents to the inde..
다음은 누리온 SKL을 활용한 WRF 테스트 샘플의 실행 방법 및 성능을 보여주는 예제이다. 가. 테스트 계산 모델WRF의 실행 테스트를 위하여, 아래의 환경으로 2018년 10월 16일 06UTC부터 2018년 10월 17일 06UTC까지 24시간 적분을 수행하였다.PhysicsMicrophysicsWSM6Long-wave radiationRRTMGShort-wave radiationDudhiaSurface layerMM5 similarityLand surfaceNoah LSMPlanetary Boundary LayerYSUCumulusKain-FritschBoundary & initial data0.25° GFS forecast 나. 실행 방법 및 성능 분석1) 작업 스크립트 예제#!/bin/sh#P..
다음은 누리온 KNL을 활용한 WRF 테스트 샘플의 실행 방법 및 성능을 보여주는 예제이다. 가. 테스트 계산 모델WRF의 실행 테스트를 위하여, 아래의 환경으로 2018년 10월 16일 06UTC부터 2018년 10월 17일 06UTC까지 24시간 적분을 수행하였다.PhysicsMicrophysicsWSM6Long-wave radiationRRTMGShort-wave radiationDudhiaSurface layerMM5 similarityLand surfaceNoah LSMPlanetary Boundary LayerYSUCumulusKain-FritschBoundary & initial data0.25° GFS forecast 나. 실행 방법 및 성능 분석1) 작업 스크립트 예제#!/bin/sh#P..
다음은 누리온 SKL을 활용한 VASP 테스트 샘플의 실행 방법 및 성능을 보여주는 예제이다. 가. 테스트 계산 모델VASP (5.4.4.4 버전)의 실행 테스트를 위하여, 실리콘(Si64)을 모델 시스템으로 사용하여 HSE06 구현의 성능을 테스트하였다.ISTARTICHARGPRECENCUTLREALALGONELMEDIFFISMEARSIGMA02single250Autodamped201e-600.1KPARNCORELPLANELWARELCHARGLHFCALCPREFOCKNKREDAEXXHFSCREEN1?.TRUE..FALSE..FLASE.TFast10.252 VASP 입력값 중 병렬계산과 관련된 설정들이 있는데, 이 중 병렬 설정에 따른 성능 차이를 가장 크게 보이는 변수가 NCORE 값이므로, NCORE..
다음은 누리온 KNL을 활용한 VASP 테스트 샘플의 실행 방법 및 성능을 보여주는 예제이다. 가. 테스트 계산 모델 VASP (5.4.4.4 버전)의 실행 테스트를 위하여, 실리콘(Si64)을 모델 시스템으로 사용하여 HSE06 구현의 성능을 테스트하였다. ISTART ICHARG PREC ENCUT LREAL ALGO NELM EDIFF ISMEAR SIGMA 0 2 single 250 Auto damped 20 1e-6 0 0.1 KPAR NCORE LPLANE LWARE LCHARG LHFCALC PREFOCK NKRED AEXX HFSCREEN 1 ? .TRUE. .FALSE. .FLASE. T Fast 1 0.25 2 VASP 입력값 중 병렬계산과 관련된 설정들이 있는데, 이 중 병렬 설정에 ..
다음은 누리온 SKL을 활용한 QE 테스트 샘플의 실행 방법 및 성능을 보여주는 예제이다. 가. 테스트 계산 모델QE (6.4.1 버전)의 실행 테스트를 위하여, 실리콘 128개 원소로 테스트를 진행하였다.modelDFTatomcutoffIBZKTFFT gridelectronbanddiagonalizationI/Omemory*si128HSE128201(90, 90, 90)5123071k x 1knone3.13 GB 나. 실행 방법 및 성능 분석1) 작업 스크립트 예제#!/bin/sh#PBS –N 1L01N40C40M01T # job의 이름(여러 개의 작업 제출 시 사용자가 구분하기 위한 목적)#PBS –V # 작업 제출 노드(로그인 노드)에서 설정한 환경을 계산 노드에 적용하기 위해 사용함#PBS –q ..
다음은 누리온 KNL을 활용한 QE 테스트 샘플의 실행 방법 및 성능을 보여주는 예제이다. 가. 테스트 계산 모델 QE (6.4.1 버전)의 실행 테스트를 위하여, 실리콘 128개 원소로 테스트를 진행하였다. model DFT atom cutoff IBZKT FFT grid electron band diagonalization I/O memory* si128 HSE 128 20 1 (90, 90, 90) 512 307 1k x 1k none 3.13 GB 나. 실행 방법 및 성능 분석 1) 작업 스크립트 예제 #!/bin/sh #PBS –N 1L01N64C64M01T # job의 이름(여러 개의 작업 제출 시 사용자가 구분하기 위한 목적) #PBS –V # 작업 제출 노드(로그인 노드)에서 설정한 환경을..
다음은 뉴론을 활용한 LAMMPS 테스트 샘플의 실행 방법 및 성능을 보여주는 예제이다. 가. 테스트 계산 모델Rhodopsin 프로틴을 모델 시스템으로 사용하여 성능을 테스트하였다. input은 LAMMPS의 benchmark 디렉터리의 input 파일 중 하나이며, 병렬환경에서의 테스트를 위해 run을 2000으로 변경하였고, -var x 8 –var y 8 –var z 8로 변경 테스트를 하였다. 나. 실행 방법 및 성능 분석1) 작업 스크립트 예제#!/bin/sh#SBATCH -J LAMMPS_small #job의 이름을 지정 #SBATCH -p ivy_v100_2 # 사용하고자 하는 파티션을 지정(누리온의 큐와 동일한 개념)#SBATCH -N 1 # 작업을 할당할 노드의 수#SBATCH -n 2..
다음은 누리온 SKL을 활용한 LAMMPS 테스트 샘플의 실행 방법 및 성능을 보여주는 예제이다. 가. 테스트 계산 모델Rhodopsin 프로틴을 모델 시스템으로 사용하여 성능을 테스트하였다. input은 LAMMPS의 benchmark 디렉터리의 input 파일 중 하나이며, 병렬환경에서의 테스트를 위해 run을 2000으로 변경하였고, -var x 8 –var y 8 –var z 8로 변경 테스트를 하였다. 나. 실행 방법 및 성능 분석1) 작업 스크립트 예제!/bin/sh#PBS -N LAMMPS#PBS -V#PBS -l select=1:ncpus=40:mpiprocs=40:ompthreads=1#PBS -l walltime=06:00:00#PBS -q norm_skl#PBS -A LAMMPS#PB..