2016-07-13

■

Grid Engineでqdel後にscriptを走らせたい

trapする

Automatic job resubmit using Sun Grid Engine «

epilog script

Discussion list for users of Grid Engine, replaces retired list from sunsource.net
GitHub - UCL/Grid-Engine-Prolog-Scripts: Some prolog/epilog Scripts we use with Grid engine on our cluster

■

Fortranでバイナリデータを書いて、CとPython(numpy)で読む

Ubuntu-14.04 64bit上のgcc-4.8.4でテスト。

test.F90

program test
  implicit none

  integer :: i, j, count
  real(kind=8) :: data(4, 3)

  print '("Number of bits used for data:", i5)', storage_size(data)
  
  count = 1
  do i = 1, 4
     do j = 1, 3
        data(i, j) = count
        write(*, '(F15.8)', advance='no') data(i, j)
        count = count + 1
     end do
     print *, ''
  end do
  open(unit=11, file="data.bin", status="REPLACE", access="STREAM")
  write(11) data
  close(unit=11)

end program test

% gfortran test.F90
% ./a.out
Number of bits used for data:   64
     1.00000000     2.00000000     3.00000000
     4.00000000     5.00000000     6.00000000
     7.00000000     8.00000000     9.00000000
    10.00000000    11.00000000    12.00000000

test.c

#include<stdio.h>

int main(void) {
  FILE *fp;
  int i, j;
  double x;
  
  printf("Number of bits used for data: %d\n", (int)(sizeof(double) * 8));

  fp = fopen("data.bin", "rb");
  if (!fp) {
    printf("File open failed.\n");
    return 1;
  }

  for (j = 0; j < 3; j++) {
    for (i = 0; i < 4; i++) {
      fread(&x, sizeof(double), 1, fp);
      printf("%f ", x);
    }
    printf("\n");
  }

  return 0;
}

% gcc test.c
% ./a.out
Number of bits used for data: 64
1.000000 4.000000 7.000000 10.000000
2.000000 5.000000 8.000000 11.000000
3.000000 6.000000 9.000000 12.000000

test.py

#!/usr/bin/python

import numpy as np

shape = (3, 4)
dt = np.dtype(('double', shape))
print("Number data type is %s." % dt)
data = np.fromfile("data.bin", dtype=dt)[0]
print(data)

% ./test.py
Number data type is ('<f8', (3, 4)).
[[  1.   4.   7.  10.]
 [  2.   5.   8.  11.]
 [  3.   6.   9.  12.]]

2016-06-30

■

c.p.

Cyclic permutation?

2016-06-27

■

pipとsetup.pyの関係

setup.py vs requirements.txt · caremad
Installing Packages — Python Packaging User Guide documentation

2016-06-25

■

Fortranはじめました

Fortranでプログラムを書くことになった。
まず他人が書いたコードを読み、修正するところがスタートである。

Fortranは古い書き方を許せば書き方に自由度がありすぎるようだ。
なんとなくは読めるけど、細かいところで言語仕様がわからずつまずく。
そのときネットで情報を探すがなかなかみつからない。
どういう書き方が「今」推奨されているのかという情報がなかなか見つからない。
とりあえず、なんとか見つかった情報をコピペしておく。
Fortran Best Practices — Fortran90 1.0 documentation
Fortran Wiki

Fortranで書いてPythonで読むための情報

scipy.io.FortranFile — SciPy v0.19.0.dev0+812be1e Reference Guide
numpy.fromfile — NumPy v1.11 Manual
Cookbook/FortranIO - SciPy wiki dump
Reading a direct access fortran unformatted file in Python - Stack Overflow
https://software.intel.com/en-us/node/579701
C H A P T E R 2 - Fortran Input/Output
Stream Input Output in Fortran Wiki

2016-06-19

■

ビール Pale pig

めちゃうまい。
f:id:atztogo:20160619041043j:plain

2016-05-11

■

VASP-GPU (Tesla K80)

Ubuntu 14.04の場合、CUDAのインストールは簡単。
Installing CUDA Toolkit 7.5 on Ubuntu 14.04 Linux | R Tutorial

仕事で使っているGPUマシンにはTesla K80が一枚(2GPU)と、GeForce GT 610が一枚刺さっている。
GeForceの方もCUDAから見えてしまうのでTesla K80だけがGPU計算で見えるようにしたい。そのための環境変数がある。

export CUDA_VISIBLE_DEVICES="0,2"

ただ、どのカードがどのIDを持っているのかがわからないので困った。試行錯誤で決定した。
sampleのdeviceQueryをmakeして、CUDA_VISIBLE_DEVICESと共にどのGPUが見えているかチェックするのが良いだろう。
GPU-UUIDを使うというのが正解らしい（
https://docs.nvidia.com/deploy/pdf/CUDA_Multi_Process_Service_Overview.pdf）

nvidia-smi -q

でGPU-UUIDが確認できる。

次に、CUDA-aware Open MPIを作る。--with-cuda付でコンパイルすれば良い。
それを使ってVASP-GPUもコンパイルした。
VASP-GPUのウエブサイトはここ。GPU port of VASP - Vaspwiki

パフォーマンステストは次の設定で行った。
POSCAR

 S Cu Ga
   1.0
    10.5481205800000009    0.0000000000000000    0.0000000000000000
     0.0000000000000000   10.5481205800000009    0.0000000000000000
     0.0000000000000000    0.0000000000000000   10.4684162900000004
 S Cu Ga
  32  16  16
Direct
   0.3739084011856084  0.3750000000000000  0.6250000000000000
   0.8729603650000000  0.3750000000000000  0.6250000000000000
   0.3729603650000000  0.8750000000000000  0.6250000000000000
   0.8729603650000000  0.8750000000000000  0.6250000000000000
   0.1250000000000000  0.3729603650000000  0.3750000000000000
   0.6250000000000001  0.3729603650000000  0.3750000000000000
   0.1250000000000000  0.8729603650000000  0.3750000000000000
   0.6250000000000001  0.8729603650000000  0.3750000000000000
   0.1270396350000000  0.1250000000000000  0.6250000000000000
   0.6270396350000000  0.1250000000000000  0.6250000000000000
   0.1270396350000000  0.6250000000000001  0.6250000000000000
   0.6270396350000000  0.6250000000000001  0.6250000000000000
   0.3750000000000000  0.1270396350000000  0.3750000000000000
   0.8750000000000000  0.1270396350000000  0.3750000000000000
   0.3750000000000000  0.6270396350000000  0.3750000000000000
   0.8750000000000000  0.6270396350000000  0.3750000000000000
   0.1229603650000000  0.1250000000000000  0.1250000000000000
   0.6229603650000000  0.1250000000000000  0.1250000000000000
   0.1229603650000000  0.6250000000000001  0.1250000000000000
   0.6229603650000000  0.6250000000000001  0.1250000000000000
   0.3750000000000000  0.1229603650000000  0.8750000000000001
   0.8750000000000000  0.1229603650000000  0.8750000000000001
   0.3750000000000000  0.6229603650000000  0.8750000000000001
   0.8750000000000000  0.6229603650000000  0.8750000000000001
   0.3770396350000000  0.3750000000000000  0.1250000000000000
   0.8770396350000003  0.3750000000000000  0.1250000000000000
   0.3770396350000000  0.8750000000000000  0.1250000000000000
   0.8770396350000003  0.8750000000000000  0.1250000000000000
   0.1250000000000000  0.3770396350000000  0.8750000000000001
   0.6250000000000001  0.3770396350000000  0.8750000000000001
   0.1250000000000000  0.8770396350000003  0.8750000000000001
   0.6250000000000001  0.8770396350000003  0.8750000000000001
   0.2500000000000000  0.2500000000000000  0.5000000000000000
   0.7500000000000000  0.2500000000000000  0.5000000000000000
   0.2500000000000000  0.7500000000000000  0.5000000000000000
   0.7500000000000000  0.7500000000000000  0.5000000000000000
   0.0000000000000000  0.2500000000000000  0.2500000000000000
   0.5000000000000000  0.2500000000000000  0.2500000000000000
   0.0000000000000000  0.7500000000000000  0.2500000000000000
   0.5000000000000000  0.7500000000000000  0.2500000000000000
   0.0000000000000000  0.0000000000000000  0.0000000000000000

INCAR

      PREC = Accurate
       GGA = PS
    IBRION = -1
    NELMIN = 5
     ENCUT = 479.242400
     EDIFF = 1.000000e-08
    ISMEAR = 0
     SIGMA = 1.000000e-02
     IALGO = 38
     LREAL = .TRUE.
   ADDGRID = .TRUE.
     LWAVE = .FALSE.
    LCHARG = .FALSE.

KPOINTS

Automatic mesh
0
Gamma
     2     2     2
 0.000 0.000 0.000

PAW datasetはS,Cu_pv,Ga_d (PBE).

結果は次の通り。
CPUがXeon E5-2643 v3 @ 3.40GHzの場合
１２コアCPUのみでおよそ１８００秒。
２コア２GPUでおよそ７５０秒。
４コア２GPUでおよそ７００秒。
６コア２GPUでおよそ６８０秒。
８コア２GPUでおよそ１１００秒。
１２コア２GPUでおよそ１０５０秒。
４コア２GPU（MPS）でおよそ６４０秒。
６コア２GPU（MPS）でおよそ５８０秒。
４コア１GPUでおよそ１１９０秒。

CPUがXeon E5-2603 v3 @ 1.60GHzの場合
１２コアCPUのみでおよそ３３００秒。ほぼクロック通り。
２コア２GPUでおよそ９２０秒。CPUの能力も無視できない。
４コア２GPUでおよそ８９０秒。
６コア２GPUでおよそ８２０秒。
８コア２GPUでおよそ１５００秒。
１２コア２GPUでおよそ１４１０秒。
４コア２GPU（MPS）でおよそ８３０秒。
６コア２GPU（MPS）でおよそ８２０秒。MPSの効果はあまりなし。
４コア１GPUでおよそ１３６０秒。CPU差はだいぶ縮まる。

Tesla K80カードが２枚のマシンで4 GPUを使うと半分程度のパフォーマンスしか出せなかった。
Tesla K80カード２枚の計算機で同時に同じ計算を二つ実行するとそれぞれ、４コア２GPUでおよそ１０８０秒。

NSCのPeter Larssonのブログ（Running VASP on Nvidia GPUs - Peter Larsson
）では、
CUDA Multi Process Service (MPS)を使うべしと書いてある。

export CUDA_VISIBLE_DEVICES="0,2"
mkdir /tmp/nvidia-mps
export CUDA_MPS_PIPE_DIRECTORY=/tmp/nvidia-mps 
mkdir /tmp/nvidia-log
export CUDA_MPS_LOG_DIRECTORY=/tmp/nvidia-log 
nvidia-cuda-mps-control -d

clientsがserverに接続できたかは、ログを見ればわかる。
https://devtalk.nvidia.com/default/topic/887822/fail-to-launch-cuda-mps/

Larssonの書いているように、もっと原子数が多い系でGPUがより効果的であると思うが、
Gamma-onlyバージョンはまだサポートされていないので、１００から２００原子くらいの対称性の低い系がスイートポイントかなあ。

atztogo's diary

■