Felhasználói eszközök

Eszközök a webhelyen


slurm

Ez a dokumentum egy előző változata!


A queue rendszer részletesebb bemutatása

A SLURM (Simple Linux Utility for Resource Management) rendszert használjuk. Ez a Lawrence Livermore National Laboratory fejlesztése.

Történeti átekintést és más queue rendszerekkel összehasonlítást itt olvashat.

Legfontosabb parancsok

sbatch [param] scriptname.sh

Lefoglalja a kért erőforrásokat (node-okat) majd az egyik lefoglalt node-ban elindítja a kért scriptname.sh programot, 1 szálon. A script kiimenete egy slurm-`job-id'.out file-ban képződik meg.

srun programname
  • sbatch scripten belül használva. Az sbatch által lefoglalt erőforrásban futtatja a megadott programot. Az MPICH programot képes futtatni. Amennyiben a program egy script, úgy minden allokált magon elindít egy példányt.
  • Interaktívan használva. Lefoglalja a kért erőforrásokat (node-okat). Az MPICH programot képes futtatni. Amennyiben a program egy script, úgy minden allokált magon elindít egy példányt. Megvárja, amig a program(ok) végetérnek. Emiatt elsősorban rövidebb feladatokra, tesztelésre, hibakeresésre használható.
salloc [param]

Interaktívan használható. lefoglalja a kívánt erőforrásokat és shellt ad az indítási gépen (a fejgépen). Programfejlesztésre ajánljuk csak.

squeue

A queue rendszer állapotát írja ki. Milyen job-ok futnak, melyek várakoznak, stb.

sinfo

Az egész rendszerről ad egy áttekintő képet. Melyik partíción melyik node foglalt, melyik iddle, melyik down.

scancel job-id

Ezzel lehet kilőni egy elindított jobot, a véget érése elött. Ha nem adsz meg paramétert, akkor az összes jobodat (csak a tieidet) kilövi.

Legfontosabb kapcsolók, opciók:

Az alábbi kapcsolók egyaránt használhatók az sbatch, srun, salloc parancsoknál.

  • -p partition

A futtató partíció neve. Lehetséges értékek: hpc2009, hpc2005, atlasz

  • -N nodecount

Az allokálandó node-ok száma. Egyéb kapcsoló nélkül a slurm úgy gondolja, hogy node-onkét 1 program (pthread, openMP) fog futni. Lásd a -B kapcsolót. A hpc2009 és hpc2005 partíciókhoz ajánljuk.

  • -B 2:4:2 -O

Egy node-on 2 socket, 4core/socket, 2 thread/core allokáció. (vagyis 16 thread/node) hpc2009 partícióhoz.

  • -B 2:4:1

Egy node-on 2 socket, 4core/socket allokáció. (vagyis 8 thread/node) hpc2009 partícióhoz.

  • -B 2:2:1

Egy node-on 2 socket, 2core/socket allokáció. (vagyis 4 thread/node) hpc2005 partícióhoz.

  • -n 3

3 processzormag allokálása. Az atlasz és a flocking partícióhoz ajánljuk.

Példák 16 szálú MPI programok indítására

Az alkalmazás természetétől függ, hogy melyik lesz a leggyorsabb. Előre megmondani nem lehet. ELképzelhető, hogy két nagyságrendet is változik a program futási sebessége csupán ettől.

sbatch -N 1 -B 2:4:2 -O scriptname.sh

Ez 1 node-ot allokál. Ezen a node-on indít 16 szálat. Minden szálnak 0.75 GiByte memóriaja van (pontosabban összesen 12 GiByte)

sbatch -N 2 -B 2:4:1 scriptname.sh

Ez 2 node-ot allokál. Mindkét node-on indít 8-8 szálat. Minden szálnak 1.5 GiByte memóriaja van.

sbatch -N 4 -B 2:2:1 scriptname.sh

Ez 4 node-ot allokál. Mind a négy node-on indít 4-4 szálat. Minden szálnak 3 GiByte memóriaja van.

sbatch -N 8 -B 2:1:1 scriptname.sh

Ez 8 node-ot allokál. Mind a nyolc node-on indít 2-2 szálat. Minden szálnak 6 GiByte memóriaja van.

sbatch -N 16 -B 1:1:1 scriptname.sh

Ez 16 node-ot allokál. Mind a 16 node-on indít 1-1 szálat. Minden szálnak 12 GiByte memóriaja van.

slurm.1359562385.txt.gz · Utolsó módosítás: 2013/01/30 17:13 szerkesztette: maulis