Felhasználói eszközök

Eszközök a webhelyen


slurm

Ez a dokumentum egy előző változata!


A queue rendszer részletesebb bemutatása

A SLURM (Simple Linux Utility for Resource Management) rendszert használjuk. Ez a Lawrence Livermore National Laboratory fejlesztése.

Történeti áttekintést és más queue rendszerekkel összehasonlítást itt olvashat.

Legfontosabb parancsok

sbatch [param] scriptname.sh

Lefoglalja a kért erőforrásokat (node-okat) majd az egyik lefoglalt node-ban elindítja a kért scriptname.sh programot, 1 szálon. A script kimenete egy slurm-`job-id'.out file-ban képződik meg.

srun programname
  • sbatch scripten belül használva. Az sbatch által lefoglalt erőforrásban futtatja a megadott programot. Az MPICH programot képes futtatni. Amennyiben a program egy script, úgy minden allokált magon elindít egy példányt.
  • Interaktívan használva. Lefoglalja a kért erőforrásokat (node-okat). Az MPICH programot képes futtatni. Amennyiben a program egy script, úgy minden allokált magon elindít egy példányt. Megvárja, amíg a program(ok) véget érnek. Emiatt elsősorban rövidebb feladatokra, tesztelésre, hibakeresésre használható.
salloc [param]

Interaktívan használható. lefoglalja a kívánt erőforrásokat és shellt ad az indítási gépen (a fejgépen). Programfejlesztésre ajánljuk csak.

squeue

A queue rendszer állapotát írja ki. Milyen job-ok futnak, melyek várakoznak, stb.

sinfo

Az egész rendszerről ad egy áttekintő képet. Melyik partíción melyik node foglalt, melyik idle, melyik down.

scancel job-id

Ezzel lehet kilőni egy elindított jobot, a véget érése előtt. Ha nem adsz meg paramétert, akkor az összes jobodat (csak a tieidet) kilövi.

Legfontosabb kapcsolók, opciók:

Az alábbi kapcsolók egyaránt használhatók az sbatch, srun, salloc parancsoknál.

-p partition

A futtató partíció neve. Lehetséges értékek: hpc2009, hpc2005, atlasz, flocking

-N nodecount

Az allokálandó node-ok száma. Egyéb kapcsoló nélkül a slurm úgy gondolja, hogy node-onkét 1 program (pthread, openMP) fog futni. Lásd a -B kapcsolót. A hpc2009 és hpc2005 partíciókhoz ajánljuk.

-B 2:4:2 -O

Egy node-on 2 socket, 4core/socket, 2 thread/core allokáció. (vagyis 16 thread/node) hpc2009 partícióhoz.

-B 2:4:1

Egy node-on 2 socket, 4core/socket allokáció. (vagyis 8 thread/node) hpc2009 partícióhoz.

-B 2:2:1

Egy node-on 2 socket, 2core/socket allokáció. (vagyis 4 thread/node) hpc2005 partícióhoz.

-n 3

3 processzormag allokálása. Az atlasz és a flocking partícióhoz ajánljuk.

Példák 16 szálú MPI programok indítására

Az alkalmazás természetétől függ, hogy melyik lesz a leggyorsabb. Előre megmondani nem lehet. Elképzelhető, hogy két nagyságrendet is változik a program futási sebessége csupán ettől.

sbatch -N 1 -B 2:4:2 -O scriptname.sh

Ez 1 node-ot allokál. Ezen a node-on indít 16 szálat. Minden szálnak 0.75 GiByte memóriája van (pontosabban összesen 12 GiByte)

sbatch -N 2 -B 2:4:1 scriptname.sh

Ez 2 node-ot allokál. Mindkét node-on indít 8-8 szálat. Minden szálnak 1.5 GiByte memóriája van.

sbatch -N 4 -B 2:2:1 scriptname.sh

Ez 4 node-ot allokál. Mind a négy node-on indít 4-4 szálat. Minden szálnak 3 GiByte memóriája van.

sbatch -N 8 -B 2:1:1 scriptname.sh

Ez 8 node-ot allokál. Mind a nyolc node-on indít 2-2 szálat. Minden szálnak 6 GiByte memóriája van.

sbatch -N 16 -B 1:1:1 scriptname.sh

Ez 16 node-ot allokál. Mind a 16 node-on indít 1-1 szálat. Minden szálnak 12 GiByte memóriája van.

slurm.1359740067.txt.gz · Utolsó módosítás: 2013/02/01 18:34 szerkesztette: dancsa