flocking

A flocking csoport

2011 őszén indult kooperáció alapján a Biológiai Fizika tanszék Vicsek Tamás által vezetett kutatócsoportja szuperszámítástechnikai beruházását az Atlasz bővítéseként képzeli el. Ennek megfelelően lett kiválasztva az a hardver, ami mind a csoport igényét a lehető legjobban fedi, mind pedig alkalmas az Atlasz részeként való üzemelésre. Az atlasznak ez a része a flocking partíció, és a kutatócsoport jogosult tagjai részei a flocking unix groupnak.

A flocking csoport speciális erőforrásai

st03 storage szerver. A /project/flocking/ alá mountolva. Elérhető csak a flockdisk csoport tagjainak, az egész atlaszról.
big01 computing node. Elérhető a fejgépről ssh és rsh protokollal.
- 512 GiB memória
- 32 CPU mag, 3.3 GHz. AMD Opteron 6220
- 3.6 TB swap area, Intel SSD diszkeken
fat01 és fat02 computing node. Elérhető a fejgépről ssh és rsh protokollal.
- 256 GiB memória
- 48 CPU mag, 2.9 GHz, AMD Opteron 6238
- 0.5 TB swap area, egy lassú SATA diszken
flocking SLURM queue. Az ide feladott job-ok a fenti 3 gépen futnak. CPU allokáció alapján: akár több job is egy gépen.
flockingall SLURM queue. Az ide feladott job-ok mind a flocking, mind pedig a hpc2019 gépein futhatnak. Ez csak egy egyszerűsítés, hogy ne kelljen a jobokat kézzel elosztva a 2 queue között szétosztani.

Mivel a flocking csoport tagjai egyben általános atlasz felhasználók is, így hozzáférnek a mindenki által használható erőforrásokhoz is.

Kapcsolattartás

Pollner Péter jogosult jelezni, hogy ki tartozhat a flocking csoportba.
A műszaki, technikai kérdések továbbra is a hpc-support (at) iig.elte.hu címre küldhetők.

Használati segédlet

node lefoglalása nem queue-ból indított programnak

A queue rendszer nem veszi figyelembe a queue rendszeren kívül indított programokat, így azok erőforrás-igényével nem fog számolni. A hpc2019 partíción ez nem probléma, mert oda nem lehet interaktívan belépni. A flocking partícióra viszont be lehet, ott erre figyelni kell.

Egy cpu-t igénylő programot a queue rendszeren kívül úgy érdemes indítani, hogy az adott gépre az srlogin paranccsal lép be az ember az atlasz-ról, mert ezáltal egy cpu-nyi erőforrást allokál a slurm queue-ban. (De nincs semmilyen ellenőrzés, hogy nem indít több programot)

Ha egy sok memóriát igénylő programhoz egy teljes gépet le kell foglalni, akkor azt pl. az alábbi paranccsal lehet:

salloc –immediate=2 –exclusive -p flocking -n 1 -w big01 /usr/local/slurm/bin/slurmlogin.sh (Az srlogin program is ugyan ilyen parancssort futtatna, a különbség az –exclusive paraméterben van)

A fentiekkel a program elindítása után is lehet erőforrást allokálni (ekkor figyelni kell, hogy az így kapott login-ból nem szabad kilépni idő előtt).

egyprocessoros job-ok indítása

Maulis leveléből: (2012 Május 11)

azt javaslom neked, hogy a sok apró 1 cpu-t foglaló programjaidat a flockingall particióra küldjed. Ezzel érheted el a legjobb kihasználtságot.

Amennyiben a sbatch -p flocking,hpc2009 meghatározást választod, úgy a hpc2009 részen 1 node-t foglal le a programod, a flocking reszen pedig 1 cpu -t. Ezzel szemben a flockingall az tartalmazza mind a két rendszert, és mindenhol cpu alapján oszt.

Ilyenkor az alapbeállítás, hogy egy jobhoz 5 GB memóriát rendel. Mivel a hpc2009-en 12 GB memória van egy nodehoz, ezért kézi beállítással ennél optimálisabb eredményt is el lehet érni. A fat01,fat02 (flocking) partíciókon 5,3 GB memória van magonként.

A flocking-on és a hpc2009-en elindított jobok prioritást élveznek a flockingall-on elindított job-okhoz képest.

squeue kimenetének 'ST' oszlopának kódjai:

(lsd. man squeue – de –long paraméterrel kétbetűs kód helyett hosszabb nevet írja ki)

          CA  CANCELLED       Job was explicitly cancelled by the user
                              or system administrator.  The job may or
                              may not have been initiated.

          CD  COMPLETED       Job has terminated all processes on all
                              nodes.

          CG  COMPLETING      Job is in the process of completing.
                              Some processes on some nodes may still
                              be active.

          F   FAILED          Job terminated with non-zero exit code
                              or other failure condition.

          NF  NODE_FAIL       Job terminated due to failure of one or
                              more allocated nodes.

          PD  PENDING         Job is awaiting resource allocation.

          R   RUNNING         Job currently has an allocation.

          S   SUSPENDED       Job has an allocation, but execution has
                              been suspended.

          TO  TIMEOUT         Job terminated upon reaching its time
                              limit.

monitorozó script: https://hal.elte.hu/flocking/browser/project/trunk/projects/HIV-Project-code/slurmwatch.sh

squeue folyamatos monitorozása

squeue -i 1 -el futtatva másodpercenként frissül, kissé top-jellegű hatást adva

squeue -S -p -t Pd listázza a prioritási listát csökkenő sorrendben, +p-vel növekvőben

példa script futtatáshoz

a script: https://hal.elte.hu/flocking/browser/project/trunk/projects/HIV-Project-code/slurmwrapper.sh

queue rendszer beállításainak lekérdezése

Az alábbi parancsok hasznosak lehetnek:

scontrol show partition
scontrol show config
scontrol show job