A flocking csoport

2011 őszén indult kooperáció alapján a Biológiai Fizika tanszék Vicsek Tamás által vezetett kutatócsoportja szuperszámítástechnikai beruházását az Atlasz bővítéseként képzeli el. Ennek megfelelően lett kiválasztva az a hardver, ami mind a csoport igényét a lehető legjobban fedi, mind pedig alkalmas az Atlasz részeként való üzemelésre. Az atlasznak ez a része a flocking partíció, és a kutatócsoport jogosult tagjai részei a flocking unix groupnak.

A flocking csoport speciális erőforrásai

Mivel a flocking csoport tagjai egyben általános atlasz felhasználók is, így hozzáférnek a mindenki által használható erőforrásokhoz is.

Kapcsolattartás

Használati segédlet

node lefoglalása nem queue-ból indított programnak

A queue rendszer nem veszi figyelembe a queue rendszeren kívül indított programokat, így azok erőforrás-igényével nem fog számolni. A hpc2019 partíción ez nem probléma, mert oda nem lehet interaktívan belépni. A flocking partícióra viszont be lehet, ott erre figyelni kell.

salloc –immediate=2 –exclusive -p flocking -n 1 -w big01 /usr/local/slurm/bin/slurmlogin.sh (Az srlogin program is ugyan ilyen parancssort futtatna, a különbség az –exclusive paraméterben van)

A fentiekkel a program elindítása után is lehet erőforrást allokálni (ekkor figyelni kell, hogy az így kapott login-ból nem szabad kilépni idő előtt).

egyprocessoros job-ok indítása

Maulis leveléből: (2012 Május 11)

azt javaslom neked, hogy a sok apró 1 cpu-t foglaló programjaidat a flockingall particióra küldjed. Ezzel érheted el a legjobb kihasználtságot.

Amennyiben a sbatch -p flocking,hpc2009 meghatározást választod, úgy a hpc2009 részen 1 node-t foglal le a programod, a flocking reszen pedig 1 cpu -t. Ezzel szemben a flockingall az tartalmazza mind a két rendszert, és mindenhol cpu alapján oszt.

Ilyenkor az alapbeállítás, hogy egy jobhoz 5 GB memóriát rendel. Mivel a hpc2009-en 12 GB memória van egy nodehoz, ezért kézi beállítással ennél optimálisabb eredményt is el lehet érni. A fat01,fat02 (flocking) partíciókon 5,3 GB memória van magonként.

A flocking-on és a hpc2009-en elindított jobok prioritást élveznek a flockingall-on elindított job-okhoz képest.

squeue kimenetének 'ST' oszlopának kódjai:

(lsd. man squeue – de –long paraméterrel kétbetűs kód helyett hosszabb nevet írja ki)

          CA  CANCELLED       Job was explicitly cancelled by the user
                              or system administrator.  The job may or
                              may not have been initiated.

          CD  COMPLETED       Job has terminated all processes on all
                              nodes.

          CG  COMPLETING      Job is in the process of completing.
                              Some processes on some nodes may still
                              be active.

          F   FAILED          Job terminated with non-zero exit code
                              or other failure condition.

          NF  NODE_FAIL       Job terminated due to failure of one or
                              more allocated nodes.

          PD  PENDING         Job is awaiting resource allocation.

          R   RUNNING         Job currently has an allocation.

          S   SUSPENDED       Job has an allocation, but execution has
                              been suspended.

          TO  TIMEOUT         Job terminated upon reaching its time
                              limit.

monitorozó script: https://hal.elte.hu/flocking/browser/project/trunk/projects/HIV-Project-code/slurmwatch.sh

squeue folyamatos monitorozása

squeue -i 1 -el futtatva másodpercenként frissül, kissé top-jellegű hatást adva

squeue -S -p -t Pd listázza a prioritási listát csökkenő sorrendben, +p-vel növekvőben

példa script futtatáshoz

a script: https://hal.elte.hu/flocking/browser/project/trunk/projects/HIV-Project-code/slurmwrapper.sh

queue rendszer beállításainak lekérdezése

Az alábbi parancsok hasznosak lehetnek: