=====A flocking csoport===== 2011 őszén indult kooperáció alapján a [[https://fizika.elte.hu/hu/index.php?page=tanszek&tid=5&pid=9|Biológiai Fizika tanszék]] Vicsek Tamás által vezetett kutatócsoportja szuperszámítástechnikai beruházását az Atlasz bővítéseként képzeli el. Ennek megfelelően lett kiválasztva az a hardver, ami mind a csoport igényét a lehető legjobban fedi, mind pedig alkalmas az Atlasz részeként való üzemelésre. Az atlasznak ez a része a flocking partíció, és a kutatócsoport jogosult tagjai részei a flocking unix groupnak. ===A flocking csoport speciális erőforrásai=== * st03 storage szerver. A /project/flocking/ alá mountolva. Elérhető csak a flockdisk csoport tagjainak, az egész atlaszról. * big01 computing node. Elérhető a [[headnode|fejgépről]] ssh és rsh protokollal. * 512 [[GiB]] memória * 32 CPU mag, 3.3 GHz. AMD Opteron 6220 * 3.6 TB swap area, Intel SSD diszkeken * fat01 és fat02 computing node. Elérhető a [[headnode|fejgépről]] ssh és rsh protokollal. * 256 [[GiB]] memória * 48 CPU mag, 2.9 GHz, AMD Opteron 6238 * 0.5 TB swap area, egy lassú SATA diszken * flocking [[SLURM]] queue. Az ide feladott job-ok a fenti 3 gépen futnak. CPU allokáció alapján: akár több job is egy gépen. * flockingall [[SLURM]] queue. Az ide feladott job-ok mind a flocking, mind pedig a [[hpc2019]] gépein futhatnak. Ez csak egy egyszerűsítés, hogy ne kelljen a jobokat kézzel elosztva a 2 queue között szétosztani. Mivel a flocking csoport tagjai egyben általános atlasz felhasználók is, így hozzáférnek a mindenki által használható erőforrásokhoz is. ===Kapcsolattartás=== * [[http://hal.elte.hu/~pollner/|Pollner Péter]] jogosult jelezni, hogy ki tartozhat a flocking csoportba. * A műszaki, technikai kérdések továbbra is a hpc-support (at) iig.elte.hu címre küldhetők. ====Használati segédlet==== == node lefoglalása nem queue-ból indított programnak == A queue rendszer nem veszi figyelembe a queue rendszeren kívül indított programokat, így azok erőforrás-igényével nem fog számolni. A [[hpc2019]] partíción ez nem probléma, mert oda nem lehet interaktívan belépni. A flocking partícióra viszont be lehet, ott erre figyelni kell. * Egy cpu-t igénylő programot a queue rendszeren kívül úgy érdemes indítani, hogy az adott gépre az ''srlogin'' paranccsal lép be az ember az atlasz-ról, mert ezáltal egy cpu-nyi erőforrást allokál a slurm queue-ban. (De nincs semmilyen ellenőrzés, hogy nem indít több programot) * Ha egy sok memóriát igénylő programhoz egy teljes gépet le kell foglalni, akkor azt pl. az alábbi paranccsal lehet: ''salloc --immediate=2 --exclusive -p flocking -n 1 -w big01 /usr/local/slurm/bin/slurmlogin.sh'' (Az srlogin program is ugyan ilyen parancssort futtatna, a különbség az ''--exclusive'' paraméterben van) A fentiekkel a program elindítása után is lehet erőforrást allokálni (ekkor figyelni kell, hogy az így kapott login-ból nem szabad kilépni idő előtt). == egyprocessoros job-ok indítása == Maulis leveléből: (2012 Május 11) > azt javaslom neked, hogy a sok apró 1 cpu-t foglaló programjaidat a ''flockingall'' particióra küldjed. Ezzel érheted el a legjobb kihasználtságot. > > Amennyiben a ''sbatch -p flocking,hpc2009'' meghatározást választod, úgy a hpc2009 részen 1 node-t foglal le a programod, a flocking reszen pedig 1 cpu -t. Ezzel szemben a ''flockingall'' az tartalmazza mind a két rendszert, és mindenhol cpu alapján oszt. > > Ilyenkor az alapbeállítás, hogy egy jobhoz 5 GB memóriát rendel. Mivel a hpc2009-en 12 GB memória van egy nodehoz, ezért kézi beállítással ennél optimálisabb eredményt is el lehet érni. A fat01,fat02 (flocking) partíciókon 5,3 GB memória van magonként. A flocking-on és a hpc2009-en elindított jobok prioritást élveznek a flockingall-on elindított job-okhoz képest. == squeue kimenetének 'ST' oszlopának kódjai: == (lsd. ''man squeue'' -- de ''--long'' paraméterrel kétbetűs kód helyett hosszabb nevet írja ki) CA CANCELLED Job was explicitly cancelled by the user or system administrator. The job may or may not have been initiated. CD COMPLETED Job has terminated all processes on all nodes. CG COMPLETING Job is in the process of completing. Some processes on some nodes may still be active. F FAILED Job terminated with non-zero exit code or other failure condition. NF NODE_FAIL Job terminated due to failure of one or more allocated nodes. PD PENDING Job is awaiting resource allocation. R RUNNING Job currently has an allocation. S SUSPENDED Job has an allocation, but execution has been suspended. TO TIMEOUT Job terminated upon reaching its time limit. monitorozó script: https://hal.elte.hu/flocking/browser/project/trunk/projects/HIV-Project-code/slurmwatch.sh == squeue folyamatos monitorozása == ''squeue -i 1'' -el futtatva másodpercenként frissül, kissé top-jellegű hatást adva ''squeue -S -p -t Pd'' listázza a prioritási listát csökkenő sorrendben, ''+p''-vel növekvőben == példa script futtatáshoz == a script: https://hal.elte.hu/flocking/browser/project/trunk/projects/HIV-Project-code/slurmwrapper.sh == queue rendszer beállításainak lekérdezése == Az alábbi parancsok hasznosak lehetnek: *''scontrol show partition'' *''scontrol show config'' *''scontrol show job''