2011 őszén indult kooperáció alapján a Biológiai Fizika tanszék Vicsek Tamás által vezetett kutatócsoportja szuperszámítástechnikai beruházását az Atlasz bővítéseként képzeli el. Ennek megfelelően lett kiválasztva az a hardver, ami mind a csoport igényét a lehető legjobban fedi, mind pedig alkalmas az Atlasz részeként való üzemelésre. Az atlasznak ez a része a flocking partíció, és a kutatócsoport jogosult tagjai részei a flocking unix groupnak.
Mivel a flocking csoport tagjai egyben általános atlasz felhasználók is, így hozzáférnek a mindenki által használható erőforrásokhoz is.
A queue rendszer nem veszi figyelembe a queue rendszeren kívül indított programokat, így azok erőforrás-igényével nem fog számolni. A hpc2019 partíción ez nem probléma, mert oda nem lehet interaktívan belépni. A flocking partícióra viszont be lehet, ott erre figyelni kell.
srlogin
paranccsal lép be az ember az atlasz-ról, mert ezáltal egy cpu-nyi erőforrást allokál a slurm queue-ban. (De nincs semmilyen ellenőrzés, hogy nem indít több programot)
salloc –immediate=2 –exclusive -p flocking -n 1 -w big01 /usr/local/slurm/bin/slurmlogin.sh
(Az srlogin program is ugyan ilyen parancssort futtatna, a különbség az –exclusive
paraméterben van)
A fentiekkel a program elindítása után is lehet erőforrást allokálni (ekkor figyelni kell, hogy az így kapott login-ból nem szabad kilépni idő előtt).
Maulis leveléből: (2012 Május 11)
azt javaslom neked, hogy a sok apró 1 cpu-t foglaló programjaidat aflockingall
particióra küldjed. Ezzel érheted el a legjobb kihasználtságot.
Amennyiben asbatch -p flocking,hpc2009
meghatározást választod, úgy a hpc2009 részen 1 node-t foglal le a programod, a flocking reszen pedig 1 cpu -t. Ezzel szemben aflockingall
az tartalmazza mind a két rendszert, és mindenhol cpu alapján oszt.
Ilyenkor az alapbeállítás, hogy egy jobhoz 5 GB memóriát rendel. Mivel a hpc2009-en 12 GB memória van egy nodehoz, ezért kézi beállítással ennél optimálisabb eredményt is el lehet érni. A fat01,fat02 (flocking) partíciókon 5,3 GB memória van magonként.
A flocking-on és a hpc2009-en elindított jobok prioritást élveznek a flockingall-on elindított job-okhoz képest.
(lsd. man squeue
– de –long
paraméterrel kétbetűs kód helyett hosszabb nevet írja ki)
CA CANCELLED Job was explicitly cancelled by the user or system administrator. The job may or may not have been initiated. CD COMPLETED Job has terminated all processes on all nodes. CG COMPLETING Job is in the process of completing. Some processes on some nodes may still be active. F FAILED Job terminated with non-zero exit code or other failure condition. NF NODE_FAIL Job terminated due to failure of one or more allocated nodes. PD PENDING Job is awaiting resource allocation. R RUNNING Job currently has an allocation. S SUSPENDED Job has an allocation, but execution has been suspended. TO TIMEOUT Job terminated upon reaching its time limit.
monitorozó script: https://hal.elte.hu/flocking/browser/project/trunk/projects/HIV-Project-code/slurmwatch.sh
squeue -i 1
-el futtatva másodpercenként frissül, kissé top-jellegű hatást adva
squeue -S -p -t Pd
listázza a prioritási listát csökkenő sorrendben, +p
-vel növekvőben
a script: https://hal.elte.hu/flocking/browser/project/trunk/projects/HIV-Project-code/slurmwrapper.sh
Az alábbi parancsok hasznosak lehetnek:
scontrol show partition
scontrol show config
scontrol show job