Date: Thu, 06 Oct 2011 18:15:24 +0200 From: Maulis Adam Subject: [hpc-l] Atlasz oprendszer upgrade miatti leallas 2011.10.13 - 2011.10.14 Tisztelt felhasználók és érdeklők! Tavasz végén volt egy sorozatos lefagyása, elesése a rendszernek, amit (várhatóan) bizonyos linuxos alapprogramok nem kielégítő stabilitása okozott. Nem reménykedtem abban, hogy pusztán verziófrissités miatt az alapprogramok stabilitása egyszercsak megjelenik. Emiatt az atlasz belső topológiáját, a cluster működését szétbontottam, újrafejlesztettem. Az új rendszerben lesz egy külön node (mg00 néven) ami a cluster alapfunkiconalitásáért felel (slurm, oprendszerek, pxeboot, nfsroot), azon se terhelés, sem felhasználói tartalom nem lesz. Ezeket a funkciókat idáig az interaktív gép (a fejgép) vitte. Az mg00 node egy régi, korábbi funkcióját vesztett IBM 1U szerver Opteronnal, ECC memóriával. A régi és az új rendszer közötti átállást csak leállással tudom megoldani. A leállás alatt job-ok nem futhatnak. A leálláskor meglévő jobok törlődnek. A leállás tervezett ideje: 2011.10.13 (csütörtök) - 2011.10.14 (péntek) (jövő hét vége) A konfigurációváltás melléktermékeként Debian 5.0.8 -> Debian 6.0.2 verziófrissités fog történni. Időközben tönkrement egy blade szerver, 6 évet birt, Így már csak 13 blade maradt. Az új CN node-ok garanciálisak, így az azokban keletkező hibákat garanciális úgyintézés során orvosoltuk, így még mindig 44 CN van. A figyelmeteket és megértéseteket köszönöm Maulis Ádám Egy korábban jött nem tervezett leállás miatt végül mégis csak 2011.10.06-én (a levél megírása után nem sokkal) lett bevezetve az új rendszer.