<file>
Date: Thu, 06 Oct 2011 18:15:24 +0200
From: Maulis Adam <hpc-support (at) iig.elte.hu>
Subject: [hpc-l] Atlasz oprendszer upgrade miatti leallas 2011.10.13 - 2011.10.14


Tisztelt felhasználók és érdeklők!


Tavasz végén volt egy sorozatos lefagyása, elesése a rendszernek, amit
(várhatóan) bizonyos linuxos alapprogramok nem kielégítő stabilitása
okozott.

Nem reménykedtem abban, hogy pusztán verziófrissités miatt az
alapprogramok stabilitása egyszercsak megjelenik. Emiatt az atlasz belső
topológiáját, a cluster működését szétbontottam, újrafejlesztettem.

Az új rendszerben lesz egy külön node (mg00 néven) ami a cluster
alapfunkiconalitásáért felel (slurm, oprendszerek, pxeboot, nfsroot),
azon se terhelés, sem felhasználói tartalom nem lesz. Ezeket a
funkciókat idáig az interaktív gép (a fejgép) vitte. Az mg00 node egy
régi, korábbi funkcióját vesztett IBM 1U szerver Opteronnal, ECC
memóriával.

A régi és az új rendszer közötti átállást csak leállással tudom
megoldani. A leállás alatt job-ok nem futhatnak. A leálláskor meglévő
jobok törlődnek.

A leállás tervezett ideje:

2011.10.13 (csütörtök) - 2011.10.14 (péntek) (jövő hét vége)

A konfigurációváltás melléktermékeként Debian 5.0.8 -> Debian 6.0.2
verziófrissités fog történni.

Időközben tönkrement egy blade szerver, 6 évet birt, Így már csak 13
blade maradt. Az új CN node-ok garanciálisak, így az azokban keletkező
hibákat garanciális úgyintézés során orvosoltuk, így még mindig 44 CN van.

A figyelmeteket és megértéseteket köszönöm
Maulis Ádám
</file>
Egy korábban jött nem tervezett leállás miatt végül mégis csak 2011.10.06-én (a levél megírása után nem sokkal) lett bevezetve az új rendszer.