Van uitwijktest naar echte uitval...

Vaker heb ik er al over geschreven, business continuïteit, hét belangrijkste aspect kijkend naar onze dienstverlening. Mission Critical, het hart van de maatschappij, het hart van de dienstverlening van onze klanten.

12 oktober 2018   |   Blog   |   Door: Conclusion Mission Critical

Deel

Plaatje uitwijktest

In de afgelopen maanden hebben we alle klanten en diensten weer onderworpen aan een jaarlijkse uitwijktest. Testen die we moeten doen, die wij noodzakelijk achten om de diensten te leveren waar wij voor staan. Testen die ook door onze klanten alom gewaardeerd worden omdat we hiermee aantonen daadwerkelijk Nachtrust as a Service te leveren. Niet alleen op het gebied van techniek, maar juist ook aan de kant van medewerkers en organisatie. Je wilt dat medewerkers precies weten wat ze moeten doen in geval van een echte uitwijk, getoetst hebben hoe de processen functioneren en hoe de communicatie met onze klanten verloopt.

Afgelopen weekend hadden we de allergrootste uitwijktest van het jaar. We proberen bij iedere test de lat hoger te leggen. Daarom hebben we deze keer gekozen voor een scenario waarbij we een van de datacenters uitzetten. En met uitzetten bedoelen we ook echt uitzetten. Tot de storage aan toe, de power gaat eraf. Een gewaagde operatie, apparatuur is er immers niet op gebouwd om het zomaar uit te zetten. Er kan van alles mis gaan en als het niet meer opkomt dan hebben we een groot probleem. Dan zijn we niet meer high available en dat geeft een groot risico voor de diensten die we leveren.  Dankzij alle goede voorbereidingen, het continue bijhouden van plannen en het uitvoeren van deeltesten  heb ik er alle vertrouwen in dat we ook dit scenario voor elkaar krijgen, net als onze klant.

READY…. GO!

Door de leerpunten van vorig jaar hebben we de test in twee delen opgesplitst. Een nacht doen we de uitwijk, wordt alles getest en aan het eind van de nacht zorgen we dat alles klaar staat voor de inwijk, de back to normal state. Met een dertigtal medewerkers zitten we er klaar voor, de laatste checks worden op technisch niveau gedaan en met de business worden de laatste go’s afgestemd.

Groen licht! We kunnen gaan, stap voor stap wordt het draaiboek gevolgd. Zonder problemen! We zijn een paar uur onderweg en de stappen gaan goed, totdat de storage wordt uitgezet. Dan gebeurd er ineens van alles. De meeste diensten draaien door, maar een aantal diensten vallen uit. Dit hoort niet bij het draaiboek, we hebben een grote bevinding te pakken. Onder onze medewerkers heerst er rust, er wordt snel met elkaar overlegd en gezorgd voor functieherstel. De kalmte bewaren, doen waar we goed in zijn. Doordat we speciaal voor deze test een change window hebben aangevraagd, is er weinig impact voor de business. Desondanks merk je aan iedereen dat ze er van balen.  Voordat het change window is afgerond is alle functionaliteit weer beschikbaar. Maar... de uitgezette storage is gedeeltelijk defect. De leverancier moet de hardware komen vervangen.

Volgens de leverancier kan het vervangen zonder impact en ze willen dit zo snel mogelijk doen. Toch  kiezen we daar niet voor. We willen namelijk geen enkel risico lopen op een onvoorziene situatie waarin vervanging toch impact heeft.  Aangezien we de volgende nacht een nieuw change window hebben, gooien we alle draaiboeken om en zorgen we dat het vervangen van de hardware de eerste werkzaamheden zijn voor de volgende nacht. Voor de zekerheid zetten we extra medewerkers in.  Doordat de storage niet volledig functioneert kunnen we namelijk in grote problemen komen en dan moeten we snel kunnen schakelen. De flexibiliteit van onze medewerkers is fantastisch! We bellen ze midden in de nacht wakker en zonder problemen komen ze extra diensten draaien. Dit is Mission Critical, er zijn op de momenten dat het noodzakelijk is. 

De dag tussen de twee nachten in is spannend. Ondanks dat de diensten  allemaal beschikbaar zijn, maar blijft dit ook zo, hebben we overal aan gedacht, kunnen we snel schakelen als het mis gaat, het gaat de hele dag door mijn hoofd.  Ik ben daarom blij  als we in de avond weer verzamelen en er weer een 30 tal medewerkers klaar staat. Klaar om alles te herstellen. We maken een nieuwe planning, passen de laatste zaken in het draaiboek aan en overleggen met onze klant. We hebben weer groen licht.

En toen…

De leverancier is met een van onze medewerkers in het datacenter, klaar om de hardware  te vervangen. De vervanging verloopt goed, maar er blijkt meer defect. Nieuwe onderdelen moeten worden afgeroepen. Dan komt het moment dat de storage in een datacenter zich volledig ophangt. Dit is het moment dat het echt geen test meer is. Dit is werkelijkheid: we hebben een datacenter uitval, maar de diensten draaien door.

Rust en kalmte blijft, onze specialisten weten wat ze doen. Wel maken we ons zorgen. Wat gaat er gebeuren als in het andere datacenter op dit moment nieuwe problemen ontstaan, wat doen we met onze medewerkers die nu voor de 2e nacht vol enthousiasme aan het werk zijn. We moeten een scenario bedenken, nieuwe ploegen klaar gaan  zetten. Technisch kijken we wat we kunnen doen om de load te verminderen. De eerste medewerker meldt zich al om 4:15 en komt gelijk naar kantoor, de eerste extra helpende handen zijn onderweg.

Terwijl we samen met de klant scenario’s aan het bespreken zijn wordt het horror scenario werkelijkheid. De defecte storage krijgt een panic reboot waardoor een van de belangrijkste diensten in het andere datacenter onderuit gaat. Hoe kan dit? Er breekt geen paniek uit, de rust en kalmte onder de medewerkers blijft. Het wordt muisstil. We laten de specialisten hun werk doen, niet storen, ze weten één ding is belangrijk: functieherstel! Dit weten onze kanjers binnen 6 minuten te realiseren en binnen een kwartier kan de business gewoon door. Dit waren hele lange 6 minuten.

Opgelucht halen we adem, geen impact meer op functionaliteit en alles is stabiel. De leverancier heeft nieuwe onderdelen naar het datacenter gestuurd en deze worden zonder verdere impact vervangen. Hierna kunnen we het draaiboek van de inwijk verder oppakken en dat verloopt verder vlekkeloos. En de medewerkers? Die hebben een lange nacht gehad, een aantal extra medewerkers komt naar kantoor en we sturen een ploeg naar huis. Een groot aantal medewerkers gaat mee door tot het bittere eind. We gaan pas naar huis als het klaar is.

Conclusie

We hebben weer veel geleerd van het weekend. Een test die werkelijkheid werd. Natuurlijk hadden we dit scenario niet van tevoren op deze manier bedacht en hebben we bevindingen die we echt moeten verbeteren, maar dit is wel precies waarvoor we deze testen doen! Alles kan in de werkelijkheid ook gebeuren en daar moeten we op voorbereid zijn. Dat we er op zijn zachts gezegd enorm van balen is logisch, dat zit in onze genen, maar ondanks alle tegenslagen hebben we de functionele impact voor de diensten tot een minimum kunnen beperken. We kunnen dan vooral terugkijken op een geslaagde test, waarvoor we ook vanuit onze klant de complimenten mochten ontvangen!

De manier waarop onze medewerkers de rust en kalmte kunnen bewaren geeft aan dat ze in control zijn, dat ze weten wat ze doen en dat geeft enorm veel vertrouwen. Hun inzet, flexibiliteit, kennis en doorzettingsvermogen is wat ons tot Mission Critical maakt! En ik ben er onwijs trots op dat ik directeur mag zijn van zo’n fantastische club en ben vooral trots op al die kanjers die bij ons werken!

Meer weten?

Nieuws & blogsOnze expertisesOnze casesOver ons