Mission Critical IT: Hoe een uitwijktest ervoor zorgt dat je in control bent en blijft

Bedrijfskritische IT moet 24/7 blijven draaien, ook als er een datacenter uitvalt. Dit testen wij met de jaarlijkse uitwijktest. Lees er alles over in onze blog.

22 november 2019   |   Blog   |   Door: Conclusion Mission Critical

Deel

Uitwijktest Conclusion Mission Critical

2018: Hoe ging het vorig jaar?

Als de dag van gisteren weet ik het nog. 6 oktober 2018, het is weer tijd voor de jaarlijkse uitwijktest van één van onze klanten. Ook het moment dat de uitwijktest veranderde in een echt disaster staat me nog goed bij. Hoe dit verliep? Dat kun je lezen in dit blog over de uitwijktest van vorig jaar.

Waarom een jaarlijkse uitwijktest?

Nu zijn we inmiddels een jaar verder, we hebben voor al onze klanten ook dit jaar weer een uitwijktest gedaan. Dit doen we heel bewust. Bewust om ervoor te zorgen dat er geen single points of failures in de techniek zitten en om de processen te testen, inclusief communicatie met de klant. Maar bovenal om ervoor te zorgen dat medewerkers exact weten wat te doen wanneer een uitval in het echt gebeurd. Kortom, voor zowel onze klanten als voor onze medewerkers ‘Nachtrust as a Service’.

Learnings van vorig jaar

Vorig jaar sloot ik mijn blog omtrent het uitwijkweekend af met de conclusie dat niet alles verliep zoals verwacht. We hadden er veel van geleerd en onze medewerkers hadden de Mission Critical dienstverlening tot in hun haarvaten zitten; met al hun inzet, doorzettingsvermogen, kennis en flexibiliteit. Maar dit was natuurlijk niet het einde van de test.

In de daaropvolgende weken hebben we veel evaluaties van de testen gedaan. Waar ging het mis, wat zijn de nieuwe risico’s die naar boven zijn gekomen en hoe nemen we daar de juiste mitigerende maatregelen voor zodat dit niet meer voor gaat komen. Met elkaar maken we het totale overzicht. Inmiddels weten we hoe het heeft kunnen gebeuren en hebben we verdere analyses gedaan. Een aantal changes zijn volgens het proces doorgevoerd en de maatregelen geborgd. 

Extra uitdaging: compleet nieuwe omgeving in 2019

De omgeving voor deze klant was in 2019 toe aan een technische lifecycle. We besluiten dit traject te vervroegen zodat we de uitwijktest van 2019 op een compleet nieuwe omgeving kunnen doen. Geen simpel project. Een totaal nieuwe infrastructuur wordt ontworpen, volledig volgens de eisen die we stellen aan een Mission Critical omgeving; toekomstbestendig, flexibel en geen single points of failures in de omgeving. Doelstelling? Alle diensten van de klant voor de zomer van 2019 naar de nieuwe omgeving migreren, zonder verstoringen.

De bouw van een nieuwe omgeving wordt gestart, platform testen worden uitgevoerd en de omgeving functioneert zoals verwacht. We hebben er vertrouwen in. De eerste migraties worden uitgevoerd en we starten met de ontwikkel- en testomgevingen. We testen opnieuw, nu met draaiende diensten erop. Opnieuw blijft alles functioneren. In hetzelfde proces volgen de acceptatie omgevingen. Dan, als laatste, de productie omgevingen. Alles is veelvuldig getest en gaat goed. De omgeving is volledig overgezet! Nu moet met de uitwijktest van 2019 blijken of dit de kers op de taart gaat zijn.

2019: uitwijktest als kers op de taart?

Op 9 en 10 november was het zover! De jaarlijkse uitwijktest. Door de vervanging van de infrastructuur en alle testen die we hebben gedaan heb ik er vertrouwen in. Het is vrijdagavond 22:00 uur, tijd om naar kantoor te rijden om ons voor te bereiden. Ik merk dat ik het ineens spannend vind. Mijn gedachtes dwalen af naar vorig jaar en ik denk vooral aan alle maatregelen die we hebben genomen en alle testen die we hebben uitgevoerd gedurende het jaar. Ik heb het volste vertrouwen in onze medewerkers. We gaan het gewoon even doen!

Uitwijktest Conclusion Mission Critical

Fase 1: voorbereidend werk

Nadat alle voorbereidingen zijn afgerond vragen we de business om de laatste go’s. Groen licht! Al onze Mission Critical Engineers zitten op hun plek, samen met onze klant en ons management zitten we in een aparte kamer, het crisiscentrum. De servicemanager zorgt voor communicatie tussen wat er op de werkvloer speelt en het crisiscentrum.

Fase 2: uitzetten van een datacenter

Eén van de datacenters is inmiddels uitgezet. Heel rustig komt onze servicemanager het crisiscentrum in. ‘Ik kom eigenlijk even vertellen dat er niks aan de hand is en alles blijft draaien. Over een half uur kom ik opnieuw, tenzij er iets aan de hand is, dan kom ik uiteraard eerder’. Een half uur later een nieuwe update. Er zijn een paar kleine incidenten die inmiddels al worden opgelost, maar functioneel draait het zoals het hoort.

Fase 3: datacenter klaarzetten

Nadat de kleine incidenten zijn verholpen en alles rustig door draait wordt er gestart met het klaarzetten van het uitgezette datacenter. Zodat we in het geval van een calamiteit weer 2 datacenters ter beschikking hebben.

Het volledig terug zetten naar de normale situatie doen we bewust een dag later, om daarmee eventuele verstoringen te voorkomen. Het eerste deel zit er inmiddels op, we kunnen rustig naar huis en alles verloopt volgens draaiboek.

Fase 4: omgevingen terugzetten

De volgende avond komen we weer terug. Nadat de business opnieuw groen licht geeft worden door onze Mission Critical Engineers de omgevingen weer volledig teruggezet zoals het zou moeten. Ook dit verloopt voorspoedig. Er zijn een aantal kleine incidenten maar de business heeft geen hinder en draait gewoon door. De teams zijn volledig self supporting, en wij worden goed en regelmatig op de hoogte gehouden van hetgeen er speelt.

Fase 5: in control

Ik betrapte mezelf er vooral op dat ik het een beetje saai vond. Vanuit het crisiscentrum was er namelijk geen actie benodigd. Maar al snel dacht ik ook dat ik dit niet saai mag vinden. We zijn namelijk gewoon in control. Dit is precies de Nachtrust as a Service die we onze klanten bieden.

We doen dit soort testen al een aantal jaar. We leren er steeds van, zowel op techniek, als organisatie maar ook onze medewerkers die weer een ervaring rijker zijn. Want ondanks dat alles soepel is verlopen, blijven dit soort testen verschrikkelijk belangrijk.

Onze medewerkers hebben dit weer volledig in control uitgevoerd. En wat blijf ik trots op al onze medewerkers die er dag en nacht keihard voor werken om in control te zijn, te blijven en daarnaast ook de klant meenemen in innovaties van morgen. Zij zorgen uiteindelijk ook voor mijn nachtrust!

En nu? Nu gaan we wederom opnieuw evalueren om de uitwijk volgend jaar nog beter te doen. En vol vertrouwen zie ik deze test alweer tegemoet!

Meer weten?

Nieuws & blogsOnze expertisesOnze casesOver ons