Fredag 16.6, mellom kl 04:34 og 09:25, hadde datasenteret vårt i Azure problemer med nettverket. Dette berørte ca 10% av trafikken, og ga symptomer som tregheter/heng, tilsynelatende tomme journaler og andre feil.
Fra 08:45 så vi at situasjonen bedret seg betydelig, og fra 09:25 var vi fullt operative igjen.
Azure har automatiske løsninger som monitorerer nettverket, og fjerner noder som anses som ikke-fungerende. Deretter tilkalles teknikere som reparerer eller erstatter utstyret og setter det i produksjon igjen. En stor grad av redundans gjør at sluttbrukere ikke merker noe til dette. En del av automatikken er et nettverkskart som forteller hvilke ruter trafikken i Azure er tillatt å flyte gjennom. En oppdatering av nettverkskartet ble lagt ut natt til fredag, som inneholdt informasjon om nye nettverksnoder som er en del av en større utvidelse av datasenteret. Feilen var at et flertall av disse nye nodene ikke var aktive ennå, og på grunn av måten automatikken virker så ble disse -pluss- mange andre fullt fungerende noder flagget med feil og tatt ut av produksjon. Dette førte etterhvert til store kapasitetsproblemer som ga symptomene beskrevet over.
Alarmer ble utløst kl 05:03, og Microsoft sine teknikere startet umiddelbart arbeidet med å feilsøke og rette problemet. Nettverksnoder som feilaktig var koblet ut, ble koblet tilbake igjen og dette gjorde at situasjonen gradvis bedret seg til alt var fullt fungerende igjen.
Denne artikkelen er basert på foreløpig post incident review fra Microsoft, tilgjengelig på engelsk med tracking id VLB8-1Z0 på https://azure.status.microsoft/en-us/status/history/. På samme siden vil bli publisert en komplett post incident-report (PIR). Vi oppdaterer denne artikkelen hvis det kommer vesentlige nye opplysninger i saken.