Nettverksproblemer i Azure

Incident Report for Pridok AS

Postmortem

Hva skjedde?

Fredag 16.6, mellom kl 04:34 og 09:25, hadde datasenteret vårt i Azure problemer med nettverket. Dette berørte ca 10% av trafikken, og ga symptomer som tregheter/heng, tilsynelatende tomme journaler og andre feil.

Fra 08:45 så vi at situasjonen bedret seg betydelig, og fra 09:25 var vi fullt operative igjen.

Hva gikk galt og hvorfor?

Azure har automatiske løsninger som monitorerer nettverket, og fjerner noder som anses som ikke-fungerende. Deretter tilkalles teknikere som reparerer eller erstatter utstyret og setter det i produksjon igjen. En stor grad av redundans gjør at sluttbrukere ikke merker noe til dette. En del av automatikken er et nettverkskart som forteller hvilke ruter trafikken i Azure er tillatt å flyte gjennom. En oppdatering av nettverkskartet ble lagt ut natt til fredag, som inneholdt informasjon om nye nettverksnoder som er en del av en større utvidelse av datasenteret. Feilen var at et flertall av disse nye nodene ikke var aktive ennå, og på grunn av måten automatikken virker så ble disse -pluss- mange andre fullt fungerende noder flagget med feil og tatt ut av produksjon. Dette førte etterhvert til store kapasitetsproblemer som ga symptomene beskrevet over.

Hvordan responderte vi?

Alarmer ble utløst kl 05:03, og Microsoft sine teknikere startet umiddelbart arbeidet med å feilsøke og rette problemet. Nettverksnoder som feilaktig var koblet ut, ble koblet tilbake igjen og dette gjorde at situasjonen gradvis bedret seg til alt var fullt fungerende igjen.

‌

Denne artikkelen er basert på foreløpig post incident review fra Microsoft, tilgjengelig på engelsk med tracking id VLB8-1Z0 på https://azure.status.microsoft/en-us/status/history/. På samme siden vil bli publisert en komplett post incident-report (PIR). Vi oppdaterer denne artikkelen hvis det kommer vesentlige nye opplysninger i saken.

Posted Jun 17, 2023 - 17:34 CEST

Resolved

This incident has been resolved.

Posted Jun 16, 2023 - 14:20 CEST

Update

Alle tjenester er oppe og kjører. Vi fortsetter å overvåke løsningen utover dagen.

Posted Jun 16, 2023 - 10:59 CEST

Update

Vi ser en forbedring i tjenestene nå, og forventer at løsningen er 100% operativ igjen om kort tid.

Posted Jun 16, 2023 - 09:09 CEST

Investigating

Microsoft varsler om omfattende nettverksproblemer som gir tregheter og feil i Pridok. Vi kommer tilbake med oppdatering straks vi vet noe mer.

Posted Jun 16, 2023 - 08:19 CEST

This incident affected: Pålogging og nettsider (epj.pridok.no).