Tregheter i websidene
Incident Report for Pridok AS
Postmortem

Hva skjedde?

Onsdag 21. juni kl 14:12 fikk vi meldinger fra brukere om tregheter i Pridok EPJ. Problemet ble løst ca kl 15:00, og løsningen bedret seg gradvis frem til full drift kl 15:20.

Hva gikk galt og hvorfor?

Et databaseproblem gjorde at en sentral databasespørring tok lenger tid enn den skulle. Dette forplantet seg i løsningen, og førte til omfattende problemer for brukerne. Årsaken var problem med statistikk i databasen, som førte til at den valgte en kostbar måte (“plan”) å hente ut data fra en tabell.

Hvordan responderte vi?

Vi overvåker kostbare databasespørringer tett for å unngå tregheter, men spørringen som ga problemer denne gangen vises ikke i denne oversikten. Årsaken er at spørringen isolert sett ikke er kostbar, men den kjøres flere millioner ganger daglig. Når svartiden øker fra 10 ms til 40 ms så flagges ikke det isolert sett som et problem, men volumet spørringer som brått bruker fire ganger lenger kan føre til problemer.

Automatisk varsling slo inn kl 14:18, men varslingen kunne bare fortelle at generell svartid var dårlig. Den klarte ikke å isolere problemet.

Statistikk som databasen fører kan fortelle at enkeltspørringer er trege, men siden den opererer med historisk ytelse så kan det ta inntil 20-30 minutter før den avslører problemer.

Vi opprettet supportsak hos Microsoft kl 14:40 og fikk umiddelbart tilgang til teknisk kompetanse hos dem. Sammen fortsatte vi feilsølingen, og fikk etterhvert som statistikken ble oppdatert, identifisert problemspørringen. Deretter kunne vi jobbe videre med å identifisere årsaken til at spørringen var treg.

Ca kl 15:00 besluttet vi å oppdatere databasestatistikk for en spesifikk tabell vi mente kunne være årsaken til problemet. Denne oppdateringen ble kjørt, og vi så umiddelbart bedring i løsningen. Frem mot kl 15:20 fikk gradvis alle brukere full tilgang til løsningen igjen.

Fremover vil vi jobbe sammen med Microsoft for å få på plass bedre rutiner til å raskt identifisere lignende feil hvis de oppstår igjen. Utfordringen denne gangen var mangel på gode diagnosedata/statistikk, så vi vil jobbe med å forbedre dette.

Posted Jun 22, 2023 - 13:31 CEST

Resolved
Vi får meldinger om tregheter på websidene våre, og jobber med å identifisere problemet.
Posted Jun 21, 2023 - 02:00 CEST