SKYTJENESTER

Dette skjedde da flere skytjenester knelte denne uken

Konfigurasjonsfeil og strømbrudd var rotårsakene da det gikk galt for Cloudflare og Microsoft på tirsdag.

Nedetiden til Cloudflare på tirsdag var merkbar for mange. Diagrammet viser fallet i besvarte spørringer mens nedetiden varte.
Nedetiden til Cloudflare på tirsdag var merkbar for mange. Diagrammet viser fallet i besvarte spørringer mens nedetiden varte. Illustrasjon: Cloudflare
Harald BrombachHarald BrombachNyhetsleder
23. juni 2022 - 10:35

Tirsdag denne uken ble skybaserte tjenester fra både Cloudflare og Microsoft utilgjengelige for mange kunder i mange deler av verden. Nå har begge selskapene kommet med sin såkalte post mortem, hvor de forteller om hva som egentlig gikk galt. 

La oss begynne med Cloudflare, som fikk problemer ved 19 av selskapets datasentre, og akkurat disse 19 datasenterne betjener en betydelig mengde av den totale trafikken til selskapet. Dette berørte mange nettsteder og tjenester som er avhengige av disse tjenestene. 

De 19 største ble berørt

Ved akkurat disse 19 datasentrene er systemene satt opp med en ny arkitektur som er utviklet for å være mer fleksibel og motstandsdyktig enn i de øvrige datasentrene. Denne arkitekturen kalles internt for Multi-Colo PoP (MCP).

Tirsdag morgen norsk tid begynte Cloudflare å rulle ut en endring i nettverkskonfigurasjonen til selskapets datasentre. Den ble først rullet ut ved datasentrene med den gamle arkitekturen, noe som skjedde uten problemer. Men da den nye konfigurasjonen et par timer senere begynte å nå ut til de 19 datasentrene med MCP-arkitektur, gikk det galt. Samtlige ble utilgjengelige via internett.

Dette skal også ha gjort det vanskelig for Cloudflares teknikere å få tilgang til systemene for å rulle tilbake den gamle nettverkskonfigurasjonen. Men det er ikke første gang at nettopp dette skjer en stor aktør med distribuerte datasentre, så Cloudflare har noen rutiner og reserveløsninger for å få tilgang likevel.

Forlenget rettetid på grunn av kluss

Cloudflare oppgir at det brukte 26 minutter fra det ble erklært en hendelse og fram til rotårsaken var funnet. Deretter tok det 45 minutter før alle endringene var blitt reversert. Dette tok noe lengre tid enn nødvendig fordi noen av nettverksingeniørene klusset det litt til ved å reversere endringer som andre allerede hadde reversert. Det førte til at problemet gjenoppstod sporadisk. 

Under nedetiden falt antallet besvarte forespørsler til Cloudflares systemer med omtrent 50 prosent. Flere detaljer om det som skjedde, er oppgitt i dette blogginnlegget.

Økt KI-aktivitet kan føre til at vi må importere mer strøm som kan komme fra kull- og gasskraftverk, skriver Yonas Zewdu Ayele ved Oslo Met
Les også

Ikke nok grønn energi til å dekke KI-boomen i Norge

Rammet av strømbrudd

Problemene som Microsoft og særlig selskapets kunder i Vest-Europa opplevde, varte mye lenger. De oppstod allerede klokken 01 natt til tirsdag og var ikke endelig løst før klokken 17.27 samme dag, skriver Microsoft i en foreløpig rapport.

Rotårsaken var et strømbrudd i infrastrukturen for trafikkstyringstjenester for brukere i primært Vest-Europa. Normalt skulle en annen infrastruktur ha tatt over tjenestene, men denne «fail over»-handlingen ble ikke fullført på riktig måte. 

Dette førte til forsinkelser og aksessproblemer for flere Microsoft 365-tjenester, inkludert i alle fall Microsoft Teams, SharePoint Online, Microsoft Graph API, Exchange Online, Universal Print og OneDrive for Business.

I tillegg skal brukere ha opplevd problemer med å utføre søk og å bruke kalenderfunksjonalitet i tilknytning til de berørte tjenestene.

Green Mountains datasenter på Rjukan (nede til venstre) ligger 800 meter fra der Hima Seafood bygger sitt ørret-oppdrettsanlegg. Planen er å bruke restvarme fra datasenteret til å varme opp Himas bygg. Utnyttelse av overskuddsvarme er ikke regulert i dag, men et krav om en kost-nytteanalyse ventes fra nyttår.
Les også

Datasentre får egne krav til analyse av varmegjenbruk: – Skjønner ikke hvorfor vi skal særbehandles negativt

Del
Kommentarer:
Du kan kommentere under fullt navn eller med kallenavn. Bruk BankID for automatisk oppretting av brukerkonto.
Tekjobb
Se flere jobber
Har muligheten for hjemmekontor blitt den nye normalen?
Les mer
Har muligheten for hjemmekontor blitt den nye normalen?
Tekjobb
Få annonsen din her og nå frem til de beste kandidatene
Lag en bedriftsprofil
En tjeneste fra