Skygigantens nedetid skyldtes en kjedereaksjon av problemer: – Vi vet at dette rammet kundene våre betydelig

En automatisert tjeneste sørget for en kjedereaksjon av problemer.

Et av Amazon web services datasentre gikk ned for telling tirsdag kveld, norsk tid. Det skapte store problemer for brukere verden over gjennom natten. Bilde er fra et av Googles amerikanske datasentre. Illustrasjonsfoto. Foto: Google

Del

Kommenter

Martin Braathen Røise

14. des. 2021 - 16:00

Det var problemer med å skalere kapasiteten på en AWS-tjeneste som førte til at Amazon web services gikk ned i forrige uke. Netflix, Disney+ og AWS egne administrasjonsverktøy var utilgjengelige for brukere over hele verden.

– Problemene går ut over våre overvåknings- og hendelseshåndteringstjenester, rapporterte selskapet på egne statussider natt til onsdag og fortsatte:

Problemer med skaleringstjeneste

–Det skyldes en svekkelse i nettverket i US-EAST-1-regionen. Vi jobber med flere løsninger, og har sett tegn til bedring. Vi har dessverre ikke noen estimert rettetid, skrev selskapet. Noe som sørget for mye frustrasjon hos brukermassen.

Utfordringene førte til at brukere av AWS-tjenestene over hele verden mistet tilgangen til konsoll- og innloggingsvinduet til nettskytjenestene sine. Også ulike programmeringsgrensesnitt (API) ble rammet av nedetiden.

Selskapet fikk på plass en midlertidig løsning som gjorde at nettskyadministratorer kunne logge seg inn og få oversikt over egne tjenester i løpet av nattetimene.

Norske Azure-kunder opplever problemer torsdag ettermiddag.

Les også

Norske Azure-kunder hadde store problemer

Kjedereaksjon

Det var en feil i AWS interne nettverk - som blant annet tar seg av sanntidsovervåkning, DNS og autentisering - som ble forårsaket av problemer med en automatisert skaleringstjeneste som trigget en kjedereaksjon hos klientene i nettverket til nettskyregionen, heter det i en statusoppdatering fra nettskygiganten.

Dette sørget for en plutselig og dramatisk økning i antall spørringer mot det interne nettverket, som igjen skapte store forsinkelser i kommunikasjonen mellom det interne nettverket og nettet som skytjenestekundene forholder seg til.

Det store antallet spørringer sørget for at overvåkningsverktøyene gikk ned for telling for skyteknikkene. De hadde derfor ikke mulighet til å lokalisere feilen da den oppstod. Til slutt måtte de lene seg på loggfiler for å identifisere problemene.

Artikkelen fortsetter etter annonsen

annonsørinnhold

Intel og HP satser på ny PC-klasse – er dette fremtiden for arbeidsverktøy?

Det var selskapets selv som ble hardest rammet av problemene, rapporterer CNBC. Ansatte på Amazons lagre i USA hadde ikke tilgang til logistikkprogramvaren og fikk derfor problemer med å levere pakker og varer til kunder over hele landet.

Settes i produksjon igjen

AWS skriver at skaleringstjenestene som fikk alt til å gå i stå, nå er tatt ut av produksjon.

Selskapet akter ikke å introdusere tjenestene igjen før det er sikre på at de fungerer som de skal. Det skal derimot ikke ha noe å si for ytelsen til nettskygiganten, forsikrer selskapet.

Amazon sikter på å sette de aktuelle tjenestene i produksjon igjen i løpet av de neste to ukene.

– Tiltakene vi er i gang med å implementere gjør oss sikre på at vi ikke vil se disse problemene igjen, skriver selskapet i oppdateringen.

I våre dager holder det ikke å levere noe annet enn 99,999 prosent oppetid for å bli vurdert som seriøs. I praksis betyr det at datasentrene kan ha 26 sekunder nedetid i måneden og fem minutter i løpet av et år.

Beklager

Nedetiden natt til onsdag gikk langt over dette kravet.

Artikkelen fortsetter etter annonsen

annonse

Går nye veier for å støtte bærekraftig utvikling av AI-datasentre

AWS skriver at selv om problemene ikke påvirket nettskykundene direkte, ga problemene med de bakenforliggende tjenestene utslag hos flere.

Selskapet skriver også at selv om noen nettskykunder opplevde store problemer, fungerte tjenestene for andre som normalt.

– Vi skjønner at hendelser som dette er mer frustrerende enn de trenger å være når informasjon om hva som ikke skjer er tilgjengelig. Nå jobber vi for at denne informasjonen skal bli bedre.

– Til slutt ønsker vi å beklage til alle kundene som ble rammet av problemene. Vi vet at dette rammet mange av kundene våre betydelig, og nå gjør vi alt vi kan for å lære av denne hendelsen og sørge for at tilgjengeligheten på tjenestene blir enda bedre fremover.