Amazon kom i går med en rapport om hva som gikk galt da selskapets S3-lagringstjeneste (Simple Storage Service) i regionen US-EAST-1 (Northern Virginia) sluttet å fungere tirsdag kveld denne uken, norsk tid.
Klokken 18:37 fulgte et autorisert medlem av S3-teamet en etablert rutine da han utførte en kommando som etter hensikten skulle fjerne et lite antall servere fra et av undersystemene til S3. Dette undersystemet brukes til fakturering av S3-tjenestene.
Dette ble gjort i forbindelse med debugging av et problem med undersystemet, som skal ha ført til at det jobbet saktere enn ventet.
Bakgrunn: Tusenvis av Amazon-kunder ble rammet av massiv feil
Feil inndata
Det langt større problemet, som trolig rammet tusenvis av kunder, inkludert mange nettsteder og mobilapper, oppsto fordi teammedlemmet tastet inn feil inndata til kommandoen. Dermed ble et større sett med servere fjernet enn det som var tilsiktet.
Noen av disse serverne bisto det andre undersystemet til S3. Det ene var «index»-undersystemet, som administrerer metadata og lokaliseringsinformasjonen om alle S3-objektene i regionen.
Ifølge Amazon er undersystemet nødvendig for å betjene alle forespørslene av typene GET, LIST, PUT og DELETE.
Det andre undersystemet som ble berørt var «placement»-undersystemet. Dette avhenger av index-undersystemet for selv å fungere skikkelig, siden det selv blir brukt til å tildele lagringsplass til nye objekter i forbindelse med PUT-forespørsler.
Et annet tilfelle: Skrivefeil stoppet hackere under enormt bankran
Hadde ikke gjort omstart på flere år
Amazon opplyser at systemene er laget for å kunne tåle at en betydelig del av kapasiteten fjernes eller feiler, men i dette tilfellet måtte hvert av de berørte undersystemene startes opp på nytt. Dette er noe selskapet ikke har gjort på flere år i noen av dets større regioner. I mellomtiden har S3-systemet til Amazon vokst kraftig.
Resultatet var at omstarten tok betydelig lenger ting enn forventet. I mellomtiden ble en rekke andre nettskytjenester hos Amazon berørt av nedetiden.
Først måtte index-undersystemet startes på nytt, og dette var ikke i full drift igjen før klokken 21:18. Først da kunne placement-undersystemet gjenopprettes, noe som ifølge Amazon ble fullført klokken 21:54.
Les også: Telia-kontrakt i fare på grunn av skrivefeil
Lover forbedringer
Som et resultat av tirsdagens hendelser lover Amazon å utføre flere tiltak for å unngå at dette skjer igjen. Allerede har verktøyet som teammedlemmet brukte, blitt endret slik at det ikke fjerner serverkapasitet like raskt som til nå, og samtidig hindrer at serverkapasiteten til noe undersystem blir lavere enn minimumsbehovet.
Selskapet skal også gjøre endringer slik at tiden det tar å gjenopprette de viktigste undersystemene til S3, ikke blir like lang i framtiden.
Leste du denne? Disse taklet ikke skuddsekundet - ett tegn førte til krasj hos global IT-tilbyder