På mandag opplevde brukere av Googles skytjeneste Container Engine (GCE) at de ikke kunne opprette ekstern lastbalansering for tjenestene sine. Kundene fikk en HTTP 400 «invalid argument»-feilmelding når de forsøkte å opprette dette.
Feilen var tilstede i 21 timer og 38 minutter, og 6,7 prosent av kundene opplevde API-feil på grunn av dette. Også kunder som utplasserte Kubernetes-klynger i GCE-miljø opplevde feilen.
Liten feil – stort problem
Grunnen er pinlig enkel, men kanskje mest av alt bare pinlig: Da Google skulle gjøre en liten oppdatering av et API på mandag, glemte noen å trykke shift-tasten på tastaturet da de skulle skrive variabelen «sessionAffinity».
Denne variabelen var ikke inkludert i testing i ettertid, og fikk dermed snike seg ubemerket gjennom. Så når Container Engine sendte forespørsler med liten bokstav i denne variablen, svarte Compute Engine API-et med en feilmelding, ifølge Googles feilrapport.
Rullet tilbake
Google ordnet opp ved å rulle tilbake oppdateringen dagen etter. Videre undersøkelser avdekket altså at et eneste manglende tastetrykk var kilden til problemet.
En får tro at noen hadde en ikke helt grei dag på jobben da feilen ble gjort, og en enda dårligere dag da feilen ble oppdaget.
I rapporten skriver Google at dette ikke er nivået av kvalitet og pålitielighet de bestreber seg å tilby, og at de har tatt og kommer til å ta grep som skal forbedre plattformens ytelse og tilgjengelighet.
Nettstedet the Register spør om disse grepene inkluderer opplæring i korrekturlesing, eller ekstra instruksjoner i hvordan man bruker shift-tasten.