NETTVERK OG INFRASTRUKTUR

Ruting-feil hos KT Corporation gjorde at millioner mistet internett

Sør-Koreas nest største internettleverandør, KT, hadde et gigantisk utfall grunnet en feilkonfigurasjon i rutingen.

Mange titalls fiberkabler er koblet til Cisco Catalyst-svitsjen som i dag utgjør hoveddelen av samtrafikkpunktet NIX1.
Mange titalls fiberkabler er koblet til Cisco Catalyst-svitsjen som i dag utgjør hoveddelen av samtrafikkpunktet NIX1. Illustrasjonsfoto: Harald Brombach
29. okt. 2021 - 12:00

Totalt var 16,5 millioner mennesker uten internett og telefon i 40 minutter. 

Problemene fikk store konsekvenser. Store butikkjeder gikk ned for telling da betalingssystemene plutselig var ute av drift. Også landets skolevesen merket problemene godt, melder Bleeping Computer

BGP-feil, igjen

Det skal ha vært en feilkonfigurasjon i rutingprotokollen Border Gateway Protocol (BGP) som sørget for de store problemene mandag denne uka. 

Protokollen er en mekanisme for å utveksle veibeskrivelser mellom systemene som utgjør den bakenforliggende infrastrukturen på internett.

I praksis holder disse internett i gang, og sørger for at pakkene som blir sendt frem og tilbake mellom eksempelvis landegrenser og store tjenesteleverandører ender der de skal. 

Uten BGP funker ikke internett, noe nedetiden i Sør-Korea er et godt eksempel på. 

Facebook gikk på samme smell

Meta skal legge en kabel rundt hele jordkloden, og skal selv eie og drifte kabelen. Bildet er hentet fra et av selskapets tidligere prosjekter.
Les også

Nettsted: Meta skal bygge undersjøisk fiberkabel rundt hele kloden

Det var også en BGP-feil som sørget for at Facebook, Messenger, Whatsapp og Instagram knelte for store deler av verdens befolkning i begynnelsen av oktober

Sikkerhetsspesialisten Kevin Beaumont tvitret at Facebook hadde begått en temmelig episk konfigurasjonsfeil.

– Facebook eksisterer rett og slett ikke på internett akkurat nå. Selv deres autorative navnetjenere har blitt trukket tilbake med BGP, skrev Beaumont.

Selskapet skrev da at de hadde gjort konfigurasjonsendringer i stamnettrutere som koordinerer trafikken mellom Facebooks datasentre.

Konfigurasjonsfeil i stamnett

Da Facebook jobbet med konfigurasjon av stamnettet ble det sendt ut en kommando som tok ned alle serverforbindelsene mellom datasentrene og internett

Systemene til Facebook er designet slik at denne type kommandoer blir revidert før de utføres, men denne gangen ble ikke kommandoen stoppet. Ifølge selskapet skyldtes det en feil i revideringsverktøyet. 

Forstyrrelsene på nettverkstrafikken gjorde at selskapets datasentre sleit med å kommunisere med hverandre, noe som fikk tjenestene til å stoppe.

Enkelt forklart fjernet Facebook deler av sin egen infrastruktur fra internetts katalog med veibeskrivelser (ruter). Dermed var det ikke mulig for noen å finne veien til Facebooks nettverk.

Cloudflare fikk flodbølge av forespørsler

Jack Dorsey, grunnleggeren av Twitter, startet Bluesky som et internt prosjekt i 2019. Nå går flere brukere bort fra Dorseys gamle platform til hans nye.
Les også

Mange prøver å bli neste Twitter. Har en amerikansk sommerfugl knekt koden?

– Vi vil definitivt se på måter å simulere hendelser som dette i framtiden, skrev infrastrukturdirektør Santosh Janardhan i et blogginnlegg

Ikke før etter seks timer var tjenestene opp igjen. Facebooks datasentre skal i praksis levere en oppetid på 99,999 prosent for å bli vurdert som seriøse. Det tilsvarer at de kan ha fem minutter nedetid i løpet av et helt år.

Å si at selskapet gikk på en smell av gigantiske proposisjoner, er derfor ikke noen overdrivelse. 

Problemene skal også ha ført til at offentlige DNS-serveren til Cloudflare, som har IP-adressen 1.1.1.1, har blitt utsatt for en flodbølge av forespørsler fra brukere og programvare som stadig forsøker på nytt å lokalisere Facebook-tjenestene. 

Selskapets DNS-tjeneste skal ha opplevd opptil 30 ganger så mange forespørsler i minuttet som normalt. Dette kan ha ført til dårligere responstid, helt oppe i ti sekunder.

Noe som fører til at DNS-forespørslene timer ut. Dette kan igjen ha forårsaket at brukere ikke fikk tilgang til tjenester fra helt andre leverandører. 

Tor Wallin Andreassen er professor i tjenesteinnovasjon ved NHH. Han tror at det er flere faktorer som kommer til å stikke kjepper i hjulene for jubeltallene til Norsk Datasenterindustri. Her avbildet på Lerchendal-konferansen i 2019.
Les også

Spår enorm vekst for norske datasentre: – Ønsketenkning

Del
Kommentarer:
Du kan kommentere under fullt navn eller med kallenavn. Bruk BankID for automatisk oppretting av brukerkonto.
Tekjobb
Se flere jobber
Tekjobb-Indeksen 2024!
Les mer
Tekjobb-Indeksen 2024!
Tekjobb
Få annonsen din her og nå frem til de beste kandidatene
Lag en bedriftsprofil
En tjeneste fra