FORNEBU (digi.no): Uttrykk som «pinlig», «mareritt» og «vi er lei oss» hang løst da Telenors tekniske ledelse torsdag ville redegjøre for den alvorlige feilen som har slått ut mobilnettet flere ganger den siste tiden.
Likevel var det en fattet og ofte smilende teknologidirektør Rolv-Erik Spilling, som sammen med dekningsdirektør Bjørn Amundsen møtte norsk teknologipresse.
- At hele mobilnettet går ned, og at vi bruker lang tid på å få det opp. Det er enhver teknologs mareritt, og to ting som ikke skal skje, sier Spilling.
Feilen er funnet, ble det sagt flere ganger. Likevel har Telenor ennå ikke identifisert selve rotårsaken til problemene.
- Vi fikk en total lås i det som kalles CS Core (kjernelinjesvitsj). Det var ikke én, men mange ting som skjedde, sier Spilling.
Det er på det rene at feilen er knyttet til såkalt signaleringstrafikk. Signalering omfatter blant annet opp- og nedkobling av samtaler, men også spørringer mellom mobiltelefonen og nettverket.
En av foranledningene til krasjen forklares med restart av en servicenode i nettverket. Det medfører en kraftig økning i signaleringen mellom den såkalte HLR-komponenten (database som inneholder serviceprofiler og identiteten til abonnentene) og taleserverne. Se skisse over strukturen i mobilnettet nederst i saken.
Signaleringsstrømmen ble fire ganger så høy trafikk som normalt. Signaleringen begynte deretter å gå saktere og saktere. Flere servere gikk i stå.
Den kraftige veksten i bruk av smarttelefoner er ifølge Telenor en del av bildet, ettersom de sender langt mer signalering enn ordinære mobiltelefoner. Det er også store forskjeller på ulike mobilplattformer. Android trekkes frem som «verstingen».
- Android bruker tre ganger så mye signaleringskapasitet som iPhone 4. Årsaken er alle applikasjonene som ligger i bakgrunnen og «poller» (sender spørringer) mot nettverket, sier Spilling.
Blant flere årsaker som spilte inn, nevnes at telenettet har fått en mer kompleks infrastruktur over tid. Mer redundanse og utstyr som snakker med hverandre og fordeler last, øker signaleringen. Det samme gjør roamingen mellom nettverkskomponenter levert av tre ulike leverandører: Ericsson, Nokia Siemens og Huawei.
- Det kan hende at vi har undervurdert hvor høyt trafikkpeakene kommer opp i, men det alene skal ikke gjøre at nettet går i lås, sier Amundsen.
«Defcon 1»
I pinsehelgen varte utfallet i 11 timer. For å få opp mobilnettet måtte man til slutt nullstille alle forbindelsene og restarte taleruterne, en prosess som alene tok to timer.
- Å resette alle taleruterne er litt som Defcon 1. Det er ingen lett beslutning, ifølge Spilling. Det tok også en del tid før Telenor visste at dette var løsningen, skyter dekningsdirektør Bjørn Amundsen inn.
Nyttig å lære av andres feil
Telenor er imidlertid ikke den første teleoperatøren som har vært rammet av fenomenet med overbelastning av signaleringstrafikk. Amerikanske AT&T har de siste årene opplevd store problemer, spesielt i tett befolkede områder som New York og San Francisco.
- I hvilken grad burde dere ha lært av andre teleselskaper som har opplevd dette tidligere?
- Jeg tror helt klart det er nyttig for bransjen å jobbe tettere sammen og dele erfaringer, svarer Spilling.
Bjørn Amundsen vet ikke om problemene som AT&T har opplevd er av samme type som Telenor er plaget av.
- Jeg tror det er mer komplekst hos oss, sier dekningsdirektøren.
Etterlyser bedre overvåkningsystemer
Telenor-direktørene mener at telebransjen har behov for bedre oversikt over interaksjonen mellom de mange komponentene i nettene sine.
IT-verdenen stiller seg ganske annerledes enn telekom, der den fysiske oppbygningen er mer komplisert. Det er behov for bedre overvåkningsverktøy, påpeker Rolv-Erik Spilling.
- På IT-siden foregår mye av prosesseringen i applikasjoner i et system. Sånn sett har IT kommet mye lenger enn telekom. Innen telekom overvåker man alle nodene, men det finnes ikke noe system i dag som kan overvåke alle våre systemer i sanntid. Når du får en alarm er det ofte allerede for sent.
- Har ekspertisen som trengs
Mange har spurt seg om ikke Telenor har undervurdert behovet for teknikere, og at det har blitt for mye blåruss i selskapet, på bekostning av ingeniører. Dette avviser Spilling.
- Kjernen i Telenor og årsaken til at vi har klart oss så godt ute (i den store verden) er god teknisk kompetanse.
Tiltak
Telenor ramser opp en rekke tiltak som skal bedre stabiliteten i mobilnettet deres:
- Hele nettverksarkitekturen blir gjenstand for en grundig gjennomgang.
- Det skal sikres en optimal arkitektur som er tilpasset nordmenns nettbruk og teknologisk utvikling.
- Feilsøking i det mobile talenettet.
- Kapasiteten i nettet skal økes.
- Kontrollen over trafikken skal utbredres.
- Det etableres en beskyttelsesmekanisme som skal tre i kraft ved unormale økninger i signaleringstrafikk. Trafikken skal slippes kontrollert igjennom.
- Signaliseringsnivået reduseres.
- Endret rutiner for kontrollert omstart.
- Nettverket skal følges time for time gjennom løpende analyser.
Les også:
- [13.03.2012] Dette vil Telenor blokkere
- [19.07.2011] Årsaken til Telenors kollaps funnet
- [24.06.2011] Advarer mot Baksaas-mobbing
- [23.06.2011] Tilsynet bekymret over Telenor
- [23.06.2011] Telenor styrker mobilnettet
- [20.06.2011] Telenor slipper bøter etter mobilkrasj
- [17.06.2011] Telenors mobilnett oppe igjen
- [17.06.2011] Alarmen har gått i Telenor