Kronikk: Big Data. Eller bare BD. Begrepet har etter hvert blitt nesten like omtalt som Cloud Computing, og nå er Big Data i ferd med å vokse opp og bevege seg fra motebegrep til produksjonsmiljøer. Men hva betyr det egentlig? Hva kan Big Data gjøre for oss?
En akseptert definisjon på store data er at det er datasett som har (ett eller flere av kriteriene) volum, hastighet, variasjon og kompleksitet som gjør at tradisjonelle verktøy ikke er i stand til å fange, behandle, lagre, håndtere og ikke minst analysere dem.
Men hvor store må data egentlig være for å bli klassifisert som «store»? PC-lagring måles fortsatt i GB (gigabyte), og lagringssystemer omtales gjerne i (titalls) TB (tera, hvor f eks databasene til Facebook fordøyer mer enn 500TB daglig). Store virksomheter måler etter hvert sine samlede data i PB (peta). Deretter kommer EB (exa), som representerer omtrent alle de data som blir generert på internett hver dag. For å gi et begrep om størrelsen vokser hver av benevnelsene med 1000x av den forrige. Hvis vi tar utgangspunkt i EB ned til enheten byte, vil det si at
1 EB = 1 000 000 000 000 000 000 B
eller tilsvarende en datamengde som får plass på ca 250 millioner DVD’er.
(U)strukturerte data
I tillegg til at dataene er store, er de ofte ustrukturerte. At data er ustrukturerte betyr gjerne at de inneholder verdifull informasjon samtidig som det er vanskelig å automatisere forståelsen og klassifiseringen av innholdet.
Eksempler på strukturerte data kan være regneark, eller alt som er pent organisert i databaser. Ustrukturerte data er i prinsippet alt annet, f eks bøker, dokumenter, epost, audio, video, osv. Man trenger ikke være mye IT-kyndig for å forstå at omfanget av ustrukturerte data er svært mye større enn strukturerte, selv om det er her maskiner og programvare har de største utfordringene med å forstå innholdet.
Raske Data
Som om det ikke var nok at dataene er både store og ustrukturerte er de i tillegg gjerne raske, noe som er en annen utfordring. Det er nesten verre enn at de er store, for da har man veldig liten tid til å nyttiggjøre seg informasjonen de inneholder. Vi produserer nå så mye data, både manuelt og automatisk, at mange organisasjoner sliter med bare å få lagret dem –for ikke å snakke om å rekke å forstå hva dataene kan fortelle.
Data versus informasjon. Blir Big Data vår tids krystallkule?
Nå begynner vi å nærme oss kjernen av hvorfor mange bedrifter begynner å interessere seg for Big Data, nemlig muligheten til å utskille informasjon fra data. I dagligtale slurver vi ofte litt og bruker begrepene om hverandre, men grovt sett kan vi si at frittstående rådata er ganske verdiløse. Det er først når data blir tolket, analysert og satt i en kontekst at vi kan snakke om informasjon.
De hurtig fremvoksende økosystemene rundt store datamengder gir bedriftene mulighet til å gjøre gull av gråstein, å finne «noe» av verdi i et berg av data selv når man ikke helt vet hva man leter etter. Dette «noe» kan være kunnskap om dine handlevaner og preferanser slik at du kan få tilbud om skreddersydde tjenester, tilbud, markedsføring osv.
Siden snart all forbruker- og kjøpsadferd blir maskinregistrert er det nærliggende for bedrifter å utnytte disse dataene til å skaffe seg konkurransefortrinn der de kan.
Alle som har handlet på Amazon vet at de er flinke til å gjette på hva du kan tenke deg å kjøpe. De serverer lynraskt nye forslag i nettleseren din mens du ferdes igjennom nettbutikken deres. Dette er en ferdighet de kontinuerlig forbedrer, og de blir stadig mer treffsikre. Du trenger faktisk ikke engang å kjøpe noe. Selv det faktum at du har tittet på et objekt mates inn algoritmene for å finjustere forslagene.
Informasjonen skjult i store data er ikke så lett tilgjengelig uten gode mekanismer for å trekke ut verdien. Hvis du er bruker av videostrømmetjenesten Netflix vet du at de er ganske gode til å foreslå ting du kan se på. Demografiske kriterier, dine uttrykte preferanser og historikk, samt tid, sted og en rekke mer obskure parametere benyttes for å gjette seg fram til et forslag du vil sette pris på.
Selskapet var så opptatt av å perfeksjonere denne brukeropplevelsen at de arrangerte en åpen konkurranse for å forbedre den underliggende algoritmen de benyttet. Premien på $1 million ble utbetalt i 2009 til et forslag som forbedret treffsikkerheten med omtrent 10 prosent (Netflix endte opp med å ikke benytte seg av vinnerforslaget, men det var av praktiske årsaker).
Mulighetene i å utnytte store data ligger selvfølgelig ikke bare i analyse av forbrukeratferd. Her er det kun fantasien som setter begrensningene. For eksempel kan servere fra HP (hvis kunden tillater) kontinuerlig rapportere sin helsetilstand inn til en sentral overvåkingsfunksjon, som benytter seg av avanserte algoritmer for prediktiv analyse. Med stor treffsikkerhet kan systemet anslå hvis en garantihendelse snart vil inntreffe, og man kan iverksette preventive tiltak for å unngå nedetid og garantibrudd. Det er bra for kunden og bra for HP. Med store volumer er det snakk om store penger. For hvert prosentpoeng kvalitetsforbedring som oppnås, realiserer selskapet $4,5 millioner i besparelser.
Return on Information
Uten forsøk på å være flåsete kan vi slå fast at store data kommer til å bli stort i tiden framover. Når vi nå hurtig beveger oss mot et Internet of Things (IoT) kommer datamengden til å øke dramatisk. Hvis både bilen din, kjøleskapet ditt og ikke minst et hav av sensorer i dine omgivelser kontinuerlig skal rapportere data vil analysebehovet bli enormt –nettopp for å kunne ekstrahere verdifull informasjon fra data.
Min spådom er at den gode gamle bedriftsøkonomiske forkortelsen RoI (Return on Investment) i fremtiden vil være kjent som Return on Information.
Hvis du har IT-budsjettansvar er sannsynligheten stor for at du kommer til å bli forelagt et Big Data prosjekt i nær fremtid. Jeg tror dette er tiden hvor Big Data -> Big Business.
Les også:
- [07.08.2013] – Må skille snørr og barter
- [04.07.2013] Douglas Engelbart er død
- [28.06.2013] Dette må regjeringen snakke om
- [26.06.2013] Nettsteder må tilpasses funksjonshemmede