Hvor lang tid vil det ta før dette IT-prosjektet er ferdigstilt på tilfredsstillende vis? På utviklersamlingen Javazone i forrige uke pekte Frode Torvund fra Know IT Objectnet og Stein Grimstad fra Wasteless/Simula på at mens programmeringsspråk, utviklingsmiljøer og systemeringsmetoder alle er blitt langt bedre de siste tiårene, er vi like flinke – det vil si dårlige – til å estimere IT-prosjekter nå som på 1960-tallet. IT-prosjekter krever gjerne langt mer tid og kostnader enn opprinnelig anslått. I en tid der det er mye å gjøre og underskudd på folk, bidrar svak estimering til at IT-prosjekter generelt sett koster mer enn egentlig nødvendig. Ringvirkningene går ut over økonomiske forhold: En bransje som ikke kan estimere prosjektkostnader korrekt, har en fortjent plett på sitt rykte.
Torvund og Grimstad har arbeidet med problemstillingen i mange år, og understreker at man ikke kan forvente perfekte estimater av IT-prosjekter. Poenget er forbedring. Derfor har de satt seg inn i, og i to prosjekter eksperimentert med en metode som på andre fagområder har vist seg å gi forholdsvis nøyaktige resultater. Teknikken er kjent som «prediction markets», eller prediksjonsmarkeder.
Spåbørs kan være en grei norsk betegnelse på dette.
Den grunnleggende ideen ved et prediksjonsmarked, er at man prøver å forutsi en framtidig hendelse ved å etablere et marked der det kan satses på ulike alternative utfall, eller «aksjer». Utfallet som oppnår høyest kurs, betraktes som det mest sannsynlige. Kursene måles gjerne i prosent, slik at en kurs på 77 innebærer at utfallet vil skje med 77 prosent sannsynlighet. Summen av alle aksjekurs er nøyaktig 100. En «aksje» kan gå ned i null, men hvis den går opp til 100, må nødvendigvis alle andre «aksjer» i det samme markedet gå ned i null.
Innsatsen i behøver ikke nødvendigvis bestå av reelle verdier eller penger, men erfaringen er at det bidrar til å øke spådommens nøyaktighet. Antall deltakere er et annet forhold som virker inn på nøyaktigheten. Det er videre viktig at kjøpere og selgere i størst mulig grad handler rasjonelt, og ikke er utsatt for irrelevante påvirkninger. Gode markeder kan ikke manipuleres: I dårlige markeder kan det være lønnsomt å vedde på en måte som strider mot markedets formål.
Selve «markedet» i et prediksjonsmarked er altså et spørsmål, mens «aksjene» som kjøpes og selges er alternative utfall på spørsmålet.
Mange prediksjonsmarkeder er lagt ut på nettet. På Hollywood Stock Exchange (HSX) «kjøper» man «moviestocks» og «starbonds» med «Hollywood Dollars» (H$). Børsen har vært brukt til å spå utfallet av for eksempel Oscar-utdelinger. HSX har vist seg dyktigere enn noen ekspertkritiker: I 2006 spådde HSX riktig utfall i 32 av til sammen 39 kategorier, hvor av 8 av de 9 viktigste Oscar-prisene.
For å utforske prediksjonsmarkeders allmenne potensial til å spå framtiden, driver University of Iowa det svært omfattende Iowa Electronic Markets, som primært til markeder knyttet til amerikansk politikk, som presidentvalget og valg til kongressen. Her spiller man med ekte penger, men ingen kan spille for mer enn 500 dollar. Sammenlikninger med opinionsundersøkelser fra 1988 til 2004 viser at Iowa-børsen er mer nøyaktig i 74 prosent av tilfellene. Børsen er spesielt mer nøyaktig enn opinionsmålinger når valgdagen er mer enn 100 dager unna.
Åpen kildekodeprogramvare for å sette opp egne prediksjonsmarkeder er tilgjengelig fra Foresight Exchange, som også driver egne spådomsbørser, mens kommersiell programvare kan leveres fra blant annet Consensus Point.
Torvund og Grimstad mener det finnes solid og dokumentert erfaring som tilsier at prediksjonsmarkeder kan være velegnet for å estimere IT-prosjekter.
En sentral erkjennelse er at eksperters magefølelse er vanligvis mer nøyaktig enn avanserte formelle estimeringsmodeller, selv om en viss struktur og verktøybruk kan bedre estimeringen. En utmerket måte å bedre estimeringen, er å ta et gjennomsnitt av flere eksperters magefølelse. En børs er en måte å bedre estimeringen ved å bryne ekspertenes magefølelse mot hverandre, og etter hvert fange opp endringene i deres respektive vurderinger.
Å fange opp og synliggjøre informasjon som ikke er åpent tilgjengelig eller ellers fritt utvekslet, er sannsynligvis et vesentlig trekk ved prediksjonsmarkeder. De som handler på en børs, forteller ikke alltid om sine vurderinger. Poenget er at handlene taler for seg. Nøyaktigheten kan ventes å øke dersom markedet engasjerer grupper som ellers er lite tilbøyelig til å utveksle informasjon mellom seg.
Torvund og Grimstad viser også til at prediksjonsmarkeder er blitt brukt, med suksess, i flere IT-prosjekter hos selskaper som Google, Siemens og IBM. Markedene er blitt brukt til å spå antall feil i et prosjekt, kostnader og varighet.
På Javazone gjennomgikk de erfaringene fra to prosjekter der de selv har kjørt prediksjonsmarkeder.
Det ene gikk ut på å spå hvor mange feil man ville avsløre i en systemtest for et delprosjekt med sju deltakere. Markedet ble formulert slik: «Hvor mange A-feil blir funnet i systemtest?». Det var fire svaralternativer: null feil, 1–3 feil, 4–10 feil, og mer enn 10 feil. Utviklere og prosjektleder tok del i markedet, som fikk en varighet på tre uker.
Denne grafen viser utviklingen av «kursen» for de ulike «aksjene», altså hvert utfalls sannsynlighet (strekene) samt mengden handler (de lyseblå søylene), gjennom hele perioden.
Etter den første handleperioden ble 1–3 feil og 4–10 feil vurdert som noenlunde like sannsynlige, med en viss overvekt for 1–3 feil. Etter litt handel tidlig i uke 2 ble dette justert til en litt større sannsynlighet for 4–10 feil. Mot slutten av den tredje uken dreide stemningen seg, og «aksjen» 1–3 feil ble mest etterspurt.
Det faktiske resultatet på systemtesten ble én feil.
I det andre forsøket, dreier prediksjonsmarkedet seg om å spå et IT-prosjekts status ved leveransedato. Dette prosjektet er anslått til rundt seks måneder. Prediksjonsmarkedet skal vare i åtte uker: Både markedet og prosjektet pågår fortsatt. Det er fire «aksjer», altså svaralternativer: godkjent med alle må- og alle bør-oppgaver, godkjent med alle må- men ikke alle bør-oppgaver, godkjent uten alle må-oppgaver, og ikke-godkjent.
I sine oppsummeringer mener Torvund og Grimstad at det er viktig å definere utfallene presist. Aksjene, altså svaralternativene, må ikke overlappe, og det må ikke være mulig å manipulere resultatene. I estimater av feilmengde, skal det for eksempel ikke tas hensyn til feilaktig rapporterte feil.
Andre lærdommer er knyttet til opplæring: Programvaren som håndterer handlene og beregner kursene er ifølge Torvund og Grimstad «ganske umoden og ikke selvforklarende». Siden uerfarne deltakere spiller vesentlig dårligere enn dem med noe erfaring, er det viktig å sørge for opplæring. En e-post med noen instrukser er ikke tilstrekkelig. Miljøer som praktiserer prediksjonsmarkeder i forbindelse med IT-prosjekter, melder at de har god erfaring med å bruke underholdningsmarkeder til opplæring, for eksempel børser der man skal spå hvem som vinner en idrettsturnering. Google er blant dem som bruker denne metoden.
I forbindelse med incentiver knyttet til selve markedet, understreker Torvund og Grimstad at de ikke må gå på tvers av det som er positivt for hele prosjektet. Å ligge an til å tjene stort på å ha veddet på høy feilprosent, kan oppmuntre til sjuskete arbeid man ellers ikke ville være bekjent av. Samtidig er det viktig å holde interessen oppe gjennom hele markedsperioden.
En interessant idé som Torvund og Grimstad kastet ut, var at flere enn bare utviklerne og prosjektdeltakerne bør delta i markedet, som kunder, sluttbrukere og styringsgruppe. En grunn er at disse gruppene kan sitte inne med annen relevant informasjon enn den utviklerne selv besitter.
Sluttinntrykket som Torvund og Grimstad etterlater, er blandet. På den ene siden er teknikken interessant og resultatene lovende. På den andre siden er opplæringskostnaden høy, programvaren er umoden og spådommene ikke spesielt gode. Med andre ord: Flere forsøk er påkrevet.
Les også:
- [19.09.2008] 316 norske nettsteder hacket siste måned
- [16.09.2008] Han leder Norges største kompetansetreff