Maskinlæring (eller ML) er i dag mye brukt, ikke minst innen forskning. Det hevdes sågar at ML endrer måten vi forsker på, samt at forskerens rolle forandres. Men er dette riktig? I det følgende skal vi se nærmere på disse påstandene.
ML er i dag anvendt ved fremstilling av mange typer kommersielle tjenester. Eksempler på slike er avlingsanalyse basert på droner eller satellitter, pasientovervåking basert på fysiologiske målinger og autonom navigasjon innenfor transportsektoren.
ML benyttes til å utvikle tjenester som tilsynelatende gjenspeiler menneskelig intelligens. Slike tjenester automatiserer en del oppgaver som inntil nylig krevde menneskelig inngripen. ML er hovedsakelig egnet til lav-nivå mønstergjenkjenning med utgangspunkt i datamengder som er for store til at menneskelig bearbeiding er praktisk mulig.
Treningsdata og testedata
For å utvikle ML-baserte tjenester trengs data. Dataene deles vanligvis inn i treningsdata og testedata. Grovt sett brukes treningsdataene til å lære programvaren å bli «intelligent», mens testedataene brukes til å sjekke om programvaren ble «intelligent». Læringsprosessen kan finne sted offline, online eller både offline og online. Det er altså ikke slik at dataene alltid hentes inn på forhånd.
Resultatet av treningsprosessen omtales gjerne som ML-modellen. ML-modellen er ganske enkelt et dataprogram som analyserer input og produserer output på en «intelligent» måte. Input til modellen kan for eksempel være et røntgenbilde av en pasient, og output kan være en sannsynlighet for at denne pasienten har kreft. En vanlig bruker anvender ML-modellen uten å forstå i detalj hvordan programmet fungerer.
Maskinlæring som forskningsmetode
Store selskaper bruker milliarder av kroner på utvikling av ML-modeller. De tilbyr modellene som tjenester og belaster for eksempel brukerne med et lite beløp per forespørsel. Disse modellene har vanligvis ingenting med forskning å gjøre. ML kan imidlertid også brukes til forskningsformål.
Det er viktig å skille mellom forskeren som benytter kjent ML-teknologi til å undersøke eller forstå aspekter av virkeligheten og forskeren som opptatt av å forbedre eller videreutvikle ML som verktøy eller metode. I denne kronikken er vi opptatt av førstnevnte, altså en forsker som benytter ML som forskningsmetode.
Design av læringsprosessen
En ML-modell er et dataprogram, men det er ikke programmert som annen programvare. En ML-modell er fremstilt av et annet dataprogram som har utført en læringsprosess. Menneskelig design av ML innebærer egentlig å designe denne læringsprosessen.
En forsker designer læringsprosessen med utgangspunkt i sin problemstilling. Dette innebærer vanligvis å velge hvilken læringsmetode som skal benyttes, ekstrahere datasett, definere belønningsfunksjoner og så videre. At det valgte designet er egnet for det aktuelle problemet, er en slags implisitt arbeidshypotese. Hvis designet er bra, er resultatet av å utføre læringsprosessen en ML-modell som løser problemet.
Litt forenklet kan vi tolke utsagnet «ML-modellen løser det aktuelle problemet» som en hypotese om den genererte programvaren. Denne hypotesen kan være feil, i likhet med enhver annen hypotese. Dataene som læringen baserte seg på, kan for eksempel ha vært utilstrekkelige, dårlig valgt eller manipulert, og programvaren kan lide av alle slags svakheter. Derfor krever denne hypotesen den samme grundige evalueringen som enhver annen hypotese forskeren kommer opp med før den kan anses som pålitelig.
Einsteins masseenergilov
La oss se nærmere på et eksempel. Vi bruker Einsteins klassiske masseenergilov som sammenligningsgrunnlag. Nå vet vi ikke hvordan Einstein tenkte, men det synes plausibelt at han på et eller annet tidspunkt hadde en arbeidshypotese med denne formen:
«Et systems energi (E), masse (m) og lysets hastighet (c) kan kombineres i en matematisk ligning som beskriver deres faktiske relasjon».
Etter mye tenkning og mange tankeeksperimenter postulerte han masseenergiloven i form av følgende hypotese:
«For ethvert fysisk system er systemets energi E lik systemets masse M multiplisert med kvadratet av lysets hastighet i vakuum C».
Kinesiske forskere har bygget militær-KI på åpen Llama-modell
Maskinlæring i anvendt forskning
La oss nå sammenligne med bruk av ML innen anvendt forskning. Vi tar utgangspunkt i en artikkel utarbeidet i EU-prosjektet Productive4.0, hvor ML ble brukt til å predikere et nøytraliseringsnummer for en kjemisk sulfoneringsprosess til stor nytte for en norsk bedrift. En implisitt arbeidshypotese for dette arbeidet var som følger:
«For den aktuelle sulfoneringsprosessen kan en ML-modell predikere nøytraliseringsnummeret med tilstrekkelig nøyaktighet».
I denne arbeidshypotesen spiller ML-modellen (som skal lages) samme rolle som ligningen (som skal formuleres) i arbeidshypotesen for masseenergiloven. La oss for enkelhets skyld anta at det endelige designet av læringsprosessen som forskerne i Productive4.0 kom opp med, er beskrevet i fila design.doc (datagrunnlaget inkludert). I så fall kan vi postulere følgende hypotese:
«For den aktuelle sulfoneringsprosessen vil ML-modellen designet i henhold til fila design.doc predikere nøytraliseringsnummeret med tilstrekkelig nøyaktighet».
Igjen ser vi at ML-modellen fremstår som ligningen i Einsteins lov. I motsetning til ML-modellen er ligningen eksakt, men ellers har de tilsvarende roller. Einstein måtte selv identifisere ligningen som relaterte de parameterne han var opptatt av. I hypotesen fra Productive4.0 spiller en automatisk frembrakt ML-modell ligningens rolle. Begge hypotesene kan falsifiseres av fremtidige tester.
Falske minner i Chat GPT kan åpne for varige datalekkasjer
ML er et støtteapparat
For å oppsummere: ML bistår forskeren ved automatisk å frembringe ML-modellen med utgangspunkt i forskerens design av læringsprosessen, men endrer ikke helheten i forskningsprosessen.
Forskeren må som tidligere karakterisere problemet som skal løses. Forskeren må også definere forskningsmetoden i form av en arbeidshypotese, designe læringsprosessen og utføre grundige evalueringer for å sjekke om ML-modellen faktisk løser problemet.
Dette innlegget ble først publisert i TU-magasinet, nr. 5/2022