– Jeg leter etter problemer som er så vanskelige at det bare er avansert maskinlæring som kan løse dem, forteller professor Geir Kjetil Sandve på Institutt for informatikk.
Han er en av Universitetet i Oslos (UiO) fremste forskere på kunstig intelligens. Han samarbeider med forskere fra flere fagfelt, blant dem medisinere.
– Det var slik jeg snublet over immunsystemet. Dette systemet er så sofistikert at det vil kreve årevis med systematisk, metodisk forskning fra et helt felt av maskinlærere å nøste opp i det, erkjenner Sandve.
Lange lenker
Når et virus eller en bakterie invaderer kroppen vår, blir målrettede tiltak satt i gang for å ødelegge den ubudne gjesten. Det skjer framfor alt gjennom produksjon av noen spesielle proteiner, nemlig antistoffer.
Proteiner er, som vi vet, bygd opp av aminosyrer. Det finnes 20 forskjellige typer av dem. De kan kombineres på enormt mange ulike måter og med ulike lengder. Aminosyrer binder seg nemlig sammen i lange lenker. Hvert protein har en unik rekkefølge av aminosyrer, bestemt etter oppskrift fra genene. Immuncellene har et protein som likner antistoffer.
Et kort ord
– Jeg jobber med å forstå reglene for hvordan en immuncelle gjenkjenner en trussel – et virus, en bakterie, eller i noen tilfeller – en misforstått trussel som fører til autoimmun sykdom, som leddgikt, diabetes type 1 og cøliaki, forteller Sandve.
Måten antistoffene gjenkjenner virus og bakterier på, er helt spesiell. Hver enkelt immuncelle vet nøyaktig hva den skal reagere på blant en helt enorm mengde trusler.
– Men utrolig nok: All informasjonen som trengs for å greie det, er i hovedsak lagret i en omtrent 15 bokstaver lang sekvens. Denne delen av immuncellens ‘antistoff’ kalles Complementarity-determining region 3, forkortet CDR3, opplyser han, og legger til at navnet ikke er tilfeldig: Det er nettopp denne delen av immuncellens antistoff som avgjør hvilke farer som blir gjenkjent.
– Vi kan gi hver av de 20 forskjellige aminosyrene en bokstav. Det betyr at hver eneste immuncelle reagerer på akkurat det den skal, ut fra en tekstlinje som er bare 15 bokstaver lang.
Men er dette noen stor utfordring for forskerne? Er det ikke da bare snakk om å analysere 15 bokstaver, og ut fra de 15 bokstavene finne ut om immuncellen gjenkjenner et bestemt virus eller en bakterie – og dermed kan sette i gang sitt motangrep?
– Det høres kanskje enkelt ut. Men vi må huske at immunsystemet kan gjenkjenne milliarder ulike ting – og det altså bare med et slikt 15 bokstaver lang ord.
Atomer i universet
For at så korte ord skal kunne gjenkjenne så mye ulikt, må det være slik at selv små endringer i ordene fører til at noe helt annet blir gjenkjent.
– Var ordene derimot kjempelange, kunne de være ekstremt forskjellige. Da hadde det vært mye lettere for oss å lære å skille dem fra hverandre. At de er så korte, er akkurat det som gjør det så vanskelig å bestemme hva en bestemt immuncelle kan gjenkjenne av inntrengere, forklarer forskeren.
Sandve ber oss se matematisk på det. Som sagt, antistoffer er proteiner som består av aminosyrer – byggeklosser det finnes 20 forskjellige utgaver av. Hvis vi tenker på hvor mange ulike ord du kan skrive av noe som er 15 bokstaver langt, blir det 20 muligheter på den første plassen, 20 på den neste og så videre fram til den 15. plassen.
– Multipliserer vi dette, får vi en anelse om hvor svimlende komplekst immunsystemet vårt er: Det gir oss nesten like mange potensielt forskjellige antistoffer som det er atomer i universet.
Gjør feil
Men immunsystemet kan også gjøre feil. Uheldigvis gjenkjenner det ting i kroppen som det oppfatter som inntrengere, men som i virkeligheten er kroppens eget vev. Da oppstår autoimmune sykdommer, som leddgikt, diabetes type 1 og multippel sklerose.
Selv har Sandve spesielt jobbet med cøliaki. Dette er en betennelsessykdom i tynntarmen. Sykdommen blir utløst av gluten – som immunceller oppfatter som en trussel. Feilen gjør at immunforsvaret i tarmen bli satt i gang.
Målet til Sandve og kollegene er å forstå mer om sykdomsprosessen og utvikle mye måter å stille diagnosen på – begge deler basert på analyse av mønstre i de korte bokstavsekvensene som avgjør hva immuncellene kjenner igjen av trusler. Men likevel er det ikke slik at bare én sekvens gjenkjenner gluten. Nei, det gjør masse ulike sekvenser av de 15 bokstaver lange ordene.
Daglige IT-problemer på danske sykehus: «Ekstremt stressende»
Leter etter mønstre
Rommet for variasjon er enormt. Det er ikke som med Visa-kortet ditt: Endrer du ett siffer, kan du ikke lenger betale med det. Kroppen derimot, er ikke avhengig av å lage en helt fast bestemt sekvens – rekkefølge – på bokstavene. Det er faktisk en helt enorm mengde ulike sekvenser som kan gjenkjenne gluten, eller influensavirus eller hva det skal være.
– Samtidig vet vi at fra naturens side fungerer immungjenkjenningen svært presist og forutsigbart. Derfor burde det være mulig å finne mønstre for hvilke immunceller som gjenkjenner hva. I virkeligheten foregår dette ved at molekyler binder seg til hverandre. En intuitiv strategi er derfor å studere molekylene på atomnivå, sier Sandve.
Men det er enklere sagt enn gjort.
– Selv om formler fra kvantemekanikk i prinsippet gjør det mulig å beregne om et molekyl vil feste seg til et annet, vil det i praksis kreve mange år med tungregning å finne ut hva hvert enkelt antistoff gjenkjenner.
Proteinet i 3D
Antistoffer er som vi vet proteiner. Det er antistoffenes helt bestemte tredimensjonale form som gjør dem i stand til å binde seg til ulike virus og bakterier. Et protein dannes når alle stoffene i proteinet setter seg sammen og spontant folder seg til en komplisert origami-struktur. Hva slags funksjon proteinet vil ha, blir bestemt av hvordan denne strukturen blir seende ut.
Å beregne den endelige formen til et protein er en enorm utfordring: hvordan det bretter, folder og krøller seg sammen og interagerer med andre proteiner. Men maskinen AlphaFold, som Science kåret til årets forskningsgjennombrudd i 2021, klarer det i løpet av sekunder.
Men det gjelder likevel ikke alle proteiner.
– Egenskapene til antistoffene er så spesielle, og måten de gjenkjenner virus på såpass subtil, at disse beregningene ikke fungerer, i alle fall ikke ennå, forteller forskeren.
Isteden prøver Sandve og kollegene å finne mønstrene for hva immuncellene gjenkjenner basert på maskinlæring.
– Selv om vi ikke simulerer atomer direkte, husker vi nettopp på at antistoffene egentlig er strukturer som fester seg til virus og bakterier i det tredimensjonale rommet.
Men hvordan oppstår mønstrene forskerne leter etter i de 15 bokstaver lange sekvensene?
– Måten antistoffer og virus krøller seg til romlige molekyler på, og måten atomkreftene virker mellom disse molekylene, er det som gir mønstrene for hva immuncellene gjenkjenner blant de ubudne gjestene, påpeker han.
Før symptomene kommer
Immuncellene har ikke bare i oppgave å bekjempe inntrengere under en infeksjon. Immunsystemet har også et minne som gjør at vi slipper å få samme sykdom igjen.
– Når immunsystemet bekjemper en sykdom, eller bare har møtt et eller annet i kroppen vår, legges det igjen noen celler som lever videre og holder på denne informasjonen. Tar vi en blodprøve, får vi med oss en god del slike minneceller på kjøpet. De kan fortelle om en sykdom som er akutt akkurat nå, men også om sykdommer som lurer i bakgrunnen.
Kanskje har du en sykdom du ikke er klar over, en autoimmun sykdom? Da har trolig noen immunceller allerede begynt å ødelegge litt vev i noen deler av kroppen din, men uten at du merker det.
– I stedet for å spørre hva en bestemt immuncelle gjenkjenner, spør vi heller: Hvis vi tar ut en million slike celler, finner vi tegn på en eller annen sykdom? Da kan vi sjekke for en lang, lang rekke sykdommer.
Sandve viser til at den fullstendige kartleggingen av menneskets samlede arvemasse kom for drøyt 20 år siden. Da ble det mulig å finne ut om den enkelte av oss har økt risiko for en sykdom å bruke en DNA-test.
Men nå er det ikke lenger bare snakk om å vurdere risiko – men slå fast om du faktisk har en sykdom som pågår i kroppen.
– For seks-sju år siden fikk vi muligheten til å ta en blodprøve og ut fra blodprøven sjekke hvilke immunceller du har og om du allerede har sykdommen og derfor sannsynligvis vil merke symptomene innen få år.
Det er ingen mulighet for en kliniker å få dette til på laboratoriet. Sandve og kollegene har derfor utviklet maskinlæringsverktøyet de har gitt navnet immuneML, som ligger åpent tilgjengelig. Ved å analysere blodprøven ved hjelp av maskinlæring, finner forskerne mønstrene som pasientens immunsystem har lagd.
– Målet vårt er at det i framtiden skal være mulig å sjekke for hundrevis av forskjellige sykdommer basert på én enkelt blodprøve. En datamaskin ser etter mønstre knyttet til mange ulike sykdommer samtidig, også kreft. Det samme verktøyet kan også brukes for å lære slike mønstre.
I forskningsgruppa hans, Sandve Lab, foregår mye av programmeringen.
Nå blir det enklere å kode for forskere som jobber med biologiske data
Dyp læring er skreddersøm
Sandve peker på at det finnes mange ulike maskinlæringsmetoder. Dyp læring og nevrale nettverk er det som er mest populært nå. Chat GPT er basert på slike nevrale nettverk. De kalles svarte bokser, i motsetning til andre tilnærminger som regnes for å være mer åpne og transparente.
– For meg som utvikler forholder det seg faktisk motsatt. Det er den dype læringen som er transparent og som gir meg muligheten til å spekulere og bruke kreativiteten min.
Professsoren sammenlikner den dype læringen med en god, gammeldags mekanisk klokke med mange ulike tannhjul.
– De kan jeg flytte rundt på for at klokken blir best mulig tilpasset behovene mine. Den vanlige, tradisjonelle maskinlæringen derimot, er som en boks som er limt sammen og som derfor vanskelig lar seg åpne og mekke på.
Sandve gir oss et eksempel:
– La oss ta det med å bestemme om en pasient har en gitt sykdom ut fra en blodprøve: Med en del av maskinlæringsmetodene jeg brukte for 20 år siden, ville jeg prøvd fem ulike metoder, sett hvem av dem som virket best og eventuelt forsøkt å vri litt på dem. Mulighetene til å tilpasse metoden til problemet, var likevel begrenset.
Da fungerer den dype læringen på en annen måte.
– Først tar jeg det jeg vet om immunceller: Jeg vet at cellenes antistoff, som er proteiner, består av en om lag 15 bokstaver lang sekvens. Jeg vet at proteiner bretter seg opp i tredimensjonale strukturer. Jeg vet også at aminosyrene, alle disse molekylene eller bokstavene som ligger nær hverandre i éndimensjonale lenker, havner nær hverandre også når proteinene bretter seg i tredimensjonale strukturer.
– Derfor tror jeg at bokstaver som ligger nær hverandre, virker sammen, at de gir en kombinasjonseffekt eller synergi. Da kan jeg legge inn en komponent i min dype lærings-modell, nemlig det vi kaller et konvolusjonelt lag.
Sandve ber oss tenke på dyp læring som et byggverk i Lego.
– Da er dette konvolusjonelle laget en legokloss som utnytter akkurat dette at bokstaver som havner nær hverandre, samvirker for å kunne oppdage en helt bestemt inntrenger blant milliarder andre.
Bygger med Lego
Immuncellene som Sandve og kollegene spesielt har vært på jakt etter, er altså de som gjenkjenner cøliaki. Han viser til at blant millioner av immunceller i en blodprøve, er det svært få som har noe å si for cøliaki – immunsystemet har jo så mange ulike trusler å ta seg av.
– Når jeg bruker dyp læring, kan jeg, i stedet for å se på et generelt gjennomsnittstrekk ved alle cellene, heller rette oppmerksomheten min inn mot et fåtall celler som virker mest aktuelle. Dessuten vil kollegene mine og jeg lære oss hvilke få celler vi bør kikke på, forteller forskeren.
– Da kan jeg bruke en annen type legokloss, som på engelsk går under betegnelsen transformers. Til slutt legger jeg til en tredje type legokloss, som vi kaller et fullt sammenkoblet lag. Det kan trekke ut signalene som forhåpentligvis har oppstått gjennom de første to klossene – for å predikere om en pasient har cøliaki eller ikke.
Dermed har Geir Kjetil Sandve lagd seg et unikt Lego-byggverk som gjennom en kombinasjon av tre nøye utvalgte klosser er skreddersydd til forståelsen han har av problemet.
Skreddersøm
– At dyp læring åpner for å utvikle skreddersøm og utfolde sin kreativitet, tror jeg ikke så mange tenker på. Nå håper jeg at stadig flere blir oppmerksom på mulighetene dette gir for å løse komplekse problemstillinger innen medisin og andre fagområder – og at vi kan ha det moro mens vi gjør det.
Artikkelen ble først publisert i Apollon
Vil bruke KI til å påvise immunsykdom – men den trenger hjelp