Koding og programmering blir stadig viktigere for forskere innenfor de fleste disipliner. Også for biologer, selv om DNA-dataene de jobber med gir litt ekstra hodebry.
– Innenfor biologien er det ofte veldig store datasett, så du må skrive ganske bra kode hvis du skal klare å analysere alt, sier Knut Rand.
– Datamaskiner er gode med tall, mens DNA egentlig er bokstaver. Dessuten er ikke alle sekvensene like lange, og da blir det en del knot, sier kollega Ivar Grytten.
I flere år har de to jobbet med å bygge programmeringsbiblioteket Bionumpy som skal gjøre det hele mye enklere og tryggere. Et slikt bibliotek samler sammen veldig mange funksjoner bak en tilsynelatende enklere kode. Det er ikke nødvendig å skrive hver eneste 0 og 1.
– I Bionumpy kan du skrive ti linjer med kode istedenfor tusen. Hver av de ti linjene peker på mer kode, men denne koden er allerede testet og verifisert, sier Grytten til Titan.uio.no.
Der inne gjøres bokstavene A, C, T og G, byggeklossene i DNA-et, om til tall uten at biologen trenger å tenke mer på det. Det ligger der allerede, skjult i de ferdige pakkene. Det som synes for brukeren, er A, C, T og G.
Fortviler etter Digipost-avsløring: – Det er uholdbart
Har selv gjort tabber
De to programmererne har ikke utviklet Bionumpy bare for å være greie. De har selv deltatt i forskningsprosjekter der de har laget programmer for å analysere data fra DNA-sekvenser, så det ligger også en viss egeninteresse i biblioteket som nå presenteres i tidsskriftet Nature Methods.
– Vi prøver å gjøre det lettere å unngå tabber. Det kommer av at vi selv har sittet og gjort tabber i mange år, sier Rand.
– Ideen kom fordi vi jobbet en del på prosjekter hvor vi endte med å skrive veldig mye av den samme koden om igjen og om igjen. Selv om vi har kodet i mange år, gjorde vi ofte feil, sier Grytten.
Bionumpy har allerede vært i bruk og testet i praksis. For eksempel i utviklingen av diagnoseverktøyet ImmuneML som skal gjøre det mulig å sjekke for mange forskjellige sykdommer i bare én enkelt blodprøve.
Les mer om ImmuneML: Fra bare én blodprøve kan kunstig intelligens gi diagnose for mange ulike sykdommer
Mye dill
Rand og Grytten er tilknyttet SandveLab ved Institutt for informatikk ved Universitetet i Oslo. Der veiledes de av professor Geir Sandve. Han har lengtet etter et verktøy som Bionumpy.
– For 15 år siden trengte jeg dette da jeg jobbet med genomdata. Jeg husker at jeg tenkte at jeg skulle ønske noen lagde noe sånt som dette, sier Sandve.
Isteden ble han sittende med det han kaller «mikrodill», massevis av små programmeringsdetaljer, fremfor å kunne bruke hjernekraften på en større overordnet idé.
– Jeg vet hvor mye dill, tull, kløning og feil jeg satt med på den tiden. Det føltes veldig bortkastet å kløne med dette når jeg visste hvor mange andre som satt med akkurat den samme kløningen, sier Sandve til Titan.uio.no.
– Alt som er kvantitativ analyse av DNA eller proteiner, bør passe veldig godt inn i Bionumpy. Det er veldig hensiktsmessig og arbeidsbesparende selv for de som er godt trent i koding, sier han.
– Makten tilbake til biologene
De tre informatikerne håper nå at biologer vil ta Bionumpy i bruk. Alternativet er å skrive all koden selv eller å bruke ferdige løsninger der det meste er definert på forhånd.
– Mange biologer blir avhengige av ferdige løsninger der alle bruker det samme programmet med de samme innbakte antagelsene. Med dette verktøyet gir vi biologene mer fleksibilitet. Det gir rom for mer kreativitet, sier Sandve.
– Bionumpy gir makten tilbake til biologene. De kan selv lese inn dataene sine og analysere dem, sier Grytten.
Et programmeringsbibliotek som dette gir forskere muligheten til å gjøre mer individuelle valg basert på hvilke data de har og hva de er interessert i å undersøke. De kan sette sammen sin egen pakke, velge hvilke moduler de vil benytte seg av, uten å skrive hele koden på egen hånd.
For fysikere, for eksempel, har denne måten å jobbe på vært en selvfølge i 20 år. Endelig får biologene samme muligheter.
– Vi håper Bionumpy blir en sentral brikke når man skal jobbe med biologiske data. Vi tror dette vil bidra til at det blir lettere å gjøre analyser og at man kommer fram til riktig resultat raskere, sier Rand.
De har testet sitt eget system opp mot andre løsninger som er tilgjengelige i dag.
– Det produktet vi har laget, er ti ganger raskere enn eksisterende produkter, sier Grytten.
Saken ble først publisert på Titan.