I en verden hvor kunstig intelligens former vår forståelse av virkeligheten, står vi overfor en krevende utfordring: Hvordan kan vi sikre at språkmodeller som er bygget for å forstå oss, faktisk reflekterer vårt samfunn i sin helhet? Vi må utforske det kritiske gapet mellom tilgjengelig data og virkelig menneskelig forståelse.
Jeg har hatt mange samtaler i det siste om store språkmodeller (LLM) og innhold. Vi diskuterer alt fra dataene som brukes til å trene grunnmodeller, til hvordan vi bruker tjenester som Chat GPT og Gemini. Vi snakker om implikasjonene for opphavsrett, åpenhet og sannhet. For hvor godt forstår vi hva LLM-generert innhold egentlig er? Og hvor henter språkmodellene kunnskapen og informasjonen sin fra?
Det enkle svaret på hvor språkmodellene henter informasjonen sin fra, er «fra alt og overalt». Men realiteten er at de største språkmodellene, så vidt vi vet, primært trenes på offentlig tilgjengelig internettdata. Det er ikke alt. Det er bare en brøkdel av menneskelig kunnskap og gjør at språkmodellene mangler vesentlig læring fra data med opphavsrett eller begrenset tilgang.
Det skjeve datagrunnlaget: Hva går vi glipp av?
Nylig deltok jeg på den offisielle lanseringen av nora.ai, en stor språkmodell for norske språk (ja, det er mer enn ett). Svein Arne Brygfjeld fra Norges nasjonalbibliotek forklarte hvordan de bidro med data til Nora. Biblioteket samler alt publisert innhold i Norge og har digitalisert det siden 2006. I dag er det meste av samlingen digitalisert.
Under foredraget viste han den store forskjellen i datadistribusjon mellom det som er fritt tilgjengelig og det som faller inn under ulike nivåer av opphavsrett eller begrenset tilgang. Mengden av fritt tilgjengelig data som brukes til å trene KI, er enorm, men det skjeve datagrunnlaget gir et skjevt bilde. Det er mye vi går glipp av.
For at språkmodellene virkelig skal mestre språk, ikke bare grammatikk, må de forstå rikdommen av menneskelig uttrykk innebygd i det. De må forstå konteksten, verdiene, historien og meningen som går utover ord.
Mye av de aller mest verdifulle dataene sitter bak lukkede dører. Dette former uunngåelig de store språkmodellenes forståelse av verden, spesielt i kulturer med et lite utbredt språk som norsk.
Behov for universelt tilgjengelige datatyper
Utviklingen av språkmodeller har nettopp startet. Vi må finne ut hvordan vi kan skille den verdifulle informasjonen fra mindre pålitelig innhold.
Dette betyr å sikre at disse modellene er opplært på alle datatyper, ikke bare de fritt tilgjengelige. Vi trenger tilgang til opphavsrettsbeskyttet og ellers begrenset innhold på alle skriftspråk. Og ideelt sett ville denne informasjonen deles slik at alle grunnmodeller drar nytte av det.
Hvordan ellers kan LLM-generert innhold reflektere verdiene til samfunnet det eksisterer i? Hvordan kan den LLM-en ha en forståelse av rett og galt eller virkelig forstå hva en person prøver å forklare? Hvordan kan den skille sannhet fra usannhet og vite hva som er sannhet for øyeblikket?
Mot en mer representativ KI
Vi må derfor finne løsninger for å gjøre modellene mer representative og pålitelige. Jeg tror at gode svar kan ligge i lignende initiativ som nora.ai, hvor privat og offentlig sektor samarbeider mot et felles mål. Her er mine forslag til to steder å starte:
- Vi bør se etter en måte å trene modellene på opphavsrettsbeskyttet og begrenset innhold på alle språk, uten å krenke rettighetshavernes kontroll over innholdet deres.
- Vi bør finne en måte å gjøre opplæringssett universelt tilgjengelige gjennom mekanismer som ligner på åpen kildekode-lisensiering eller Creative Commons-lisensiering, slik at alle LLM-er kan trenes likt i alle kulturer og samfunn.
Får vi til dette, kan vi bidra til utviklingen av store språkmodeller som bedre forstår og reflekterer det mangfoldige samfunnet de er en del av. Det er helt avgjørende for å sikre at kunstig intelligens bidrar enda mer positivt til samfunnet enn det KI allerede gjør i dag.