OpenAI og deres konkurrenter har stått og står overfor et stort problem. Skal de trene sine LLM-systemer, som ChatGPT, bare på fritt tilgjengelig innhold som Wikipedia, EUs lovdatabaser og bøker og bilder som rettighetene har utgått på? En slik chatbot – og aksjekursen til selskapene – vil trolig bli lite imponerende.
Så et eller annet sted langs veien bestemte mange av selskapene seg åpenbart for å følge «move fast and break stuff»-mantraet. Sett i gang en crawler, hvis du som Google eller Microsoft ikke allerede har gjort jobben, og skyv problemet foran deg!
Når kritikerne våkner opp og rettssakene endelig kommer, kan du satse på at du kan hale ut striden og sitte igjen med mer enn hvis du hadde spurt først. Særlig på bankkontoen din.
Som å være en vennlig innbruddstyv
Så er den kjente strategien fra de store tech-selskapene å love bot og bedring, mens de bare gjør noen minimale grep for å hale ut tiden.
Denne uken satte OpenAI kanskje en ny rekord i frekkhet. Nettsteder kan i robots.txt-filen angi hva søkemotorer kan indeksere, og nå har OpenAI lansert en streng man kan legge inn for å forhindre at selskapet kopierer innholdet. Det kan sammenlignes med at en gruppe innbruddstyver som sier «Vi bryter oss inn og stjeler alt vi kommer over, men nå har vi lansert et Ikke bryt deg inn her-klistremerke du kan hente og sette på døren din. Nå blir vel alle glade igjen?»
Open AI: Sier Musk ville ha full kontroll over teknologien
Et massivt innholdstyveri
OpenAI gjør trolig nok dette fordi det i løpet av sommeren er mange som har våknet og begynt å grave i hva blant annet ChatGPT må ha kopiert, både av bilder og tekst. En stadig lengre kø av søksmål er meldt inn. Blant annet viser det seg at mange LLM-aktører har brukt nedlastbare, ferdige, store datasett med kopiert innhold, som The Pile og Common Crawl.
Blir jeg bedt om å tippe, vil jeg tro at datasettene ble skapt for å for å trene de generelle språkferdighetene til KI-systemer. Men når LLM-ene begynner å servere innholdet i datasettene ved å svare på spørsmål, oppsummere tekstene og lage nytt innhold/bilder basert på originalverkene, har vi et massivt innholdstyveri.
OpenAI skal ha brukt datasettet The Pile, som noen påstår inneholder mer enn 190.000 rettighetsbelagte bøker, som Harry Potter-serien og «A song of Fire and Ice»/«Game of Thrones»-bøkene. En kjapp test på ChatGPT med et Harry Potter-relatert spørsmål gir deg et langt, godt oppsummerende svar, selv om du ikke får konkrete bokavsnitt.
I Common Crawl, som mange har brukt, ligger blant annet store deler av innholdet som er skapt og eid av Tidsskriftet for Den norske legeforening, Norges største vitenskapelige tidsskrift. Undertegnede er digitalsjef der.
Riktignok publiserer Tidsskriftet noe innhold under åpen lisens, men det skiller ikke Common Crawl på. Tidsskriftet begynte med delvis åpen lisens 1. januar 2020, men en sjekk i for eksempel listen over sider og filer fra 2022, viser at databasen inneholder halvparten av innholdet Tidsskriftet publiserte i 2022 og for eksempel 219 sider/PDF-er fra 2019. Mye av det fra 2022 og alt fra 2019 er rettighetsbelagt.
Fjerner andres inntektsgrunnlag
Så hvorfor motsetter Tidsskriftet for Den norske legeforening seg denne innholdskopieringen?
Det enkleste svaret på dette er at alle som skaper produkter eller kunnskap, trenger å beskytte sitt arbeid, enten det er et fysiske produkt, kildekode eller dokumenter. Tidsskriftet er redd for at OpenAI, Microsoft og særlig Google skal begynne å servere ferdige svar på brukersøk, i stedet for å lede brukerne videre til oss som har hatt store utgifter med å skape innholdet.
Tidsskriftet, som alle andre organisasjoner, trenger besøkene fra brukerne for å bygge merkevare, brukerlojalitet og annonseinntekter. Skal du bruke produkter andre har skapt, må du inngå lisensavtaler, og det må være reelle forhandlinger der begge parter kan si nei takk.
I tillegg kommer en utfordring rundt etterrettelighet. LLM-ene oppsummerer og forkorter. Det kan være hjelpsomt og greit i mange sammenhenger, men problematisk og farlig i andre. For eksempel kan forfattere av en medisinsk forskningsartikkel ha nevnt bivirkninger eller andre viktige forhold som LLM-en dropper. I tillegg «hallusinerer» LLM-systemer, det vil si at systemene av og til gjetter og serverer svar som er helt fullstendig feil.
Jakter teknisk gjeld med språkmodeller
Senere er for sent
Det gjenstår å se LLM-tjenestene utvikle seg og hvordan ulike brukergrupper vil bruke dem, men det er vanskelig å tro at ikke veldig mange vil stole på svarene de får servert. Dessverre setter brukervaner setter seg veldig fort. Det er derfor vi må agere nå. Sett i etterkant vil de fleste være enige i at vi for sent innså utfordringene som sosiale medier skapte, og vi forsøker fortsatt å få aktører som Facebook til å regulere innhold og annonser på en tilfredsstillende måte, i en evigvarende runddans med klager, rettssaker og bøter.
Hva er så løsningen? EU forsøker å regulere bruken av kunstig intelligens, og EU AI Act vil blant annet kreve at KI-selskaper offentliggjør hva de har brukt til å trene sine systemer. Dessverre har mange tidligere runder, blant annet utviklingen av sosiale medier, vist at lovverkene kommer sent og, om noen gang, haltende etter.
Så foreløpig ser det ut som vi må håpe på at rettssakene i USA kan presse frem noen endringer. OpenAI og andre aktører er saksøkt for å ha samlet inn både rettighetsbelagt innhold og personopplysninger. Dessverre tar rettssaker lang tid og ender ofte i hemmelige forlik. Det er derfor viktig at vi nå alle protesterer.
Ja, ChatGPT og lignende tjenester er nyttige, men vi må klare å tenke litt videre. Hvis ikke vil en håndfull store selskaper bli styrtrike på å brøyte seg frem, ta seg til rett og utnytte vår og hvert lands treghet.
Alle som eier et nettsted eller har innhold som selges eller deles ut digital, bør nå sette seg inn i hva som skjer og tenke på konsekvensene av en fri kopiering og bruk av deres innhold. Og norske myndigheter bør snarest få utredet dette problemet og få aktører som Datatilsynet til å vurdere mottiltak. Norge bør også dytte på gjennom våre kanaler inn i EU for å forsøke å oppdatere lovverket og mulige straffesanksjoner.
Til slutt en enkel test: Jeg synes vi skal spørre OpenAI, Google og Microsoft om de kan legge ut kildekoden til sine produkter, slik at andre kan kopiere den og trene sine LLM-er. Det må da være helt greit, siden de gjør det samme mot alle andre?
Norges største TV- og bredbåndsavtale kan ende i søksmål