Oppdatering: TV 2 skriver at leksikonet er lastet ned 30 millioner ganger, men det korrekte er at det er så mange artikler som er lastet ned. Saken vår er rettet kl 11.41, 25.03.2025.
Det er en kjent sak at KI-språkmodellene krever enorme mengder data for å fungere slik de gjør, og med den tiltakende konkurransen på KI-arenaen har datainnsamlingen etter hvert blitt relativ aggressiv.
Den omfattende datainnsamlingen er global og omfatter også våre breddegrader, noe en kjent aktør her hjemme skal ha fått merke. Store norske leksikon (SNL) anklager nemlig Open AI for omfattende tyveri, melder TV 2.
Lastet ned 30 millioner artikler
SNL-redaktør Erik Bolstad har kikket i serverloggene og beregnet at Open AI lastet ned 30 millioner artikler.
Dette er et estimat basert på trafikktall for deler av året, bekrefter Bolstad overfor Digi.
– Vi la derfor inn en blokkering på siden vår og opplyste at robotene ikke fikk lov til å laste ned innholdet, sier Bolstad i et intervju med TV 2. Open AIs søkeroboter skal ha stanset virksomheten sin etter dette, men senere ble aktiviteten gjenopptatt med uforminsket styrke, ifølge redaktøren.
Bolstad opplyser at samtlige SNL-artikler er beskyttet av opphavsretten og at de ikke ønsker at roboter skal laste ned innholdet deres og bruke det andre steder – slik som til trening av Chat GPT.
TV 2 kontaktet Open AI for svar på tiltale, og selskapet mener de har sitt på det rene.
Mener SNL har tillatt søking
– Vi gjør det enkelt for nettutgivere å uttrykke hvordan nettstedene og innholdet deres skal samhandle med produktene våre. I dette tilfellet har de (SNL) valgt å blokkere GPTBot for trening av generative KI-modeller, men tillate søkeroboten vår, som lenker til nettsteder fra Chat GPTs søkefunksjon. Det respekterer vi, sier en ikke navngitt talsperson fra Open AI i en e-post til TV 2.


Talspersonen bekrefter at et større antall søkeroboter har besøkt SNL, men sier at dette har sammenheng med nettsøkfunksjonen som Open AI lanserte i fjor – en funksjonalitet som Open AI mener SNL tillater.
SNL-redaktørens respons er at de millioner av nedlastingene de har registrert, ikke har vært av roboter som bare søker, men roboter som laster ned innhold for å trene språkmodellen.
På sine egne nettsider bedyrer Open AI at de respekterer valgene til innholdsskapere- og eiere og at de har utviklet tekniske løsninger for å legge til rette for dette.
– I fjor sommer (2023, journ.anm.) var Open AI først ute med å bruke søkerobot-tillatelser for KI, slik at nettutgivere kunne angi sine preferanser for bruken av innholdet deres i KI-øyemed. Vi tar hensyn til disse signalene hver gang vi trener en ny modell, skriver selskapet.
Cloudflare med løsning mot dataskraping
Selskapet jobber med et verktøy kalt Media Manager, som skal sette innholdsprodusenter i stand til å spesifisere hvorvidt arbeidet deres skal inkluderes eller ekskluderes fra trening. Dette verktøyet skal imidlertid ennå ikke ha blitt lansert.
Som Digi nylig fortalte, har selskapet Cloudflare lansert en ny løsning som er designet for å stanse KI-selskapenes søkeroboter fra å omgå blokkeringen som innholdsskapere bruker for å forhindre uautorisert bruk av data for KI-trening.
Hvorvidt Open AI bevisst omgikk denne blokkeringen i SNL-saken, er uvisst, men selskapet er formodentlig blant dem som vil bli rammet av den nye Cloudflare-løsningen.
Flere aktører har saksøkt Open AI for bruk av opphavsrettbeskyttet materiale, mens selskapet selv har uttalt at det er umulig å bygge Chat GPT uten bruk av opphavsbeskyttet materiale.

KI-selskapene skraper enorme mengder data fra nettet. Nå har det kommet en kreativ løsning