Forskere: Trening på beskyttet innhold gir bedre språkmodeller på norsk
Gjennom Mímir-prosjektet har norske forskningsmiljøer trent språkmodeller på innhold der rettighetsbelagt norsk materiale inngår. Ifølge Nasjonalbiblioteket har prosjektet, som skal være unikt i verdenssammmenheng, ha vist at språkmodeller trent på slikt beskyttet innhold i de fleste tilfeller oppnår bedre kvalitet.
Unntaket er skjønnlitterære bøker, som ifølge rapporten er det eneste som viser en negativ utvikling av ytelse, noe også Aftenposten har omtalt i dag.
– Mens det i USA og Europa blir opp til rettsvesenet å dømme i en kamp mellom rettighetshaverne og teknologiutviklerne, prøver vi i Norge å finne en felles vei for sikre både at den norske kunnskapen, språket og erfaringen reflekteres i språkmodeller, og at de som skaper innhold, blir kompensert for bruken, sier nasjonalbibliotekar Aslak Sira Myhre i en pressemelding fra Nasjonalbiblioteket, som leder Mímir-prosjektet.