Gir ut datasett for navnegjenkjenning på norsk

Ny ressurs skal hjelpe programvare å forstå norsk. For første gang er dette tilgjengelig under en fri lisens.

En helt ny ressurs hjelper dataprogrammer med å gjenkjenne blant annet personnavn, stedsnavn og firmanavn i norske tekster. Det fritt tilgjengelige datasettet er nyttig for å trene modeller i maskinlæring. Illustrasjon: Colourbox

Del

Kommenter

Marius B. JørgenrudJournalist

27. juni 2019 - 10:31

Norwegian Named Entities (NorNE) er et såkalt navnekorpus, det vil si en stor samling med tekst der alle navn er merket opp, opplyser Nasjonalbiblioteket i en pressemelding.

Vi ser nå at dataene allerede er tatt i bruk av open source-miljøet

De har utviklet ressursen i samarbeid med Schibsted Media Group og språkteknologigruppa ved Universitetet i Oslo.

– Dette er det første datasettet for navnegjenkjenning som er fritt tilgjengelig for norsk. Tidligere datasett har vært forbeholdt forskning, og dette har holdt kommersielle aktører tilbake. Vi ser nå at dataene allerede er tatt i bruk av open source-miljøet, og av andre kommersielle aktører, sier Fredrik Jørgensen i Schibsted.

Fri bruk

Han har vært sentral i arbeidet med NorNE, som finnes både i bokmål og nynorsk. Korpuset består av rundt 600.000 ord, likt fordelt på de to språkformene.

Ressursen er public domain med CC0-lisens, som innebærer fri bruk, også uten navngivelse.

Bruksområdene fremstår som mange. I dag forsøker alt fra samtaleroboter til automatiske oversettere og smarte søkemotorer å forstå hva vi skriver og sier. Men slike systemer fungerer ikke alltid like godt som ønskelig, og særlig ikke for små språk som norsk.

Denne siden skal gjøre det lettere å ikke bryte loven ved gjenbruk av bilder fra nettet.

Les også

Creative Commons samler 300 millioner bilder til fri bruk i nytt søk

– Noe av problemet ligger i at programmene ikke alltid klarer å skille navn fra annen tekst. Ressursen vi har laget, kan brukes til å løse dette problemet, sier språkteknolog Per Erik Solberg ved Nasjonalbiblioteket i meldingen.

Offisielle versjoner av NorNE legges ut på Språkbankens nettsider. Utviklerversjoner er lastet opp på Github.

Les mer om:

CREATIVE COMMONS NASJONALBIBLIOTEKET SPRÅKTEKNOLOGI

Del

Kommentarer:

Du kan kommentere under fullt navn eller med kallenavn. Bruk BankID for automatisk oppretting av brukerkonto.

Tekjobb

Se flere jobber

Tre jobbtilbud 10 måneder før masteravslutning!

Les mer