Utvalget ble opprettet av Kultur- og kirkedepartementet i mars i år, og leverte sin innstilling i forrige uke. Medlemmene avspeiler språkteknologi-interessenter i både privat og offentlig virksomhet.
Bredden preger i enda sterkere grad en ressursgruppe som ble utnevnt for utvalgets arbeid. Innstillingen heter Samling og tilgjengeleggjering av norskespråkteknologiressursar og kan lastes ned fra nettstedet til Norsk Språkråd. Den ble lagt fram på en to dagers konferanse i Bergen, Språkteknologi på norsk: Norsk språkbank, i slutten av forrige uke.
Bakgrunnen for både utvalget og konferansen er erkjennelsen av at teknologi for blant annet talegjenkjenning og oversettelse må komme på norsk snarest mulig. Utviklingen av språkteknologiske verktøy krever tilgang til databaser som viser hvordan norsk brukes i skrift og tale. Utvalget bruker betegnelsen "språkbank" om slike databaser, og har vurdert både hvor omfattende de skal være, hva slags materiale som allerede finnes, og hvordan en norsk språkbank skal finansieres.
Utvalget mener allment sett at språkbanken er viktig for å unngå at engelsk gradvis tar over som bruksspråk på flere områder. Fra et IT-synspunkt nevnes at språkbanken også kan bidra til å stimulere norsk IKT-industri til å satse på språkteknologiske løsinger for norsk og andre språk, og gjøre det attraktivt for utenlandske leverandører å lage norskspråklige produkter.
Utvalget peker på erfaringer fra spesielt Nederland og Belgia, og trekker den slutningen at "nesten all finansiering" av den norske språkbanken må være offentlig. "Den relevante norske industrien har ikke styrke til å kunne være med på finansieringen i særlig grad. Dette ser vi også gjelder internasjonalt", heter det videre.
Språkbanken bør etter utvalgets mening inneholde tale, tekst og leksikalske data. Det bør være minst 1700 timer med opptak av digitalisert tale, hvorav 900 timers opplesning fra manuskripter, og resten opptak av spontane ytringer i realistiske situasjoner. Opptakskvaliteten må varieres, slik at man også får tilgang til for eksempel telefonsamtaler med typisk bakgrunnsstøy. Taleopptakene bør suppleres med "multimodale korpus" der folk ikke bare prater, men også gestikulerer og nikker.
Tekstdelen bør bestå av minst 100 millioner ord for hver målform, "automatisk merket med tanke på ordklasse". I tillegg, av hensyn til oversettelsesverktøy, trengs det flerspråklige korpus, i hvert fall for norsk-engelsk.
I tillegg til tale, tekst og leksikale databaser, ønsker utvalget at språkbanken skal inneholde hensiktsmessige IT-verktøy, for eksempel "programvare for innlesing og opptak av tale, transkribering og annotering, analyse, konvertering mellom ulike dataformat osv."
De samlede kostnadene for språkbanken anslås til 100 millioner kroner.
Utgiftene foreslås fordelt over fem år. Trekker man veksler på ressurser som allerede er betalt for, eller der bevilgninger går over andre poster, kommer utvalget fram til at det kreves en spesiell bevilgning på 70 til 80 millioner kroner. Brukerbetalingen må begrenses til et minimum, slår utvalget fast: "Dei som nyttiggjer seg data, skal betale for ressursane, men ikkje på langt nær så mykje som det kostar å etablere ressurssamlinga (i så fall forsvinn heile poenget med å etablere ho). Til kommersiell bruk kan ein kunde betale til dømes 5 prosent av berekna kostnad for materialet i språkbanken, medan forskingsinstitusjonar bør sleppe med om lag halvparten av dette."
Som organisasjonsform foreslår utvalget at språkbanken blir en offentlig eiet stiftelse med eget styre.