Mange har tidligere testet talegjenkjenning på mobilen eller pc-en, bare for å droppe det igjen på grunn av skuffende resultater. Men mye har skjedd på denne fronten de siste årene, noe som kanskje betyr at tiden nå har kommet for å prøve det igjen.
Nå har forskere ved University of Washington og Stanford University, i samarbeid med forskere fra kinesiske Baidu, gjennomført en større test hvor man har sammenlignet blant annet hvor høy skrivehastighet man kan oppnå med talegjenkjenning på en iPhone, sammenlignet med inntasting av de samme ord og uttrykkene på mobilens tastatur.
Google: «Skynet» er mange tiår unna
Mer enn ventet
Forskerne forteller at de ble overrasket over resultatet.
– Vi visste at talegjenkjenning er ganske bra, så vi forventet at det ville være raskere. Men vi ble faktisk temmelig overrasket over å se at det var nesten tre ganger raskere enn å skrive på et tastatur, sier Sherry Ruan, en doktorgradsstudent i informatikk ved Stanford, som er medforfatter av den vitenskapelige artikkelen om prosjektet, i en pressemelding.
I alt deltok 32 personer i alderen 19 til 32 år, som alle omtales som dyktige til å bruke tastaturet på mobilen. Halvparten var engelskspråklige. Den andre halvparten hadde mandarin som morsmål.
Undersøkelsen viste at de engelskspråklige deltakerne kunne skrive til sammen 120 vilkårlig valgte uttrykk 3,0 ganger raskere med talegjenkjenning enn med det innebygde mobiltastaturet. Samtidig viste det seg at feilraten ble redusert med 20,4 prosent.
På mandarin økte skrivehastigheten 2,8 ganger. Her ble feilraten redusert med hele 63,4 prosent, sammenlignet med bruk av tastaturet.
Leste du denne? – EU vil ha mer kontroll over internett-baserte tale- og meldingstjenester
Utbredt teknologi
I testen var det Baidus Deep Speech 2-teknologi som ble benyttet. Dette er en nettskybasert løsning som krever internettilgang, noe som kan føre til langsommere tolkning enn en offline-teknologi, dersom internettforbindelsen er treg. Men under skal det ikke ha vært noen merkbar forsinkelse på grunn av dette.
I vestlige land er det flere andre talegjenkjenningsteknologier som er lang mer brukt enn løsningen til Baidu. Stort sett alle moderne smartmobiler og nettbrett leveres dette, og forskerne antar at ytelsen til disse teknologiene er på omtrent samme nivå som Deep Speech 2-teknologien.
– Talegjenkjenning er noe som vi har blitt lovet i flere tiår, men det har aldri fungert særlig bra, sier James Landay, en informatikkprofessor ved Stanford University og medforfatter av den vitenskapelige artikkelen, i en pressemelding.
– Men de siste to-tre årene har vi sett at talegjenkjenning faktisk har blitt betydelig forbedret ved å dra nytte av big data og dyp læring for å trene de nevrale nettverkene til å produsere raskere og mer nøyaktige resultater, sier Landay.
Les også: Googles talegjenkjenning kan bli uavhengig av nettilgang
Norsk
I utgangspunktet vil talegjenkjenning av språk som brukes av relativt få, slik som norsk, henge betydelig etter språk som benyttes av flere mange flere mennesker. Men også gjenkjenningen av norsk tale har blitt kraftig forbedret de siste årene, selv om det nok kan være utfordringer knyttet til dialekter. Men dette gjelder slettes ikke bare for norsk:
Likevel har norske myndigheter bevilget 12,7 millioner kroner til utvikling av norsk talegjenkjenning. Det norske selskapet Max Manus fikk oppdraget i fjor høst. I en statusoppdatering om utviklingsarbeidet som ble publisert i august i år, skriver selskapet at produktet skal lanseres sommeren 2017, etter et halvt år med begrenset betatesting.
Blant hovedformålene med dette arbeidet er å hjelpe personer som ikke kan bruke tastatur på jobben, for eksempel på grunn av funksjonsnedsettelser eller belastningsskader.
Men Max Manus mener fordelene som talekjenningen tilbyr, er enda større enn det det amerikanske forskningsprosjektet har kommet fra til – også for brukere uten utvidede behov.
– Man skriver i snitt 4-5 ganger hurtigere med stemmen enn med tastatur, dette viser erfaringer både fra våre løsninger innen helsevesenet i Skandinavia og fra talegjenkjenningssystemer på andre språk, skriver Max Manus i statusoppdateringen.
Har aldri gått raskere: Han snakker inn koden