Microsoft kunngjorde i går at forskere og teknikere ved Microsoft Artificial Intelligence and Research har oppnådd det selskapet kaller for et historisk gjennombrudd innen talegjenkjenning.
I en anerkjent og standardisert test har videreutviklet talegjenkjenningsteknologi fra Microsoft oppnådd et resultat som er minst like godt som det mennesker vanligvis er i stand til å greie, når de skal transkribere den samme samtalen.
Les også: Nå kan du bytte til et mobiltastatur som etterligner hjernen
Trodde det ikke var mulig
Perfekt er det fortsatt ikke. Ordfeilraten til systemet var i testen på 5,9 prosent, noe som skal være det beste resultatet noensinne i sentralborddelen av NIST 2000-testen. I CallHome-delen, hvor venner og familie har åpne samtaler, ble resultatet en ordfeilrate på 11,3 prosent.
Forskerteamet hos Microsoft skal ha satt seg dette som mål for under et år siden og trodde da at det ville bli oppnådd innen tre år. Tidligere har de vært i tvil om det i det hele tatt var mulig.
– Selv for fem år siden ville jeg ikke ha trodd at vi kunne oppnå dette. Jeg ville ikke ha trodd det ville være mulig, sier Harry Shum, sjef for Microsoft Artificial Intelligence and Research-gruppen, i et blogginnlegg.
Microsoft anser dette som en viktig milepæl i et arbeid som har pågått siden DARPA startet med talegjenkjenning tidlig på 1970-tallet. Siden da har de fleste store teknologiselskaper, i tillegg til ulike forskningsinstitusjoner, vært aktive innen dette feltet.
Viv: Først solgte han Siri til Apple. Nå har Dag Kittlaus solgt sitt nye eventyr til Samsung.
Tilgjengelig verktøy
Systemet som Microsoft-forskerne benytter, Computational Network Toolkit, er utgitt som åpen kildekode. Det som til slutt førte til denne milepælen, er bruken av nevrale språkmodeller hvor ord blir representert som kontinuerlige vektorer i rommet, og hvor ord som «fast» og «quick» befinner seg nær hverandre. Dette lar modellen generalisere godt fra ord til ord.
Microsoft har klare planer om å ta i bruk teknologien i produkter som den digitale assistenten Cortana.
Bing Concierge Bot: Også Microsoft bygger mer intelligent, personlig assistent
Ikke det samme som forståelse
Det er likevel stor forskjell mellom å kunne gjenkjenne det akustiske signalene som mennesker uttaler, og å forstå betydning av det som blir sagt. På dette området er det fortsatt mye som gjenstår.
Men ifølge Shum er vi på vei fra en verden hvor mennesker må forstå datamaskiner, til en verden hvor datamaskiner må forstå oss. Han mener likevel at virkelig kunstig intelligens er langt unna.
– Det vil være mye lenger fram i tid før datamaskiner kan forstå den virkelige betydningen av hva som blir sagt eller vist, avslutter han.
Leste du denne? Skriver tre ganger raskere med talegjenkjenning enn med tastaturet