Stemmen Alexis «Lexi» Bogan hadde før sykdommen, var sprudlende, forteller kjente. Hun elsket å synge til Taylor Swift og Zach Bryan i bilen. Hun hadde en boblende latter og deltok høylytt i politiske samtaler med venner. På videregående var hun sopran i koret.
Så forsvant stemmen hennes. I august i fjor måtte legene fjerne en farlig hjernesvulst. Etter operasjonen fikk Bogan problemer med å svelge og kunne så vidt si hei til foreldrene sine.
Etter måneder med rehabilitering kom hun seg, men talen var fortsatt sterkt svekket. Både hennes egen familie og venner slet med å forstå hva hun ville si. For fremmede var det svært vanskelig.
Fikk tilbake stemmen
Så, i april i år, fikk 21-åringen tilbake sin gamle stemme. Ikke den ekte, men en stemme generert av kunstig intelligens (KI) som hun kan få fram fra en telefonapp.
Stemmen hennes ble trent inn i løpet av en 15-sekunders frekvens av tenåringsstemmen hennes. Den ble hentet fra en video der hun demonstrerer matlaging under et skoleprosjekt.
Nå kan den syntetiske, men bemerkelsesverdig ekte KI-stemmen si nesten hva hun vil. Og den lyder som hennes, om enn litt yngre, stemme.
Alexis skriver inn noen få ord eller setninger på telefonen, og appen leser det umiddelbart opp. Ingen har lenger noen problemer med å forstå henne.
Har blitt kritisert
Eksperter har imidlertid i sterke ordelag advart mot den KI-genererte stemmekloningsteknologien.
Slike KI-genererte etterligninger kan både føre til telefonsvindel, påvirke demokratiske valg og krenke verdigheten til mennesker – levende eller døde – som aldri har samtykket i å få stemmen deres gjenskapt for å si ting de kanskje aldri en gang har ment noe om.
Store teknologiselskaper er svært forsiktige med å åpne opp for bruken av slik teknologi. Men teknologien er i full gang likevel.
Mange har fått et sjokk
Politikere og kjendiser har opplevd å få stemmen deres gjenskapt og misbrukt. Velgere i den amerikanske delstaten New Hampshire mottok telefoner tidligere i år der en stemme som hørtes ut som president Joe Biden, ba dem om å ikke stemme i nominasjonsvalget.
I Danmark laget opposisjonspartiet Dansk Folkeparti nylig en deepfake-video av landets statsminister Mette Frederiksen, som i videoen sier at regjeringen vil avskaffe pinsen, påsken og julen. Videoen var laget ved å manipulere videoer og lydopptak av statsministeren ved hjelp av kunstig intelligens.
Amerikanske myndigheter anklaget nylig en ansatt på en videregående skole i Maryland for å ha brukt KI for å skape et falskt lydklipp av skolens rektor som kom med rasistiske bemerkninger.
Norsk-amerikanske David Menkin er stemmeskuespiller og er blant annet stemmen til karakteren Breach fra spillet Valorant.
Ifølge NRK har han den siste tiden oppdaget flere ganger at stemmen hans har blitt brukt til å si ting han ikke står for eller har sagt.
I det godes tjeneste
Men teknologien kan også brukes i det godes tjeneste. Det mener i hvert fall Bogan og et team av leger ved det amerikanske sykehuset Rhode Islands Lifespan.
Bogan er en av de første personene – og den eneste med hennes tilstand – som har vært i stand til å gjenskape en tapt stemme med OpenAIs nye stemmemotor.
Noen andre KI-leverandører, som programvareselskapet ElevenLabs, har testet lignende teknologi for personer med talevansker og tap – deriblant for en advokat som nå bruker stemmeklonen i rettssalen.
– Vi håper at Bogan kan være en banebryter etter hvert som teknologien utvikler seg, sier nevrokirurg Rohaid Ali.
Millioner av mennesker med svekkelser etter slag, kreft i halsen eller nevrogenerative sykdommer kan ha nytte av denne teknologien, sier han.
– Vi må være bevisst på risikoen, men vi kan ikke glemme pasienten og de sosiale godene teknologien kan ha for disse, mener legen Fatima Mirza, som også har jobbet med prosjektet.
– Vi har vært i stand til å gi Bogan tilbake hennes sanne stemme, og hun er i stand til å snakke på måter som er riktig for henne, tilføyer hun.
15 sekunder var nok
– Det var nesten som en del av identiteten min ble tatt fra meg da jeg mistet stemmen, forteller Bogan.
Bogan måtte altså gå noen år tilbake for å finne et passende opptak av stemmen sin for å trene opp KI-systemet til hvordan hun snakket. Stemmen kom fra en video der hun forklarte hvordan man lager en pastasalat.
Legene hennes matet KI-systemet med bare et klipp på 15 sekunder. Lydene fra resten av videoen gjorde resten vanskelig å bruke. Men de 15 sekundene var alt OpenAI trengte – noe som var et klart fremskritt fra tidligere teknologi som har krevd langt lengre opptak.
Noen få sekunders opptak kan altså være avgjørende for fremtidige pasienter. En kort talemelding til en pårørende kan kanskje være nok.
Noen umerkelige feil
Da de testet den for første gang, ble alle involverte overrasket over kvaliteten på stemmeklonen. Det var sporadiske feil – et feil uttalt ord, en manglende intonasjon – men stort sett var feilene umerkelige. Så i april i år utstyrte legene Bogan med en spesialbygd telefonapp som bare hun kan bruke.
– Jeg blir så emosjonell hver gang jeg hører stemmen hennes, forteller moren Pamela Bogan med tårer i øynene.
– Jeg synes det er kjempebra, sier Bogan selv om KI-stemmen sin. Den har bidratt til å få tilbake selvtilliten min, forteller hun.
Bogan bruker nå appen rundt 40 ganger om dagen og sender tilbakemeldinger som hun håper vil kunne hjelpe fremtidige pasienter.
En tenåringsstemme
Et av hennes første eksperimenter med appen var å snakke med barna på førskolen der hun jobber som lærerassistent. Hun skrev «ha ha ha ha» og ventet en robotstemme i retur. Til hennes overraskelse hørtes det ut som hennes gamle latter.
Men Bogan er mindre sikker på hva som vil skje når hun blir eldre og om KI-stemmen hennes fortsetter å være tenåringsstemmen.
– Kanskje teknologien også kan få stemmen min til å høres eldre ut, undres hun.
Markedet skriker etter dem: Kan forvente å øke lønna med 25 prosent