Kunstig intelligens spiller en stadig større rolle i medielandskapet, der språkmodeller hjelper journalister med å produsere, oversette og redigere artikler raskt. Men ifølge en analyse fra britiske BBC inneholder KI-genererte nyhetssammendrag ofte feil, skriver selskapet.
– KI-assistenter kan for øyeblikket ikke stoles på til å levere presise nyheter, og de risikerer å villede mottakerne, konkluderer rapporten.
Metode
BBCs KI-team testet fire store språkmodeller – ChatGPT-4o, Microsoft Copilot Pro, Google Gemini Standard og Perplexity. De presenterte modellene for hundre nyhetsrelaterte spørsmål basert på populære Google-søk fra det siste året, hentet fra Google Trends.


Modellene ble bedt om å lage et nyhetssammendrag av de utvalgte artiklene, med en spesifikk instruks om å basere seg på BBCs nyhetskilder der det var mulig.
De totalt 362 KI-genererte svarene ble gjennomgått av 45 BBC-journalister med ekspertise på de aktuelle temaene. De vurderte svarene etter kriterier som nøyaktighet, upartiskhet, klarhet, kontekst og korrekt kildeangivelse. Resultatet viste at over halvparten av svarene inneholdt «signifikante feil».
I analysen advarer BBC om at feil kan forsterkes av KI-modellenes troverdighet:
– Vi vet fra tidligere forskning at når KI-assistenter siterer pålitelige medier som BBC, er publikum mer tilbøyelige til å stole på svaret – også når det er feil.
Hvilken KI klarer seg best?
For journalister som vurderer å delegere deler av arbeidet til en språkmodell, presterte Perplexity best i testen. Den hadde «signifikante problemer» i 40 prosent av tilfellene.
Googles Gemini kom dårligst ut, med feil i 60 prosent av tilfellene – noe som kan være verdt å ta i betraktning før man stoler på modellens svar.
Artikkelen ble først publisert på Version 2

Open AIs kraftigste modell peker ut hvilke jobber den vil erstatte