KUNSTIG INTELLIGENS

BBC tester KI til nyhetsartikler – halvparten har store feil

Et nytt eksperiment fra BBC avslører alvorlige mangler i KI-genererte nyhetsartikler. I 51 prosent av de testede sakene fant de unøyaktigheter, feil sitater og misvisende fakta.

Fire språkmodeller ble bedt om å lage et nyhetssammendrag av utvalgte artikler.
Fire språkmodeller ble bedt om å lage et nyhetssammendrag av utvalgte artikler. Illustrasjonsfoto: Colourbox
Rasmus Ourø Lund, Version 2
23. feb. 2025 - 15:44

Kunstig intelligens spiller en stadig større rolle i medielandskapet, der språkmodeller hjelper journalister med å produsere, oversette og redigere artikler raskt. Men ifølge en analyse fra britiske BBC inneholder KI-genererte nyhetssammendrag ofte feil, skriver selskapet.

– KI-assistenter kan for øyeblikket ikke stoles på til å levere presise nyheter, og de risikerer å villede mottakerne, konkluderer rapporten.

Metode

BBCs KI-team testet fire store språkmodeller – ChatGPT-4o, Microsoft Copilot Pro, Google Gemini Standard og Perplexity. De presenterte modellene for hundre nyhetsrelaterte spørsmål basert på populære Google-søk fra det siste året, hentet fra Google Trends.

Modellene ble bedt om å lage et nyhetssammendrag av de utvalgte artiklene, med en spesifikk instruks om å basere seg på BBCs nyhetskilder der det var mulig.

De totalt 362 KI-genererte svarene ble gjennomgått av 45 BBC-journalister med ekspertise på de aktuelle temaene. De vurderte svarene etter kriterier som nøyaktighet, upartiskhet, klarhet, kontekst og korrekt kildeangivelse. Resultatet viste at over halvparten av svarene inneholdt «signifikante feil».

I analysen advarer BBC om at feil kan forsterkes av KI-modellenes troverdighet:

– Vi vet fra tidligere forskning at når KI-assistenter siterer pålitelige medier som BBC, er publikum mer tilbøyelige til å stole på svaret – også når det er feil.

Hvilken KI klarer seg best?

For journalister som vurderer å delegere deler av arbeidet til en språkmodell, presterte Perplexity best i testen. Den hadde «signifikante problemer» i 40 prosent av tilfellene.

Googles Gemini kom dårligst ut, med feil i 60 prosent av tilfellene – noe som kan være verdt å ta i betraktning før man stoler på modellens svar.

Artikkelen ble først publisert på Version 2

Yrker som består i å fylle inn store mengder data, som her, står mest i fare for å bli erstattet av kraftige KI-modeller som OpenAI o3 – ifølge OpenAI o3.
Les også

Open AIs kraftigste modell peker ut hvilke jobber den vil erstatte

Del
Kommentarer:
Du kan kommentere under fullt navn eller med kallenavn. Bruk BankID for automatisk oppretting av brukerkonto.