Chat GPT ble satt til å diagnostisere sykdommer – danket ut ekte leger med god margin

Men legene gjorde det bare marginalt bedre når de brukte Chat GPT som et hjelpemiddel.

KI-teknologi kan få enorm betydning innen medisin, men mer arbeid må til, konkluderer den nye studien med. Dette er et illustrasjonsbilde. Foto: Colourbox/66099960

Del

6 Kommentarer

Eigil Knudsen

23. nov. 2024 - 13:00

Vi har allerede sett mange eksempler på de imponerende egenskapene til moderne KI-tjenester, og i mange tilfeller slår KI-teknologien mennesker av kjøtt og blod. Nå har det blitt gjennomført nok en ny test med oppsiktsvekkende resultat.

Avisen New York Times rapporterte nylig at Open AIs Chat GPT-tjeneste ble benyttet i en klinisk studie som innebar å diagnostisere sykdommer – og gjorde det betydelig bedre enn ekte leger.

Suksessrate på 90 prosent

Testen innebar å be 50 leger om å komme opp med seks ulike medisinske diagnoser. Noen av legene ble gitt tilgang til Chat GPT til å hjelpe dem med oppgaven, mens resten ikke brukte KI-tjenesten i det hele tatt. I tillegg ble Chat GPT alene gitt den samme oppgaven.

Legene som ikke benyttet KI-tjenesten oppnådde en gjennomsnittlig suksessrate på 74 prosent, og interessant nok gjorde legene som brukte Chat GPT det bare marginalt bedre – 76 prosent.

Da Chat GPT ble bedt om å utføre jobben på egen hånd, endte den imidlertid med en gjennomsnittlig suksessrate på hele 90 prosent.

Dr. Adam Rodman, en av dem som var ansvarlig for å designe studien, uttalte overfor New York Times at han var «sjokkert» over at KI-tjenesten knapt var til hjelp da den ble brukt som hjelpemiddel. Enda mer sjokkert var han over at den slo legene med god margin på egen hånd.

Legene som deltok i studien hadde bakgrunn fra både indremedisin, allmennmedisin og akuttmedisin. Deltakerne ble forelagt oversikter over pasientenes symptomer og medisinske historikk, som de hadde 60 minutter på å studere.

En studie fra Storbritannia viser at KI nå også kan lure også professorer. Dette er et illustrasjonsbilde.

Les også

Stor studie: Kunstig intelligens slo universitetsstudenter på eksamen

– Videre utvikling nødvendig

Ifølge Dr. Rodman hadde Chat GPT begrenset nytteverdi som hjelpemiddel fordi legene simpelthen ikke trodde på KI-assistenten når de var uenige, og hadde større tro på egen dømmekraft.

Artikkelen fortsetter etter annonsen

annonsørinnhold

Slik skaper DNV et springbrett for tech-talenter

På bakgrunn av de overraskende funnene konkluderte studien med at det gjenstår mye arbeid i å finne ut hvordan KI-teknologien kan brukes effektivt på dette området.

– Språkmodellen alene presterte bedre enn leger, selv når den var tilgjengelig for dem. Dette indikerer at videre utvikling innen menneske-datamaskin-interaksjoner er nødvendig for å realisere potensialet til kunstig intelligens i kliniske beslutningssystemer, heter det i selve forskningsdokumentet.

Digi skrev i januar om en studie hvor Chat GPT ble testet på diagnostisering av barn, og i den studien bommet snakkeroboten ganske grovt og hadde en suksessrate på bare 17 prosent. En forklaring på at denne nye testen endte så mye bedre, kan være at KI-teknologien er blitt forbedret med blant annet mer treningsdata siden sist.

Studien føyer seg inn i rekken av mange andre eksempler på at KI-teknologi utkonkurrerer mennesker. Tidligere har Digi blant annet skrevet om en britisk blindstudie hvor Chat GPT gjorde det bedre enn universitetsstudenter i et antall psykologieksamener.

I tillegg var svarene som ble levert av Chat GPT umulige å identifisere som KI-genererte svar i hele 94 prosent av tilfellene.