Nye modeller lanserer på løpende bånd i KI-verdenen, og nå har Open AI dratt enda en ny modellfamilie opp av hatten – nemlig GPT-4.1.
GPT-4.1-famlien består av GPT‑4.1, GPT‑4.1 mini og GPT‑4.1 nano. hvorav de to sistnevnte altså er mindre og raskere versjoner med noe lavere ytelse.
Ifølge Open AI skal samtlige ev de tre nye modellene imidlertid danke ut GPT-4o, selskapets hittil kraftigste modell – som drifter den populære Chat GPT-tjenesten.
Svært god på koding
Det skal være særlig innen koding/programmering at GPT-4.1 utmerker seg, sammenlignet med forrige generasjonen modeller.
Den nye modellen har blant annet blitt testet med SWE-bench, en krevende ytelsestest som brukes til å måle KI-modellers evne til å løse problemer i virkelige kodeprosjekter på Github.
Modellen oppnådde et presisjonsnivå på 54,6 prosent, som er hele 21 prosent høyere enn GPT‑4o-modellen. Dette var med den såkalte «Verified»-utgaven av SWE-bench-testen, en «grundigere» versjon av testen som opererer med høyere kvalitetsstandarder.
Dette plasserer GPT-4.1-modellen i toppsjiktet når det gjelder kodeferdigheter, selv om det finnes flere modeller som ligger enda høyere. Anthropics nye Claude 3.7 Sonnet-modell skåret for eksempel hele 62 prosent i SWE-bench Verified-testen.
Av Open AIs egne modeller er det nå OpenAI o3-mini som ligger nærmest den nye GPT-4.1-modellen i koding, med et SWE-bench Verified-resultat på 49 prosent.
– GPT‑4.1 er betydelig bedre enn GPT‑4o på en rekke kodeoppgaver, inkludert å agentisk løse kodeoppgaver, «frontend»-koding, gjøre færre unødvendige endringer, følge diff-formater pålitelig, sikre konsekvent verktøyanvendelse, og mer, skriver Open AI om sin nye modell.
Følger mer detaljerte instrukser
Når det gjelder frontend-koding er den nye modellen i stand til å lage webapper som er mer funksjonelle og estetisk tiltalende enn tidligere modeller, skriver Open AI. Frontend-koding er prosessen med å bygge klientsiden av en nettside eller webapplikasjon — den delen som brukeren ser og samhandler med.


Selskapet sier at betalte personer som fikk i oppgave å evaluere og sammenligne nettsider skapt av modellene, foretrakk nettsidene som GPT-4.1 genererte over de som ble laget av GPT-4o i 80 prosent av tilfellene.
GPT-4.1 skal også utmerke seg når det gjelder å følge instruksjoner. I en test som Open AI selv utviklet, inndelt i kategoriene enkel, middels og vanskelig, oppnådde modellen et presisjonsnivå på 49 prosent i det vanskelige kategorien – sammenlignet med kun 29 prosent for GPT-4o.
Selskapet sier de spesielt fokuserte på å gjøre den nye modellen vesentlig bedre på å bevare konteksten og få med seg detaljer gjennom lange og kompliserte samtaler, noe som skal ha vært etterspurt blant utviklere.
Flere detaljer om den nye modellfamilien finner man hos Open AI.

Open AI med ny KI-modell som «tenker» før den svarer