Hver gang du blunker skjer det noe på KI-fronten som kan endre måten du jobber på. Særlig gjelder dette generativ KI, der Google nå utfordrer OpenAIs ChatGPT-4 med sin Gemini 1.5. Parallelt med de store språkmodellene popper det opp flere av de små språkmodellene, tech-aksjer flyr til himmels og tekstgenererte videoer bykser mot en ny virkelighet.
IT-selskapet Computas har jobbet med KI siden midten av 80-tallet og alltid hatt et sterkt fagmiljø på området. Nylig besluttet Computas å samle ansatte med spisskompetanse på KI i en egen avdeling, og den består nå av hele 40 rådgivere og konsulenter.
Dette er en firmabred satsing med bakgrunn i en ekstremt sterk interesse i markedet. Delvis skyldes det at KI-modellene har blitt bedre, men også at KI som verktøy har blitt enklere å ta i bruk.
– Etter hvert vil de fleste digitaliseringsprosjekter ha et element av KI i seg. I det minste vil utviklerne bruke KI i arbeidet. Og selv om vi jobber med digitalisering på mye av den samme måten som før, vil KI være en stadig større del av verktøykassen vår.
Dette sier Simon Isaksen, som leder Computas’ nye KI-avdeling.
Isaksen har sortert i KI-nyhetene hittil i år, og mener det er flere trender som vil få stor betydning.
Stikkord: multimodalitet, høyere kontekstvindu og økning av intelligens.
De store språkmodellene blir stadig mer potente. I tillegg har du fremveksten av de små språkmodellene.
– Google har lansert en ny serie av disse som heter Gemma. Lettvektsmodellene er ikke like generelle i sin intelligens, men de er raskere, billigere og mer bærekraftige i den forstand at de er mindre energikrevende. For mange bruksområder trenger du ikke mer.
En annen fordel med modeller som Gemma er at de kan kjøre lokalt på mobiler og PC-er.
– Det åpner for nye muligheter — endelig en Siri-variant som funker, for eksempel. En annen mulighet er hvis du har veldig sensitive data, så kan du kjøre disse lokalt i stedet for å dele dem med skyleverandørene.
En illustrasjon på det enorme momentet KI har for tiden, er hvordan verdien av aksjene til grafikkortprodusenten Nvidia har utviklet seg.
– I slutten av februar satte Nvidia ny rekord i verdiøkning på en dag; 277 milliarder dollar, noe som utgjør en 16 prosent økning. Bare for å sammenligne – Equinors totale verdi er på 78 milliarder dollar, sier Isaksen.
– Dette er drevet i stor grad av de store teknologiselskapene. De har mye penger og trenger noe å bruke dem på. Å investere i AI-infrastruktur blir sett på som en god investering.
Et langt mindre selskap som har fått mye oppmerksomhet, er Groq. De har en arkitektur på chipene sine som gjør at du kan bruke de store språkmodellene mer effektivt.
– Det er ikke bare ressurskrevende å trene opp de store språkmodellene, det er også ressurskrevende å bruke dem. Når det da kommer nye løsninger som kan effektivisere bruken, så blir det lagt merke til.
Med Googles nye Lumiere har tekst til video, og bilde til video, blitt skremmende troverdig. Foreløpig kan Lumiere bare generere fem sekunders videosnutter, men med måten Lumiere håndterer tid og rom på, vil nye horisonter åpne seg.
OpenAIs svar på dette heter Sora. Demoversjonen kan genererer opptil ett minutt lange videoer.
Mer naturtro genereringer gjør det stadig vanskeligere å skille hva som er ekte og hva som er KI-skapt. Med bedre teknologi øker behovet for etiske retningslinjer og skikkelig merking av KI-generert innhold.
– Denne utviklingen har skjedd raskere enn jeg så for meg. Nylig lanserte Google også demomodellen Genie, som genererer enkle spill.
Det vil gjøre det mulig for hver enkelt å skape sitt eget innhold også i spillverdenen.
– Jeg gleder meg for eksempel til å utforske ulike deler av Star Wars-universet, smiler Isaksen.
Som ChatGPT finnes Gemini både i gratisversjon og i betalt versjon. Når man skal vurdere dem opp mot hverandre er det verdt å merke seg et par grunnleggende forskjeller.
– Gemini-modellen er i større grad enn ChatGPT multimodal. Hvis du for eksempel ber ChatGPT-4 å generere et bilde, så bruker den Dall-E 3, som er en annen KI-modell. Gemini behandler tekst, kode, lyd, bilde og video i en og samme modell, noe som åpner for en del nye muligheter.
Et eksempel på bruk kan være som diagnoseverktøy for leger. Modellen kan få input i form av journalen, blodprøver, CT-scans osv., fange opp mønster på tvers og derav gi mer nøyaktige diagnoser.
– Fra et utviklerperspektiv betyr multimodaliteten at det blir enklere å ta i bruk KI. Bildegjenkjenning vil kunne settes opp på en enklere måte, og blant annet kobles til prediktivt vedlikehold. I forsikringssaker vil bilder kunne tolkes til tekst, og forenkle arbeidet. Bruksområdene er mange.
Størrelsen på kontekstvinduet er en annen forskjell mellom de store språkmodellene til OpenAI og Google. Gemini 1.5 har et kontekstvindu på 1 million tokens, som tilsvarer 700.000 ord. Til sammenligning har en roman rundt 90.000 ord.
– Dette er fem ganger så mye som ChatGPT-4. Og det mest imponerende er at Gemini har klart å oppnå dette uten å miste særlig mye presisjon. Før har det vært en utfordring at det ikke blir like presist når man prøver å utvide kontekstvinduet.
Resultatet er at det blir enklere å benytte modellen til større oppgaver.
– Et vanlig bruksområde vi ser i dag er å bruke språkmodellene til å søke i og chatte med egne selskapsdata. Har du et lite kontekstvindu så må du gjøre en del for å komme rundt dette. Til større kontekstvindu du har, til mindre blir dette behovet.
Nasjonalbibliotekets NB-Whisper, som bygger på OpenAIs Whisper, er en nyhet som i motsetning til de store internasjonale språkmodellene er i stand til å levere nøyaktig talegjenkjenning på norsk — inkludert dialekter.
– ChatGPT-4 er veldig bra på engelsk, men begynner gjerne å svare på svensk hvis jeg snakker norsk til den, sier Isaksen på klingende Stavangerdialekt.
Han fremhever at det er en trend med lokaliserte modeller tilpasset språket, kulturen og normene i et bestemt område. Stadig flere land får sin egen versjon av en stor språkmodell. Disse er betydelig bedre enn de eksisterende løsningene.
– Nasjonalbiblioteket er blant de fremste i verden på digitalisering av innhold. Whisper er spesielt nyttig til å skrive referat og oppsummeringer ut fra taleopptak. Bruksområder kan være i forbindelse med journalføring, politiavhør, jobbmøter, nyhetsdekning, og for folk som har lese- og skrivevansker. Kanskje også stemmestyring «i felt», når man trenger hendene sine til noe annet.
Det ryktes dessuten at vi får en ny versjon av Apples Siri til høsten, med bedre stemmegjenkjenning i tillegg til oppgradert KI.
– Jeg antar at den i første omgang vil være best på engelsk, og så vil det ta litt tid før den fungerer like godt på norsk. Men dette vil nok skje betydelig raskere enn vi har vært vant til.
Isaksen tror at det høye tempoet på KI-fronten vil fortsette. Dette er forventningene hans til resten av 2024:
1. Modellene vil bli bedre på alle dimensjoner. Nivået av intelligens vil øke, de blir kjappere og billigere i bruk.
2. Vi vil se stadig mer bevis for effektiviseringsgevinsten til AI. Klarna er et godt eksempel på dette, deres nye KI-assistent har etter bare en måned oppnådd imponerende resultater.
3. 2024 kan bli året hvor vi får den første store KI-"native"-applikasjonen. Hva blir KI sin versjoner av Uber, Instagram og WhatsApp?
Samtidig understreker Isaksen at imponerende demoer og presentasjoner bare viser en del av sannheten om KI.
– For å treffe med KI må man teste og lære. Det handler ikke bare om å forstå mulighetene i teknologien, men også om hva man har av relevante data. Man må selvfølgelig også være varsom med tanke på etiske og juridiske problemstillinger, sier Isaksen og legger til at det kan være lurt å starte med interne prosesser før man går eksternt.
– Det er heller ikke slik at KI løser alt. Det må settes i en kontekst for å kunne brukes på en god måte. Klarer man dette så kan KI gi store gevinster, avslutter han.
Computas og Google Cloud inviterer til gratis frokostseminar i etterkant av Google Next ‘24.
Meld deg på!… eller faktisk komme i gang? Dette whitepaperet gir deg det du trenger for å legge en plan for generativ KI i din virksomhet.
Last ned gratis!