Når man lager illustrasjoner, for eksempel til en artikkel som denne, handler det ofte om å sette sammen ulike visuelle objekter til en helhet som ser relativt realistisk ut. Men tenk om man kunne få til det samme ved bare å beskrive det ønskede bildet med litt tekst.
Akkurat dette er noen forskere hos Google i ferd med å utforske. De har laget en tekst-til-bilde-diffusjonsmodell for Googles kunstig intelligenssystemer som kombinerer fotorealisme med dyp språkforståelse. Modellen kalles for Imagen. Den har også blitt omtalt av 9to5Google.
Kan misbrukes
En rekke eksempler på bilder skapt med Imagen finnes på denne siden. Forskerne skriver i en vitenskapelig artikkel at sluttbrukerapplikasjoner ikke har vært innenfor rekkevidden av forskningen, men erkjenner likevel at resultatene av forskningen har potensial til å bli brukt i forskjellige typer applikasjoner som også kan påvirke samfunnet på både positive og negative måter.
– På den ene siden har generative metoder et stort potensial til å komplementere og utvide menneskelig kreativitet. Særlig tekst-til-bilde-genereringsmodeller har potensial til å utvide bilderedigeringsmulighetene og lede til utviklingen av nye verktøy for kreative utøvere. På den annen side kan generative metoder utnyttes til ondsinnede formål, inkludert trakassering og spredning av feilinformasjon, skriver forskerne.
På grunn av de mulige konsekvensene av det sistnevnte, har forskerne valgt å ikke utgi kildekoden eller å tilby noen offentlig tilgjengelig demo.
– Gjennom framtidig arbeid vil vi utforske et rammeverk for ansvarlig eksternalisering som balanserer verdien av ekstern revidering med risikoene ved ubegrenset, åpen aksess, skriver forskerne.