Det finnes mange unike samlinger i verden. Problemet med unike, fysiske gjenstander, er at de ikke kan erstattes. Skjer katastrofen, for eksempel en brann, jordskjelv eller som i New York Times' tilfelle – vannlekkasje – vil hele eller deler av slike unike samlinger kunne gå tapt.
I de dype kjellerne i en bygning på 41st Street i New York, som er nabobygget til New York Times-bygget, ligger det svært omfattende arkivet til New York Times. Dette kalles angivelig «The Morgue» fordi det er der alle de «døde» fortellingene er lagret.
Arkivet ble offisielt påbegynt i 1907 og rommer nå blant annet mer enn seks millioner originale fotografier fra slutten av 1800- og fram til 1990-tallet.
Vannlekkasje
I oktober 2015 sprang et vannrør lekk i bygningen. Dette førte til at store mengder vann rant ned i «The Morgue». Heldigvis ble det ikke gjort så stor skade, men hendelsen ble umiddelbart en vekker for avisen. Arkivet regnes blant New York Times' mest verdifulle eiendeler. Det forteller historien sett gjennom avisens øyne.
– The Morgue er en skattkiste av forgjengelige dokumenter som er en uvurderlige krønike av ikke bare historien til The Times, men nesten et århundre med globale hender som har formet vår moderne verden, sier Nick Rockell, teknologidirektør hos New York Times, i et blogginnlegg som Google har publisert.
– Ansatte i både fotoavdelingen og for forretningssiden har i mange år utforsket mulighetene for å digitalisere fotografiene. Men så nylig som i fjor, virket tanken på å digitalisere arkivet fortsatt å være utenfor rekkevidde, sier Rockwell.
Nøyaktig hva som var det virkelig utløsende nå i år, er litt uklart. Men nå er det i alle fall klart at New York Times er i ferd med å digitalisere det store fotoarkivet i samarbeid med Google.
Baksiden like viktig
Utfordringen er ikke først og fremst å skanne fotografiene. Det kan gjøres ganske automatisk dersom fotografiene er i bra stand. Noe av hensikten med en slik digitalisering er å gjøre materialet enklere å finne igjen, slik at det i ulike sammenhenger kan brukes på nytt.
På mange av fotografiene er det et helt lite informasjonssystem på baksiden. Ofte er det oppgitt hvor og når bildet ble tatt, samt hvem som fotograferte det. Men i mange tilfeller er også tittelen og datoen til sakene som bildet har blitt brukt i, limt på baksiden av fotografiene, sammen med annen bildeinformasjon som ofte er håndskrevet.
Det kan minne litt om et pass som har vært med over mange ulike grenseoverganger.
De aller fleste av fotografiene har dog aldri tidligere blitt publisert.
Les også: – Ved å forstå teksten, kan du oppnå utrolig mye mer med maskinlæringsprosjektene dine (Digi ekstra)
Saken fortsetter under bildet.
OCR med litt AI
Selv om bildearkivet lagres i Googles nettsky, er det først og fremst tolkningen av informasjonen på baksiden av fotografiene som har krevd litt spesiell teknologi, nærmere bestemt Cloud Vision API, som blant annet tilbyr AI-støttet optisk karaktergjenkjenning.
Dette kombineres med Googles Cloud Natural Language API, som brukes for å legge ytterligere semantisk informasjon til den gjenkjente teksten.
Cloud Vision-teknologien støtter også blant annet logodeteksjon, noe som gjør at den også kan brukes til å gjenkjenne motivet på forsiden av mange fotografier.
Resultatene fra tolkningen er ikke perfekte, men ifølge Google kan de utføres raskere enn alternativene, noe som har betydning når det er millioner av bilder som skal prosesseres.
Kan fortelle nye historier
– Prosjektet handler ikke først og fremst om bevaring, men om historiefortelling. Ved å gjøre arkivet tilgjengelig, gjør vi det mulig å strekke seg tilbake inn i fortiden og fortelle historier som ennå ikke har blitt fortalt, sa Nick Rockell, teknologidirektør til New York Times, under en konferanse tidligere i høst. I opptaket forteller ham mer om hva dette vil kunne resultere av innhold i avisen.
I prosjektet benyttes det også en hel del åpen kildekode-baserte verktøy. Metadataene lagres i en PostgreSQL-database i Googles nettsky. For å endre størrelse på bildene brukes ImageMagick-programvaren, mens ExifTools brukes til å endre metadataene i selve bildefilene.
Selv om prosjektet først nylig har kommet i gang, betyr ikke dette at ingen av fotografiene har blitt digitalisert tidligere. I en reportasje om arkivet fra 2013, forteller arkivaren Jeff Roth at dette den gang gjaldt mellom 1 og 2 prosent av fotografiene.
En del av disse har tidligere blitt publisert via Tumblr-kontoen The Lively Morgue og Instagram-kontoen The New York Times Archives.
Leste du denne? Kopierer «hele internett» til Canada for å beskytte det mot Trump