Selv om mange sier at når noe har havnet på internett, så blir det aldri borte, så er det ikke alltid det oppleves slik. Samtidig som det blir stadig mer innhold på weben, er det også mye som blir borte ved at nettsteder for eksempel legges ned.
Men med hjelp av nonprofit-organisasjonen Internet Archive og tjenesten Wayback Machine kan svært mye av det ellers tapte webinnholdet gjenfinnes. I forrige uke feiret organisasjonen at det er 20 år år siden innsamlingen av websider startet. Internet Archive ble etablert av dataingeniøren og entreprenøren Brewster Kahle i mai 1996.
Var i vanskeligheter: Ber om hjelp etter brann
Inspirert av Alta Vista
I et intervju med New York Times i 2002 fortalte Kahle at han ble inspirert til å skape Wayback Machine da han besøkte kontoret til søketjenesten Alta Vista i Palo Alto i California. Han ble slått av den enorme oppgaven som gjennomført, nemlig å lagre og indeksere hele weben.
– Jeg stod der, så på denne maskinen som var på størrelse med fem eller seks cola-automater og fikk jeg et aha-øyeblikk som sa til meg: «Du kan gjøre alt.», sier Kahle i intervjuet.
I løpet av alle disse årene har organisasjonen skrapt store deler av weben for innhold. Arkivet består nå av mer enn 273 milliarder websider og mer enn 510 milliarder tidsstemplede webobjekter, hentet fra mer omtrent 361 millioner ulike nettsteder. Hver uke legges det til ytterlige en halv milliard websider.
For tiden krever dette en lagringsplass på 15 petabyte.
Ifølge San Francisco Chronicle finansieres Internet Archive av donasjoner fra brukerfellesskapet og ulike selskaper og organisasjoner, samt ved å samarbeid med omtrent tusen biblioteker globalt som betaler organisasjonen for å digitalisere bøker og annet materiale.
Mer retro: Surf som det var 1999
Lenkeråte i Wikipedia
Et konkret eksempel på hvilken nytteverdi Internet Archive kan utgjøre, ble framhevet i forrige uke. Da ble det kjent at Wikipedia har brukt Wayback Machine til å rette opp mer enn en million døde lenker i den engelskspråklige utgaven av nettleksikonet. Nå peker lenkene i stedet til Internet Archives kopier av de opprinnelige websidene.
Døde lenker skyldes riktignok ikke alltid at nettsteder har blitt lagt ned. Like gjerne kan årsaken være at nettstedet bare har byttet publiseringssystem med et annet format på URL-ene. Dersom nettstedet ikke bryr seg om å omdirigere de som benytter gamle lenker, som altså kan være oppgitt i Wikipedia, nyhetsartikler eller alle andre steder hvor noen refererer til ekstern informasjon, blir det døde lenker – selv om innholdet egentlig ikke er borte.
Det er ikke bare for Wikipedia at Wayback Machine har vært en redning. Nylig oppdaget digi.no-redaksjonen at en artikkel vi skrev for et par år siden, på et eller annet tidspunkt ikke hadde fulgt med i importen av arkivet vårt over to ulike utskiftinger av publiseringsløsning.
Da var det enkleste rett og slett å opprette artikkelen på nytt ved å kopiere tilbake teksten fra Internet Archive.
500 år med bilder: Slik skannet de inn en bit av historien
Tidsreise på weben
Men det er også en annen artig mulighet med Wayback Machine, nemlig å «reise tilbake i tid». For eksempel har tjenesten lagret digi.no-forsiden mer enn 1800 ganger i løpet av de 20 årene, første gang i 1997. Dette inkluderer også bilder og annen grafikk. Her kan du se hvordan digi.no så ut en februardag i 1997.
Webinnhold er heller ikke det eneste Internet Archive har tatt vare på og tilbyr til gjensyn. Tilgjengelig er blant annet Internet Arcade, en stor samling med dataspill fra gamle spillautomater, som nå kan spilles direkte i nettleseren. Et annet eksempel er en samling bestående av nesten 1,5 millioner digitaliserte utgaver av vitenskapelige journaler, i alle fall tilbake til 1800-tallet.
Har du lest denne? Slik fikk Yngvar Lundh Norge på nett