Det å søke på weben er noe de fleste som den største selvfølgelighet, men det har ikke gått mer enn drøyt 25 år siden det som i blant omtales som verdens første websøkemotor, Aliweb (Archie Like Indexing for the WEB), ble lansert. Det skjedde i mai 1994. Tjenesten er fortsatt tilgjengelig, men ser ikke ut til å ha blitt oppdatert de siste ti årene.
Det var den nederlandske programvareutvikleren Martijn Koster som utviklet Aliweb. Men han har satt betydelige spor etter seg også på et annet område knyttet til websøk, nemlig Robots Exclusion Protocol (REP) – som mange nok kjenner bedre som robots.txt.
Robots Exclusion Protocol
REP er en protokoll som enkelt forklart forteller søkemotorenes webcrawlere hvordan de skal oppføre seg. En webcrawler en programvare som bidrar til indekseringen av weben, ved å besøke og registrere innholdet på alle tilgjengelige websider eller oppdateringer som er gjort på disse. Andre navn på det samme er blant annet spider, spiderbot eller robot.
Et problem i starten var at det kunne være veldig krevende for et nettsted å få besøk av en webcrawler, spesielt dersom nettstedet hadde mange sider og crawleren stadig kom innom. I tillegg, og det er nok den viktigste grunnen til at svært mange nettsteder benytter REP i dag, er at det kan være mye innhold på et nettsted som nettstedeieren ikke ønsker at skal være mulig å finne gjennom Google og andre søkemotorer.
Langt fra alle er bevisste på dette, noe som resulterer i at det er mye innhold som er søkbart via Google og andre søketjenester, enn det som er ønskelig.
Les mer: Denne feilen må du ikke finne på å gjøre. Men den er ikke uvanlig (Digi ekstra)
Sci-fi-forfatter overbelastet server
Angivelig skal det har vært en perl-basert webcrawler, Websnarf, utviklet av science fiction-forfatteren Charles Stross som var den direkte årsaken til at Koster utviklet Robots Exclusion Protocol, noe han kunngjorde den 3. juli 1994. Stross skriver at han valgte å starte traverseringen på et nettsted som handlet om nettopp webcrawlere. Det viste seg at serveren var eid av et lite selskap og at den var knyttet til internett over en 14,4 kilobit/s-forbindelse. Ikke overraskende knelte serveren under belastningen.
Det var Koster som var administrator for denne serveren. Stross mener at han i ettertid var den første til å skrive en webcrawler som tok hensyn til REP. Senere skal de aller fleste andre webcrawlere ha begynt å gjøre det samme.
På bildene i tvitringen nedenfor feirer Koster jubileet med en spesiell kake.
REP er i utgangspunktet en veldig enkel protokoll, som er basert på innholdet i en tekstfil, robots.txt, som legges i rotnivået til et nettsted. Digi.nos REP-fil finner du her: https://www.digi.no/robots.txt.
Ikke standardisert – ennå
Selv om REP ifølge Google benyttes av mer enn en halv milliard nettsteder i dag, er ikke protokollen standardisert. Et resultat av dette er at det har kommet uformelle utvidelser som trolig bare i begrenset grad blir støttet av webcrawlerne. Det er også en rekke aktuelle scenarier som ikke er dekket av den gamle spesifikasjonen.
Stor passordtjeneste melder om eksplosiv økning i passnøkkel-bruken
I begynnelsen av juli kunngjorde Google at selskapet samarbeider med Koster for å gjøre REP til en RFC (Request for Comments), foreløpig et utkast til en internettstandard hos Internet Engineering Task Force (IETF). Det er dreier seg om en noe modernisert utgave av spesifikasjonen, som tar utgangspunkt i de opprinnelige reglene, men blant annet definerer en maksimalstørrelse på robots.txt-filen, regler for mellomlagring av filen i webcrawleren og at REP også skal gjelde for innhold tilgjengelige over andre nettverksprotokoller enn HTTP(S), for eksempel FTP.
Koster har selv skrevet et blogginnlegg om 25-årsjubileet, hvor han trekker fram flere detaljer om forarbeidet til REP og senere forslag og kontroverser knyttet til bruken av spesifikasjon.