Det fleste søketjenester på nettet indekserer tekst eller bilder på websider og lar brukerne søke i denne indeksen.
Opera Software har derimot laget en søkemotor som gjør noe helt annet. Den registrerer hvordan websider er strukturert.
Det norske selskapet, som er mest kjent for nettleseren Opera, kunngjorde i dag at selskapet innen noen måneder vil lansere en offentlig tilgjengelig tjeneste basert på søkemotoren MAMA (Metadata Analysis and Mining Application), som er laget av selskapets egne ansatte for at de bedre skal kunne forstå weben. Nå skal tjenesten også gjøres tilgjengelig for selskapets konkurrenter, personer tilknyttet standardiseringsorganisasjoner og andre interesserte.
Opera Software har latt MAMA indeksere 3,5 millioner ulike websider. I stedet for å indeksere innholdet på siden, registrerer MAMA alt det andre, for eksempel headerinformasjon, bruken av HTML, stilsett og JavaScript.
Dette gjør at du kan få svar på spørsmål som «kan jeg få en samling av websider som har mer enn 100 hyperlenker?» eller «hvordan ser en gjennomsnittlig webside ut?».
Opera Software mener at det å kunne få svar på spørsmål som dette, er å virkeliggjøre en drøm for mange webutviklere.
Opera Software, som jo utvikler nettlesere, har behov for å vite hva slags websider nettleserne er nødt til å kunne håndtere. Med MAMA kan de få svar på om gitt eksempler5 på obskur koding faktisk benyttes.
I en introduksjonsartikkel til MAMA, skriver Brian Wilson i Opera Software at på weben er du kun nødt til å vise til ett konkret eksempel på bruk av kode, og det er noen ganger nok til å vinne diskusjonen. Det potensielle spørsmålet endres da fra «hvem med vettet i behold ville gjøre noe slikt?» til «folk gjør FAKTISK dette, så hvordan håndterer vi dette?»
- Weben er fragmentert, kompleks og utvikler seg hele tiden. MAMAs store database tilbyr oss detaljert informasjon om hvordan webteknologier brukes, sier Snorre M. Grimsby, visepresident for kvalitetssikring ved Opera Software, i en pressemelding.
- Dette er nøkkelen til vår innsats for å teste og sikre at våre produkter har kompatibilitet, stabilitet og ytelse med høy kvalitet, og vi ønsker å delen dette med våre likemenn, slik at den kan være til nytte for dem også, sier Grimsby.
Ifølge Opera Software vil MAMA hjelpe webutviklere med å finne eksempler på bruk av funksjoner og egenskaper, med å finne trender og å samle data for å forsvare teknologi overfor sine klienter eller ledere. Tjenesten skal også kunne oppmuntre standardiseringsorganisasjoner til å ta i betraktning utvikleres forslag om hva som skjer på weben i virkeligeheten og etter hvert forbedre kvaliteten og samhandlingsevnen til både spesifikasjonene, weben og nettlesere.
I artikkelen til Brian Wilson er det en rekke lenker til mer utfyllende informasjon om hvordan MAMA funger og kan brukes, samt eksempler på informasjon som man kan få fra MAMA.
For eksempel kan MAMA fortelle at 80,4 prosent av de indekserte websidene benytter CSS (Cascading Style Sheets), at gjennomsnittsiden har 47 oppmerkingsfeil og inneholder 16.400 tegn. Man kan også spørre hvilket land som bruker den Ajax-relaterte XMLHttpRequest-komponenten mest, og få til svar at at det Norge, med 10,2 prosent av de registrerte sidene.
Man kan også spørre om hvor mange nettsteder som er tilpasset mobiltelefoner eller hvor allminnelig Web 2.0 er. Det siste er ikke like presist, siden dette er et begrep som omfavner ganske mye. Opera Software nevner i pressemeldingen at Web 2.0 blant annet kan inkludere bruken av mikroformater, RSS, JSON (JavaScript Object Notation) og Ajax. Men MAMA skal kunne kunne tilby komplekse svar på lite presise spørsmål.
Opera nevner det ikke, men trolig vil MAMA også kunne gjøre det enklere å finne fram til websider som er infisert av ondsinnet kode. Riktignok er indeksen til MAMA langt mindre enn for eksempel Googles, men samtidig har den en helt annen fokus på kode. digi.no har tidligere skrevet om dette temaet i denne saken.
På denne siden har Brian Wilson samlet mer informasjon om hva en gjennomsnittlig webside inneholder. I snitt inneholder gjennomsnittssiden for eksempel 38 hyperlenker, ett eller to eksterne stilsett, 2,5 eksterne skripts og 12 kommentarer på til sammen drøyt 2250 tegn.