Stiftelsen Apache Software Foundation kunngjorde i romjula at versjon 1.0 av Hadoop er klar, og fulgte opp med en melding på stiftelsens blogg onsdag denne uken.
Hadoop er et åpen kildekodeprosjekt for å håndtere enorme datamengder i klynger av mange tusen noder. Det har vært under utvikling i seks år, og har vært i produksjon nesten like lenge, selv om man først nå mener at verktøyet er tilstrekkelig stabilt til leve opp til det man forventer av programvare i versjon 1.0.
Hadoop bygger på teknologi utviklet hos blant annet Yahoo og Google midt på 2000-tallet. Yahoo betraktes som den største bidragsyteren til prosjektet. I dag har Yahoo det største Hadoop-produksjonsmiljøet, med over 42 000 noder.
Googles viktigste bidrag er et rammeverk for distribuert håndtering av store datamengder, MapReduce, som i dag er et delprosjekt under Hadoop.
Evnen til å håndtere overveldende mengder data i klynger av industristandardservere gjør at Hadoop inngår i produksjonsmiljøene hos giganter innen Internett-tjenester og sosiale medier, som eBay, Facebook, LinkedIn og Twitter. IBM, Microsoft og Oracle er blant dem som har lagt Hadoop til grunn for tilbud innen løsninger for «big data». Nettskytjenesten Amazon Web Services tilbyr Hadoop.
Gartner-analytiker David Cearley ga denne attesten til Hadoop på Gartner Symposium/ITxpo 2011 i Barcelona i november:
«Apaches Hadoop-prosjekt tilbyr en mengde teknologier for å bygge systemer i global skala for å håndtere datamengder og prosesseringsoppgaver som er typiske for store nettsteder som søketjenester og sosiale tjenester. Blant de viktigste programmeringsmodellene som Google har utviklet er MapReduce, som nå er i utstrakt bruk for å bygge slike applikasjoner i enorm skala. Hadoop er åpen kildekode som implementerer alt man trenger til å skrive applikasjoner, bygge hele driftsmiljøet og kjøre systemet i produksjon. Det tilbyr databaseverktøy, filsystem, analytiske verktøy, replikeringstjenester og andre egenskaper som er påkrevet for kjøring i ekstrem skala. Deet tilbys stadig proprietære utvidelser til Hadoop for å fylle funksjonelle mangler. Mange leverandører tilbyr for eksempel egne distribuerte filsystemer med større ytelse og pålitelighet enn standardsystemet i Hadoop.»
Hadoop distribueres under Apache License v2.0.
I sommer skilte Yahoo ut sin Hadoop-avdeling i et uavhengig selskap på rundt 30 utviklere, Hortonworks, som de har beholdt en beskjeden eierandel i. Hortonworks utvikler i dag en egen dataplattform som skal gjøre det enklere å implementere, drifte og siden utvide en Hadoop-basert løsning. Pakken sørger for å integrere ulike Hadoop-verktøy og tilby enhetlige API-er for utvidelser og integrering.
Hortonworks regner med å kunne tilby en offentlig beta av denne pakken tidlig i 2012.