mrjob

Programinė įranga Screenshot:
mrjob
Programinė detalės:
Versija: 0.4
Įkėlimo datą: 20 Feb 15
Kūrėjas: David Marin
Licencija: Nemokamai
Populiarumas: 16

Rating: 3.0/5 (Total Votes: 1)

mrjob yra Python modulis, kuris padeda jums rašyti ir skaičiuoti Hadoop Srautinio darbo vietų.
mrjob visiškai pritaria Amazon Elastic MapReduce (EMR) paslauga, kuri leidžia jums pirkti laiką ant Hadoop klasterio per valandą. Ji taip pat dirba su savo Hadoop klasterius.
Įrengimas:
python setup.py įdiegti
Įsteigti EMR Amazon "
& Nbsp; * sukurti Amazon Web Services sąskaitą: http://aws.amazon.com/
& Nbsp; * užsiregistruoti Elastic MapReduce: http://aws.amazon.com/elasticmapreduce/
& Nbsp; * Gaukite prieigą ir slapti šifravimo raktai (eiti į http://aws.amazon.com/account/ ir spauskite "saugumo įgaliojimai") ​​ir nustatyti aplinkos kintamuosius $ AWS_ACCESS_KEY_ID ir $ AWS_SECRET_ACCESS_KEY atitinkamai

Išbandykite!

# Vietoje
python mrjob / Pavyzdžiai / mr_word_freq_count.py README.md> skaičius
# Ant EMR
python mrjob / Pavyzdžiai / mr_word_freq_count.py README.md r EMR> skaičius
# Jūsų Hadoop klasterį
python mrjob / pavyzdžių / mr_word_freq_count.py README.md r Hadoop> skaičius
Išplėstinė konfigūracija
Norėdami paleisti kitose AWS regionuose, įkelkite išeities tekstų medį, paleisti markę ir naudoti kitas pažangias mrjob funkcijas, jums reikia nustatyti mrjob.conf. mrjob atrodo savo conf faile:
& Nbsp; * ~ / .mrjob
& Nbsp; * mrjob.conf bet savo $ PYTHONPATH
& Nbsp; * /etc/mrjob.conf
Žr mrjob.conf.example Daugiau informacijos

Įranga :.

  • Run darbo apie EMR, jūsų Hadoop klasteris, arba vietoje (dėl bandymo).
  • Rašyti kelių žingsnių darbo (vienas žemėlapis, sumažinti žingsnis kanalai į kitą)
  • Duplicate savo gamybos aplinką viduje Hadoop
  • Įkelkite savo išeities tekstų medį ir įdėti jį į savo darbą anketa $ PYTHONPATH
  • Run skambinti ir kita setup scenarijų
  • Nustatyti aplinkos kintamieji (pvz $ TZ)
  • Lengvai įdiegti python paketais archyvus (EMR tik)
  • Sąranka tvarkomi skaidriai, mrjob.conf config failą
  • Automatiškai interpretuoti klaidų žurnalus iš EMR
  • SSH tunelis į Hadoop Darbo Tracker apie EMR
  • Minimalus nustatymas
  • Jei norite paleisti EMR, nustatykite $ AWS_ACCESS_KEY_ID ir $ AWS_SECRET_ACCESS_KEY
  • Jei norite paleisti savo Hadoop klasterį, nustatykite $ HADOOP_HOME

Reikalavimai :

  • Python

Panaši programinė įranga

MPICH
MPICH

11 May 15

Open MPI
Open MPI

17 Feb 15

Wackamole
Wackamole

2 Jun 15

Kita programinė įranga kūrėjas David Marin

doloop
doloop

11 May 15

Komentarai mrjob

Komentarai nerastas
Pridėti komentarą
Pasukite ant paveikslėlio!