mrjob yra Python modulis, kuris padeda jums rašyti ir skaičiuoti Hadoop Srautinio darbo vietų.
mrjob visiškai pritaria Amazon Elastic MapReduce (EMR) paslauga, kuri leidžia jums pirkti laiką ant Hadoop klasterio per valandą. Ji taip pat dirba su savo Hadoop klasterius.
Įrengimas:
python setup.py įdiegti
Įsteigti EMR Amazon "
& Nbsp; * sukurti Amazon Web Services sąskaitą: http://aws.amazon.com/
& Nbsp; * užsiregistruoti Elastic MapReduce: http://aws.amazon.com/elasticmapreduce/
& Nbsp; * Gaukite prieigą ir slapti šifravimo raktai (eiti į http://aws.amazon.com/account/ ir spauskite "saugumo įgaliojimai") ir nustatyti aplinkos kintamuosius $ AWS_ACCESS_KEY_ID ir $ AWS_SECRET_ACCESS_KEY atitinkamai
Išbandykite!
# Vietoje
python mrjob / Pavyzdžiai / mr_word_freq_count.py README.md> skaičius
# Ant EMR
python mrjob / Pavyzdžiai / mr_word_freq_count.py README.md r EMR> skaičius
# Jūsų Hadoop klasterį
python mrjob / pavyzdžių / mr_word_freq_count.py README.md r Hadoop> skaičius
Išplėstinė konfigūracija
Norėdami paleisti kitose AWS regionuose, įkelkite išeities tekstų medį, paleisti markę ir naudoti kitas pažangias mrjob funkcijas, jums reikia nustatyti mrjob.conf. mrjob atrodo savo conf faile:
& Nbsp; * ~ / .mrjob
& Nbsp; * mrjob.conf bet savo $ PYTHONPATH
& Nbsp; * /etc/mrjob.conf
Žr mrjob.conf.example Daugiau informacijos
Įranga :.
- Run darbo apie EMR, jūsų Hadoop klasteris, arba vietoje (dėl bandymo).
- Rašyti kelių žingsnių darbo (vienas žemėlapis, sumažinti žingsnis kanalai į kitą)
- Duplicate savo gamybos aplinką viduje Hadoop
- Įkelkite savo išeities tekstų medį ir įdėti jį į savo darbą anketa $ PYTHONPATH
- Run skambinti ir kita setup scenarijų
- Nustatyti aplinkos kintamieji (pvz $ TZ)
- Lengvai įdiegti python paketais archyvus (EMR tik)
- Sąranka tvarkomi skaidriai, mrjob.conf config failą
- Automatiškai interpretuoti klaidų žurnalus iš EMR
- SSH tunelis į Hadoop Darbo Tracker apie EMR
- Minimalus nustatymas
- Jei norite paleisti EMR, nustatykite $ AWS_ACCESS_KEY_ID ir $ AWS_SECRET_ACCESS_KEY
- Jei norite paleisti savo Hadoop klasterį, nustatykite $ HADOOP_HOME
Reikalavimai :
- Python
Komentarai nerastas