Apache Nutch

Programinė įranga Screenshot:
Apache Nutch
Programinė detalės:
Versija: 2.3 Atnaujintas
Įkėlimo datą: 17 Jul 15
Kūrėjas: Sami Siren
Licencija: Nemokamai
Populiarumas: 12

Rating: 1.0/5 (Total Votes: 2)

"Apache Nutch projektas yra atviro kodo, keičiamo dydžio, labai praplečiamos ir nemokama Web-based robotas programinė įranga, kuri remiasi" Apache Lucene (Java kalba) bibliotekoje.
Ji priduria, interneto specifiką, pavyzdžiui, robotas, nuoroda-grafikas duomenų bazės, analizatoriai HTML ir kitų dokumentų formatų, ir tt Jis sukūrė ir platina Apache fondo, IT dvi atskiros šakos.
Būdamas modulinės ir užmaunamas, Apache Nutch turi savo privalumų, teikiant padidinamiems sąsajas, pavyzdžiui, parse, indeksą ir ScoringFilter pagal užsakymą diegimas, pavyzdžiui, Apache Tika apdorojant.
Be to, "Apache Nutch yra skirta paleisti vieną mašiną, tačiau ji yra daug galingesnė, kai veikia tam Hadoop klasterius. Prijungimo sistemos indeksavimo egzistuoja Elastic paieška, Apache Solr ir tt

Kas naujo , šioje laidoje.

  • nUtCh-1779 Taikyti formatavimą kodas (lewismc)
  • nUtCh-1907 Netinkamas produkcija outlinks visagalis per HostDbUpdateReducer (lewismc)
  • nUtCh-1856 Dokumento webpage.avsc ir host.avsc (lewismc)
  • nUtCh-1834 GeneratorMapper elgesys priklauso nuo žurnalo lygis (Gerhardas Gossen per snagel)
  • nUtCh-1899 atnaujinimo Restlet lib, kad nesusidarytų nepakankamumas (Talat)
  • nUtCh-1797 Pašaliname nenaudojamus paketas oanhtml (Saurabh Chhajed per snagel)
  • nUtCh-1888 Nurodykite HTMLMapper naudoti TikaParser (Halil şimşek per jnioche)
  • nUtCh-1897 Lengviau derinimo plugin XML klaidų (Markus);
  • nUtCh-1823 Naujinti į elasticsearch 1.4.1 (Phu Kieu, Markus, lewismc)
  • nUtCh-1829 Generatorius: negali atskirti tikrąsias klaidų (Mathieu Bouchard, jnioche, snagel)
  • nUtCh-1778 generatorius negali prisijungti skaičių URL partijos teisingai (jnioche per snagel)
  • nUtCh-1877 Priesaga URL filtras ignoruoti užklausos eilutę pagal nutylėjimą (Markus per snagel)
  • nUtCh-1825 protokolą HTTP gali pakabinti už tam tikrų tinklalapių (Phu Kieu per snagel)
  • nUtCh-1483 negali patikrinti failų sistemos su protokolu bylos įskiepiai (Rogerio Pereira Araujo Mengying Wang, snagel)
  • nUtCh-1885 protokolą failas turėtų elgtis simbolines nuorodas, kaip nukreipimų (Mengying Wang, snagel)
  • nUtCh-1880 URLUtil neturėtų įtraukti papildomų nerijos failui URL (snagel)
  • nUtCh-1879 Regex URL normintuvo turėtų pašalinti kelis nerijos po failo: protokolas (snagel)
  • nUtCh-1820 Šalinti laukas & quot; touring & quot; kurie dubliuoja & quot; id & quot; (lewismc, snagel)
  • nUtCh-1843 Naujinti į Gora 0,5 (Talat, lewismc, Kiril Menshikov, drazzib)
  • nUtCh-1883 bin / nuskaityti: naudojimo funkcija paleisti bin / nUtCh ir patikrinti tiksliausia vertė (snagel)
  • nUtCh-1882 Skudru užtemimas tikslinė pridėti išvesties kelią src / bandymui (snagel)
  • nUtCh-1827 Port nUtCh-1467 ir nUtCh-1561 su 2.x (snagel)
  • nUtCh-1876 Naujinti į Vikšriniai Commons 0.5 (jnioche)
  • nUtCh-1866 Skudru užtemimas tikslas turėtų negalite trinti runtime (nimafl per lewismc)
  • nUtCh-1859 Padaryti Nutch WebApp uosto konfigūruojama (Nima Falaki per lewismc)
  • nUtCh-1848 Re į DashboardPage.html atvejais prekystalio (Nima Falaki per lewismc)
  • nUtCh-841 Sukurti varteliai pagrindu Web Application NuTcH (Fjodor Vershinin per lewismc)
  • nUtCh-1832 Padaryti nUtCh darbą be indeksavimo (mattmann per lewismc)
  • nUtCh-1840 aprašoma funkcija SolrIndexWriter Netiksli (Kaveh minooie per jnioche)
  • nUtCh-1837 Naujinti į Tika 1,6 (lewismc)
  • nUtCh-1829 Generatorius: negali atskirti tikrąsias klaidų (Mathieu Bouchard per jnioche)
  • nUtCh-1828 bin / nuskaityti: Neteisingas tvarkymas nUtCh klaidų (Mathieu Bouchard per jnioche)
  • nUtCh-1693 TextMD5Signature skaičiuojamas tekstinę turinio (Tien Nguyen manų, Markus per snagel)
  • nUtCh-1409 Išimkite atgyvenę savybių dB. {nutylėjimą, maks} .fetch.interval, generate.max.per.host.by.ip (Matthias Agethle per snagel)
  • nUtCh-1819 batchId į GeneratorJob (Fjodor Vershinin per lewismc)
  • nUtCh-1708 naudojimas pats tapatybės, kai indeksavimas ir trynimas nukreipimus (snagel)
  • nUtCh-1817 Šalinti pom.xml nuo šaltinio (jnioche)
  • nUtCh-1811 bin / Nutch junit naudoti junit 4 testus bėgikas (snagel)
  • nUtCh-1776 Prisijungti neteisingas plugin.folder failo maršrutas (Diaa per snagel)
  • nUtCh-1566 bin / Nutch leisti tarpus į takais (tejasp, snagel)
  • nUtCh-1605 MIME tipas detektorius pripažįsta XLSX, kaip zip failas (snagel)
  • nUtCh-385 Didinti aprašymas siūlais susijusi konfigūracijos kūrėjo (jnioche, Lufeng)
  • nUtCh-1798 Nuskaitymas scenarijų neplaukia puslapis komandų teisingai (Aaronas Bedward per jnioche)
  • nUtCh-1769 POILSIO API Refactoring (Fjodor Vershinin per lewismc)
  • nUtCh-1633 slf4j teikia Hadoop ir neturėtų būti įtrauktas į darbo failą (Kaveh minooie per jnioche)
  • nUtCh-1787 atnaujinti ir papildyti API dok apžvalga puslapis (snagel)
  • nUtCh-1767 panaikinti specialų režimą & quot; params & quot; santykiniais nuorodos (snagel)
  • nUtCh-1718 naujo http.robots.agent kaip & quot; papildomas agentas pavadinimų & quot; (snagel, Tejas Patil, Daniel Kugel)
  • nUtCh-1796 Užtikrinti Gora objektas statybininkai yra naudojami kaip priešintis, tuščių konstruktorių (snagel per lewismc)
  • nUtCh-1590 [Apsauga] Rėmas įpurškimo pažeidžiamumas paskelbtas Javadoc (jnioche)
  • nUtCh-1736 Neįmanoma puslapį, jei atsakymo HTTP antraštėje pateikiama perdavimo-Encoding: chunked (ysc per jnioche)
  • nUtCh-1782 NodeWalker grįžti dabartinę mazgas (markus)
  • nUtCh-1781 Atnaujinti Gora - * - mapping.xml ir gora.proeprties atspindėti Gora 0,4 (lewismc)
  • nUtCh-1768 Naujinti į ElasticSearch 1.1.0 (jnioche)
  • nUtCh-1634 readdb -stats rodo rezultatą du kartus (Kaveh minooie per jnioche)
  • nUtCh-1780 TTL ir gc_grace_seconds atributai trūksta Gora-Cassandra-mapping.xml failą (Kaveh minooie per lewismc)
  • nUtCh-1676 Pridėti primityvus SSL palaikymas prie protokolų HTTP (jnioche, Markus);
  • nUtCh-1674 Naudoti batchId filtras įjungti nuskaitymo (GORA-119) dėl Paduok, parse, atnaujinimas, indeksas (Tian Nguyen manų ir Alparslan Avci per jnioche)
  • nUtCh-1714 Naujinti į Gora 0,4 (Alparslan Avci per jnioche)
  • nUtCh-1752 talpyklos robots.txt taisyklės pagal protokolą: kariuomenės uostą (snagel)
  • nUtCh-1613 Laukti protokole-httpclient nuskaitant patį serverį su & gt; 2 gijų (brian44 per jnioche)
  • nUtCh-1182 kūrėjo prisijungti pakabintas temas (snagel)
  • nUtCh-1618 Pasukite spekuliacijomis vykdymą išjungti žavingas (Talat)
  • nUtCh-1657 ORIGINAL_CHAR_ENCODING ir CHAR_ENCODING_FOR_CONVERSION niekada nustatyti HTMLParser (Talat)
  • nUtCh-1725 CleaningJob anketa reduktorius neįpareigoja ištrintus dokumentus. (ilhamikalkan per Talat)
  • nUtCh-1728 indeksuotojas-solr įskiepis negalite trinti docs iš Solr (ilhamikalkan per Talat)
  • nUtCh-1753 "Eclipse dependecy problema 2.x (Talat)
  • nUtCh-1720 pasikartojančius linijos HttpBase.java (Walter Tietze per jnioche)
  • nUtCh-797 URL netinkamai pastatytas, kai nurodo tikslinė prasideda & quot;? & quot; (Doug Kuko Robertas Hohman, Stondet, AB per snagel)
  • nUtCh-1759 Naujinti į Vikšriniai Commons 0,4 (jnioche)
  • nUtCh-1700 Šalinti atgyvenę kodas src / įskiepiai / creativecommons / build.xml (lewismc)
  • nUtCh-1761 Nuskaitymas scenarijų nepavyksta rasti darbo failą, jei nepradėjo iš vidaus bin rež (David Hosking, jnioche)
  • nUtCh-1603 Pašto analizatorius skundžiasi sutrumpintas PDF failas (snagel per lewismc)
  • nUtCh-1743 parsechecker parodyti outlinks (snagel)
  • nUtCh-1732 Geriau CMD linija apdorojant už NutchServer (Fjodor Vershinin per lewismc)
  • nUtCh-1751 Tuščios inkarai neturėtų indeksas (Sertac TURKEL per lewismc)
  • nUtCh-1733 parse html remti HTML5 Simbolių rinkinio apibrėžimai (snagel)
  • nUtCh-1727 Įprastiniai ilgis ALD (Sertac TURKEL per lewismc)
  • nUtCh-1738 Expose skaičių URL generuojami už partijomis GeneratorJob (Talat UYARER per ewismc)
  • nUtCh-1671 indexchecker pridėti virškinti lauką (snagel, Lufeng)
  • nUtCh-1645 Junit Bandymo prisitaikanti Paduok Tvarkaraštis klasė (Jasinas Kilinc, Lufeng, Sertac URKEL per snagel)
  • nUtCh-1478 parse-meta ir indekso metaduomenų įskiepiai NuTcH 2.x serija (Kiran, Nguyen Anh Tian Talat UYARER, Vangelis Karvounis per lewismc)
  • nUtCh-1729 Naujinti į Tika 1.5 (jnioche)
  • nUtCh-1721 Atnaujinti Vikšriniai bendra 0,3 (tejasp)
  • nUtCh-1719 DomainStatistics nepavyksta 2.x, nes URL nėra unreversed (Gerhard Gossen per lewismc)
  • nUtCh-1253 Incompatable neko ir xerces versijos (snagel, lewismc Talat UYARER)
  • nUtCh-1715 RobotRulesParser prideda papildomą "*" prie robotai pavadinimą (tejasp)
  • nUtCh-356 Įskiepis saugykla talpyklos gali sukelti Atminties nutekėjimas (Enrico Triolo, Dogacan Guney per Markus);
  • nUtCh-1164 Parašyti junit testai protokolas HTTP (Sertac TURKEL per tejasp)
  • nUtCh-1710 Pridėti Gora paketas medienos ruoša, kad log4j.properties (lewismc)
  • nUtCh-1655 Indexer Įskiepis Elastic paieška (Talat UYARER per lewismc)
  • nUtCh-1699 Tika parser - Vaizdo parse Re (Mehmet Zahid Yuzuguldu, snagel per lewismc)
  • nUtCh-1568 uostas užmaunamas indeksavimo architektūra 2.x (Talat UYARER per lewismc)
  • nUtCh-1672 inlinks papildomas du kartus DbUpdateReducer (Tien Nguyen manų per lewismc)
  • nUtCh-1667 updatedb visada ignoruoja batchId (Tian Nguyen manų per lewismc)
  • nUtCh-1695 NutchDocument.toString () (Markus per lewismc)
  • nUtCh-1696 Įjungti naudojimo (Gura) fotografiją priklausomybės (lewismc)
  • nUtCh-1681 in URLUtil.java, toUNICODE metodas neveikia tinkamai (A

Komentarai Apache Nutch

Komentarai nerastas
Pridėti komentarą
Pasukite ant paveikslėlio!