Apache Nutch

Programinė įranga Screenshot:
Apache Nutch
Programinė detalės:
Versija: 2.3
Įkėlimo datą: 1 Mar 15
Licencija: Nemokamai
Populiarumas: 36

Rating: 3.0/5 (Total Votes: 1)

"Apache Nutch buvo pastatytas ant Apache Lucene , galinga Java paieškos sistema.
NuTcH kūrėjai pakeitė Lucene kodų bazę, transformuojant duomenis agnostikas Lucene kodų bazę į projektą, skirtą paieškai duomenis internete, konkrečiai.
Ši technologija gali būti naudojama ieškoti savo interneto puslapius, kaip įmontuotą paieškos serverio, arba nuskaityti internete ieško duomenis apdoroti ir nuskusti į savo duomenų bazę.
Nutch galima paleisti vieną mašiną, bet veikia geriau Hadoop klasterius.
Įvairūs priedai yra prieinami plečia savo naudojimo spektrą

Kas naujo , šioje laidoje:.

  • Patikrinkite pasikartojančius žodžius neegzistuoja į mikroformatą-reltag tegus rinkinys.
  • geriau patenka atgal vertę datą srityje.
  • Atsikratykite baimės.
  • Atnaujinti Hadoop 1.2.0.
  • Atnaujinti Tika 1.3.

Kas naujo 2.0 versija:.

  • Pervadintas HTMLParseFilter į ParseFilter
  • Pašalinti likusias robotai / IP blokavimas kodą lib-http.
  • Port medienos ruoša, kad slf4j.
  • Išorinis analizatorius palaiko kodavimo atributas.
  • Ivy konfigūracijos nustatymai neapima Gora.
  • Purkštuvas turi pridėti metaduomenis prieš skambinant injectedScore.
  • Port Nutch etalonas į Nutchbase.
  • Pridėti byloje vykdymo html atgal.
  • MoreIndexingFilter trūksta datos formatą.
  • Laukti parser.
  • Kartoti intervalas nuskaitymo datos yra nustatytas į 0.
  • Generate žurnalo išėjimas solr indeksavimo ir dedup.
  • Geresnis NutchConfiguration.
  • SolrDeleteDuplicates reikia klonuoti SolrRecord objektų.
  • Gimtoji Hadoop libs neteikiama per maven.
  • atskirti kurti ir runtime aplinka.

Kas naujo 1.5 versijos:

  • Ši laida apima keletą patobulinimų, įskaitant atnaujinimus iš kelių pagrindinių komponentų, įskaitant Tika 1.1 ir Hadoop 1.0.0, patobulinimai LinkRank ir WebGraph elementai, taip pat naujų įskiepių apimantis juodąjį sąrašą, filtravimo ir apdorojant pavadinimas kelias skaičius.

Kas naujo versija 1.4:.

  • Pridėta Solr 4x (bagažinė) pavyzdys schemos
  • Pridėta '/ Runtime "SVN ignoruoti.
  • taikymas / xhtml + xml turėtų būti įjungtas plugin.xml iš parse-html; leidžia kelis mime tipus už plugin.xml.
  • Fiksuotas parse-tika ir apdoroti html naudoti santykinį URL rezoliuciją per RFC-3986.
  • naujovinta Tika 0,10. PASTABA:. Tika naujas RTF analizatorius gali ignoruoti daugiau tekstą deformuota dokumentų, negu anksčiau - žr Tika-748 detales
  • Pridėta Sonar tikslus, kad skruzdžių build.xml.
  • Patobulinta SolrJ versija 3.4.0.
  • Ant pmd tikslas yra pažeistas.
  • Patobulinta Solr schemos versija 1.4.

Kas naujo versijoje 1.3:

  • Ši laida apima keletą patobulinimų (patobulinta RSS analizuodami paramą, griežtesnė integracija su Apache Tika, išorės apdorojant paramą, pagerinti kalbos nustatymo ir eile mažesnis šaltinio išleidimo archyvo tvarka -!. Tik apie 2 MB)

Kas naujo 1.2 versijoje:.

  • Padaryti indekso daugiau plug-in, konfigūruojama
  • Konfigūracija failą protokolas tėvų katalogas nuskaitymo.
  • Laukti parser.
  • Svetainė yra dar Lucene firminiai.
  • Kartoti intervalas nuskaitymo datos yra nustatytas į 0.

Kas naujo , 1.0 versijoje:.

  • Leisti analizatoriai grįžti kelis parse objektus
  • Pašalinta nereikalingas Commons-medienos ruoša stiklainis nuo ontologijos įskiepiai.
  • Re į SegmentReader sukelia begalinį ciklą.
  • Balai filtras turi paskirstyti skirtumą visiems outlinks ne vieną kartą.
  • Sumažinti skaičių įspėjimų NuTcH pagrindas.

Panaši programinė įranga

Reds
Reds

1 Mar 15

Anemone
Anemone

12 May 15

Kita programinė įranga kūrėjas Apache Software Foundation

Apache Knox
Apache Knox

12 May 15

Apache Syncope
Apache Syncope

10 Dec 15

Apache Shindig
Apache Shindig

13 Apr 15

Komentarai Apache Nutch

Komentarai nerastas
Pridėti komentarą
Pasukite ant paveikslėlio!
Paieška pagal kategoriją