Apache Tika

Programinė įranga Screenshot:
Apache Tika
Programinė detalės:
Versija: 1.4
Įkėlimo datą: 20 Feb 15
Licencija: Nemokamai
Populiarumas: 102

Rating: nan/5 (Total Votes: 0)

"Apache Tika yra atviro kodo įrankių rinkinys, skirtas aptikti ir ištraukti metaduomenis, taip pat struktūrizuoto teksto turinį iš kelių dokumentų, naudojant nieko, bet esama analizatorius bibliotekas.
Apache Tika palaiko šiuos dokumentų formatus: Hypertext Markup Language (HTTP), XML ir medienos formatus, "Microsoft Office" dokumentų formatų, OpenDocument formato (ODF), Portable Document Format (PDF), elektroninė leidinio formatas (EPF), Rich Text Format (RTF ), suspaudimo ir pakavimo formatus, tekstas / garso / vaizdo / vaizdo formatai, mbox formatas ir Java klasės dokumentų ir archyvų.
Anksčiau, Apache Tika buvo Paprojekčio Apache Lucene programinės įrangos biblioteką. Dabar jis yra platinamas kaip atskirą paketą pagal Apache Software Foundation

Kas naujo , šioje laidoje:.

  • Pašalinta Bandymas HTML byla su prastai pasirinktos GPL tekstą jame (TIKA-1129).
  • patobulinimai tika-serverio, kad ji galėtų pateikti text / html ir text / xml turinys (TIKA-1126, TIKA-1127).
  • patobulinimai buvo padaryti kompresorius analizatorius tvarkyti g'zipped failus, kuriems reikia decompressConcatenated variantą true (Tika-1096).
  • kreipėsi typographic klaidą, kuri buvo apsaugantis nuo aptikimo Awk failus (TIKA-1081).
  • Pridėta naują ekvivalentinį tašką į Tika anketa JAX-RS REST serverio, kad tik aptinka žiniasklaidos tipą remiantis nedidelė dalis pateiktą (TIKA-1047) dokumentą.
  • RTF:. Užsakytas ir netvarkingai sąrašai dabar išgauti (TIKA-1062)
  • MP3: Garso trukmė dabar yra išgaunamas (TIKA-991)
  • Java .class failai:. Pakėlimu iš ASM 3.1 iki ASM 4,1 apdorojant Java bytecodes (TIKA-1053)
  • MIME tipai: Apibrėžimai išplėstas pasirinktinai yra nuoroda (URL) ir UTI, kartu su informacija dėl kelių bendrų formatų (TIKA-1012 / TIKA 1083)
  • Išimtis, kai apdorojant OLE10 įterpti dokumentus, kai apdorojant apibendrintą informaciją iš Office dokumentų, o kai taupymo įterptųjų documennts į TikaCLI dabar prisijungęs vietoj nutraukiu gavyba (TIKA-1074)
  • MS Word: linija lentelės charakteris dabar pakeitė naujos eilutės (TIKA-1128)
  • XML: ElementMetadataHandlers dabar gali pasirinktinai priimti pasikartojančius ir tuščių vertybes (TIKA-1133)
  • .

Reikalavimai :

  • Java 2 Standard Edition Runtime Environment "

Kita programinė įranga kūrėjas The Apache Software Foundation

Apache Hadoop
Apache Hadoop

2 Apr 18

Apache Solr
Apache Solr

23 Jan 15

jakarta-tomcat
jakarta-tomcat

2 Jun 15

Apache Hadoop
Apache Hadoop

18 Jul 15

Komentarai Apache Tika

Komentarai nerastas
Pridėti komentarą
Pasukite ant paveikslėlio!