"Apache Tika yra atviro kodo įrankių rinkinys, skirtas aptikti ir ištraukti metaduomenis, taip pat struktūrizuoto teksto turinį iš kelių dokumentų, naudojant nieko, bet esama analizatorius bibliotekas.
Apache Tika palaiko šiuos dokumentų formatus: Hypertext Markup Language (HTTP), XML ir medienos formatus, "Microsoft Office" dokumentų formatų, OpenDocument formato (ODF), Portable Document Format (PDF), elektroninė leidinio formatas (EPF), Rich Text Format (RTF ), suspaudimo ir pakavimo formatus, tekstas / garso / vaizdo / vaizdo formatai, mbox formatas ir Java klasės dokumentų ir archyvų.
Anksčiau, Apache Tika buvo Paprojekčio Apache Lucene programinės įrangos biblioteką. Dabar jis yra platinamas kaip atskirą paketą pagal Apache Software Foundation
Kas naujo , šioje laidoje:.
- Pašalinta Bandymas HTML byla su prastai pasirinktos GPL tekstą jame (TIKA-1129).
- patobulinimai tika-serverio, kad ji galėtų pateikti text / html ir text / xml turinys (TIKA-1126, TIKA-1127).
- patobulinimai buvo padaryti kompresorius analizatorius tvarkyti g'zipped failus, kuriems reikia decompressConcatenated variantą true (Tika-1096).
- kreipėsi typographic klaidą, kuri buvo apsaugantis nuo aptikimo Awk failus (TIKA-1081).
- Pridėta naują ekvivalentinį tašką į Tika anketa JAX-RS REST serverio, kad tik aptinka žiniasklaidos tipą remiantis nedidelė dalis pateiktą (TIKA-1047) dokumentą.
- RTF:. Užsakytas ir netvarkingai sąrašai dabar išgauti (TIKA-1062)
- MP3: Garso trukmė dabar yra išgaunamas (TIKA-991)
- Java .class failai:. Pakėlimu iš ASM 3.1 iki ASM 4,1 apdorojant Java bytecodes (TIKA-1053)
- MIME tipai: Apibrėžimai išplėstas pasirinktinai yra nuoroda (URL) ir UTI, kartu su informacija dėl kelių bendrų formatų (TIKA-1012 / TIKA 1083)
- Išimtis, kai apdorojant OLE10 įterpti dokumentus, kai apdorojant apibendrintą informaciją iš Office dokumentų, o kai taupymo įterptųjų documennts į TikaCLI dabar prisijungęs vietoj nutraukiu gavyba (TIKA-1074)
- MS Word: linija lentelės charakteris dabar pakeitė naujos eilutės (TIKA-1128)
- XML: ElementMetadataHandlers dabar gali pasirinktinai priimti pasikartojančius ir tuščių vertybes (TIKA-1133) .
Reikalavimai :
- Java 2 Standard Edition Runtime Environment "
Komentarai nerastas