PDFMiner veikia pirmoji atsižvelgiant į PDF failą turinį ir konvertuoti jį į daugiau kaliojo formatu kaip HTML.
Iš ten, teksto ir duomenų išgaunamas ir analizuojami ir remiantis iš anksto nustatytas taisykles, atskirtų ir pateikus vartotojui arba siunčiami į kitas galingesnių duomenų analizės įrankius.
Jei teksto analizė yra ne tai, ką jūs ketinate daryti, jūs galite lengvai konfigūruoti PDFMiner tiesiog išskleisti arba tiesiog konvertuoti PDF duomenis, taip pat.
Jos funkcijos gali dirbti atskirai vienas nuo kito ir leisti platesnį naudojimas spektro dėka jai
Įranga .
- 100% Pitonas kodas, C arba C ++,
- parse PDF
- Analizuoti PDF
- Konvertuoti PDF failus į kitus formatus,
- Crystal ištraukėjas;
- gauti tik tagged turinį;
- Parama daugelio tekstas PDF funkcijas;
- Parama daug šriftų tipus viduje PDF
- Pagrindinės šifravimo (RC4) parama,
Kas naujo , šioje laidoje:
- PDFDocument.initialize () metodas yra pašalinama ir nebereikia , Slaptažodis pateikiamas kaip tam PDFDocument konstruktorius argumentas.
Kas naujo versijoje 20110515.
- API pokyčiai;
- LTPolygon klasė buvo pervadinta LTCurve.
Kas naujo versijoje 20110227.
- Klaidų pataisymai ir išdėstymas analizė patobulinimų
Kas naujo versijoje 20101226.
- ir pataisymų ir nedidelių patobulinimų pora,
Kas naujo versijoje 20101017.
- ir pataisymų pora ir nežymus pagerėjimas;
Kas naujo versijoje 20100424.
- Klaidų ištaisymas ir mažų patobulinimų TOC gavyba;
Reikalavimai
- Python 2.4 iki 3
Apribojimai .
- PDFMiner gali būti 20 kartų lėčiau nei C / C ++ - pagrįstos programinės įrangos,
Komentarai nerastas