Jericho HTML Parser

Programinė įranga Screenshot:
Jericho HTML Parser
Programinė detalės:
Versija: 3.4
Įkėlimo datą: 10 Dec 15
Kūrėjas: Martin Jericho
Licencija: Nemokamai
Populiarumas: 105

Rating: 5.0/5 (Total Votes: 1)

Tai gali redaguoti server-side ir client-side žymes, o atkūrimo pažodžiui jokios nepripažintą ar neleistinas HTML.

Taip pat teikia aukšto lygio manipuliavimo HTML forma funkcijas

Savybės :.

  • buvimas blogai suformatuotas HTML nesikiša į dokumento poilsio, todėl bibliotekos Idealiai tinka naudoti su & quot; apdorojant realaus pasaulio & quot; HTML, kad droseliai kitų sintaksės analizatoriaus.
  • ASP, JSP, PSP, PHP ir Mason serverio žodžius, kurie aiškiai pripažino analizatorius. Tai reiškia, kad normalus HTML dar apdoroti tinkamai, net jei yra serverio žymes jų viduje, kuris yra bendras pavyzdžiui, kai dinamiškai nustatant elemento atributus. "
  • Naujas Stream remiantis apdorojant variantas naudojant StreamedSource klasę, kuri leidžia atminties veiksmingą didelių failų naudojant įvykio iteratorių apdorojimą. Tai iš esmės yra STAX alternatyva su gebėjimu apdoroti HTML ir nepatvirtinančiojo XML, taip pat keletą kitų, kuriais negali naudotis kitomis transliacijos analizatorius.
  • Savo standartine forma nėra nei įvykis, nei medis remiantis analizatorius, o naudoja paprasta teksto paieška, efektyvus reikšminiais žodžiais pripažinimo ir žymą pozicijos talpyklos derinys. Iš viso šaltinio dokumento tekstas pirmą kartą buvo pakrautas į atmintį, ir tada tik svarbius segmentai ieškoma atitinkamų simbolių kiekvienos paieškos operacijos.
  • Palyginti su medžio remiantis analizatorius, pavyzdžiui, DOM, atminties ir išteklių reikalavimai gali būti kur kas geriau, jei tik maži skyriai dokumento reikia apdoroti ar tvarkyti. Neteisingas arba blogai suformatuotas HTML gali būti lengvai ignoruojama, skirtingai nuo medžių remiantis analizatorius, kuris turi nustatyti kiekvieną mazgą dokumente iš viršaus į apačią.
  • Palyginti su įvykiu pagrįstą analizatorius, pavyzdžiui, sax, sąsaja yra daug aukštesnio lygio ir labiau intuityvus ir medis atstovavimas Dokumento sudedamoji dalis hierarchija yra lengvai sukurta, jei reikia.
  • prasideda ir baigiasi pozicijos dokumente šaltinio visų apdoroti segmentus yra prieinama, todėl keisti tik pasirinktų segmentų dokumento nereikia rekonstruoti visą dokumentą iš medžio.
  • eilutės ir stulpelio numerį Kiekvieno šaltinio dokumento padėtį, yra lengvai prieinama.
  • Teikia paprastą, bet išsamią sąsaja analizė ir manipuliavimo HTML formą kontrolės, įskaitant ekstrahavimo ir gyventojų pradinės vertės ir perskaičiavimo tik skaityti ar duomenų rodymo režimai. Analizė formos kontrolės iš forma taip pat leidžia gauti duomenys turi būti saugomi ir pateikiami tinkamu būdu.
  • Built-in funkcionalumo išgauti visą tekstą iš html, tinka šerti į tekstinį paieškos pavyzdžiui, Apache Lucene.
  • Built-in funkcionalumo padaryti html su paprastu teksto formatavimą.
  • Built-in funkcionalumo formatuoti HTML kodą, kad įtraukose elementus pagal jų gylis Dokumento sudedamoji dalis hierarchijoje. (Spauskite čia norėdami internete demonstravimo)
  • Built-in funkcionalumą kompaktišką HTML šaltinio kodą pašalinant visus nereikalingus tarpą.
  • Custom tipai reikšminį žodį galima lengvai nustatyti ir registruoti pripažintų analizatorius.

Kas naujo , šioje laidoje.

  • patalpintas Šaltinis (File) konstruktorius
  • patalpintas OutputDocument.getSegment () metodas.
  • patalpintas OutputDocument.remove (int pradėti, int pabaigą) metodą.
  • patalpintas Renderer.setHRLineLength () metodas.
  • patalpintas RenderToText.jsp WebApp pavyzdys.
  • patalpintas Segment.getRowColumnVector () metodas.
  • Kodavimas aptikimo dabar ignoruoja bendrus koduotes nurodytus meta žymeles, kurios turi kodą vieneto dydį, nesuderinamų su preliminariu kodavimas.

Kas naujo 3.1 versija:

  • pataisymai: "
  • Begalinė kilpa ant Segment.getAllStartTags ()
  • Begalinė kilpa ant Segment.getAllElements ()
  • Segment.getFirst * metodai grįžo segmentus už aprėpties segmente.
  • Segment.getAllElements metodai negrįžo visose uždarose elementai tam tikromis aplinkybėmis.
  • Fiksuoti dokumentacija klaidas Segment.getAllElements metodus.
  • patalpintas StreamedSource klasė.
  • Pokyčiai, kurie galėtų turėti įtakos esamų programų elgesį: "
  • Pasikeitė ParseText iš klasės sąsajos.
  • Segment.getNodeIterator () dabar grįžta charakterio savybes atskirų mazgų.
  • Pridėta reikšminį žodį paieškos metodai grindžiami atributo reikšmė reguliarios išraiškos.
  • Pridėta reikšminį žodį paieškos metodai grindžiami HTML klasės atributas.
  • Pridėta statinio Source.LegacyNodeIteratorCompatabilityMode nuosavybė laikinai atkurti Segment.getNodeIterator () funkcionalumo, kad ankstesnėse versijose.
  • Pašalinta char [] Remiantis paieška metodai ParseText.
  • patalpintas CharacterReference.appendCharTo (Appendable) metodas.
  • patalpintas OutputDocument (segmentas) konstruktorius.
  • patalpintas StreamedSourceCopy mėginio programa.

Panaši programinė įranga

Stylus
Stylus

10 Feb 16

uCSS
uCSS

10 Dec 15

LESS
LESS

13 May 15

selectivizr
selectivizr

13 May 15

Kita programinė įranga kūrėjas Martin Jericho

Komentarai Jericho HTML Parser

Komentarai nerastas
Pridėti komentarą
Pasukite ant paveikslėlio!