Jericho HTML Parser

Programinė įranga Screenshot:
Jericho HTML Parser
Programinė detalės:
Versija: 3.3
Įkėlimo datą: 20 Feb 15
Kūrėjas: Martin Jericho
Licencija: Nemokamai
Populiarumas: 56

Rating: nan/5 (Total Votes: 0)

Jerich HTML parser yra atviro kodo, paprastas, tačiau galingas biblioteka parašyta visiškai Java.
Tai leidžia programuotojams manipuliuoti ir analizuoti dalys HTML dokumentą.
Jerich HTML parser taip pat apima aukšto lygio manipuliavimo HTML forma funkcijas

Kas naujo , šioje laidoje:.

  • pataisymai:
  • [3581664] CharacterReference.decode () neatkoduoja subjektai, kuriuose skaitmenys - & frac12; & Frac14; & Frac34; & Sup1; & Sup2; & Sup3; & There4;
  • [3311286] SourceCompactor negerbia TEXTAREA
  • [3519131] atvaizdavimo produkcijos neteisingi, kai statomi su Element objektą.
  • [3538829] atvaizdavimo produkcija šrifto apdaila ant bloko ribų neteisingas.
  • Segment.getAllStartTags (vardas ir pavardė) ir Segment.getFirstElement (vardas ir pavardė) neveikia, jei argumentas yra didžiosiomis raidėmis.
  • galas skyriklis bendros serverio tegus viduje pabėgęs serverio tegus yra klaidingai pripažintas galutiniam skyriklis su pabėgo žyma.
  • pasikeitimus, kurie gali turėti įtakos elgsena esamas programas: "
  • [3427073] Segment.getStyleURISegments () dabar yra stiliaus elementų turinį, taip pat stiliaus atributų reikšmes.
  • [3427927] Segment.getURIAttributes () dabar apima archyvas atributus objektas ir įskiepio elementų.
  • Skundai nebėra pripažinti viduje scenarijaus elementų per visą eilės parse. Anksčiau jie buvo pripažinta suderinama su pagrindinių naršyklių, bet moderni naršyklė elgesys pasikeitė.
  • Pasikeitė žurnalo lygio visų analizuojant klaidas iš INFO Klaidos, o žurnalo lygis Source.fullSequentialParse () patariamoji pranešimu iš WARN info. Ankstesni lygiai davė patariamojo žinutė didesnį sunkumą nei sintaksės analizės klaidų, užkirsti kelią registravimo sistemas nuo slepiasi patariamąją žinutę, rodo analizavimo klaidų. Koduotė įspėjimai nepakis WARN lygį.
  • pakeitė Renderer.renderHyperlinkURL (StartTag) metodą elgesį, kad santykinis URL nelydyti.
  • pakeitė atvaizdavimo elgesį, kad nuorodą elementas turinys nelydyti, jei ji yra tokia pati kaip hipersaitą URL, neatsižvelgiant į http:. // Prefiksas / arba priesaga
  • EndTag.tidy () dabar pašalina tarpus iki uždarymo laikiklio.
  • Pridėta Šaltinis (File) konstruktorius.
  • Pridėta OutputDocument.getSegment () metodas.
  • Pridėta OutputDocument.remove (int pradėti, int pabaigą) metodą.
  • Pridėta Renderer.setHRLineLength () metodas.
  • Pridėta RenderToText.jsp WebApp mėginys.
  • Pridėta Segment.getRowColumnVector () metodas.
  • Kodavimas aptikimo dabar ignoruoja bendrus koduotes nurodytus meta žymeles, kurios turi kodą vieneto dydį, nesuderinamų su preliminariu kodavimas.
  • naujovinta šių logger API: slf4j-API 1.7.2, log4j-1.2.17

Kas naujo versijoje 3.1:

  • pataisymai: "
  • [2793556] Begalinė kilpa ant Segment.getAllStartTags ()
  • Begalinė kilpa ant Segment.getAllElements ()
  • Segment.getFirst * metodai grįžo segmentus už aprėpties segmente.
  • Segment.getAllElements metodai negrįžo visose uždarose elementai tam tikromis aplinkybėmis.
  • Fiksuoti dokumentacija klaidų Segment.getAllElements metodus.
  • Pridėta StreamedSource klasė.
  • pasikeitimus, kurie gali turėti įtakos elgsena esamas programas: "
  • Pasikeitė ParseText iš klasės sąsajos.
  • Segment.getNodeIterator () dabar grįžta charakterio atskirų mazgų.
  • Pridėta žodį paieškos metodai grindžiami atributas vertės reguliarios išraiškos.
  • Pridėta žodį paieškos metodai grindžiami HTML klasės atributas.
  • Pridėta statinio Source.LegacyNodeIteratorCompatabilityMode turtas laikinai atkurti Segment.getNodeIterator () funkcionalumo, kad ankstesnėse versijose.
  • Pašalinta char [] Remiantis paieška metodai ParseText.
  • Pridėta CharacterReference.appendCharTo (Appendable) metodas.
  • Pridėta OutputDocument (segmentas) konstruktorius.
  • Pridėta StreamedSourceCopy mėginio programa.

Kas naujo 3.0 versijoje:

  • pataisymai: "
  • charakterio atstovaujantys unicode papildomų ženklų nebuvo iššifruoti teisingai UTF-16 kodas vieneto poromis.
  • [2188446] Element.getDepth () ir Element.getParentElement () grįžo neteisingus rezultatus, jei vadinama parse pagal pareikalavimą režimas.
  • Komentarai dabar pripažinta viduje & lt; Scenarijus & gt; elementai.
  • API pokyčių, kurie nėra atgaliniu būdu suderinami:
  • Pasikeitė paketas pavadinimas net.htmlparser.jericho
  • Įgūdis vertės turi dabar būti Styginių o ne CharSequence.
  • pašalino visus atgyvenę metodai / klasės iš ankstesnių versijų.
  • Visi susirasti * metodus nebenaudojamų naudai sužinoti * metodus, siekiant taikyti nuoseklų pavadinimų konvencijos visose žymeles paieškos metodus.
  • Tag Element ir HTMLElements klasės nebėra įgyvendinti HTMLElementName sąsaja. (Vietoj naudoti statinį importą)
  • Visos kolekcijos dabar stongly įvedėte naudojant tos pačios rūšies.
  • Pasikeitė FormControlOutputStyle klasė ENUM.
  • Pasikeitė FormControlType klasės ENUM.
  • Pridėta CharStreamSource.appendTo (Appendable) metodas.
  • Pridėta Source.iterator () metodas.
  • Šaltinis dabar įgyvendina Iterable.
  • Viduje naudoja StringBuilder geresnių rezultatų.
  • Pridėta Source.getNextStartTag (StartTagType) metodas.
  • Pridėta Source.getNextEndTag (EndTagType) metodas.
  • Pridėta Source.getPreviousStartTag (StartTagType) metodas.
  • Pridėta Source.getPreviousEndTag (EndTagType) metodas.
  • Pridėta Segment.getAllStartTags (StartTagType) metodas.
  • Pridėta visas Segment.getFirst * metodus.
  • Pridėta Renderer.renderHyperlinkURL (StartTag) metodas.
  • Pridėta HTMLSanitiser mėginio programa.
  • naujovinta slf4j-api-1.5.6

Reikalavimai :

  • Java 2 Standard Edition Runtime Environment "

Panaši programinė įranga

cssmergemedia
cssmergemedia

14 Apr 15

Moo
Moo

20 Feb 15

rst2marsedit
rst2marsedit

14 Apr 15

xslet / xsltester
xslet / xsltester

14 Apr 15

Kita programinė įranga kūrėjas Martin Jericho

Komentarai Jericho HTML Parser

Komentarai nerastas
Pridėti komentarą
Pasukite ant paveikslėlio!