lxml

Programinė įranga Screenshot:
lxml
Programinė detalės:
Versija: 3.4.4 Atnaujintas
Įkėlimo datą: 12 May 15
Kūrėjas: infrae.com
Licencija: Nemokamai
Populiarumas: 245

Rating: 5.0/5 (Total Votes: 1)

lxml sujungia šių bibliotekų su Python kalba paprastumo greitį.
Suderinamas su visais CPython versijų 2,4-3,2

Kas naujo , šioje laidoje.

  • lxml.html.iterlinks dabar grąžina nuorodos viduje metaatnaujinimo žymes.
  • Nauja XMLParser galimybė collect_ids = false išjungti ID maišos lentelės kūrimą. Tai gali gerokai paspartinti apdorojimą dokumentų su daugeliu skirtingų ID, kurie nėra naudojami.
  • analizatorius naudoja už dokumento maišos lenteles XML ID. Tai sumažina pasaulio analizatoriaus dict apkrovą ir pagreitina analizuojant dokumentus su įvairiais ID.
  • ElementTree.getelementpath (elementas) grąžina struktūrinį ElementPath išraiška tikroje elementas, kuris gali būti naudojamas paieška "vėliau.
  • xmlfile () priima naują argumentą glaudų = Tiesa uždaryti failą (-kaip) objektai po to rašyti į juos. Prieš, xmlfile () uždarytas tik failą, jei jis atidarė jį viduje.
  • Leisti & quot; bytearray & quot; tipas ASCII teksto įvestį.

Kas naujo versijos 3.4.2:

  • lxml.html.iterlinks dabar grįžta nuorodos viduje meta atnaujinti žymes.
  • Nauja XMLParser galimybė collect_ids = false išjungti ID maišos lentelės kūrimą. Tai gali gerokai paspartinti apdorojimą dokumentų su daugeliu skirtingų ID, kurie nėra naudojami.
  • analizatorius naudoja už dokumento maišos lenteles XML ID. Tai sumažina pasaulio analizatoriaus dict apkrovą ir pagreitina analizuojant dokumentus su įvairiais ID.
  • ElementTree.getelementpath (elementas) grąžina struktūrinį ElementPath išraiška tikroje elementas, kuris gali būti naudojamas paieška "vėliau.
  • xmlfile () priima naują argumentą glaudų = Tiesa uždaryti failą (-kaip) objektai po to rašyti į juos. Prieš, xmlfile () uždarytas tik failą, jei jis atidarė jį viduje.
  • Leisti & quot; bytearray & quot; tipas ASCII teksto įvestį.

Kas naujo versijos 3.3.2:

  • Properties daliklis ir versija, taip pat metodai set_element_class_lookup () ir makeelement (), buvo prarasta nuo iterparse objektų.
  • Atvejai XMLSchema, Schematron ir RelaxNG nebuvo išvalyti savo vietos error_log prieš pradedant įteisinimą.
  • lxml.doctestcompare sumaišyti & quot; tikimasi & quot; ir & quot; tikrasis & quot; į atributų reikšmes.

Kas naujo versijos 3.3.1:

  • ištaisytos klaidos: "
  • HTML dokumentai apdoroti su parser.feed () nepavyko rasti elementus metu reikšminiais žodžiais iteracijos.
  • pastatas PyPy nepavyko dėl to, kad trūksta paramos PyUnicode_Compare () ir PyByteArray _ * () yra PyPy anketa C-API.
  • Duomenų surinkimo MSVC nepavyko dėl to, kad trūksta & quot; stdint.h & quot; standartinis antraštės failą.
  • iterparse () nepavyko apdoroti BOM priešdėliu failus.

Kas naujo versijos 3.3.0:

  • ištaisytos klaidos: "
  • euristinis, kuris išskiria failų kelius iš URL buvo sugriežtintos gaminti mažiau klaidingų neigiamų rezultatų.

Kas naujo versijos 3.2.3:

  • Fiksuotas parama Python 2.4, kuri buvo prarasta 3,2 0,2.

Kas naujo versijos 3.2.1:

  • metodų apply_templates () ir process_children () ir XSLT pratęsimo elementai įgijo du naujus Būlio galimybes elements_only ir remove_blank_text kad išmeskite arba visus eilutes ar tarpus, tik stygos nuo rezultatų sąraše.

Kas naujo versijos 3.2.0:

  • vedantis tarpus gali pakeisti styginių nagrinėjimas elgesį funkcijos lxml.html.
  • styginių analizuojant funkcijas lxml.html yra labiau patikimas į nedažni HTML turinio, kaip rėmelių arba trūksta kūno žymes veidą.
  • I / O klaidų bandant prieiti prie failų su takais, kuriuose yra ne ASCII simbolių galėtų padidinti UnicodeDecodeError vietoj tinkamai pranešti IOError.
  • Analizuojant iš in-atminties stygas neįgalų prieigą prie tinklo numatytąją analizatorius ir padarė tolesnius bandymus išanalizuoti iš URL nepavyks.

Kas naujo versijos 3.1.2:

  • Užduočių atributus per vardų-nežino API apie saksofonas tiltas (ty handler.startElement () metodas) nepavyko su TypeError.
  • Fiksuotas Publikacija klaida XSLT produkcijos, kai konvertuoti į rezultatus medį į Unicode eilutę.

Kas naujo versijos 3.0.2:

  • Fiksuotas avarijos metu vertėjo uždarymo pereiti prie Cython 0,17 .3 pastatą.

Kas naujo 3.0 versijoje:

  • C14N leidžia nurodant įskaičiuota priešdėlius būti paaukštintas viršaus lygis per išskirtinį Publikacija.
  • Pirminis parama pastato PyPy (per cpyext).
  • DTD objektus įgijo API, kuri leidžia skaityti prieigą prie savo deklaracijas.
  • xpathgrep.py įgijo paramą apdorojant liniją-BY-line (pvz grep produkcijos) ir aplinkinių išvestį su nauju šaknų žyma.
  • El gamykla lxml.builder priima potipių žinomų duomenų tipų (pavyzdžiui, styginių potipių) statant elementus aplink juos.
  • medis iteracijos ir iterparse () su atrankiniu reikšminiais žodžiais argumentą palaiko artimųjų žymų rinkinį. Medžių viršūnės bus grąžintas pagal iteratory jei jie atitinka bet kurį iš žymes.

Kas naujo versijos 2.3.5:

  • avarijos, kai sujungus teksto mazgų element.remove ( ).
  • Crash saksofonas / tikslinės analizatorius, pranešdami tuščias DOCTYPE.

Kas naujo versijos 2.3.4:

  • avarijos, kai pastato nsmap (Elementas nuosavybės) su tuščias vardų URI.
  • avarijos dėl lenktynių būklės, kai sriegine XSLT apdorojimo metu klaidų (ar vartotojo pranešimai) atsirasti.
  • XSLT stiliaus rinkinys gali ignoruoti kompiliavimo klaidų.

Kas naujo versijos 2.3.3:

  • Įranga pridūrė: "
  • lxml.html.tostring () įgijo naujų nuosekliąją galimybes with_tail ir DOCTYPE.
  • ištaisytos klaidos: "
  • Ištaisyta avarijos naudojant iterparse () HTML sintaksės ir prašydama pradžios įvykius.
  • Fiksuotas apdorojant ir daugiau selektorių cssselect. Tarpai prieš pseudo-elementai ir pseudo-klases yra reikšmingas, nes jis yra palikuonis Combinator. & Quot; E: Pseudo & quot; turėtų išanalizuoti pats, kaip & quot; E *: pseudo & quot ;, o ne & quot; E:. pseudo & quot;
  • lxml.html.diff nebekelia išimtį, kai pradeda "img" žymes be "src" atributas.

Kas naujo versijos 2.3.2:

  • Įranga pridūrė: "
  • lxml.objectify.deannotate () turi naujų Būlio pasirinkimo cleanup_namespaces siekiant pašalinti Uprzedmiotowić vardų deklaracijas (ir paprastai išvalyti vardų deklaracijas) nuėmus tipo komentarus.
  • lxml.objectify įgijo savo SubElement () funkcija kaip etree.SubElement kopija būtų išvengta kitaip nereikalingas importą lxml.etree ant vartotojo pusės.
  • ištaisytos klaidos: "
  • Fiksuotas & quot; palikuonis & quot; Re į cssselect antrą kartą (po pirmojo Fix lxml 2.3.1). Ankstesnis kaita lėmė rimtos veiklos regresijos už "XPath pagrįstą vertinimo išversta išraiška. Atkreipkite dėmesį, kad tai pažeidžia kai kurių gautos XPath išraiškos kaip XSLT vietos kelius, kurie anksčiau dirbo 2.3.1 naudojimą.
  • Fiksuotas apdorojant kai į cssselect selektoriai. Tarpai po combinators & quot; & # x3e; & quot ;, & quot; + & quot; ir & quot; ~ & quot; dabar teisingai ignoruojami. Anksčiau yra buvo apdoroti kaip palikuonis Combinator. Pavyzdžiui, & quot; div> # x3e; .foo & quot; buvo apdoroti pats, kaip & quot; div & # x3e; * .foo & quot; vietoj & quot; div & # x3e; .foo & quot;.

Kas naujo versijos 2.3.1:

  • Įranga pridūrė: "
  • Nauja galimybė kill_tags į lxml.html.clean pašalinti konkrečius žodžius ir jų turinį (ty jų visuma poddrzewie).
  • pi.get () ir pi.attrib nuo perdirbimo nurodymai išanalizuoti pseudo-atributus iš teksto turinio tvarkymo instrukcijas.
  • lxml.get_include () grąžina įtraukti kelius, kurie gali būti naudojami sudarant išorės C kodą prieš lxml.etree sąrašą. Tai konkrečiai reikia statiškai lxml stato, kai reikia surinkti kodą prieš tikslius pačių antraštės faile versijų lxml pats.
  • Resolver.resolve_file () užima papildomą galimybę close_file kad konfigūruoja jei failas (-kaip) objektas bus uždarytas po svarstymo, ar ne. Pagal nutylėjimą, failas bus uždaryta, nes vartotojas nėra tikimasi, kad nuorodą į jį.
  • ištaisytos klaidos: "
  • HTML valymas nebuvo pašalinti "duomenis:". Sąsajas;
  • html5lib analizatorius integracija dabar naudoja "oficialų" įgyvendinimo savaime html5lib, kuri leidžia dirbti su naujesnėmis išleidžiamus bibliotekoje.
  • Be lxml.sax, endElementNS () gali klaidingai atmesti paprastą žymės pavadinimą, kai atitinkamas pradžia įvykis padarė išvadą, tą patį paprastą žymės pavadinimą būti numatytasis vardų.
  • Kai atidaryti failo tipo objektas yra perduodamas į parse () arba iterparse (), analizatorius nebebus arti ji po naudojimo. Tai grįžta į į lxml 2.3 kaitą, kur visi failai būtų uždaryta. Tai vartotojai atsakomybė tinkamai uždaryti failas (-kaip) objektą, taip pat klaidų atvejais.
  • Asercja klaida lxml.html.cleaner dėžę aukščiausio lygio elementų.
  • Be lxml.cssselect, naudoti XPath "// B" (trumpas "A / palikuonis-arba-savęs :: mazgas () / B"), o ne "A / palikuonis :: B" už css palikuonis selektorius ("B"). Tai daro keletą briaunų atvejai turi būti suderinti su selektoriaus elgesį WebKit ir Firefox, ir daro daugiau css išraiškos galiojančius vietos kelius (naudoti XSL: template rungtynių).
  • Be lxml.html, nepasirinktų & # x3c; galimybė & # x3e; žymės nebėra rodomi surinktų formos vertybes.
  • Įrašyta / pašalinti & # x3c; option # x3e; vertės iš / į kelis pasirinkite formos lauko tinkamai parenka juos ir unselects juos.
  • Kiti pakeitimai:
  • Statinis stato galite nurodyti atsisiųsti katalogą su --download-rež variantą.

Kas naujo versijos 2.3:

  • Įranga pridūrė: "
  • Ieškodami vaikams, lxml.objectify užima "{} žymą" apibrėžta kaip tuščią vardų, o ne patronuojančiai vardų.
  • ištaisytos klaidos: "
  • Kai baigsite skaityti iš failo tipo objekto, analizatorius karto ragina savo .close () metodas.
  • Kai baigsite apdorojant, iterparse () iš karto užsidaro įvesties failą.
  • Darbo ir aplink libxml2 klaida, kuri gali palikti HTML analizatorius yra ne funkcinės būklės po Apdorojant severly skaldytų dokumentą (nustatytą libxml2 2.7.8).
  • Marque žymeles HTML valymo kodą teisingai pavadino markę.
  • Kiti pakeitimai:
  • Kai kurios valdžios funkcijas Cython lygio C-API turi daugiau intymias grąžinimo tipus.

Kas naujo versija 2.3beta1:

  • ištaisytos klaidos: "
  • Crash naujesnių versijų libxml2 kai juda elementus tarp dokumentų, kurie turėjo atributus ant pakeistų XInclude mazgų.
  • XMLID () funkcija trūksta neprivaloma analizatorius ir base_url parametrus.
  • Ieškant pakaitos žymeles iterparse () buvo suskirstytas į Py3.
  • lxml.html.open_in_browser () neveikia Python 3 dėl os.tempnam naudojimui. Tai dabar užima papildomą "encoding" parametrą.

Panaši programinė įranga

demjson
demjson

12 May 15

docx2html
docx2html

6 Jun 15

git-py
git-py

13 Apr 15

Komentarai lxml

Komentarai nerastas
Pridėti komentarą
Pasukite ant paveikslėlio!