Tarkennettu haku
bookworm  ] [  trixie  ] [  forky  ] [  sid  ] [  experimental  ]
[ Source: html-text  ]

Paketti: python3-html-text (0.7.0-1.1)

Links for python3-html-text

Screenshot

Debian-palvelut:

Imuroi lähdekoodipaketti html-text:

Ylläpitäjä:

External Resources:

Samankaltaisia paketteja:

Kokeellinen paketti

Varoitus: Tämä paketti on kokeellisesta jakelusta. Tämä tarkoittaa, että se on luultavasti epävakaa tai buginen, ja voi aiheuttaa jopa tiedonhäviötä. Kannattaa ehdottomasti tutustua muutoslokiin ja muihin mahdollisiin ohjeisiin ennen käyttöönottoa.

extract text from HTML.

How is html_text different from .xpath('//text()') from LXML or .get_text() from Beautiful Soup ?

 * Text extracted with html_text does not contain inline styles,
   javascript, comments and other text that is not normally visible to
   users;
 * html_text normalizes whitespace, but in a way smarter than
   .xpath('normalize-space()), adding spaces around inline elements (which
   are often used as block elements in html markup), and trying to avoid
   adding extra spaces for punctuation;
 * html-text can add newlines (e.g. after headers or paragraphs), so that
   the output text looks more like how it is rendered in browsers.

Muut pakettiin python3-html-text liittyvät paketit

  • depends
  • recommends
  • suggests
  • enhances
  • dep: python3
    interactive high-level object-oriented language (default python3 version)
  • dep: python3-lxml
    pythonic binding for the libxml2 and libxslt libraries
  • dep: python3-lxml-html-clean
    blocklist-based HTML cleaner

Imuroi python3-html-text

Imurointi kaikille saataville arkkitehtuureille
Arkkitehtuuri Paketin koko Koko asennettuna Tiedostot
all 10.0 kt40.0 kt [tiedostoluettelo]