wszystkie opcje
bookworm  ] [  trixie  ] [  sid  ] [  experimental  ]
[ Pakiet źródłowy: html-text  ]

Pakiet: python3-html-text (0.7.0-1.1)

Odnośniki dla python3-html-text

Screenshot

Zasoby systemu Debian:

Pobieranie pakietu źródłowego html-text:

Opiekun:

Zasoby zewnętrzne:

Podobne pakiety:

Pakiet eksperymentalny

Ostrzeżenie: Pakiet pochodzi z dystrybucji eksperymentalnej. Oznacza to, że prawdopodobnie jest niestabilny lub zawiera błędy i może spowodować nawet utratę danych. Przed użyciem pakietu proszę koniecznie zapoznać się z dziennikiem zmian i inną dostępną dokumentacją.

extract text from HTML.

How is html_text different from .xpath('//text()') from LXML or .get_text() from Beautiful Soup ?

 * Text extracted with html_text does not contain inline styles,
   javascript, comments and other text that is not normally visible to
   users;
 * html_text normalizes whitespace, but in a way smarter than
   .xpath('normalize-space()), adding spaces around inline elements (which
   are often used as block elements in html markup), and trying to avoid
   adding extra spaces for punctuation;
 * html-text can add newlines (e.g. after headers or paragraphs), so that
   the output text looks more like how it is rendered in browsers.

Inne pakiety związane z python3-html-text

  • wymaga
  • poleca
  • sugeruje
  • enhances

Pobieranie python3-html-text

Pobierz dla wszystkich dostępnych architektur
Architektura Rozmiar pakietu Rozmiar po instalacji Pliki
all 10,0 KiB40,0 KiB [lista plików]