alla flaggor
bookworm  ] [  trixie  ] [  forky  ] [  sid  ] [  experimental  ]
[ Källkod: html-text  ]

Paket: python3-html-text (0.7.0-1.1)

Länkar för python3-html-text

Screenshot

Debianresurser:

Hämta källkodspaketet html-text:

Ansvarig:

Externa resurser:

Liknande paket:

Experimentellt paket

Varning: Paketet är från den experimentella utgåvan. Det innebär att det med stor sannolikhet är instabilt eller innehåller fel, och kanske till och med kan orsaka dataförluster. Se till att läsa ändringsloggen och annan dokumentation innan du använder det.

extract text from HTML.

How is html_text different from .xpath('//text()') from LXML or .get_text() from Beautiful Soup ?

 * Text extracted with html_text does not contain inline styles,
   javascript, comments and other text that is not normally visible to
   users;
 * html_text normalizes whitespace, but in a way smarter than
   .xpath('normalize-space()), adding spaces around inline elements (which
   are often used as block elements in html markup), and trying to avoid
   adding extra spaces for punctuation;
 * html-text can add newlines (e.g. after headers or paragraphs), so that
   the output text looks more like how it is rendered in browsers.

Andra paket besläktade med python3-html-text

  • beror
  • rekommenderar
  • föreslår
  • enhances

Hämta python3-html-text

Hämtningar för alla tillgängliga arkitekturer
Arkitektur Paketstorlek Installerad storlek Filer
all 10,0 kbyte40,0 kbyte [filförteckning]