[ Source: html-text ]
Package: python3-html-text (0.7.0-1.1)
Links for python3-html-text
Debian Resources:
Download Source Package html-text:
Maintainer:
External Resources:
- Homepage [github.com]
Similar packages:
Experimental package
Warning: This package is from the experimental distribution. That means it is likely unstable or buggy, and it may even cause data loss. Please be sure to consult the changelog and other possible documentation before using it.
estrazione di testo dall'HTML
In cosa html_text è differente da .xpath('//text()') di LXML o .get_text() di Beautiful Soup?
* Il testo estratto con html_text non contiene stili in linea, JavaScript, commenti e altro testo che non sia normalmente visibile agli utenti. * html_text normalizza gli spazi, ma in maniera più intelligente di .xpath('normalize-space()), aggiungendo spazi intorno agli elementi in linea (che spesso sono usati come elementi di tipo blocco nei marcatori HTML) e cercando di evitare di aggiungere ulteriori spazi alla punteggiatura. * html-text può aggiungere degli a-capo (es. dopo intestazioni o paragrafi), in modo che il testo in output appaia più simile a come viene reso nei browser.
Other Packages Related to python3-html-text
|
|
|
|
-
- dep: python3
- interactive high-level object-oriented language (default python3 version)
-
- dep: python3-lxml
- collegamento pythonico per le librerie libxml2 e libxslt
-
- dep: python3-lxml-html-clean
- blocklist-based HTML cleaner
Download python3-html-text
Architecture | Package Size | Installed Size | Files |
---|---|---|---|
all | 10.0 kB | 40.0 kB | [list of files] |