Paquet : python3-html-text (0.7.0-1.1)
Liens pour python3-html-text
Ressources Debian :
- Rapports de bogues
- Developer Information
- Journal des modifications Debian
- Fichier de licence
- Suivis des correctifs pour Debian
Télécharger le paquet source html-text :
Responsable :
Ressources externes :
- Page d'accueil [github.com]
Paquets similaires :
Paquet « expérimental »
Avertissement : ce paquet appartient à la distribution expérimentale
. Cela signifie qu'il peut être instable ou bogué et peut éventuellement causer des pertes de données. Assurez-vous de consulter le journal des modifications (changelog
) et les autres documentations existantes avant de l'utiliser.
extraction de texte à partir d’HTML
En quoi html_text est-il différent de .xpath('//text()') de LXML ou .get_text() de Beautiful Soup ?
– le texte extrait avec html_text ne contient pas de styles inline, de javascript, de commentaires ou d’autres textes qui sont normalement visibles pour les utilisateurs ; – html_text normalise les espaces blancs, mais d’une façon plus agréable que .xpath('normalize-space()), ajoutant des espaces autour des éléments inline (qui sont utilisés comme éléments block dans le marquage HTML) et essayant d’éviter l’ajout d’espaces supplémentaires pour la ponctuation ;; – html-text peut ajouter de nouvelles lignes (par exemple, après les en-têtes ou les paragraphes), de façon à ce que le texte produit ressemble plus à son rendu dans les navigateurs.
Autres paquets associés à python3-html-text
|
|
|
|
-
- dep: python3
- interactive high-level object-oriented language (default python3 version)
-
- dep: python3-lxml
- liaison Python pour les bibliothèques libxml2 et libxslt
-
- dep: python3-lxml-html-clean
- blocklist-based HTML cleaner
Télécharger python3-html-text
Architecture | Taille du paquet | Espace occupé une fois installé | Fichiers |
---|---|---|---|
all | 10,0 ko | 40,0 ko | [liste des fichiers] |