toutes les options
bookworm  ] [  trixie  ] [  sid  ] [  experimental  ]
[ Paquet source : html-text  ]

Paquet : python3-html-text (0.7.0-1.1)

Liens pour python3-html-text

Screenshot

Ressources Debian :

Télécharger le paquet source html-text :

Responsable :

Ressources externes :

Paquets similaires :

Paquet « expérimental »

Avertissement : ce paquet appartient à la distribution expérimentale. Cela signifie qu'il peut être instable ou bogué et peut éventuellement causer des pertes de données. Assurez-vous de consulter le journal des modifications (changelog) et les autres documentations existantes avant de l'utiliser.

extraction de texte à partir d’HTML

En quoi html_text est-il différent de .xpath('//text()') de LXML ou .get_text() de Beautiful Soup ?

 – le texte extrait avec html_text ne contient pas de styles inline, de
   javascript, de commentaires ou d’autres textes qui sont normalement visibles
   pour les utilisateurs ;
 – html_text normalise les espaces blancs, mais d’une façon plus agréable que
   .xpath('normalize-space()), ajoutant des espaces autour des éléments inline
   (qui sont utilisés comme éléments block dans le marquage HTML) et essayant
   d’éviter l’ajout d’espaces supplémentaires pour la ponctuation ;;
 – html-text peut ajouter de nouvelles lignes (par exemple, après les en-têtes
   ou les paragraphes), de façon à ce que le texte produit ressemble plus à son
   rendu dans les navigateurs.

Autres paquets associés à python3-html-text

  • dépendances
  • recommandations
  • suggestions
  • enhances

Télécharger python3-html-text

Télécharger pour toutes les architectures proposées
Architecture Taille du paquet Espace occupé une fois installé Fichiers
all 10,0 ko40,0 ko [liste des fichiers]