todas as opções
bookworm  ] [  trixie  ] [  sid  ] [  experimental  ]
[ Fonte: html-text  ]

Pacote: python3-html-text (0.7.0-1.1)

Links para python3-html-text

Screenshot

Recursos de Debian:

Baixe o pacote-fonte html-text:

Mantenedor(a):

Fontes externas:

Pacotes similares:

Pacote experimental

Aviso: este pacote é da distribuição experimental. Isso significa que provavelmente é instável ou tem erros, e pode até causar perda de dados. Certifique-se de consultar o changelog e outras documentações antes de usá-lo.

extract text from HTML.

How is html_text different from .xpath('//text()') from LXML or .get_text() from Beautiful Soup ?

 * Text extracted with html_text does not contain inline styles,
   javascript, comments and other text that is not normally visible to
   users;
 * html_text normalizes whitespace, but in a way smarter than
   .xpath('normalize-space()), adding spaces around inline elements (which
   are often used as block elements in html markup), and trying to avoid
   adding extra spaces for punctuation;
 * html-text can add newlines (e.g. after headers or paragraphs), so that
   the output text looks more like how it is rendered in browsers.

Outros pacotes relacionados a python3-html-text

  • depende
  • recomenda
  • sugere
  • melhora

Download de python3-html-text

Baixe para todas as arquiteturas disponíveis
Arquitetura Tamanho do pacote Tamanho instalado Arquivos
all 10.0 kB40.0 kB [lista de arquivos]