Analisador HTML em Python [fechado]

https://stackoverflow.com/questions/71151

09-06-2019
|

Pergunta

Usando a documentação do Python, encontrei o Analisador de HTML mas não tenho ideia de qual biblioteca importar para utilizá-la, como faço para descobrir isso (lembrando que não diz na página).

Solução

Tentar:

import HTMLParser

No Python 3.0, o módulo HTMLParser foi renomeado para html.parser Você pode verificar sobre isso aqui

Pitão 3.0

import html.parser

Python 2.2 e superior

import HTMLParser

Outras dicas

Você provavelmente realmente quer LindaSopa, verifique o link para ver um exemplo.

Mas em qualquer caso

>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> h.feed('<html></html>')
>>> h.get_starttag_text()
'<html>'
>>> h.close()

Eu recomendaria usar Sopa Linda módulo em vez disso e tem boa documentação.

Você pode estar interessado lxml.É um pacote separado e possui componentes C, mas é o mais rápido.Ele também possui uma API muito boa, permitindo listar facilmente links em documentos HTML ou listar formulários, limpar HTML e muito mais.Ele também possui recursos para analisar HTML não bem formado (é configurável).

Você também deve olhar html5lib para Python, pois ele tenta analisar HTML de uma maneira que se assemelha muito ao que os navegadores da web fazem, especialmente quando lidam com HTML inválido (que representa mais de 90% da web atual).

Eu não recomendo BeautifulSoup se você quiser velocidade.lxml é muito, muito mais rápido, e você pode recorrer ao analisador BS do lxml se o analisador padrão não funcionar.

Para processamento HTML do mundo real, eu recomendo LindaSopa.É ótimo e tira grande parte da dor.A instalação é fácil.

Há um link para um exemplo na parte inferior de (http://docs.python.org/2/library/htmlparser.html), simplesmente não funciona com o python ou python3 original.Tem que ser python2 como diz no topo.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow