Analizador HTML en Python [cerrado]

https://stackoverflow.com/questions/71151

09-06-2019
|

Pregunta

Usando la documentación de Python encontré el analizador HTML pero no tengo idea de qué biblioteca importar para usarla, cómo puedo saberlo (teniendo en cuenta que no lo dice en la página).

Solución

Intentar:

import HTMLParser

En Python 3.0, el módulo htmlParser ha sido renombrado a HTML.Parser, puede verificar sobre esto aquí

Pitón 3.0

import html.parser

Python 2.2 y superior

import HTMLParser

Otros consejos

Probablemente realmente quieras hermosasopa, consulte el enlace para ver un ejemplo.

Pero en todo caso

>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> h.feed('<html></html>')
>>> h.get_starttag_text()
'<html>'
>>> h.close()

Yo recomendaría usar Hermosa sopa módulo en su lugar y tiene buena documentacion.

Quizás te interese lxml.Es un paquete independiente y tiene componentes C, pero es el más rápido.También tiene una API muy buena, que le permite enumerar fácilmente enlaces en documentos HTML, o enumerar formularios, desinfectar HTML y más.También tiene capacidades para analizar HTML no bien formado (es configurable).

También deberías mirar html5lib para Python, ya que intenta analizar HTML de una manera que se parece mucho a lo que hacen los navegadores web, especialmente cuando se trata de HTML no válido (que representa más del 90% de la web actual).

No recomiendo BeautifulSoup si quieres velocidad.lxml es mucho, mucho más rápido y puede recurrir al analizador de sopa BS de lxml si el analizador predeterminado no funciona.

Para el procesamiento HTML del mundo real, recomendaría hermosasopa.Es genial y quita gran parte del dolor.La instalación es fácil.

Hay un enlace a un ejemplo en la parte inferior de (http://docs.python.org/2/library/htmlparser.html), simplemente no funciona con el python o python3 original.Tiene que ser python2 como dice arriba.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow