Parser HTML in Python [chiuso]

https://stackoverflow.com/questions/71151

09-06-2019
|

Domanda

Usando la documentazione Python ho trovato il file Analizzatore HTML ma non ho idea di quale libreria importare per usarlo, come faccio a scoprirlo (tenendo presente che non è scritto nella pagina).

Soluzione

Tentativo:

import HTMLParser

In Python 3.0, il modulo HTMLPARSER è stato rinominato in html.Parser puoi verificarlo su questo Qui

Pitone 3.0

import html.parser

Python 2.2 e versioni successive

import HTMLParser

Altri suggerimenti

Probabilmente lo vuoi davvero Bella zuppa, controlla il collegamento per un esempio.

Ma in ogni caso

>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> h.feed('<html></html>')
>>> h.get_starttag_text()
'<html>'
>>> h.close()

Consiglierei l'uso Bella zuppa modulo invece e ha buona documentazione.

Potrebbe interessarti lxml.È un pacchetto separato e ha componenti C, ma è il più veloce.Ha anche un'API molto interessante, che ti consente di elencare facilmente i collegamenti nei documenti HTML o elencare moduli, disinfettare HTML e altro ancora.Ha anche la capacità di analizzare HTML non ben formato (è configurabile).

Dovresti anche guardare html5lib per Python poiché tenta di analizzare l'HTML in un modo che assomiglia molto a quello che fanno i browser web, specialmente quando si tratta di HTML non valido (che rappresenta più del 90% del web di oggi).

Non consiglio BeautifulSoup se vuoi velocità.lxml è molto, molto più veloce e puoi ricorrere al soupparser BS di lxml se il parser predefinito non funziona.

Per l'elaborazione HTML del mondo reale, lo consiglierei Bella zuppa.È fantastico e toglie gran parte del dolore.L'installazione è semplice.

C'è un collegamento a un esempio nella parte inferiore di (http://docs.python.org/2/library/htmlparser.html), semplicemente non funziona con l'originale python o python3.Deve essere Python2 come dice in alto.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow