Domanda
Usando la documentazione Python ho trovato il file Analizzatore HTML ma non ho idea di quale libreria importare per usarlo, come faccio a scoprirlo (tenendo presente che non è scritto nella pagina).
Soluzione
Tentativo:
import HTMLParser
In Python 3.0, il modulo HTMLPARSER è stato rinominato in html.Parser puoi verificarlo su questo Qui
Pitone 3.0
import html.parser
Python 2.2 e versioni successive
import HTMLParser
Altri suggerimenti
Probabilmente lo vuoi davvero Bella zuppa, controlla il collegamento per un esempio.
Ma in ogni caso
>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> h.feed('<html></html>')
>>> h.get_starttag_text()
'<html>'
>>> h.close()
Consiglierei l'uso Bella zuppa modulo invece e ha buona documentazione.
Potrebbe interessarti lxml.È un pacchetto separato e ha componenti C, ma è il più veloce.Ha anche un'API molto interessante, che ti consente di elencare facilmente i collegamenti nei documenti HTML o elencare moduli, disinfettare HTML e altro ancora.Ha anche la capacità di analizzare HTML non ben formato (è configurabile).
Dovresti anche guardare html5lib per Python poiché tenta di analizzare l'HTML in un modo che assomiglia molto a quello che fanno i browser web, specialmente quando si tratta di HTML non valido (che rappresenta più del 90% del web di oggi).
Non consiglio BeautifulSoup se vuoi velocità.lxml è molto, molto più veloce e puoi ricorrere al soupparser BS di lxml se il parser predefinito non funziona.
Per l'elaborazione HTML del mondo reale, lo consiglierei Bella zuppa.È fantastico e toglie gran parte del dolore.L'installazione è semplice.
C'è un collegamento a un esempio nella parte inferiore di (http://docs.python.org/2/library/htmlparser.html), semplicemente non funziona con l'originale python o python3.Deve essere Python2 come dice in alto.