Frage

, um die Python-Dokumentation Verwendung fand ich die HTML-Parser aber ich habe keine Ahnung, die Bibliothek zu importieren, es zu benutzen, wie ich das finde heraus (wenn man bedenkt es nicht auf der Seite sagt).

War es hilfreich?

Lösung

Versuchen:

import HTMLParser

In Python 3.0 hat das HTMLParser Modul wurde auf html.parser umbenannt Sie können über diese rel="noreferrer">

Python 3.0

import html.parser

Python 2.2 und höher

import HTMLParser

Andere Tipps

Sie wollen wahrscheinlich wirklich BeautifulSoup , überprüfen Sie den Link zum Beispiel.

Aber in jedem Fall

>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> h.feed('<html></html>')
>>> h.get_starttag_text()
'<html>'
>>> h.close()

Ich würde empfehlen, Schöner Suppe Modul statt und es hat gute Dokumentation .

Sie können daran interessiert sein lxml . Es ist ein separates Paket und hat C-Komponenten, sondern ist die schnellste. Es hat auch sehr schöne API erlaubt es Ihnen, Links in HTML-Dokumente auflisten, oder Listenformulare, sanieren HTML und vieles mehr. Es hat auch Fähigkeiten zu analysieren, nicht wohlgeformt HTML (es ist konfigurierbar).

Sie sollten auch sehen html5lib für Python, wie es versucht, HTML in einem analysieren Art und Weise, die sehr viel ähnelt das, was Web-Browser tut, vor allem, wenn sie mit ungültigen HTML zu tun (was mehr als 90% der heutigen Web ist).

Ich empfehle BeautifulSoup nicht, wenn Sie Geschwindigkeit wollen. lxml ist viel, viel schneller, und Sie können in lxml der BS zurückgreifen soupparser, wenn der Standard-Parser funktioniert nicht.

Für reale Welt HTML Verarbeitung würde ich empfehlen, BeautifulSoup . Es ist groß und nimmt viel von dem Schmerz weg. Die Installation ist einfach.

Es ist ein Link zu einem Beispiel auf der Unterseite ( http: // docs. python.org/2/library/htmlparser.html ), es funktioniert einfach nicht mit dem ursprünglichen python oder python3. Es ist zu python2, wie es auf der Spitze sagt.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top