HTMLパーサをPythonで[定休日]

質問

利用のPythonドキュメントの見 HTMLパーサがっている図書館への輸入で、どうやってもつかについて(負うのではないのです。

解決

う:

import HTMLParser

Python3.0、HTMLParserモジュールに名称変更されました。パーサチェックできるここちらの

Python3.0

import html.parser

Python2.2以上

import HTMLParser

他のヒント

いと思いました BeautifulSoup, チェックの一例です。

いずれの場合

>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> h.feed('<html></html>')
>>> h.get_starttag_text()
'<html>'
>>> h.close()

私の使用をお勧めし美しいスープモジュールです文書化.

さま lxml.旅行に行くなら自然の中でのパッケージとしてのCの部品で、とてもできます。でもAPIを可能にし、容易に一覧のリンクはHTML文書またはリスト形式サニタイズHTMLします。も力を解析しているものの、これまで形成されたHTMLで設定可能)。

また、あなたが見る html5lib Pythonという構文解析HTMLのように非常に似てこれからのwebブラウザでは、特に扱う場合に無効なHTML（90%以上の現します。

今からとっても待ち遠しいですBeautifulSoupしたい場合は高速になります。lxmlがられたのがきっかけとなってい、できるバlxmlのBS soupparser場合は、デフォルトのパーサは無効となります。

実世界HTML処理されています。 BeautifulSoup.もやしき遊園地、仲見世商店街、かかったのは痛い。設置が簡単です。

があるリンクの例では、下の(http://docs.python.org/2/library/htmlparser.html)するだけでなりませんのpythonやpython3.でpython2としている。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow