質問

この質問に答えはこちら

たいきさげの一部の情報はオフットボール(サッカー)のウェブページに簡単なpythonの正規表現です。問題はプレイヤーなどのchap,ÄÄRITALO、どÄÄRITALO!
それは、htmlを使逃れたマークアップのための特殊文字など様

はあるので簡単に読み、htmlのpython文字列?またXML/XHTMLであるというパーサで取り扱います。

役に立ちましたか?

解決

のものをお勧めします BeautifulSoup HTML掻き.が必要となりまえで変換するHTMLエンティティのトラブルに対応するUnicode文字のように:

>>> from BeautifulSoup import BeautifulSoup    
>>> html = "<html>&#196;&#196;RITALO!</html>"
>>> soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES)
>>> print soup.contents[0].string
ÄÄRITALO!

るようにコミュニケーションを取り合の基準 コーデック モジュールが含まれてコーデックのためにこのようなことができるようにな "some_string".decode('html_entities') 残念ながらない!)

編集: 別の解決:Python開発者Fredrik Lundh(著者のelementtreeなど) 機能unsecape HTMLエンティティ 彼のウェブサイトでは、小数点、六角レンチおよび名前の主体(BeautifulSoupでは動作しませんの六角レンチ。

他のヒント

使ってみ BeautifulSoup.するべきだという、ただく形式のDOM仕事をしています。

このブログ 入っていたようで、一定の成果です。

しんのうのが自分でしてください

http://zesty.ca/python/scrape.html ?

することができる方法htmldecode(テキスト)をいいます。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top