っ国際文字からwebページに表示すべき事は何か？[重複]

https://stackoverflow.com/questions/53224

09-06-2019
|

質問

この質問に答えはこちら

Decode HTMLエンティティのトラブルをPython文字列? 5回答

たいきさげの一部の情報はオフットボール（サッカー)のウェブページに簡単なpythonの正規表現です。問題はプレイヤーなどのchap,ÄÄRITALO、どÄÄRITALO!
それは、htmlを使逃れたマークアップのための特殊文字など様

はあるので簡単に読み、htmlのpython文字列?またXML/XHTMLであるというパーサで取り扱います。

解決

のものをお勧めします BeautifulSoup HTML掻き.が必要となりまえで変換するHTMLエンティティのトラブルに対応するUnicode文字のように:

>>> from BeautifulSoup import BeautifulSoup    
>>> html = "<html>&#196;&#196;RITALO!</html>"
>>> soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES)
>>> print soup.contents[0].string
ÄÄRITALO!

るようにコミュニケーションを取り合の基準コーデックモジュールが含まれてコーデックのためにこのようなことができるようにな "some_string".decode('html_entities') 残念ながらない!)

編集： 別の解決:Python開発者Fredrik Lundh(著者のelementtreeなど）機能unsecape HTMLエンティティ彼のウェブサイトでは、小数点、六角レンチおよび名前の主体(BeautifulSoupでは動作しませんの六角レンチ。

他のヒント

使ってみ BeautifulSoup.するべきだという、ただく形式のDOM仕事をしています。

このブログ入っていたようで、一定の成果です。

しんのうのが自分でしてください

http://zesty.ca/python/scrape.html ?

することができる方法htmldecode（テキスト）をいいます。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow