っ国際文字からwebページに表示すべき事は何か?[重複]
質問
この質問に答えはこちら
たいきさげの一部の情報はオフットボール(サッカー)のウェブページに簡単なpythonの正規表現です。問題はプレイヤーなどのchap,ÄÄRITALO、どÄÄRITALO!
それは、htmlを使逃れたマークアップのための特殊文字など様
はあるので簡単に読み、htmlのpython文字列?またXML/XHTMLであるというパーサで取り扱います。
解決
のものをお勧めします BeautifulSoup HTML掻き.が必要となりまえで変換するHTMLエンティティのトラブルに対応するUnicode文字のように:
>>> from BeautifulSoup import BeautifulSoup
>>> html = "<html>ÄÄRITALO!</html>"
>>> soup = BeautifulSoup(html, convertEntities=BeautifulSoup.HTML_ENTITIES)
>>> print soup.contents[0].string
ÄÄRITALO!
るようにコミュニケーションを取り合の基準 コーデック モジュールが含まれてコーデックのためにこのようなことができるようにな "some_string".decode('html_entities')
残念ながらない!)
編集: 別の解決:Python開発者Fredrik Lundh(著者のelementtreeなど) 機能unsecape HTMLエンティティ 彼のウェブサイトでは、小数点、六角レンチおよび名前の主体(BeautifulSoupでは動作しませんの六角レンチ。
他のヒント
使ってみ BeautifulSoup.するべきだという、ただく形式のDOM仕事をしています。
このブログ 入っていたようで、一定の成果です。
所属していません StackOverflow