変換＆amp; ＆amp; amp; Pythonで

https://stackoverflow.com/questions/1650160

22-07-2019
|

質問

Pythonで簡単なクローラーを使用しています。目的は、sitemap.xmlを作成することです。（アルファ版は次の場所にあります： http://code.google.com/p/sitemappy / ）非HTMLエンティティ（＆amp;など）を含むURLでxmlを生成すると、xmlは検証されず、Google Webmaster Toolsで受け入れられないことに気付きました。 URLのクエリ文字列部分をエンコードする簡単な方法はありますか？

ありがとう！

マット

解決

cgi.escape にレスキュー：

cgi.escape（s [、quote]）

文字「＆amp;」、「＆lt;」を変換しますおよび「＆gt;」文字列sからHTMLセーフシーケンスへ。このような文字を含むテキストをHTMLで表示する必要がある場合に使用します。オプションのフラグquoteがtrueの場合、引用符文字（ '＆quot;'）も変換されます。これは、などのHTML属性値に含めるのに役立ちます。引用される値に一重引用符または二重引用符、あるいはその両方が含まれる場合は、代わりにxml.sax.saxutilsモジュールのquoteattr（）関数の使用を検討してください。

クイックインタラクティブチェック：

>>> import cgi
>>> cgi.escape('<&>')
'&lt;&amp;&gt;'
>>>

他のヒント

Saxutils には、XMLエンティティのエスケープ機能があります。

>>> from xml.sax import saxutils
>>> saxutils.escape("&")
'&amp;'

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow