Remplacer les entités html avec les UTF-8 correspondants en caractères Python 2.6

Question

J'ai un texte html comme ceci:

&lt;xml ... &gt;

et je veux le convertir en quelque chose de lisible:

<xml ...>

De toute façon facile (et rapide) de le faire en Python?

La solution

Python 2.7

Documentation officielle pour HTMLParser: Python 2.7

>>> import HTMLParser
>>> pars = HTMLParser.HTMLParser()
>>> pars.unescape('&copy; &euro;')
u'\xa9 \u20ac'
>>> print _
© €

Documentation officielle pour HTMLParser: Python 3

>>> from html.parser import HTMLParser
>>> pars = HTMLParser()
>>> pars.unescape('&copy; &euro;')
© €

Autres conseils

Il y a une fonction qui le fait, comme lié du poste Fred fait remarquer. Copié ici pour faciliter les choses.

Crédit à Fred Larson pour relier à l'autre question sur le SO. Crédit df pour l'affichage du lien.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow