Obtenir des caractères accentués de HTML avec Python

https://stackoverflow.com//questions/24031148

html
python
string-decoding

21-12-2019
|

Question

dans une source de page Web, je peux voir un mot comme: ABAC% C3% A0 que le navigateur (chrome) montre comme abacà.
Maintenant, j'ai téléchargé la page à l'aide de Urllib2 et j'estilise la source de page avec Python (2.7 sur Mac OS X) pour obtenir des mots-clés: je voudrais avoir le caractère accentué au lieu du% C3% A0 mais en utilisant str.decode("UTF8") n'a pas fonctionné (j'ai essayé cela depuis que ceux-ci semblaient être les codes \ XC3 \ XA0 UTF8).

Que devrais-je essayer d'ajouter le mot accentué dans un dictionnaire?

D'ici comment la page HTML n'a aucune indication du codage que ce soit dans la source

merci

La solution

Les caractères ont été codés par URL (font-ils partie d'une URL?), que vous pouvez annuler en utilisant urllib.unquote .

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow