Obtenir des caractères accentués de HTML avec Python
-
21-12-2019 - |
Question
dans une source de page Web, je peux voir un mot comme: ABAC% C3% A0 que le navigateur (chrome) montre comme abacà.
Maintenant, j'ai téléchargé la page à l'aide de Urllib2 et j'estilise la source de page avec Python (2.7 sur Mac OS X) pour obtenir des mots-clés: je voudrais avoir le caractère accentué au lieu du% C3% A0 mais en utilisant str.decode("UTF8") n'a pas fonctionné (j'ai essayé cela depuis que ceux-ci semblaient être les codes \ XC3 \ XA0 UTF8).
Que devrais-je essayer d'ajouter le mot accentué dans un dictionnaire?
D'ici comment la page HTML n'a aucune indication du codage que ce soit dans la source
merci
La solution
Les caractères ont été codés par URL (font-ils partie d'une URL?), que vous pouvez annuler en utilisant urllib.unquote .