Question

dans une source de page Web, je peux voir un mot comme: ABAC% C3% A0 que le navigateur (chrome) montre comme abacà.
Maintenant, j'ai téléchargé la page à l'aide de Urllib2 et j'estilise la source de page avec Python (2.7 sur Mac OS X) pour obtenir des mots-clés: je voudrais avoir le caractère accentué au lieu du% C3% A0 mais en utilisant str.decode("UTF8") n'a pas fonctionné (j'ai essayé cela depuis que ceux-ci semblaient être les codes \ XC3 \ XA0 UTF8).

Que devrais-je essayer d'ajouter le mot accentué dans un dictionnaire?

D'ici comment la page HTML n'a aucune indication du codage que ce soit dans la source

merci

Était-ce utile?

La solution

Les caractères ont été codés par URL (font-ils partie d'une URL?), que vous pouvez annuler en utilisant urllib.unquote .

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top