Betroffene Zeichen von HTML mit Python erhalten

https://stackoverflow.com//questions/24031148

html
python
string-decoding

21-12-2019
|

Frage

In einer Webseite-Quelle kann ich ein Wort sehen wie: abac% c3% a0, dass der Browser (Chrom) als Abacà zeigt.
Jetzt habe ich die Seite mit URLLIB2 heruntergeladen und die Seitenquelle mit Python (2.7 auf Mac OS X) analysieren, um einige Keywords zu erfahren: Ich möchte das akzentliche Zeichen anstelle der% C3% A0, jedoch mit str.Decode("UTF8") funktionierte nicht (ich habe das versucht, da diejenigen wie die \ XC3 \ XA0 UTF8-Codes erschienen).

Was soll ich versuchen, das akzentuale Wort innerhalb eines Wörterbuchs hinzuzufügen?

Übrigens Die HTML-Seite hat kein Hinweis auf die Codierung in der Quelle

danke

Lösung

Die Zeichen wurden url-codiert (sind sie Teil einer URL?), die Sie mit urllib.unquote .

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow