Betroffene Zeichen von HTML mit Python erhalten
-
21-12-2019 - |
Frage
In einer Webseite-Quelle kann ich ein Wort sehen wie: abac% c3% a0, dass der Browser (Chrom) als Abacà zeigt.
Jetzt habe ich die Seite mit URLLIB2 heruntergeladen und die Seitenquelle mit Python (2.7 auf Mac OS X) analysieren, um einige Keywords zu erfahren: Ich möchte das akzentliche Zeichen anstelle der% C3% A0, jedoch mit str.Decode("UTF8") funktionierte nicht (ich habe das versucht, da diejenigen wie die \ XC3 \ XA0 UTF8-Codes erschienen).
Was soll ich versuchen, das akzentuale Wort innerhalb eines Wörterbuchs hinzuzufügen?
Übrigens Die HTML-Seite hat kein Hinweis auf die Codierung in der Quelle
danke
Lösung
Die Zeichen wurden url-codiert (sind sie Teil einer URL?), die Sie mit urllib.unquote .
Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow