Domanda

In una fonte di pagine web posso vedere una parola come: Abac% C3% A0 che il browser (Chrome) mostra come Abacà.
Ora, ho scaricato la pagina usando Urllib2 e sto analizzando la sorgente della pagina con Python (2.7 su Mac OS X) per ottenere alcune parole chiave: vorrei avere il carattere accentato invece del% C3% A0 ma usando Str.Decode("UTF8") non ha funzionato (ho provato che da quando quelli sembravano i codici \ XC3 \ XA0 UTF8).

Cosa dovrei provare ad aggiungere la parola accentata all'interno di un dizionario?

Dal modo in cui la pagina HTML non ha indicazione della codifica in sorgente nella sorgente

Grazie

È stato utile?

Soluzione

I caratteri sono stati codificati dall'URL (fanno parte di un URL?), che è possibile annullare l'uso usando urllib.unquota .

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top