Pregunta

En una fuente de página web puedo ver una palabra como: abac% C3% A0 que el navegador (Chrome) muestra como Abacà.
Ahora, he descargado la página usando Urllib2 y estoy analizando la fuente de la página con Python (2.7 en Mac OS X) para obtener algunas palabras clave: me gustaría tener el carácter acentuado en lugar del% C3% A0, pero usando STR.DECODE("UTF8") no funcionó (lo intenté, ya que aquellos parecían los códigos UTF8 \ xc3 \ xA0 UTF8).

¿Qué debo intentar agregar la palabra acentuada dentro de un diccionario?

Por cierto, la página HTML no tiene ninguna indicación de la codificación en la fuente

gracias

¿Fue útil?

Solución

Los caracteres han sido codificados por URL (¿son parte de una URL?), Que puede deshacer usando urllib.unquote .

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top