Conseguir caracteres acentuados de HTML con Python
-
21-12-2019 - |
Pregunta
En una fuente de página web puedo ver una palabra como: abac% C3% A0 que el navegador (Chrome) muestra como Abacà.
Ahora, he descargado la página usando Urllib2 y estoy analizando la fuente de la página con Python (2.7 en Mac OS X) para obtener algunas palabras clave: me gustaría tener el carácter acentuado en lugar del% C3% A0, pero usando STR.DECODE("UTF8") no funcionó (lo intenté, ya que aquellos parecían los códigos UTF8 \ xc3 \ xA0 UTF8).
¿Qué debo intentar agregar la palabra acentuada dentro de un diccionario?
Por cierto, la página HTML no tiene ninguna indicación de la codificación en la fuente
gracias
Solución
Los caracteres han sido codificados por URL (¿son parte de una URL?), Que puede deshacer usando urllib.unquote .