Pergunta

Em uma fonte da página, posso ver uma palavra como: ABAC% C3% A0 que o navegador (Chrome) mostra como Abacà.
Agora, eu baixei a página usando urllib2 e estou analisando a fonte de página com python (2.7 no Mac OS X) para obter algumas palavras-chave: eu gostaria de ter o personagem acentuado em vez do% c3% a0, mas usando str.Decode("UTF8") não funcionou (eu tentei que, uma vez que aqueles pareciam os códigos UTF8 \ XC3 \ XA0).

O que devo tentar adicionar a palavra acentuada dentro de um dicionário?

A propósito, a página HTML não tem indicação da codificação na fonte

obrigado

Foi útil?

Solução

Os caracteres foram codificados contra URL (eles são parte de um URL?), que você pode desfazer usando urllib.unquote

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top