Pergunta

Eu dei uma olhada em muitos tutoriais em relação a Cookiejar, mas meu problema é que a página da web que eu quero analisar cria o cookie usando JavaScript e não consigo recuperar o cookie. Alguém tem uma solução para esse problema?

Foi útil?

Solução

Se todas as páginas tiverem o mesmo JavaScript, talvez você possa analisar o HTML para encontrar esse pedaço de código e, a partir disso, obtenha o valor que o cookie estaria definido?

Isso tornaria sua raspagem bastante vulnerável a mudanças no site de terceiros, mas esse é mais frequentemente o caso enquanto raspa. (Lembre-se de que o proprietário do site de terceiros pode não gostar que você esteja recebendo o conteúdo dessa maneira.)

Outras dicas

Eu respondi ao seu outra questão também: dê uma olhada em mecanizar. É provavelmente o módulo de raspagem mais totalmente em destaque que eu conheço: se o cookie for enviado, tenho certeza de que você pode chegar a este módulo.

Talvez você possa executar o código JavaScript em um mecanismo JavaScript com ligações python (como Python-Spidermonkey ou PYV8) e depois recupere o biscoito. Ou, como o código JavaScript é executado do lado do cliente de qualquer maneira, você poderá converter o código gerador de cookies em Python.

Você pode acessar a página usando um navegador real, via Pamie, Win32com Ou similar, o JavaScript estará em execução em seu ambiente nativo.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top