Pergunta

Atualmente, estou usando o Cyberneko na tentativa de obter informações que quero de um site. No entanto, acredito que o site verifica a versão do agente do usuário/navegador para não pegar o conteúdo da URL.

Estou ciente de usar o htmlunit para alterar a versão do navegador, mas não tenho certeza se posso fazer isso usando o Cyberneko.

Alguém sabe se é possível fazer uma coisa dessas?

Foi útil?

Solução

Eu nunca usei o Cyberneko, mas pensei que era apenas um analisador html, ou seja, não achei que você pudesse usá -lo para emitir as solicitações HTTP e, na verdade, download a página da web.

Pode ser o fato de que a solicitação HTTP emitida pelo Cyberneko está faltando vários cabeçalhos, como o cabeçalho do agente do usuário. Uma maneira fácil de garantir que a solicitação HTTP pareça uma solicitação enviada de um navegador é usar o httpclient em vez do Cyberneko para baixar a página da web. Há algum código de exemplo disponível aqui.

Depois de baixar a página com sucesso, use o Cyberneko para analisar os bits em que você está interessado.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top