Pregunta

Actualmente estoy usando CyberNeko en un intento de apropiación de la información que quiero de un sitio web. Sin embargo, creo que los sitios web comprueba la versión del agente / navegador del usuario para no sólo sacar el contenido url.

Soy consciente de utilizar HtmlUnit para cambiar la versión del navegador, pero no está seguro si puedo ir sobre esto utilizando CyberNeko.

¿Alguien sabe si es posible hacer tal cosa?

¿Fue útil?

Solución

Nunca he usado CyberNeko, pero pensé que era sólo un analizador de HTML, es decir, no pensé que podría utilizar para emitir las peticiones HTTP y, de hecho descargar de la página web.

Podría ser el hecho de que la solicitud de HTTP emitida por CyberNeko falta varios encabezados tales como la cabecera de agente de usuario. Una manera fácil de asegurarse de que las miradas de petición HTTP como una solicitud enviada desde un navegador es utilizar HttpClient en lugar de CyberNeko para descargar la página web. Hay un código de ejemplo disponible aquí .

Una vez que haya descargado con éxito a la página, utilizar CyberNeko para analizar los bits estás en interés.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top