Domanda

Attualmente sto usando CyberNeko nel tentativo di afferrare le informazioni che voglio da un sito web. Tuttavia, credo che il sito controlli la versione dell'agente / utente del browser per evitare di appena afferrare il contenuto URL.

Sono consapevole di usare HtmlUnit di cambiare la versione del browser, ma non è sicuro se posso andare su questo utilizzando CyberNeko.

Qualcuno sa se è possibile fare una cosa simile?

È stato utile?

Soluzione

Non ho mai usato CyberNeko, ma ho pensato che fosse solo un parser HTML, vale a dire che non la pensano si potrebbe utilizzare per emettere le richieste HTTP e in realtà Download della pagina web.

Potrebbe essere il fatto che la richiesta HTTP emesso da CyberNeko manca varie intestazioni come l'intestazione agente utente. Un modo semplice per garantire che gli sguardi di richiesta HTTP come una richiesta inviata da un browser è quello di utilizzare HttpClient invece di CyberNeko per scaricare la pagina web. C'è qualche esempio di codice disponibili qui .

Una volta scaricato correttamente la pagina, utilizzare CyberNeko per analizzare i bit si è in interessato.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top