C'è un motore di dom lato server adatto per la scansione?

https://stackoverflow.com/questions/3892632

28-09-2019
|

Domanda

Ho trovato un progetto, jaxer che incorpora il motore JavaScript di Firefox sul lato server, quindi è in grado di analizzare HTML server- lato molto bene. Ma, questo progetto sembra morto. E 'davvero utile per la scansione di pagine web per analizzare HTML e dei dati estratti.

C'è qualche nuova tecnologia utile per estrarre informazioni?

Soluzione

Quello che ho fatto in passato è l'uso Selenio RC per controllare un browser web (di solito firefox) dal codice per caricare e siti web di parsing con un vero e proprio browser web.

La cosa interessante di questo è che si sta per lo più la codifica in una lingua che a tuo agio con che si tratti di Perl o Ruby o C #. Ma per utilizzare appieno la potenza di Selenio hai ancora bisogno di conoscere e javascript scrittura.

Altri suggerimenti

Un altro modo interessante per farlo è quello di utilizzare node.js in combinazione con jsdom e nodo HTMLParser per caricare una pagina e analizzare il javascript in esso. Non è davvero lavorando fuori dalla scatola ma al momento, ma Dav Glass (da Yahoo) hanno avuto successo YUI esecuzione in node.js utilizzando una versione modificata di questo combo.

Questo è interessante se si decide che nulla là fuori è abbastanza buono e si desidera implementare il proprio. Se così fosse sarebbe un ottimo progetto open source.

Ho avuto un certo successo scrivendo un cingolato JS-enabled in Python + pywebkitgtk + javascript. E 'molto più lento di un cingolato tradizionale, ma ottiene il lavoro fatto e può fare cose interessanti come le immagini di marca e raccogliere il contenuto che è stato 'oscurato' per iniezione js.

C'è un articolo decente con qualche esempio di codice qui:

http://blog.motane.lu / 2009/06/18 / pywebkitgtk-execute-javascript-da-python /

ItsNat è simile a Jaxer la differenza principale è basato su Java, invece di JavaScript.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow