Y at-il un moteur dom côté serveur approprié pour l'exploration?

https://stackoverflow.com/questions/3892632

28-09-2019
|

Question

J'ai trouvé un projet, jaxer qui intègre le moteur JavaScript de Firefox sur le côté serveur, il peut analyser HTML server- côté très bien. Mais, ce projet semble mort. Il est vraiment utile pour l'exploration des pages Web HTML pour analyser et extraire les données.

Y at-il une nouvelle technologie utile pour extraire des informations?

La solution

Qu'est-ce que je l'ai fait dans le passé est utilisé Selenium RC pour contrôler un navigateur Web (habituellement firefox) à partir du code de la charge et des sites Web parse en utilisant un vrai navigateur web.

La chose cool est que vous codez la plupart du temps dans une langue que vous êtes à l'aise avec Perl ou que ce soit Ruby ou C #. Mais pour utiliser pleinement la puissance de Sélénium encore besoin de connaître et de javascript en écriture.

Autres conseils

Une autre façon intéressante de le faire est d'utiliser Node.js conjointement avec jsdom et noeud-HTMLParser pour charger une page et analyser le javascript il. Il ne fonctionne pas vraiment hors de la boîte encore au moment, mais en verre Dav (de Yahoo) ont été victimes le succès en cours d'exécution YUI à Node.js en utilisant une version modifiée de ce combo.

Ceci est intéressant si vous décidez que rien là-bas est assez bon et que vous voulez mettre en œuvre votre propre. Si donc il serait un excellent projet open source.

J'ai eu un certain succès à écrire un robot js-activé en python + pywebkitgtk + javascript. Il est beaucoup plus lent que un robot traditionnel, mais il fait le travail et peut faire des choses cool comme des captures d'écran make et ramasser le contenu qui a été « obscurci » par injection js.

Il y a un article décent avec quelques exemples de code ici:

http://blog.motane.lu / 2009/06/18 / pywebkitgtk-execute-javascript-de-python /

ItsNat est similaire à Jaxer la principale différence est basé sur Java, au lieu de JavaScript.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow