Question

J'ai un vieil outil qu'un (ex-) collègue a écrit il y a quelques années avec Jaxer, que j'aimerais remplacer / réécrire.

Jaxer est un framework côté serveur (abandonné) basé sur un navigateur sans tête Mozilla / Gecko permettant vous pouvez utiliser JavaScript et le côté serveur DOM.

Depuis que Jaxer est abandonné et parce que j'ai de gros problèmes pour installer et exécuter Aptana Studio 1.5 avec Jaxer sur un nouvel ordinateur, je recherche une bibliothèque / un framework / quelque chose sur lequel je peux baser une nouvelle version.

Cet outil n'est exécuté que localement dans Aptana Studio (l'EDI pour Jaxer) et n'a jamais été conçu pour être une véritable application Web. Il explore les sites Web de nos clients en les chargeant page par page dans Mozilla côté serveur. Pour ce faire, il utilise jQuery et des sélecteurs CSS prédéfinis pour trouver les liens dans les menus et analyser les autres informations des pages. Le résultat final est essentiellement un plan du site glorifié.

J'aimerais garder ce modus operandi si possible et continuer à utiliser jQuery / JavaScript / le DOM pour charger et analyser / accéder aux pages, mais il peut être enveloppé dans un framework basé sur un autre langage tel que Java. J'ai envisagé d'écrire quelque chose basé sur Gecko moi-même, mais cela semble un peu exagéré, donc je suis ouvert à d'autres suggestions.

Était-ce utile?

La solution

En ce qui concerne l'exploration / analyse HTML: http://ccil.org/~cowan/XML/tagsoup/

ou

http://jsoup.org/

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top