Domanda

Ho un vecchio strumento che un (ex) collega ha scritto qualche anno fa con Jaxer, che vorrei sostituire/riscrivere.

Jaxer è un framework (abbandonato) sul lato server basato su un browser Mozilla/Gecko-On senza testa che consente di utilizzare JavaScript e il lato server DOM.

Dal momento che Jaxer è abbandonato e poiché ho grandi problemi che installano e eseguono Aptana Studio 1.5 con Jaxer su un nuovo computer, sto cercando una libreria/framework/qualcosa su cui posso basare una nuova versione.

Questo strumento viene eseguito solo localmente all'interno di Aptana Studio (IDE per Jaxer) e non è mai stato destinato a essere un'app Web reale. Striscia i siti Web dei nostri clienti caricandoli per pagina nella mozilla lato server. Per fare ciò utilizza i selettori CSS jQuery e predefiniti per trovare i collegamenti nei menu e analizzare altre informazioni dalle pagine. Il risultato finale è fondamentalmente una sitemap glorificata.

Vorrei mantenere questo modus operandi, se possibile e continuare a utilizzare jQuery/JavaScript/DOM per caricare e analizzare/accedere alle pagine, ma può essere avvolto in un framework basato su un'altra lingua come Java. Ho pensato di scrivere qualcosa basato su Gecko da solo, ma sembra un po 'esagerato, quindi sono aperto per altri suggerimenti.

È stato utile?

Soluzione

Per quanto riguarda il crawling/analisi HTML:http://ccil.org/~cowan/xml/tagsoup/

o

http://jsoup.org/

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top