質問

私は数年前にJaxerに書いた古いツールを持っています。

ジャクサー ヘッドレスのMozilla/Gecko-Browserに基づいた(放棄された)サーバー側のフレームワークで、JavaScriptとDom Server側を使用できます。

Jaxerは放棄されており、新しいコンピューターでJaxerを使用してAptana Studio 1.5をインストールして実行するのに大きな問題があるため、ライブラリ/フレームワーク/新しいバージョンの基礎となるものを探しています。

このツールは、Aptana Studio(JaxerのIDE)内でローカルでのみ実行され、実際のWebアプリになることを意図したものではありませんでした。ページごとにサーバー側のMozillaにロードすることで、お客様のWebサイトをクロールします。そのためには、jQueryと事前定義されたCSSセレクターを使用してメニュー内のリンクを見つけ、他の情報をページから解析します。最終結果は、基本的に栄光のサイトマップです。

可能であれば、この手口を維持し、jQuery/javaScript/the DOMを使用してページを読み込み、解析/アクセスしたいと思いますが、Javaなどの別の言語に基づいたフレームワークにラップできます。 Geckoに基づいて何かを書くことを考えましたが、それは少し上にあるように思えますので、他の提案にはオープンです。

役に立ちましたか?

解決

HTMLクロール/解析に関する限り:http://ccil.org/~cowan/xml/tagsoup/

また

http://jsoup.org/

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top