質問

プロジェクトを見つけました、 ジャクサー サーバー側にFirefoxのJavaScriptエンジンを埋め込むため、HTMLサーバー側を非常によく解析できます。しかし、このプロジェクトは死んでいるようです。 HTMLを解析してデータを抽出するために、Webページをクロールするのに本当に役立ちます。

情報を抽出するのに役立つ新しいテクノロジーはありますか?

役に立ちましたか?

解決

私が過去にしたことは使用することです Selenium RC 実際のWebブラウザーを使用して、コードからWebブラウザー(通常Firefox)を制御するためにWebサイトをロードして解析するため。

これについてのクールなことは、あなたが主にあなたがそれがperlであろうとRubyであろうとC#であろうと快適な言語でコーディングしていることです。しかし、の力を完全に使用すること セレン JavaScriptを知り、書き込む必要があります。

他のヒント

これを行うもう1つの興味深い方法は、使用することです node.js と組み合わせて jsdomnode-htmlparser ページをロードして、その中のJavaScriptを解析します。現時点ではまだ箱から出していないのですが、Dav Glass(Yahooから)が持っていました node.jsでYuiを実行する成功 このコンボの変更されたバージョンを使用します。

これは、そこに十分なものがあり、自分のものを実装したいと判断した場合に興味深いです。もしそうなら、それは優れたオープンソースプロジェクトになります。

Python + Pywebkitgtk + JavaScriptでJS対応クローラーを書くことに成功しました。それは従来のクローラーよりもはるかに遅いですが、それは仕事を成し遂げ、スクリーンショットを作ったり、JSインジェクションによって「不明瞭」になったコンテンツを拾うなどのクールなことをすることができます。

ここには、いくつかの例のコードを含むまともな記事があります。

http://blog.motane.lu/2009/06/18/pywebkitgtk-execute-javascript-from-python/

そのナット Jaxerに似ています。主な違いはJavaScriptの代わりにJavaベースです。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top