クロールに適したサーバー側のDOMエンジンはありますか？

https://stackoverflow.com/questions/3892632

28-09-2019
|

質問

プロジェクトを見つけました、ジャクサーサーバー側にFirefoxのJavaScriptエンジンを埋め込むため、HTMLサーバー側を非常によく解析できます。しかし、このプロジェクトは死んでいるようです。 HTMLを解析してデータを抽出するために、Webページをクロールするのに本当に役立ちます。

情報を抽出するのに役立つ新しいテクノロジーはありますか？

解決

私が過去にしたことは使用することです Selenium RC 実際のWebブラウザーを使用して、コードからWebブラウザー（通常Firefox）を制御するためにWebサイトをロードして解析するため。

これについてのクールなことは、あなたが主にあなたがそれがperlであろうとRubyであろうとC＃であろうと快適な言語でコーディングしていることです。しかし、の力を完全に使用することセレン JavaScriptを知り、書き込む必要があります。

他のヒント

これを行うもう1つの興味深い方法は、使用することです node.js と組み合わせて jsdom と node-htmlparser ページをロードして、その中のJavaScriptを解析します。現時点ではまだ箱から出していないのですが、Dav Glass（Yahooから）が持っていました node.jsでYuiを実行する成功このコンボの変更されたバージョンを使用します。

これは、そこに十分なものがあり、自分のものを実装したいと判断した場合に興味深いです。もしそうなら、それは優れたオープンソースプロジェクトになります。

Python + Pywebkitgtk + JavaScriptでJS対応クローラーを書くことに成功しました。それは従来のクローラーよりもはるかに遅いですが、それは仕事を成し遂げ、スクリーンショットを作ったり、JSインジェクションによって「不明瞭」になったコンテンツを拾うなどのクールなことをすることができます。

ここには、いくつかの例のコードを含むまともな記事があります。

http://blog.motane.lu/2009/06/18/pywebkitgtk-execute-javascript-from-python/

そのナット Jaxerに似ています。主な違いはJavaScriptの代わりにJavaベースです。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow