クロールに適したサーバー側のDOMエンジンはありますか?
-
28-09-2019 - |
質問
プロジェクトを見つけました、 ジャクサー サーバー側にFirefoxのJavaScriptエンジンを埋め込むため、HTMLサーバー側を非常によく解析できます。しかし、このプロジェクトは死んでいるようです。 HTMLを解析してデータを抽出するために、Webページをクロールするのに本当に役立ちます。
情報を抽出するのに役立つ新しいテクノロジーはありますか?
解決
私が過去にしたことは使用することです Selenium RC 実際のWebブラウザーを使用して、コードからWebブラウザー(通常Firefox)を制御するためにWebサイトをロードして解析するため。
これについてのクールなことは、あなたが主にあなたがそれがperlであろうとRubyであろうとC#であろうと快適な言語でコーディングしていることです。しかし、の力を完全に使用すること セレン JavaScriptを知り、書き込む必要があります。
他のヒント
これを行うもう1つの興味深い方法は、使用することです node.js と組み合わせて jsdom と node-htmlparser ページをロードして、その中のJavaScriptを解析します。現時点ではまだ箱から出していないのですが、Dav Glass(Yahooから)が持っていました node.jsでYuiを実行する成功 このコンボの変更されたバージョンを使用します。
これは、そこに十分なものがあり、自分のものを実装したいと判断した場合に興味深いです。もしそうなら、それは優れたオープンソースプロジェクトになります。
Python + Pywebkitgtk + JavaScriptでJS対応クローラーを書くことに成功しました。それは従来のクローラーよりもはるかに遅いですが、それは仕事を成し遂げ、スクリーンショットを作ったり、JSインジェクションによって「不明瞭」になったコンテンツを拾うなどのクールなことをすることができます。
ここには、いくつかの例のコードを含むまともな記事があります。
http://blog.motane.lu/2009/06/18/pywebkitgtk-execute-javascript-from-python/
そのナット Jaxerに似ています。主な違いはJavaScriptの代わりにJavaベースです。