Web サイトのクロールとデータマイニングに最適なオープンソース ライブラリまたはアプリケーション
-
09-09-2019 - |
質問
Web サイトのクロールと分析に最適なオープンソース ライブラリは何なのか知りたいです。1 つの例は、クローラー不動産代理店です。そこでは、多数のサイトから情報を取得し、それらを自分のサイトに集約したいと考えています。そのためには、サイトをクロールして、プロパティ広告を抽出する必要があります。
他のヒント
PHP /カールが
...あなたは、Webページに直接結果を使用したい場合は特に、非常に強力な組み合わせです氏モロゾフと共通で、私は主に現場の、あまりにもこするのかなりのビットを行います。私はそれがいずれかの場合に役立ちます、機械化するために頼らなければならなかったことがありません。 urllib2のとの組み合わせでBeautifulsoupは常に十分なされています。
私は素晴らしいですlxmlのを、使用しています。しかし、私はそれをしようとしたとき、あなたがそれを必要とする場合、それは、Googleが数ヶ月前にアプリで利用されていない可能性がありますと信じています。
私のおかげでScrapyを言及するために氏モロゾフによるものです。それを聞いていませんでした。
Scrapyの他にも、 Parseletsする
をご覧ください所属していません StackOverflow