Web サイトのクロールとデータマイニングに最適なオープンソース ライブラリまたはアプリケーション

StackOverflow https://stackoverflow.com/questions/759363

質問

Web サイトのクロールと分析に最適なオープンソース ライブラリは何なのか知りたいです。1 つの例は、クローラー不動産代理店です。そこでは、多数のサイトから情報を取得し、それらを自分のサイトに集約したいと考えています。そのためには、サイトをクロールして、プロパティ広告を抽出する必要があります。

役に立ちましたか?

解決

優れた Python パッケージを使用して、多くのスクレイピングを行っています URLlib2, 機械化する そして 美しいスープ.

も見ることをお勧めします lxml そして スクレイピー, 、ただし、私は現在それらを使用していません(まだscrapyを試す予定です)。

Perl 言語にはスクレイピングのための優れた機能もあります。

他のヒント

PHP /カールが

...あなたは、Webページに直接結果を使用したい場合は特に、非常に強力な組み合わせです

氏モロゾフと共通で、私は主に現場の、あまりにもこするのかなりのビットを行います。私はそれがいずれかの場合に役立ちます、機械化するために頼らなければならなかったことがありません。 urllib2のとの組み合わせでBeautifulsoupは常に十分なされています。

私は素晴らしいですlxmlのを、使用しています。しかし、私はそれをしようとしたとき、あなたがそれを必要とする場合、それは、Googleが数ヶ月前にアプリで利用されていない可能性がありますと信じています。

私のおかげでScrapyを言及するために氏モロゾフによるものです。それを聞いていませんでした。

Scrapyの他にも、 Parseletsする

をご覧ください
ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top