優れたWebクローラーツールとは[終了]

https://stackoverflow.com/questions/176820

05-07-2019
|

質問

大量のウェブページのインデックスを作成する必要がありますが、優れたウェブクローラーユーティリティは何ですか？できれば、.NETが話せることを望んでいますが、それは最高のものではありません。

本当に必要なのは、サイトのURLを＆amp;に提供できるものです。すべてのリンクをたどり、インデックス作成のためにコンテンツを保存します。

解決

HTTrack- http://www.httrack.com/ -非常に優れたWebサイトコピー機。かなりうまくいきます。長い間使用しています。

NutchはWebクローラーです（クローラーは探しているプログラムのタイプです）- http：/ /lucene.apache.org/nutch/ -一流の検索ユーティリティluceneを使用します。

他のヒント

Crawler4j は、Webをクロールするためのシンプルなインターフェースを提供するオープンソースのJavaクローラーです。 5分でマルチスレッドWebクローラーをセットアップできます。

ページにアクセスするかしないか（urls）に独自のフィルターを設定し、ロジックに従ってクロールされたページごとに操作を定義できます。

crawler4jを選択する理由;

マルチスレッド構造、
深度をクロールするように設定できます
Javaベースのオープンソースです
冗長リンク（URL）の制御、
クロールするページ数を設定できます
クロールするページサイズを設定できます
十分なドキュメント

Searcharoo.NET には、コンテンツをクロールしてインデックスを作成するスパイダーと、それを使用する検索エンジンが含まれています。 Searcharoo.Indexer.EXEコードを回避してダウンロードされたコンテンツをトラップし、そこから独自のカスタムコードを追加できるようにする必要があります...

これは非常に基本的なものです（すべてのソースコードが含まれており、6つのCodeProject記事で説明されています。最新の記事は Searcharoo v6 ）：スパイダーはリンク、イメージマップ、イメージに従い、ROBOTSディレクティブに従い、HTML以外のファイルタイプを解析します。 Web全体ではなく、単一のWebサイトを対象としています。

Nutch / Luceneはほぼ確実に、より堅牢/商用グレードのソリューションです-しかし、私は彼らのコードを見ていません。何を達成したいのかわかりませんが、 Microsoft Search Server Expressも見ましたか？

免責事項：私はSearcharooの著者です。ここにオプションとして提供するだけです。

Sphider は非常に優れています。 PHPですが、いくらか助けになるかもしれません。

MozendaのWeb Scrapingソフトウェアを使用しています。簡単にすべてのリンクをクロールして、必要なすべての情報を取得できます。お金のためのソフトウェア。

これはまだ使用していませんが、これおもしろそう。著者はそれを一から書き、彼がどのようにしたかを投稿しました。コードもダウンロードできます。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow