質問
大量のウェブページのインデックスを作成する必要がありますが、優れたウェブクローラーユーティリティは何ですか?できれば、.NETが話せることを望んでいますが、それは最高のものではありません。
本当に必要なのは、サイトのURLを&に提供できるものです。すべてのリンクをたどり、インデックス作成のためにコンテンツを保存します。
解決
HTTrack- http://www.httrack.com/ -非常に優れたWebサイトコピー機。かなりうまくいきます。長い間使用しています。
NutchはWebクローラーです(クローラーは探しているプログラムのタイプです)- http:/ /lucene.apache.org/nutch/ -一流の検索ユーティリティluceneを使用します。
他のヒント
Crawler4j は、Webをクロールするためのシンプルなインターフェースを提供するオープンソースのJavaクローラーです。 5分でマルチスレッドWebクローラーをセットアップできます。
ページにアクセスするかしないか(urls)に独自のフィルターを設定し、ロジックに従ってクロールされたページごとに操作を定義できます。
crawler4jを選択する理由;
- マルチスレッド構造、
- 深度をクロールするように設定できます
- Javaベースのオープンソースです
- 冗長リンク(URL)の制御、
- クロールするページ数を設定できます
- クロールするページサイズを設定できます
- 十分なドキュメント
Searcharoo.NET には、コンテンツをクロールしてインデックスを作成するスパイダーと、それを使用する検索エンジンが含まれています。 Searcharoo.Indexer.EXEコードを回避してダウンロードされたコンテンツをトラップし、そこから独自のカスタムコードを追加できるようにする必要があります...
これは非常に基本的なものです(すべてのソースコードが含まれており、6つのCodeProject記事で説明されています。最新の記事は Searcharoo v6 ):スパイダーはリンク、イメージマップ、イメージに従い、ROBOTSディレクティブに従い、HTML以外のファイルタイプを解析します。 Web全体ではなく、単一のWebサイトを対象としています。
Nutch / Luceneはほぼ確実に、より堅牢/商用グレードのソリューションです-しかし、私は彼らのコードを見ていません。何を達成したいのかわかりませんが、 Microsoft Search Server Expressも見ましたか?
免責事項:私はSearcharooの著者です。ここにオプションとして提供するだけです。
Sphider は非常に優れています。 PHPですが、いくらか助けになるかもしれません。
MozendaのWeb Scrapingソフトウェアを使用しています。簡単にすべてのリンクをクロールして、必要なすべての情報を取得できます。 お金のためのソフトウェア。
これはまだ使用していませんが、これおもしろそう。著者はそれを一から書き、彼がどのようにしたかを投稿しました。コードもダウンロードできます。