質問

大量のウェブページのインデックスを作成する必要がありますが、優れたウェブクローラーユーティリティは何ですか?できれば、.NETが話せることを望んでいますが、それは最高のものではありません。

本当に必要なのは、サイトのURLを&に提供できるものです。すべてのリンクをたどり、インデックス作成のためにコンテンツを保存します。

役に立ちましたか?

解決

HTTrack- http://www.httrack.com/ -非常に優れたWebサイトコピー機。かなりうまくいきます。長い間使用しています。

NutchはWebクローラーです(クローラーは探しているプログラムのタイプです)- http:/ /lucene.apache.org/nutch/ -一流の検索ユーティリティluceneを使用します。

他のヒント

Crawler4j は、Webをクロールするためのシンプルなインターフェースを提供するオープンソースのJavaクローラーです。 5分でマルチスレッドWebクローラーをセットアップできます。

ページにアクセスするかしないか(urls)に独自のフィルターを設定し、ロジックに従ってクロールされたページごとに操作を定義できます。

crawler4jを選択する理由;

  1. マルチスレッド構造、
  2. 深度をクロールするように設定できます
  3. Javaベースのオープンソースです
  4. 冗長リンク(URL)の制御、
  5. クロールするページ数を設定できます
  6. クロールするページサイズを設定できます
  7. 十分なドキュメント

Searcharoo.NET には、コンテンツをクロールしてインデックスを作成するスパイダーと、それを使用する検索エンジンが含まれています。 Searcharoo.Indexer.EXEコードを回避してダウンロードされたコンテンツをトラップし、そこから独自のカスタムコードを追加できるようにする必要があります...

これは非常に基本的なものです(すべてのソースコードが含まれており、6つのCodeProject記事で説明されています。最新の記事は Searcharoo v6 ):スパイダーはリンク、イメージマップ、イメージに従い、ROBOTSディレクティブに従い、HTML以外のファイルタイプを解析します。 Web全体ではなく、単一のWebサイトを対象としています。

Nutch / Luceneはほぼ確実に、より堅牢/商用グレードのソリューションです-しかし、私は彼らのコードを見ていません。何を達成したいのかわかりませんが、 Microsoft Search Server Expressも見ましたか

免責事項:私はSearcharooの著者です。ここにオプションとして提供するだけです。

Sphider は非常に優れています。 PHPですが、いくらか助けになるかもしれません。

MozendaのWeb Scrapingソフトウェアを使用しています。簡単にすべてのリンクをクロールして、必要なすべての情報を取得できます。 お金のためのソフトウェア。

これはまだ使用していませんが、これおもしろそう。著者はそれを一から書き、彼がどのようにしたかを投稿しました。コードもダウンロードできます。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top