質問

い検索のためのwebクローラーソリューションでは十分に成熟して、できるだけ延長されます。私は、以下の特徴...または可能性を拡張するクローラーに対応していくために:

  • 一部だけが読みにフィードの複数サイト
  • にスクラップは、これらのサイトのコンテンツ
  • 場合当サイトでは、アーカイブのように這うように、指数えて下さり困ることはなかった
  • のクローラーが可能であることを、ウェブさせていただくことはできることを決定する場合、指定された基準
  • できると知った場合のものが揃った
  • のクローラーな殺しにサーバーによる攻撃でも多くの要求するスマートいクロー
  • のクローラーすべき強いフリークサイトやサーバー

ものは、選考以外の目的には使用しまうような大きな努力のかもしれませんが、同じ興味をもったソリューションを提供好extendibleクローラー.という名前を聞いたのApache Nutchのですが、とても不確かにこれまでのプロジェクトい経験です。できるださい選択肢?

役に立ちましたか?

解決

Aにおけるクイック検索 GitHubイソギンチャク, ウェブサイトをスパイダーの枠組みに合うようですがご要望を中心にextensiblility.書きします。
希望です。

他のヒント

に使用しましたNutch広がったビルのオープンソースプロジェクト指っKrugleで起動します。難しいカスタマイズがかなり積層デザイン。あるプラグインアーキテクチャの相互作用のプラグインのシステムはトリッキーおよび脆弱です。

結果としての経験が必要なものをより柔軟性を開始しましたBixoプロジェクトのウェブマイニングです。 http://openbixo.org.

かおりのウエートなどの要因:

  1. どのくらいの柔軟性が必要(+)
  2. どの成熟したので(-)
  3. が必要かどうかの可能性"(+)
  4. だ快適なJava/Hadoop(+)

思う存分お勧め heritrix.ではフレキシブル性に富みていただきたいと思いますが最戦の試験で自由に利用できオープンソースのクローラーとしても、インターネットアーカイブを利用します。

対応することができるでしょうる何かを見つけなければならないとアーケード/ゲームセンター こちらの.

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top