せず、単にextendible webクローラーが存在する?

質問

い検索のためのwebクローラーソリューションでは十分に成熟して、できるだけ延長されます。私は、以下の特徴...または可能性を拡張するクローラーに対応していくために:

ものは、選考以外の目的には使用しまうような大きな努力のかもしれませんが、同じ興味をもったソリューションを提供好extendibleクローラー.という名前を聞いたのApache Nutchのですが、とても不確かにこれまでのプロジェクトい経験です。できるださい選択肢?

解決

Aにおけるクイック検索 GitHub 吐イソギンチャク, ウェブサイトをスパイダーの枠組みに合うようですがご要望を中心にextensiblility.書きします。
希望です。

他のヒント

に使用しましたNutch広がったビルのオープンソースプロジェクト指っKrugleで起動します。難しいカスタマイズがかなり積層デザイン。あるプラグインアーキテクチャの相互作用のプラグインのシステムはトリッキーおよび脆弱です。

結果としての経験が必要なものをより柔軟性を開始しましたBixoプロジェクトのウェブマイニングです。 http://openbixo.org.

かおりのウエートなどの要因:

思う存分お勧め heritrix.ではフレキシブル性に富みていただきたいと思いますが最戦の試験で自由に利用できオープンソースのクローラーとしても、インターネットアーカイブを利用します。

対応することができるでしょうる何かを見つけなければならないとアーケード/ゲームセンターこちらの.

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow