質問
Googleのインデックス作成にしばしば必要となる、品質を判断するための優れたオープンソースボットを探しています。
例えば
- 重複したタイトルを見つける
- 無効なリンク (jspider はこれを行います、そしてもっと多くのものがこれを行うと思います)
- まったく同じページですが、URLが異なります
- など。ここで、etc は Google の品質要件と同じです。
解決
あなたの要件は非常に具体的であるため、あなたが望むものを正確に実行するオープンソース製品が存在する可能性はほとんどありません。
ただし、Web クローラーを構築するためのオープンソース フレームワークは数多くあります。どちらを使用するかは、言語の好みによって異なります。
例えば:
- Python の場合は、試してください スクレイピー
- Javaの場合は、試してください クモ類
- Ruby の場合は、試してください アネモネ
- パールの場合、 試す WWW::スパイダー
通常、これらのフレームワークは、指定したルールに基づいてサイトのページをクロールおよびスクレイピングするためのクラスを提供しますが、独自のコードをフックして必要なデータを抽出するのはユーザーの責任です。
他のヒント
の Googleウェブマスターツールののウェブベースのサービスです。 (むしろオンデマンドボットより)、そしてそれはあなたが求めてきましたすべて行っていない - しかし、それはそれとあなたが求めていない多くのもののいくつかを行うには、ない - Googleからのもの - それをなし疑いが一致してあなたの奇数 "など、などがGoogleの品質REQSに等しい。" の他のどこよりも良いでしょう。
所属していません StackOverflow