質問

Googleのインデックス作成にしばしば必要となる、品質を判断するための優れたオープンソースボットを探しています。

例えば

  • 重複したタイトルを見つける
  • 無効なリンク (jspider はこれを行います、そしてもっと多くのものがこれを行うと思います)
  • まったく同じページですが、URLが異なります
  • など。ここで、etc は Google の品質要件と同じです。
役に立ちましたか?

解決

あなたの要件は非常に具体的であるため、あなたが望むものを正確に実行するオープンソース製品が存在する可能性はほとんどありません。

ただし、Web クローラーを構築するためのオープンソース フレームワークは数多くあります。どちらを使用するかは、言語の好みによって異なります。

例えば:

通常、これらのフレームワークは、指定したルールに基づいてサイトのページをクロールおよびスクレイピングするためのクラスを提供しますが、独自のコードをフックして必要なデータを抽出するのはユーザーの責任です。

他のヒント

Googleウェブマスターツールのウェブベースのサービスです。 (むしろオンデマンドボットより)、そしてそれはあなたが求めてきましたすべて行っていない - しかし、それはそれとあなたが求めていない多くのもののいくつかを行うには、ない - Googleからのもの - それをなし疑いが一致してあなたの奇数 "など、などがGoogleの品質REQSに等しい。" の他のどこよりも良いでしょう。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top