ボット Web の品質

https://stackoverflow.com/questions/1658069

11-09-2019
|

質問

Googleのインデックス作成にしばしば必要となる、品質を判断するための優れたオープンソースボットを探しています。

例えば

重複したタイトルを見つける
無効なリンク (jspider はこれを行います、そしてもっと多くのものがこれを行うと思います)
まったく同じページですが、URLが異なります
など。ここで、etc は Google の品質要件と同じです。

解決

あなたの要件は非常に具体的であるため、あなたが望むものを正確に実行するオープンソース製品が存在する可能性はほとんどありません。

ただし、Web クローラーを構築するためのオープンソースフレームワークは数多くあります。どちらを使用するかは、言語の好みによって異なります。

例えば：

Python の場合は、試してくださいスクレイピー
Javaの場合は、試してくださいクモ類
Ruby の場合は、試してくださいアネモネ
パールの場合、試す WWW::スパイダー

通常、これらのフレームワークは、指定したルールに基づいてサイトのページをクロールおよびスクレイピングするためのクラスを提供しますが、独自のコードをフックして必要なデータを抽出するのはユーザーの責任です。

他のヒント

の Googleウェブマスターツールののウェブベースのサービスです。（むしろオンデマンドボットより）、そしてそれはあなたが求めてきましたすべて行っていない - しかし、それはそれとあなたが求めていない多くのもののいくつかを行うには、ない - Googleからのもの - それをなし疑いが一致してあなたの奇数 "など、などがGoogleの品質REQSに等しい。" の他のどこよりも良いでしょう。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow