質問

Windows Server 2008でSharePoint Server 2007を使用しています。SearchCenterを使用してWebデータソース(つまり、他のWebサイトからWebページをクロールする)をクロールしています。私の質問は、検索センターのWebデータソースログページに表示されるクロールされたページカウンターに関連しています。

私の質問は、3つのクロールカウンターが表示され、カウンターの成功、失敗カウンター、警告カウンターが表示されます。各カウンター値について、重複URLはありますか?たとえば、Webデータソースwww.mysite.comで報告されているため、1000が正常にrawい、10が失敗し、警告なしです。検索センターに1000個の異なるWebページが保存されていることを意味しますか? 1000カウントのページに重複したURLがあるかどうかはわかりませんか?

ところで:私は毎日の増分ページクロールを設定したので、この混乱があります。たとえば、 http://www.mysite.com/1.html クローラーは昨日も今日も(両方のケースがクロールに成功しています)、2回カウントされますか?カウンターの意味が何であるかについて、誰かがいくつかの文書を提供できたら感謝していますか?

事前に感謝します、ジョージ

役に立ちましたか?

解決

通常のWebサイトをcraう場合、各リンクに従うことになります。ページを複製するべきではありませんが、たとえば何度もホームページへの参照が表示されます。最終的には、クロールされたアイテムの数ではなく、インデックスカウントのアイテムを見ることにより、ページまたはアイテムの数を決定します。

ライセンス: CC-BY-SA帰属
所属していません sharepoint.stackexchange
scroll top