Google検索アプライアンスは、サイト上の壊れたリンクを示すレポートを生成できますか?
-
03-07-2019 - |
質問
(PageRankアルゴリズムの要因として)Google検索アプライアンスがこの情報にアクセスできることは知っていますが、クローラーアプライアンスからこの情報をエクスポートする方法はありますか?
コンテンツの大部分が企業イントラネット用であるため、外部ツールは機能しません。
解決 4
Xenuという無料のツールが、このタスクに最適な武器であることが判明しました。 http://home.snafu.de/tilman/xenulink.html#Download
他のヒント
Googleで入手できるものかもしれませんが、チェックしたことがありません。通常、 W3Cが提供するリンクチェッカーを使用します。 W3Cはリダイレクトを検出することもできます。これは、サーバーが404ステータスコードを返す代わりにリダイレクトすることで404を処理する場合に便利です。
Googleウェブマスターツールを使用して、特に壊れたリンクを表示できますあなたのサイト。
ただし、外部サイトへのリンク切れは表示されません。
これは不可能なようです。 [ステータスとレポート]>クロール診断があります 2つのスタイルのレポートが利用可能:ディレクトリドリルダウン「ツリービュー」 一度に100個のURL「リストビュー」。一部の人々は、リストビューを介してページングするプログラムを作成しようとしました しかし、これは数千のURLの後に失敗するようです。
代わりにサーバーログを使用することをお勧めします。 Webサーバーで404およびリファラーURLロギングが有効になっていることを確認してください。 おそらく、壊れたリンクを含むページを修正する必要があるからです。
その後、ログファイルアナライザーを使用して、リンク切れレポートを生成できます
壊れたリンクを効果的かつ長期的に監視する方法を作成するには、cronジョブをセットアップして次のことを行うことができます。
-
grep
を使用して、サーバーログファイルから404エントリを含む行を抽出します。 -
sed
を使用して、要求されたURLとリファラーURLを除くすべての行をすべての行から削除します。 -
sort
およびuniq
コマンドを使用して、リストから重複を削除します。 - 変更を経時的に監視できるように、毎回結果を新しいファイルに出力します。
ウェブサーバーのログを分析して、すべての404ページを探すだけではどうですか?それははるかに理にかなっており、はるかに信頼できます。
これは古い質問ですが、GSA管理コンソールでURLのエクスポート機能を使用して、not_foundの状態のURLを探すことができます。これにより、GSAが検出したがクロールしようとしたときに404を返したすべてのURLが表示されます。