Google（またはGoogleBot）が500エラーを返すページをインデックスするのはなぜですか？

https://stackoverflow.com/questions/1308905

19-09-2019
|

質問

GoogleBotは、クエリ文字列パラメーターを使用してサイトの1つをインデックスすることがあります。このクエリ文字列パラメーターをどのように取得しているのかわかりません（悪いリンクで私たちにリンクするサイトはないようで、私たちのサイトには悪い値を挿入しているものはありません）。悪いパラメーターにより、予想されるように、サイトは500エラーをスローします。

Googleは500エラーを返すページをインデックスしないという印象を受けていましたが、そうであることがわかりました。だから今、私は2つの質問があります：

1）GoogleBotがランダムなクエリ文字列値を挿入するのはなぜですか？（私はこの質問に対する答えを本当に気にしませんが、それを避けるために何かをすることができれば、それは私たちの問題を解決します。）

2）Googleが500エラーを返すページにGoogleがインデックスするのはなぜですか？

これは、GoogleBotが作成した誤ったリンクの1つであり、Googleがインデックスを作成したことです。

http://www.pbs.org/teacherline/catalog/browse/?sa=4&gb=baqhuxts&gb=20&gb=21&num=20&page=2&js=0&sa=1

悪いパラメーターはgb = baqhuxtsです。パラメーター「GB」は整数になると予想されます。クエリ文字列からそのパラメーターを削除する場合は、素敵なカタログページを表示する必要があります。

nofollow and robots.txtソリューションについて：[編集

私は今、私がバカであることに気づき、ページにインデックスを付けて検索ロボットを伝えるメタタグを付けました。それは愚かなことでした。私はそれらを削除しています。 w-（

もし、あんたが Googleで「baqhuxts」を検索してくださいこの悪いパラメーターで10ページのインデックスを作成したことがわかります。ただし、これらの各ページは500エラーを返します。 Googleがこれらがインデックスを作成する有効なページであるとGoogleが信じている理由について洞察を持っている人はいますか？

解決

It's probably because you are telling Google to index it by having this in your meta-tags:

<meta name="robots" content="index,follow">

Try removing that! :)

他のヒント

unfortunately i know only the answer to #1:

google will crawl weird pages like that because people with google toolbar go to pages that dont exist, and their browsing information is transmitted to google. This is why you will often find pages indexed that have no business being indexed, for example, phpmyadmin pages that arent linked to from anywhere.

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow