なぜGooglebotを横断したサイトの昇順でのURLすか？

https://stackoverflow.com/questions/1666464

13-09-2019
|

質問

Googlebot(Googlebot/2.1 が表示され耐震性の低い住宅では、倒壊URL:sを新たに加えたサイトの注文に対応する長さのURL:

.. GET /ivjwiej/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /voeoovo/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /zeooviee/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oveizuee/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /veiiziuuy/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oweoivuuu/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /oeppwoovvw/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..
.. GET /aabieuuzii/ HTTP/1.1" 200 .. "Mozilla/5.0 (compatible; Googlebot/ ..

私がこの正確なパターンは複数の(>10)完全に独立したサイトの順序はランダムに偶然です。

で混乱を避けるために:あなたの隣に這い順序できるように聞こえるかもしれないが軽微であり、詳細にどのようにGooglebot動作します。ありになっているので微細部もしかしたいを理解する技術の内容がどのようGooglebot這。やあなたの隣に這い順序がその一つです。していると確信している場合は、この作品の知識には"なし"であり、完全に細かないでください汚染このページに回答して貢献するとは思います。答えはあるdownvotedに基づく内です。

私の質問:

していすす個人的なブログを読んなど）これだけクロールパターン?
あなたの隣に這いパターンを正式に文書化されGoogle?
これは、理由の選択このクロールパターン?

してみてくださいアドレスすべての3ない。

解決

（私はURLがインデックス化され、正確を追跡することはありませんが）

私はこのようなものを経験していません。私の経験では、Googleのインデックスには、URLには、最も人気のある第一と考えています。それは、高ランクのページから、または多くのページからリンクを見ればたとえば、同じサイト上で他の人の前にそれをクロールします。

あなたのケースのために私は考えることができる唯一の理由は、Googlebotが長いURLが「深い」のページに同一視を前提としていますが、フォルダ構造を無視していることである。

他のヒント

ウェブ開発の観点から、この非ランダムクロールパターンすることができます予期しない結果を与えます。といった非ランダム負荷パターン1の場合特定のURLの長さは1に対応します特に重いの種類トランザクションなど。

あなたはエンジンのボットを検索するアクセスできるトランザクションのページを持っている場合は、

、その後、私はそれが失敗呼び出します。検索エンジンのボットは一切取引ページへのアクセスを持つべきではありません！いずれかのrobots.txtやメタロボットでページ上にインデックスを作成禁じます。

あなたの3つの質問は、このように役に立たない - Googleは彼らが使用する任意のアルゴリズムを文書化しません。さらに、クロールの順序が知っている（または操作しようと）し、完全に役に立たない、基本的に、あなたは気にして（あなたはrobots.txtの中で禁じるものを除く）可能としてインデックスとして多くのページを取得する必要はありませんので、ます。

No
No
とは思っていないことをあなたの隣に這いパターンを実際にいる。シーケンス人ホームページの事項を内容とってもエラーがアクセスを正しく行えるかどうかであるしい何かを真剣に間違っているサイトの構造（あるいはごrobots-metatags/robots.txt).

このサイトに観察する私のプロジェクトをGoogleが耐震性の低い住宅では、倒壊のページでは、ボットを見出した。このように"現在"をGoogleによる本サイトへのリンクは、サイトマップ、rssフィード等）

なんとても心配しなくてよいでしょう約URLの長さではなく、リンクのページにたいすると無効となりますので、顕著regularily這ページです。

3：たぶん、ツリーデータ構造のボット店のURL文字列をゴーグル。最短で最初のURLは次のようにURLの「語尾が」唯一の木の葉のように追加しますツリーのルートです。これは、（/ LANG_ENGLISH / / lang_italian / / lang_german /ような場合には例えば）別の文字列として、各URLを記憶するよりも最適であろう。

なりません.
No.
この行動が本当に変わっていますが、されてはいかがでしょうかは、結果の集偶然ではなくクロールパターンです。残念ながら私を必要とするデータ（実際のアクセスログ）の前に主張.その原因:1.はUrlに掲載されているサイトマップ?2.ているUrlを注文はアルファベットすることにあります。3.ために、通常のUrlで表示されます。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow