検索エンジンはどこからクロールを開始しますか?

https://stackoverflow.com/questions/41419

search-engine

09-06-2019
|

質問

検索エンジンボットは何を出発点として使用しますか?それは DNS ルックアップでしょうか、それともよく知られたサイトの固定リストから始まるのでしょうか?何か推測や提案はありますか？

解決

あなたの質問は次の 2 つの方法で解釈できます。

検索エンジンが一般にどこからクロールを開始するのか、それとも特定のサイトのクロールをどこから開始するのかを尋ねているのでしょうか?

大手企業がどのように機能するかはわかりません。しかし、独自の検索エンジンを作成する場合は、おそらく人気のあるポータルサイトをシードすることになるでしょう。 DMOZ.org 人気の出発点のようです。大手企業は私たちよりもはるかに多くのデータを持っているため、おそらくさまざまな場所からクロールを開始します。

SE があなたの特定のサイトをどこからクロールし始めるのかを尋ねる場合、それはおそらく、どのページが最も人気があるかに大きく関係しています。他の多くのサイトからリンクされている非常に人気のあるページが 1 つある場合、他のサイトからのエントリーポイントはさらにたくさんあるため、SE が開始するページはそのページになると思います。

私は SEO などの専門家ではないことに注意してください。取り組んでいたプロジェクトのために、ボットと SE のトラフィックについて少し勉強したところです。

他のヒント

サイトを検索エンジンに送信するには、サイト送信フォーム - これにより、あなたは彼らのシステムに入ることができます。実際にその後クロールされるときは何とも言えません。経験上、最初のクロール (ホームページ、そこから 1 リンクの深さの他のいくつかのページ) には通常約 1 週間ほどかかります。明確なセマンティックリンク構造を使用し、サイトマップ - これらにより、すべてのページをリストし、各ページに相対的な重み付けを行うことができます。これにより、サイトの各部分が他の部分と比較してどれだけ重要であるかを検索エンジンが理解するのに役立ちます。

あなたのサイトが他のクロールされた Web サイトからリンクされている場合、あなたのサイトもクロールされ、リンクされたページから始まり、最終的にはサイトの残りの部分に広がります。これには長い時間がかかる場合があり、リンク先サイトのクロール頻度によって異なります。そのため、URL の送信が Google にあなたのことを知らせる最も簡単な方法です。

あまりお勧めできないツールの 1 つは、 Google ウェブマスターツール. 。これにより、クロールされた頻度、Googlebot が遭遇したエラー (リンク切れなど) を確認できるほか、他にも便利なツールが多数含まれています。

原則的には何もない状態から始まります。誰かが自分の Web サイトを含めるように明示的に指示した場合にのみ、このサイトのクロールを開始し、そのサイト上のリンクを使用してさらに検索することができます。

ただし、実際には、検索エンジンの作成者は、思いつく限りの任意のサイトをいくつか追加します。たとえば、自分のブログやブックマークに登録されているサイトなどです。

理論的には、ランダムなアドレスをいくつか選択して、そこに Web サイトがあるかどうかを確認することもできます。しかし、これを行う人はいないでしょう。上記の方法は問題なく機能し、検索エンジンをブートストラップするためだけに追加のコーディングは必要ありません。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow