Где поисковые системы начинают ползать?

StackOverflow https://stackoverflow.com/questions/41419

  •  09-06-2019
  •  | 
  •  

Вопрос

Что боты поисковых систем используют в качестве отправной точки? Это поиск DNS или они начинаются с какого-то фиксированного списка известных сайтов? Какие-нибудь догадки или предложения?

Это было полезно?

Решение

Ваш вопрос можно интерпретировать двумя способами:

Вы спрашиваете, откуда поисковые системы вообще начинают сканирование, или где они начинают сканировать определенный сайт?

Я не знаю, как работают крупные игроки; но если бы вы создали собственную поисковую систему, вы бы наверняка заполнили ее популярными сайтами портала. DMOZ.org , кажется, является популярным началом точка. Поскольку у крупных игроков гораздо больше данных, чем у нас, они, вероятно, начинают сканирование с разных мест.

Если вы спрашиваете, где SE начинает сканировать ваш конкретный сайт, это, вероятно, связано с тем, какие из ваших страниц наиболее популярны. Я полагаю, что если у вас есть одна суперпопулярная страница, на которую ссылаются многие другие сайты, то это будет страница, с которой запускаются SE, потому что существует намного больше точек входа с других сайтов.

Обратите внимание, что я не в SEO или что-то еще; Я просто некоторое время изучал бот и SE трафик для проекта, над которым работал.

Другие советы

Вы можете отправить свой сайт поисковым системам, используя их формы отправки сайта - это поможет вам в их систему. Когда вы на самом деле сканируете после этого, это невозможно сказать - по опыту это обычно около недели или около того для первоначального сканирования (домашняя страница, пара других страниц, 1-я ссылка оттуда). Вы можете увеличить количество сканируемых и проиндексированных страниц, используя четкую семантическую структуру ссылок и отправив карта сайта - они позволяют перечислять все ваши страницы и взвешивать их по отношению друг к другу, что помогает поисковым системам понять, насколько важно просматривать каждую часть сайта относительно других.

Если ваш сайт связан с другими просканированными сайтами, ваш сайт также будет сканироваться, начиная со страницы, на которую ведут ссылки, и в конечном итоге распространяясь на остальную часть вашего сайта. Это может занять много времени и зависит от частоты сканирования ссылочных сайтов, поэтому отправка URL-адреса - это самый быстрый способ сообщить о вас Google!

Одним из инструментов, который я не могу рекомендовать достаточно высоко, является Инструмент Google для веб-мастеров . Он позволяет вам видеть, как часто вы сканировали, любые ошибки, с которыми сталкивался робот Google (неработающие ссылки и т. Д.), А также множество других полезных инструментов.

В принципе они начинаются с нуля. Только когда кто-то прямо скажет им включить свой веб-сайт, он может начать сканировать этот сайт и использовать ссылки на этом сайте для дополнительного поиска.

Однако на практике создатель (и) поисковой системы размещает некоторые произвольные сайты, о которых они могут подумать. Например, их собственные блоги или сайты, которые они имеют в своих закладках.

Теоретически можно просто выбрать несколько случайных адресов и посмотреть, есть ли там сайт. Я сомневаюсь, что кто-то делает это, хотя; вышеуказанный метод будет работать нормально и не требует дополнительного кодирования только для начальной загрузки поисковой системы.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top