Запретить Google индексировать

https://stackoverflow.com/questions/390368

google-index

23-08-2019
|

Вопрос

Есть ли способ запретить Google индексировать сайт?

Решение

robots.txt

User-agent: *
Disallow: /

это заблокирует индексацию всех поисковых ботов.

для получения дополнительной информации см.:http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=40360

Другие советы

Я должен добавить сюда свой ответ, так как принятый ответ на самом деле не касается проблемы должным образом.Также помните, что запрет на сканирование Google не означает, что вы можете сохранить конфиденциальность своего контента.

Мой ответ основан на нескольких источниках: https://developers.google.com/webmasters/control-crawl-index/docs/getting_started https://sites.google.com/site/webmasterhelpforum/en/faq--crawling--indexing---ranking

robots.txt файлы контролируют сканирование, но не индексирование!Это два совершенно разных действия, выполняемых отдельно.Некоторые страницы могут сканироваться, но не индексироваться, а некоторые даже могут быть проиндексированы. но никогда не ползал.Ссылка на несканируемую страницу может существовать на других веб-сайтах, что заставит индексатор Google следовать за ней и попытаться проиндексировать.

Вопрос касается индексации, которая собирает данные о странице, чтобы она могла быть доступна в результатах поиска.Его можно заблокировать добавлением метатега:

<meta name="robots" content="noindex" />

или добавление HTTP-заголовка в ответ:

X-Robots-Tag: noindex

Если вопрос о сканировании, то, конечно, вы можете создать robots.txt файл и вставьте следующие строки:

User-agent: *
Disallow: /

Сканирование — это действие, выполняемое для сбора информации о структуре одного конкретного веб-сайта.Например.вы добавили сайт через Инструменты Google для веб-мастеров.Краулер примет это во внимание и посетит ваш сайт в поисках robots.txt.Если он ничего не находит, то он предполагает, что может просканировать что угодно (очень важно иметь sitemap.xml файл, чтобы помочь в этой операции, а также указать приоритеты и частоту изменений).Если он найдет файл, он будет следовать правилам.После успешного сканирования в какой-то момент он запустит индексацию просканированных страниц, но вы не можете сказать, когда...

Важный:все это означает, что ваша страница по-прежнему может отображаться в результатах поиска Google независимо от robots.txt.

Я надеюсь, что хотя бы некоторые пользователи прочитают этот ответ и поймут его, поскольку очень важно знать, что происходит на самом деле.

Вы можете отключить этот сервер в целом, добавив приведенный ниже параметр глобально в apache conf, или те же параметры можно использовать в vhost для его отключения только для определенного vhost.

Набор заголовков X-Robots-Tag "noindex, nofollow"

Как только это будет сделано, вы можете протестировать его, проверив возвращаемые заголовки Apache.

curl -i staging.mywebsite.com http/1.1 302 Дата найдена:Сб, 26 ноября 2016 г. 22:36:33 GMT Server:Apache/2.4.18 (Ubuntu) Местоположение:/ pages/ x-robots-tag:noindex, nofollow content-type:текст/html;кодировка = UTF-8

Есть несколько способов остановить сканеры, включая Google, чтобы остановить сканирование и индексацию вашего сайта.

На уровне сервера через заголовок

Header set X-Robots-Tag "noindex, nofollow"

На уровне корневого домена через файл robots.txt

User-agent: *
Disallow: /

На уровне страницы через метатег robots

<meta name="robots" content="nofollow" />

Однако я должен сказать, что если на вашем веб-сайте есть устаревшие и не существующие страницы/URL-адреса, вам следует подождать, пока Google автоматически деиндексирует эти URL-адреса при следующем сканировании — читайте https://support.google.com/webmasters/answer/1663419?hl=en

Имейте в виду, что сканер Microsoft для Bing, несмотря на их заявления о подчинении robots.txt, не всегда это делает.

Статистика наших серверов показывает, что у них есть несколько IP-адресов, на которых работают сканеры, не подчиняющиеся robots.txt, а также ряд тех, которые подчиняются.

Я использую простую страницу aspx для ретрансляции результатов из Google в мой браузер с помощью поддельного файла cookie Pref, который получает 100 результатов за раз, и я не хотел, чтобы Google видел эту страницу ретрансляции, поэтому я проверяю IP-адрес и запускается ли он. с 66.249 я просто делаю перенаправление.

Нажмите на мое имя, если вы цените конфиденциальность и хотите получить копию.

еще один трюк, который я использую, - это иметь некоторый javascript, который вызывает страницу для установки флага в сеансе, потому что большинство (НЕ ВСЕ) веб-ботов не выполняют javascript, поэтому вы знаете, что это браузер с отключенным javascript или это более чем вероятно. бот.

Также вы можете добавить мета-роботов следующим образом:

<head>
<title>...</title>
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
</head>

И еще один дополнительный уровень — изменить .htaccess, но вам нужно его тщательно проверить.

используйте метатег nofollow:

<meta name="robots" content="nofollow" />

Чтобы указать nofollow на уровне ссылки, добавьте к ссылке атрибут rel со значением nofollow:

<a href="example.html" rel="nofollow" />

Есть ли способ запретить Google индексировать сайт?

Чтобы остановить сканирование Google, просто добавьте следующее meta тег к head каждой страницы:

<meta name="googlebot" content="noindex, nofollow">

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow