Есть ли способ запретить роботу Googlebot индексировать определенные части страницы?

StackOverflow https://stackoverflow.com/questions/1497445

Вопрос

Можно ли точно настроить директивы для Google до такой степени, чтобы они игнорировали часть страницы, но при этом индексировали остальные?

Есть пара различных проблем, с которыми мы столкнулись, которым это помогло бы, таких как:

  • RSS-лента / бегущая строка новостей - ввод текста на странице, отображающей контент из внешнего источника
  • пользователи вводят контактный телефон и т.д.подробности, которые хотят, чтобы они были видны на сайте, но предпочли бы, чтобы они не были доступны Google

Я знаю, что обе вышеперечисленные проблемы могут быть решены с помощью других методов (таких как написание контента с помощью JavaScript), но мне интересно, знает ли кто-нибудь, есть ли более чистый вариант, уже доступный в Google?

Я немного покопался в этом и наткнулся на упоминания о googleon и googleoff Теги, но они, похоже, предназначены исключительно для устройств поиска Google.

Кто-нибудь знает, существует ли аналогичный набор тегов, к которым будет привязан Googlebot?

Редактировать:Просто чтобы прояснить, я не хочу идти по опасному пути маскировки / предоставления различного контента Google, именно поэтому я хочу посмотреть, есть ли "законный" способ достичь того, что я хотел бы сделать здесь.

Это было полезно?

Решение

То, о чем вы просите, на самом деле невозможно выполнить, Google либо забирает всю страницу целиком, либо ничего из нее.

Вы могли бы проделать несколько хитрых трюков, например, вставить часть страницы, которую вы не хотите индексировать в iFrame, и использовать robots.txt, чтобы попросить Google не индексировать этот iFrame.

Другие советы

Короче говоря, НЕТ - если только Google не рекомендует использовать маскировку с помощью.

Пожалуйста, ознакомьтесь с официальной документацией здесь

http://code.google.com/apis/searchappliance/documentation/46/admin_crawl/Preparing.html

Перейдите в раздел "Исключение нежелательного текста из индекса".

<!--googleoff: index-->
here will be skipped
<!--googleon: index-->

Найден полезный ресурс для использования определенного дублирующего контента и запрещения индексации такого контента поисковой системой.

<p>This is normal (X)HTML content that will be indexed by Google.</p>

<!--googleoff: index-->

<p>This (X)HTML content will NOT be indexed by Google.</p>

<!--googleon: index>

На вашем сервере определите поискового бота по IP, используя PHP или ASP.Затем укажите IP-адресам, которые попадают в этот список, версию страницы, которую вы хотите проиндексировать.В этой версии вашей страницы, удобной для поисковой системы, используйте тег canonical link, чтобы указать поисковой системе версию страницы, которую вы не хотите индексировать.

Таким образом, страница с контентом, который вы хотите проиндексировать, будет проиндексирована только по адресу, в то время как будет проиндексирован только тот контент, который вы хотите проиндексировать.Этот метод не приведет к блокировке вас поисковыми системами и является полностью безопасным.

Да, определенно, вы можете запретить Google индексировать некоторые части вашего сайта, создав пользовательский robots.txt и напишите, какие части вы не хотите индексировать, например, wpadmins, или конкретный пост или страницу, чтобы вы могли легко это сделать, создав это robots.txt файл .перед созданием проверьте свой сайт robots.txt например www.yoursite.com/robots.txt.

Все поисковые системы либо индексируют, либо игнорируют всю страницу целиком.Единственный возможный способ реализовать то, что вы хотите, - это:

(a) иметь две разные версии одной и той же страницы

(b) определить используемый браузер

(c) Если это поисковая система, используйте вторую версию вашей страницы.

Эта ссылка может оказаться полезным.

Существуют мета-теги для ботов, а также есть robots.txt, с помощью которого вы можете ограничить доступ к определенным каталогам.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top