Удаление загруженных файлов из Google по истечении срока действия элемента

StackOverflow https://stackoverflow.com/questions/2304959

  •  21-09-2019
  •  | 
  •  

Вопрос

Мы используем платный сервис Google CSE (Пользовательская поисковая система) для индексации контента на нашем веб-сайте.Сайт построен в основном из PHP-страниц, которые собраны с включаемыми файлами, но есть некоторые динамические страницы, которые извлекают информацию из базы данных в одностраничный шаблон (например, новые версии).Проблема, с которой мы сталкиваемся, заключается в том, что я могу установить дату истечения срока действия содержимого в базе данных, поэтому, скажем, "id = 2", появится уведомление "Срок действия этого содержимого истек".Однако, если к идентификатору 2 был прикреплен загруженный PDF-файл, PDF-файл остается в поисковом индексе.

Я знаю, что мог бы написать скрипт очистки и заставить cron запустить его, который просматривает базу данных, находит содержимое с истекшим сроком действия, проверяет, были ли прикреплены какие-либо загруженные файлы, и либо переименовывает, либо удаляет их, но должно быть лучшее решение (я надеюсь).

Пожалуйста, дайте мне знать, сталкивались ли вы с этим в прошлом и что вы предлагаете.

Спасибо, Ди.

Это было полезно?

Решение 2

В итоге мы привязали сценарий проверки к сценарию загрузки, чтобы после завершения текущей загрузки старые файлы были "отсоединены", а записи в базе данных удалены.

Для нас это работает, потому что это своего рода ситуация "добавить один / удалить один", когда мы хотим, чтобы определенное количество элементов отображалось в скользящем порядке.

Другие советы

К сожалению, на данный момент нет возможности дать вам прямой ответ:мы ничего не знаем о том, как ваши PDF-файлы "прикреплены" к вашим страницам или как структурирована ваша база данных.

Лучшим решением было бы создать robots.txt файл, который блокирует URL-адреса для конкретных PDF-файлов, которые вы хотите удалить.Google удалит их из индекса при следующем переходе (обычно примерно через час).

http://www.robotstxt.org/

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top