Pregunta

Estamos utilizando el Google CSE (Motor de búsqueda) servicio de pago para indexar el contenido en nuestro sitio web. El sitio está construido en su mayoría de páginas PHP que se ensamblan con incluir archivos, pero hay algunas páginas dinámicas que información tirón de una base de datos en una plantilla de página única (novedades, por ejemplo). El problema que tenemos es que puedo fijar una fecha de caducidad en el contenido de la base de datos para decir "id = 2" se abrirá una "Este contenido ha caducado" aviso. Sin embargo, si había una ID 2 PDF cargado unido a él, los restos de archivos PDF en el índice de búsqueda.

Sé que podría escribir un script de limpieza y cron he ejecutarlo que se ve en la db, hallazgos caducado contenido, comprueba si los archivos subidos se adjuntan y, o bien cambia el nombre o elimina ellos, pero tiene que ser una solución mejor (espero).

Por favor, hágamelo saber si ha encontrado esto en el pasado, y lo que sugieren.

Gracias, D.

¿Fue útil?

Solución 2

Lo que terminamos haciendo fue atar una secuencia check para el script de carga que una vez que se ha completado la carga actual, archivos viejos eran "desvinculado" y se eliminaron los registros de base de datos.

Para nosotros, esto funciona porque es una especie de una situación de "añadir una / desmontar uno" donde queremos un número determinado de artículos de que aparezca en un orden de rodadura.

Otros consejos

Hay por desgracia no hay manera de darle una respuesta clara en este momento:. No tenemos conocimiento de cómo sus archivos PDF están "conectados" a sus páginas o cómo su base de datos está estructurada

La mejor solución sería la creación de un archivo robots.txt que bloquea las direcciones URL de los archivos PDF en particular que desea eliminar. Google elimina desde el índice en su próximo pase (por lo general en aproximadamente una hora).

http://www.robotstxt.org/

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top