Pergunta

Estamos usando o serviço pago do Google CSE (mecanismo de pesquisa personalizado) para indexar conteúdo em nosso site. O site é construído principalmente com as páginas PHP que são montadas com arquivos incluem, mas existem algumas páginas dinâmicas que extraem informações de um banco de dados em um modelo de página única (novos lançamentos, por exemplo). O problema que temos é que eu posso definir uma data de expiração no conteúdo no banco de dados, então diga "id = 2" exibirá um aviso "Este conteúdo expirou". No entanto, se o ID 2 tivesse um PDF carregado conectado a ele, o arquivo PDF permanecerá no índice de pesquisa.

Eu sei que eu poderia escrever um script de limpeza e fazer com que o Cron o analise, encontre conteúdo expirado, verifica se algum arquivo enviado foi anexado e renomeia ou remove -os, mas deve haver uma solução melhor (espero ).

Informe -me se você encontrou isso no passado e o que você sugere.

Obrigado, D.

Foi útil?

Solução 2

O que acabamos fazendo foi amarrar um script de verificação ao script de upload que, depois de concluir o upload atual, os arquivos antigos eram "desvinculados" e os registros do banco de dados foram excluídos.

Para nós, isso funciona porque é uma espécie de situação "Adicionar um/Remover um", em que queremos que um número de itens apareça em uma ordem de rolamento.

Outras dicas

Infelizmente, não há como dar uma resposta direta neste momento: não temos conhecimento de como seus PDFs estão "anexados" às suas páginas ou como seu banco de dados está estruturado.

A melhor solução seria criar um robots.txt Arquivo que bloqueia os URLs para os arquivos PDF específicos que você deseja remover. O Google os soltará do índice em seu próximo passe (geralmente em cerca de uma hora).

http://www.robotstxt.org/

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top