Domanda

Stiamo usando il Google CSE (motore di ricerca personalizzato) ha pagato il servizio per indicizzare i contenuti sul nostro sito web. Il sito è costruito per lo più di pagine PHP che vengono assemblati con includono file, ma ci sono alcune pagine dinamiche che tirano informazioni da un database in un singolo modello di pagina (nuove release per esempio). Il problema che abbiamo è che posso impostare una data di scadenza sul contenuto del database in modo da dire "id = 2" si apre una "Questo contenuto è scaduto" avviso. Tuttavia, se l'ID 2 avesse un PDF caricato collegato ad esso, il file PDF rimane nell'indice di ricerca.

So che avrei potuto scrivere uno script di pulizia e hanno cron eseguirlo che guarda al db, trova scaduti i contenuti, controlla per vedere se sono stati attaccati tutti i file caricati e sia rinomina o li rimuove, ma ci deve essere una soluzione migliore (spero).

Per favore fatemi sapere se avete riscontrato questo in passato, e ciò che lei suggerisce.

Grazie, D.

È stato utile?

Soluzione 2

Quello che abbiamo finito per fare stava legando uno script di controllo per lo script di upload che, una volta completato il caricamento in corso, i vecchi file erano "scollegati" e il record DB sono stati cancellati.

Per noi, questo funziona perché è una specie di "aggiungere uno / rimuovere una" situazione in cui si vuole un certo numero di elementi di apparire in un ordine di laminazione.

Altri suggerimenti

Non c'è purtroppo alcun modo per dare una risposta diretta in questo momento:. Non abbiamo alcuna conoscenza di come i file PDF sono "attaccati" alle pagine o come il vostro DB è strutturato

La soluzione migliore sarebbe quella di creare un file robots.txt che blocca gli URL per i particolari file PDF che si desidera rimuovere. Google rilasciarli dall'indice sul suo prossimo passaggio (di solito in circa un'ora).

http://www.robotstxt.org/

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top