Come impostare un robot.txt che consenta solo la pagina predefinita di un sito
-
09-06-2019 - |
Domanda
Diciamo che ho un sito su http://esempio.com.Mi piacerebbe davvero consentire ai bot di vedere la home page, ma qualsiasi altra pagina deve essere bloccata poiché è inutile spider.In altre parole
http://esempio.com & http://esempio.com/ dovrebbe essere consentito, mahttp://example.com/anything E http://example.com/someendpoint.aspx dovrebbe essere bloccato.
Inoltre sarebbe fantastico se potessi consentire a determinate stringhe di query di passare alla home page:http://esempio.com?okparam=true
Altri suggerimenti
Strumenti per i Webmaster di Google segnala che disallow ha sempre la precedenza su consenti, quindi non esiste un modo semplice per farlo in a robots.txt
file.
Potresti ottenere questo risultato inserendo a noindex,nofollow
META
tagga nell'HTML ogni pagina tranne la home page.
Robots.txt di base:
Disallow: /subdir/
Non penso che tu possa creare un'espressione che dica "tutto tranne la radice", devi compilare tutte le sottodirectory.
Anche la limitazione della stringa di query non è possibile da robots.txt.Devi farlo nel codice in background (la parte di elaborazione), o magari con le regole di riscrittura del server.
Disallow: *
Allow: index.ext
Se ricordo bene la seconda clausola dovrebbe sovrascrivere la prima.
Per quanto ne so, non tutti i crawler supportano il tag Consenti.Una possibile soluzione potrebbe essere quella di mettere tutto tranne la home page in un'altra cartella e disabilitare quella cartella.