Domanda

Mi rimbalza tra questo distacco qui e su Superuser. Vi prego di scusarmi se credi che questo non appartiene qui.

sto osservando il comportamento descritto qui - Googlebot richiede indirizzi casuali sul mio sito, come aecgeqfx.html o sutwjemebk.html. Sono sicuro che non stanno collegando questi URL da qualsiasi luogo sul mio sito.

Ho il sospetto che questo può essere google sondando come gestiamo contenuti inesistente - per citare da una risposta alla domanda collegata:

 [google is requesting random urls to] see if your site correctly 
 handles non-existent files (by returning a 404 response header)

Abbiamo una pagina personalizzata per i contenuti inesistente - di una pagina in stile dicendo "Contenuto non trovato, se si crede è arrivato qui da errore, vi preghiamo di contattarci", con un paio di link interni, servito (naturalmente) con un 200 OK. L'URL viene servita direttamente (senza reindirizzamento a un singolo URL).

Temo che questo può discriminare il sito a Google - essi non possono interpretare la pagina facile da usare come un 404 - not found e possono pensare che stiamo cercando di falsificare qualcosa e fornire contenuti duplicati

.

Come devo procedere per garantire che Google non pensa che il sito è fasullo, fornendo all'utente messaggio amichevole per gli utenti nel caso in cui cliccare sul link morti da incidente?

È stato utile?

Soluzione

La pratica migliore sarebbe quella di restituire l'amichevole 404 pagina utente con un codice di risposta 404, non un 200. Il server web dovrebbe gestire questo per voi in modo relativamente semplice.

Altri suggerimenti

Utilizzare ErrorDocument in Apache

ErrorDocument 500 http://foo.example.com/cgi-bin/tester
ErrorDocument 404 /cgi-bin/bad_urls.pl
ErrorDocument 401 /subscription_info.html
ErrorDocument 403 "Sorry can't allow you access today"

Il documento di errore può essere quello che si desidera. Ex se si utilizza PHP è possibile creare un file chiamato error404.php in questo modo:

<?php
header("HTTP/1.0 404 Not Found");

echo 'Hi, this page does not exist...<img src="nice-logo.png" alt="logo" />'


?>

L'unica cosa che è importante è che il risposta deve includere un 404 codice corretto nell'intestazione -. Emesso da Apache, PHP o qualsiasi altro script dinamici

Esempio di divertente 404: http://www.northernbrewer.com/brewing/weekly_fermenterd

È ancora possibile inviare uno stato di 404 e fornire messaggi di facile utilizzo per i collegamenti morti nella stessa risposta. Anche "utenti normali" dovrebbe ottenere lo status 404 anche se la pagina non sembra la pagina tipico fallimento. Come intercettare la richiesta dipende dal vostro server web. Che sta per essere molto più facile che la rilevazione della user-agent e di fare qualcosa di diverso per Googlebot.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top