L'appliance di ricerca di Google può generare un rapporto che mostra collegamenti interrotti sul tuo sito?
-
03-07-2019 - |
Domanda
So che Google Search Appliance ha accesso a queste informazioni (dato che ciò influisce sull'algoritmo PageRank), ma c'è un modo per esportare queste informazioni dall'appliance di crawler?
Gli strumenti esterni non funzioneranno perché una parte significativa del contenuto è destinata a una rete Intranet aziendale.
Soluzione 4
Uno strumento gratuito chiamato Xenu si è rivelato essere l'arma preferita per questo compito. http://home.snafu.de/tilman/xenulink.html#Download
Altri suggerimenti
Potrebbe essere qualcosa disponibile su Google, ma non ho mai verificato. Di solito utilizzo il controllo link fornito da W3C . Il W3C può anche rilevare reindirizzamenti che è utile se il tuo server gestisce 404 reindirizzando invece di restituire un codice di stato 404.
Puoi utilizzare Strumenti per i Webmaster di Google per visualizzare, tra l'altro, collegamenti interrotti su il tuo sito.
Questo però non ti mostrerà collegamenti interrotti a siti esterni.
Sembra che ciò non sia possibile. In Stato e rapporti > Diagnostica per indicizzazione ci sono 2 stili di report disponibili: la directory drill-down 'Vista ad albero' e i 100 URL alla volta "Visualizzazione elenco". Alcune persone hanno provato a creare programmi per sfogliare la vista elenco ma questo sembra non riuscire dopo alcune migliaia di URL.
Il mio consiglio è di utilizzare invece i registri del server. Assicurati che la registrazione URL 404 e referrer sia abilitata sul tuo server web, poiché probabilmente vorrai correggere la pagina contenente il link non funzionante.
È quindi possibile utilizzare un analizzatore di file di registro per generare un rapporto di collegamento interrotto.
Per creare un modo efficace ea lungo termine di monitorare i collegamenti non funzionanti, è possibile impostare un processo cron per eseguire le seguenti operazioni:
- Utilizzare
grep
per estrarre le righe contenenti 404 voci dal file di registro del server. - Usa
sed
per rimuovere tutto tranne gli URL richiesti e gli URL referrer da ogni riga. - Utilizza i comandi
sort
euniq
per rimuovere i duplicati dall'elenco. - Invia ogni volta il risultato in un nuovo file in modo da poter monitorare le modifiche nel tempo.
Perché non semplicemente analizzare i log del tuo server web e cercare tutte le 404 pagine? Questo ha molto più senso ed è molto più affidabile.
So che questa è una vecchia domanda, ma è possibile utilizzare la funzione Esporta URL sulla console di amministrazione di GSA quindi cercare URL con uno stato not_found. Questo ti mostrerà tutti gli URL che GSA ha scoperto ma gli ha restituito un 404 quando ha tentato di scansionarli.