L'appliance di ricerca di Google può generare un rapporto che mostra collegamenti interrotti sul tuo sito?

StackOverflow https://stackoverflow.com/questions/418288

  •  03-07-2019
  •  | 
  •  

Domanda

So che Google Search Appliance ha accesso a queste informazioni (dato che ciò influisce sull'algoritmo PageRank), ma c'è un modo per esportare queste informazioni dall'appliance di crawler?

Gli strumenti esterni non funzioneranno perché una parte significativa del contenuto è destinata a una rete Intranet aziendale.

È stato utile?

Soluzione 4

Uno strumento gratuito chiamato Xenu si è rivelato essere l'arma preferita per questo compito. http://home.snafu.de/tilman/xenulink.html#Download

Altri suggerimenti

Potrebbe essere qualcosa disponibile su Google, ma non ho mai verificato. Di solito utilizzo il controllo link fornito da W3C . Il W3C può anche rilevare reindirizzamenti che è utile se il tuo server gestisce 404 reindirizzando invece di restituire un codice di stato 404.

Puoi utilizzare Strumenti per i Webmaster di Google per visualizzare, tra l'altro, collegamenti interrotti su il tuo sito.

Questo però non ti mostrerà collegamenti interrotti a siti esterni.

Sembra che ciò non sia possibile. In Stato e rapporti > Diagnostica per indicizzazione ci sono 2 stili di report disponibili: la directory drill-down 'Vista ad albero' e i 100 URL alla volta "Visualizzazione elenco". Alcune persone hanno provato a creare programmi per sfogliare la vista elenco ma questo sembra non riuscire dopo alcune migliaia di URL.

Il mio consiglio è di utilizzare invece i registri del server. Assicurati che la registrazione URL 404 e referrer sia abilitata sul tuo server web, poiché probabilmente vorrai correggere la pagina contenente il link non funzionante.

È quindi possibile utilizzare un analizzatore di file di registro per generare un rapporto di collegamento interrotto.

Per creare un modo efficace ea lungo termine di monitorare i collegamenti non funzionanti, è possibile impostare un processo cron per eseguire le seguenti operazioni:

  • Utilizzare grep per estrarre le righe contenenti 404 voci dal file di registro del server.
  • Usa sed per rimuovere tutto tranne gli URL richiesti e gli URL referrer da ogni riga.
  • Utilizza i comandi sort e uniq per rimuovere i duplicati dall'elenco.
  • Invia ogni volta il risultato in un nuovo file in modo da poter monitorare le modifiche nel tempo.

Perché non semplicemente analizzare i log del tuo server web e cercare tutte le 404 pagine? Questo ha molto più senso ed è molto più affidabile.

So che questa è una vecchia domanda, ma è possibile utilizzare la funzione Esporta URL sulla console di amministrazione di GSA quindi cercare URL con uno stato not_found. Questo ti mostrerà tutti gli URL che GSA ha scoperto ma gli ha restituito un 404 quando ha tentato di scansionarli.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top