Domanda

Spesso devo lavorare con i siti web legacy fragili che si rompono in modo inaspettato quando la logica o la configurazione vengono aggiornati.

Non ho il tempo o la conoscenza del sistema necessaria per creare un href="http://selenium.org/" rel="noreferrer"> Selenio sceneggiatura

Vorrei creare un test del sistema automatizzato che sarà ragno attraverso un sito e verificare la presenza di collegamenti interrotti e si blocca. Idealmente, ci sarebbe uno strumento che ho potuto usare per raggiungere questo obiettivo. Dovrebbe avere il maggior numero possibile delle seguenti funzioni, in ordine decrescente di priorità:

  • Viene attivato tramite script
  • Non richiede interazione umana
  • segue tutti i collegamenti tra i tag di ancoraggio e collegamenti a file CSS e JS
  • Produce un registro di tutte le 404 trovati, 500S etc.
  • possono essere implementate a livello locale per controllare i siti su reti Intranet
  • Supporta cookie / l'autenticazione basata su form
  • Free / Open source

Ci sono molte soluzioni parziali là fuori, come FitNesse , di Firefox LinkChecker e la W3C Link checker , ma nessuno di loro fare tutto quello che serve.

Vorrei utilizzare questo test con progetti che utilizzano una gamma di tecnologie e piattaforme, in modo che il più portabile la soluzione migliore.

realizzo questo non è un sostituto per il corretto test del sistema, ma sarebbe molto utile se avevo un modo conveniente ed automatizzabile di verificare che nessuna parte del sito era ovviamente rotto.

È stato utile?

Soluzione

Xenu Link Sleuth per questo genere di cose. controllare rapidamente per non deadlinks ecc su un / qualsiasi sito. Basta puntare in qualsiasi URI e si metterà a ragno tutti i link su quel sito.

Desription dal sito:

  

Xenu Link Sleuth (TM) controlla Web   siti per i collegamenti interrotti. collegamento   la verifica è fatto su "normale"   link, immagini, cornici, plug-in,   sfondi, mappe di immagini locali, stile   fogli, script e applet Java. esso   visualizza un elenco continuamente aggiornato delle   Gli URL che è possibile ordinare da diversi   criteri. Un report può essere prodotto in   qualsiasi momento.

Si riunisce tutti i sei requisiti oltre ad essere script in quanto è un'applicazione Windows che richiede manualmente a partire.

Altri suggerimenti

Usiamo e davvero come LinkChecker:

http://wummel.github.io/linkchecker/

E 'open-source, Python, riga di comando, internamente dispiegabile, ed emette ad una varietà di formati. Lo sviluppatore è stato molto utile quando l'abbiamo contattato i problemi.

Abbiamo uno script di Ruby che interroga il database di siti web interni, prende il via LinkChecker con i parametri appropriati per ogni sito, e analizza il XML che LinkChecker ci dà per creare un rapporto di errore personalizzato per ogni sito nel nostro CMS.

Quale parte del tuo elenco non il link checker W3C non soddisfa? Questo sarebbe quello che avrei usato.

In alternativa, twill (python-based) è un linguaggio interessante poco per questo genere di cose. Ha un modulo di collegamento checker ma non credo che funziona in modo ricorsivo, in modo che non così buono per spidering. Ma si potrebbe modificarlo se sei a tuo agio con questo. E potrei sbagliarmi, ci potrebbe essere una soluzione ricorsiva. La pena di verificare, in ogni caso.

Si potrebbe provare a utilizzare wget per questo. Può ragno un sito inclusi i file (cioè) "pagina divertimenti o" e può essere configurato per registrare gli errori. Non so se avrà abbastanza informazioni per voi, ma è gratuito e disponibile su Windows (Cygwin), così come UNIX.

InSite è un programma commerciale che sembra fare quello che vuoi ( non l'ho usato).

Se fossi nei tuoi panni, probabilmente sarei scrivo questo tipo di ragno me stesso ...

Non sono sicuro che supporta l'autenticazione forma ma sarà gestire i cookie, se si può farlo andare sul sito e altrimenti penso Checkbot farà tutto sulla vostra lista. Ho usato come un passo in processo di costruzione prima per controllare che nulla rotto su un sito. C'è un esempio uscita sul sito web.

Mi è sempre piaciuto linklint per il controllo di link su un sito. Tuttavia, non credo che soddisfa tutti i criteri, in particolare gli aspetti che possono essere dipendente JavaScript. Penso anche che salterà le immagini chiamato dall'interno CSS.

Ma per spidering tutte le ancore, funziona benissimo.

SortSite . Non è gratuito, ma sembra di fare tutto il necessario e di più.

In alternativa, PowerMapper dalla stessa azienda ha un approccio simile ma-differenti. Quest'ultimo vi darà meno informazioni sull'ottimizzazione dettagliata delle tue pagine, ma sarà comunque individuare eventuali collegamenti interrotti, ecc.

Disclaimer: io ho un interesse finanziario nella società che rende questi prodotti

.

http://www.thelinkchecker.com si tratta di un'applicazione online che controlla il numero di link in uscita, page rank, ancora, il numero di link in uscita. Penso che questa sia la soluzione di cui avete bisogno.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top