Question

Je dois souvent travailler avec des sites Web existants fragiles qui rompent de manière inattendue lorsque la logique ou la configuration sont mises à jour.

Je n'ai pas le temps ou la connaissance du système nécessaire pour créer un script Sélénium. D'ailleurs, je ne veux pas vérifier un cas d'utilisation spécifique - je veux vérifier tous les liens et la page sur le site.

Je voudrais créer un test de système automatisé qui araignée à travers un site et vérifier les liens brisés et les accidents. Idéalement, il y aurait un outil que je pourrais utiliser pour y parvenir. Il devrait avoir le plus grand nombre possible des caractéristiques suivantes, par ordre décroissant de priorité:

  • Déclenché via le script
  • Ne nécessite pas l'interaction humaine
  • Follows tous les liens, y compris les balises d'ancrage et des liens vers des fichiers CSS et js
  • Produit un journal de tous les 404s trouvés, 500s etc.
  • Peut être déployé localement pour vérifier les sites sur intranets
  • Prise en charge des cookies / authentification par formulaire
  • libre / open source

Il existe de nombreuses solutions partielles là-bas, comme FitNesse , LinkChecker Firefox et la lien W3C vérificateur , mais aucun d'entre eux tout ce que je besoin.

Je voudrais utiliser ce test avec des projets en utilisant une gamme de technologies et de plates-formes, donc plus la solution portable mieux.

Je sais que cela ne remplace pas les tests appropriés du système, mais il serait très utile si j'avais un moyen pratique et automatisable de vérifier qu'aucune partie du site était évidemment cassé.

Était-ce utile?

La solution

J'utilise Link Sleuth de Xenu pour ce genre de chose. vérifier rapidement pour pas deadlinks etc. sur un / tout autre site. Il suffit de pointer à tout URI et ça va araignée tous les liens sur ce site.

Desription du site:

  

Link Sleuth Xenu (TM) vérifie Web   les sites de liens brisés. Lien   la vérification se fait sur « normal »   liens, images, cadres, plug-ins,   arrière-plans, cartes d'image locales, le style   feuilles, des scripts et des applets java. Il   affiche une liste mise à jour de façon continue   URL que vous pouvez trier les différentes   Critères. Un rapport peut être produit à   tout moment.

Il répond à toutes les exigences que vous êtes en plus d'être scriptable comme il est une application Windows qui nécessite le démarrage manuel.

Autres conseils

Nous utilisons et vraiment Linkchecker:

http://wummel.github.io/linkchecker/

Il est open source, Python, la ligne de commande, déployable en interne, et les sorties à une variété de formats. Le développeur a été très utile quand nous l'avons contacté des questions.

Nous avons un script Ruby qui interroge notre base de données de sites Web internes, démarre LinkChecker avec les paramètres appropriés pour chaque site, et analyse le XML qui LinkChecker nous donne pour créer un rapport d'erreur personnalisé pour chaque site dans notre CMS.

Quelle partie de votre liste ne le lien W3C vérificateur ne répond? Ce serait celui que je voudrais utiliser.

Vous pouvez également twill (basé sur Python) est un langage peu intéressant pour ce genre de chose. Il a une module de vérificateur mais je ne pense pas que cela fonctionne de manière récursive, de sorte que est pas si bon pour spidering. Mais vous pouvez le modifier si vous êtes à l'aise avec cela. Et je peux me tromper, il pourrait y avoir une option récursive. La peine de vérifier, de toute façon.

Vous pouvez essayer d'utiliser pour cette wget. Il peut araignée un site, y compris les « articles de page » (à savoir les fichiers) et peut être configuré pour enregistrer des erreurs. Je ne sais pas si elle aura assez d'informations pour vous, mais il est gratuit et disponible sous Windows (Cygwin), ainsi que unix.

InSite est un programme commercial qui semble faire ce que vous voulez ( ont pas utilisé).

Si j'étais dans vos chaussures, je serais probablement écrire ce genre d'araignée moi-même ...

Je ne suis pas sûr qu'il supporte l'authentification de la forme, mais il traitera les cookies si vous pouvez l'obtenir en cours sur le site et sinon je pense checkbot fera tout sur votre liste. Je l'ai utilisé comme une étape dans le processus de construction avant de vérifier que rien de cassé sur un site. Il y a un exemple de sortie sur le site.

Je l'ai toujours aimé linklint pour vérifier les liens sur un site. Cependant, je ne pense pas qu'il répond à tous vos critères, en particulier les aspects qui peuvent être dépendants JavaScript. Je pense aussi qu'il va manquer les images appelées à l'intérieur CSS.

Mais pour spidering tous les points d'ancrage, il fonctionne très bien.

SortSite . Ce n'est pas libre, mais semble faire tout ce dont vous avez besoin et plus encore.

Vous pouvez également PowerMapper de la même société a une approche similaire mais-différent. Ce dernier vous donnera moins d'informations sur l'optimisation détaillée de vos pages, mais encore d'identifier tous les liens cassés, etc.

Disclaimer: J'ai un intérêt financier dans la société qui fabrique ces produits

.

http://www.thelinkchecker.com est une application en ligne qui vérifie nombre de liens sortants, classement de la page, l'ancre, le nombre de liens sortants. Je pense que c'est la solution dont vous avez besoin.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top