Question

Serait-il beaucoup plus facile de créer une simple expression régulière pour rechercher des URL, puis d'avoir un autre script pour voir si ce site renvoie des données ou non ?Je me suis toujours demandé si ce serait une solution plus rapide et plus simple que de prendre des années pour développer l'URL "parfaite" détectant l'expression régulière, juste pour la faire écraser quelques jours plus tard.

Si quelqu'un peut trouver des tests de vitesse pour un accès/chargement de page de base, veuillez le poster ici pour aider à répondre à ma question.

De plus, à quel point serait-il difficile pour le serveur de faire constamment des requêtes comme celle-ci, disons...100 fois par heure ?

je vais tester ça avec Javascript, en utilisant /(http|www\.)\S+/gim comme regex et une connexion avec délai d'attente de 60 secondes à l'URL demandée.je ferai un simple « Prise de titre » à partir de l'URL, puis enregistrez la durée de l'essai.Je publierai les vitesses une fois que je les aurai toutes imaginées.

Ce n'est plus vraiment une question, donc si vous trouvez quelque chose qui m'aide vraiment avec mon idée ci-dessus, vous pourriez recevoir le glorieux Répondre Coche pour cette "question".

Était-ce utile?

La solution

Je pense que ce que @Kobi voulait dire, c'est que validité d'une URL est distincte de présence d'une ressource à cette URL.Une URL valide ne peut pas pointer vers une ressource actuelle.Par exemple, l'URL http://bclennox.com/there-is-no-page-at-this-address renverra un 404, échouant probablement à votre test même s'il s'agit d'une URL parfaitement valide.

Quoi qu'il en soit, si vous êtes principalement intéressé par le statut HTTP renvoyé pour une URL donnée, vous pouvez simplement émettre une requête HTTP HEAD plutôt qu'un GET normal.HEAD renvoie une charge utile beaucoup plus petite (uniquement les en-têtes), ce qui devrait accélérer considérablement vos requêtes.

Voici un exemple utilisant curl:

$ curl -I http://bclennox.com
HTTP/1.1 200 OK
Date: Thu, 15 Mar 2012 03:14:59 GMT
Server: Apache
X-Powered-By: Phusion Passenger (mod_rails/mod_rack) 3.0.9, Enterprise Edition
ETag: "39cf7d1099a034de95dda297b18bfa2d"
X-UA-Compatible: IE=Edge,chrome=1
X-Rack-Cache: miss
X-Runtime: 0.139410
X-Request-Id: 50ce319e403ef4e6e468c2f4b9817691
Cache-Control: max-age=0, private, must-revalidate
Set-Cookie: _master_session=BAh7ByIQX2NzcmZfdG9rZW4iMWZhM0t1dTZiNjVWV1Q3YzlKVTZmdjRwK0FiWlpHUExVWXJnRlovd2R5aU09Ig9zZXNzaW9uX2lkIiU3YWEzZmNhYmYzYTQ2MDgwNTY5ZmU5MjhlNWU3ZDhmMA%3D%3D--c0f8c2bd6cccb1ff12f28da996dddbb50e448f1f; path=/; HttpOnly
Status: 200
Content-Type: text/html; charset=utf-8
Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top