Vous cherchez une alternative gratuite à Webzinc .NET, screen scraping, les bibliothèques d'automatisation Web pour .NET [fermé]
-
21-09-2019 - |
Question
Je suis tombé sur cette bibliothèque .NET:
http://www.webzinc.com/online/faq.aspx
Cependant, je me demandais s'il y avait une alternative libre là-bas?
La solution
robots de construction est pas difficile, et il y a un certain nombre de livres qui décrivent l'algorithme général pour le faire (une simple recherche Google tournera un certain nombre d'algorithmes).
Le jist de celui-ci à partir d'un perspecitve NET est de manière récursive:
-
pages de téléchargement - Cela se fait par le
HttpWebRequest
/HttpWebResponse
ou laWebClient
. En outre, vous pouvez utiliser la nouvelle WCF API Web de CodePlex, qui est vaste amélioration par rapport à ce qui précède, signifiait spécifiquement pour la production / consommation de contenu REST, cela fonctionne merveilleusement à des fins spidering (principalement en raison de son extensibilité) -
Dans le contenu téléchargé - I très Html Agility pack ainsi que le fizzler extension pour le Html Agility pack. Le Html Agility Pack gérer malformé HTML et vous permettent d'interroger des éléments HTML à l'aide XPath (ou un sous-ensemble). De plus, fizzler vous permettra d'utiliser sélecteurs CSS si vous êtes familier avec < a href = "http://api.jquery.com/category/selectors/" rel = "nofollow noreferrer"> les utiliser dans jQuery .
-
Une fois que vous avez le code HTML dans un format structuré, analyser la structure du contenu qui est pertinent pour vous et traiter.
-
Analyser le format structuré pour les liens externes et dans la file d'attente à traiter (contre tout les contraintes que vous voulez pour votre application, vous n'êtes pas l'indexation du Web entier, êtes-vous?).
-
Obtenir l'élément suivant dans la file d'attente, et répéter le processus.
-