Vous cherchez une alternative gratuite à Webzinc .NET, screen scraping, les bibliothèques d'automatisation Web pour .NET [fermé]

StackOverflow https://stackoverflow.com/questions/1951753

Question

Je suis tombé sur cette bibliothèque .NET:

http://www.webzinc.com/online/faq.aspx

Cependant, je me demandais s'il y avait une alternative libre là-bas?

Était-ce utile?

La solution

robots de construction est pas difficile, et il y a un certain nombre de livres qui décrivent l'algorithme général pour le faire (une simple recherche Google tournera un certain nombre d'algorithmes).

Le jist de celui-ci à partir d'un perspecitve NET est de manière récursive:

  • pages de téléchargement - Cela se fait par le HttpWebRequest / HttpWebResponse ou la WebClient . En outre, vous pouvez utiliser la nouvelle WCF API Web de CodePlex, qui est vaste amélioration par rapport à ce qui précède, signifiait spécifiquement pour la production / consommation de contenu REST, cela fonctionne merveilleusement à des fins spidering (principalement en raison de son extensibilité)

  • Dans le contenu téléchargé - I très Html Agility pack ainsi que le fizzler extension pour le Html Agility pack. Le Html Agility Pack gérer malformé HTML et vous permettent d'interroger des éléments HTML à l'aide XPath (ou un sous-ensemble). De plus, fizzler vous permettra d'utiliser sélecteurs CSS si vous êtes familier avec < a href = "http://api.jquery.com/category/selectors/" rel = "nofollow noreferrer"> les utiliser dans jQuery .

  • Une fois que vous avez le code HTML dans un format structuré, analyser la structure du contenu qui est pertinent pour vous et traiter.

    • Analyser le format structuré pour les liens externes et dans la file d'attente à traiter (contre tout les contraintes que vous voulez pour votre application, vous n'êtes pas l'indexation du Web entier, êtes-vous?).

    • Obtenir l'élément suivant dans la file d'attente, et répéter le processus.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top