Meilleure bibliothèque open source ou de l'application à explorer et à des sites Web de la mine de données

StackOverflow https://stackoverflow.com/questions/759363

Question

Je voudrais savoir quelle est la meilleure bibliothèque Rouvrir source pour l'exploration et l'analyse de sites Web. Un exemple serait une des agences immobilières de chenilles, où je voudrais récupérer des informations à partir d'un certain nombre de sites et de les regrouper dans mon propre site. Pour cela, je dois ramper sites et extraire les annonces immobilières.

Était-ce utile?

La solution

Je fais beaucoup de grattage, en utilisant d'excellents paquets python urllib2 , mécaniser et BeautifulSoup .

Je suggère également de regarder lxml et scrapy , bien que je ne les utilise pas actuellement (encore l'intention d'essayer scrapy ).

langage Perl a aussi d'excellentes installations pour gratter.

Autres conseils

PHP / cURL est une combinaison très puissante, surtout si vous souhaitez utiliser directement les résultats dans une page web ...

En commun avec M. Morozov, je fais un peu de grattage aussi, principalement des sites d'emploi. Je ne l'ai jamais eu recours à mécaniser, si cela aide tout. Beautifulsoup en combinaison avec urllib2 ont toujours été suffisante.

Je l'ai utilisé lxml, ce qui est génial. Cependant, je crois qu'il peut ne pas avoir été disponible avec Google Apps il y a quelques mois quand je l'ai essayé, si vous avez besoin que.

Mes remerciements à M. Morozov pour mentionner Scrapy. Avait pas entendu parler.

En plus Scrapy, vous devriez également regarder Parselets

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top