Vous cherchez une recommandation d'un bon tutoriel sur les meilleures pratiques pour un projet de grattage web? [fermé]
-
22-08-2019 - |
Question
Je dois faire un projet assez vaste impliquant racler web et je envisage d'utiliser soupe hpricot ou Belle (à savoir Ruby ou Python). Quelqu'un at-il rencontré un tutoriel qu'ils pensaient était particulièrement bien sur ce sujet qui me aider à démarrer le projet sur le pied droit?
La solution
Il y a un excellent Railscasts épisode sur ScrAPI.
Autres conseils
Pas un outil, vraiment, mais une bonne discussion est le livre de Michael Shrenk, Webbots, Araignées , et racleurs d'écran .
Le livre réussit fort bien dans sa mission déclaré: expliquer comment construire des robots web simples et les faire fonctionner conformément aux normes communautaires. Ce n'est pas tout ce que vous devez savoir, mais il est la meilleure introduction que je l'ai vu. L'accent est mis sur les robots, simples, monothread. Il y a une petite mention de l'utilisation de bots multiples qui stockent des données dans un référentiel central, mais il n'y a pas de discussion sur les questions soulevées par écrit les robots collecteurs multithread ou distribués qui peuvent traiter des centaines de pages par seconde.
Je vous recommande de lire ce livre si vous êtes tous intéressés par écrit les robots Web, même si vous n'êtes pas familier avec l'intention d'utiliser ou PHP. Mais veillez à ne pas attendre plus que les offres de livres.
lxml au lieu de BeautifulSoup. Malgré son nom, il est aussi pour l'analyse syntaxique et le grattage HTML. Il est beaucoup, beaucoup plus rapide que BeautifulSoup, et il gère même « cassé » HTML mieux que BeautifulSoup (leur prétention à la célébrité - lxml est tout simplement pas comme voix à ce sujet). Il dispose d'une API de compatibilité pour BeautifulSoup aussi si vous ne voulez pas apprendre l'API lxml.
Il n'y a aucune raison d'utiliser BeautifulSoup plus, sauf si vous êtes sur Google App Engine ou quelque chose où tout pas purement Python n'est pas autorisé.
Jetez un oeil à les screencasts suivants:
- http://railscasts.com/episodes/190-screen-scraping -avec-nokogiri
- http://railscasts.com/episodes/191-mechanize
Ou si vous l'aimez plaine, les asciicasts correspondants:
Pour Ruby, Scrubyt boîte à outils de grattage web est excellent. Voici une longue introduction à elle, ce qui mérite d'être lu même si vous allez utiliser un autre outil.