Vous cherchez une recommandation d'un bon tutoriel sur les meilleures pratiques pour un projet de grattage web? [fermé]

https://stackoverflow.com/questions/684629

22-08-2019
|

Question

Je dois faire un projet assez vaste impliquant racler web et je envisage d'utiliser soupe hpricot ou Belle (à savoir Ruby ou Python). Quelqu'un at-il rencontré un tutoriel qu'ils pensaient était particulièrement bien sur ce sujet qui me aider à démarrer le projet sur le pied droit?

La solution

Il y a un excellent Railscasts épisode sur ScrAPI.

Autres conseils

Deux de mes outils préférés pour racler web Python sont Scrapy et Mechanize . Chacun de ces projets a son propre tutoriel et les meilleures pratiques.

Pas un outil, vraiment, mais une bonne discussion est le livre de Michael Shrenk, Webbots, Araignées , et racleurs d'écran .

Le livre réussit fort bien dans sa mission déclaré: expliquer comment construire des robots web simples et les faire fonctionner conformément aux normes communautaires. Ce n'est pas tout ce que vous devez savoir, mais il est la meilleure introduction que je l'ai vu. L'accent est mis sur les robots, simples, monothread. Il y a une petite mention de l'utilisation de bots multiples qui stockent des données dans un référentiel central, mais il n'y a pas de discussion sur les questions soulevées par écrit les robots collecteurs multithread ou distribués qui peuvent traiter des centaines de pages par seconde.

Je vous recommande de lire ce livre si vous êtes tous intéressés par écrit les robots Web, même si vous n'êtes pas familier avec l'intention d'utiliser ou PHP. Mais veillez à ne pas attendre plus que les offres de livres.

lxml au lieu de BeautifulSoup. Malgré son nom, il est aussi pour l'analyse syntaxique et le grattage HTML. Il est beaucoup, beaucoup plus rapide que BeautifulSoup, et il gère même « cassé » HTML mieux que BeautifulSoup (leur prétention à la célébrité - lxml est tout simplement pas comme voix à ce sujet). Il dispose d'une API de compatibilité pour BeautifulSoup aussi si vous ne voulez pas apprendre l'API lxml.

Ian Blicking accepte .

Il n'y a aucune raison d'utiliser BeautifulSoup plus, sauf si vous êtes sur Google App Engine ou quelque chose où tout pas purement Python n'est pas autorisé.

Jetez un oeil à les screencasts suivants:

Ou si vous l'aimez plaine, les asciicasts correspondants:

Pour Ruby, Scrubyt boîte à outils de grattage web est excellent. Voici une longue introduction à elle, ce qui mérite d'être lu même si vous allez utiliser un autre outil.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow