Cómo utilizar Scrapy
-
04-10-2019 - |
Pregunta
Me gustaría saber cómo puedo empezar un rastreador basado en Scrapy. He instalado la herramienta a través de apt-get instalar y traté de correr un ejemplo:
/usr/share/doc/scrapy/examples/googledir/googledir$ scrapy list directory.google.com /usr/share/doc/scrapy/examples/googledir/googledir$ scrapy crawl
Me cortó el código de arañas / google_directory.py pero parece que no se ejecuta, porque no veo ninguna huella que he insertado. He leído su documentación, pero no encontré nada relacionado con este; ¿tienes alguna idea?
Además, si usted piensa que para el rastreo de un sitio web que debería utilizar otras herramientas, por favor hágamelo saber. No tengo experiencia con herramientas de Python y Python es una necesidad.
Gracias!
Solución
Se perdió el nombre de araña en el comando de rastreo. Uso:
$ scrapy crawl directory.google.com
Además, sugiero copiar el proyecto de ejemplo a su casa, en lugar de trabajar en el directorio /usr/share/doc/scrapy/examples/
, para que pueda modificarlo y jugar con él:
$ cp -r /usr/share/doc/scrapy/examples/googledir ~
$ cd ~/googledir
$ scrapy crawl directory.google.com
Otros consejos
calidad raspando código usando lxml, urllib2 y Django como su pila.
Scraperwiki.com es inspirado, llena de ejemplos de rascadores de pitón.
Ejemplo simple con cssselect:
from lxml.html import fromstring
dom = fromstring('<html... ...')
navigation_links = [a.get('href') for a in htm.cssselect('#navigation a')]