Cómo utilizar Scrapy

https://stackoverflow.com/questions/3773035

04-10-2019
|

Pregunta

Me gustaría saber cómo puedo empezar un rastreador basado en Scrapy. He instalado la herramienta a través de apt-get instalar y traté de correr un ejemplo:

/usr/share/doc/scrapy/examples/googledir/googledir$ scrapy list
directory.google.com

/usr/share/doc/scrapy/examples/googledir/googledir$ scrapy crawl

Me cortó el código de arañas / google_directory.py pero parece que no se ejecuta, porque no veo ninguna huella que he insertado. He leído su documentación, pero no encontré nada relacionado con este; ¿tienes alguna idea?

Además, si usted piensa que para el rastreo de un sitio web que debería utilizar otras herramientas, por favor hágamelo saber. No tengo experiencia con herramientas de Python y Python es una necesidad.

Gracias!

Solución

Se perdió el nombre de araña en el comando de rastreo. Uso:

$ scrapy crawl directory.google.com

Además, sugiero copiar el proyecto de ejemplo a su casa, en lugar de trabajar en el directorio /usr/share/doc/scrapy/examples/, para que pueda modificarlo y jugar con él:

$ cp -r /usr/share/doc/scrapy/examples/googledir ~
$ cd ~/googledir
$ scrapy crawl directory.google.com

Otros consejos

calidad raspando código usando lxml, urllib2 y Django como su pila.

Scraperwiki.com es inspirado, llena de ejemplos de rascadores de pitón.

Ejemplo simple con cssselect:

from lxml.html import fromstring

dom = fromstring('<html... ...')
navigation_links = [a.get('href') for a in htm.cssselect('#navigation a')]

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow