Вопрос

Я хотел бы знать, как я могу начать гусеничное, основанное на Scrapy. Я установил инструмент через apt-get install, и я пытался запустить пример:

/ usr / share / doc / scrapy / Примеры / googledir / googledill $ Справочник Список scrape.google.com / usr / share / doc / scraphy / Примеры / googledir / googledirs $ scraphy

Я взломал код от пауков / Google_directory.py, но кажется, что он не выполнен, потому что я не вижу какие-либо печатные, которые я вставил. Я прочитал их документацию, но я не нашел ничего, связанного с этим; У тебя есть какие-либо идеи?

Кроме того, если вы думаете, что для ползания сайта я должен использовать другие инструменты, пожалуйста, дайте мне знать. Я не испытываю с помощью Python Tools, а Python - это обязательство.

Спасибо!

Это было полезно?

Решение

Вы пропустили имя паука в команде Crawl. Использовать:

$ scrapy crawl directory.google.com

Кроме того, я предлагаю вам скопировать пример проекта в ваш дом вместо того, чтобы работать в /usr/share/doc/scrapy/examples/ каталог, так что вы можете изменить его и играть с ним:

$ cp -r /usr/share/doc/scrapy/examples/googledir ~
$ cd ~/googledir
$ scrapy crawl directory.google.com

Другие советы

Everyblock.com выпустил некоторые Качественный соскоб код Используя LXML, Urllib2 и Django в качестве их стека.

Scraperwiki.com. Вдохновляет, полный примеров питонов скребников.

Простой пример с cssselect:

from lxml.html import fromstring

dom = fromstring('<html... ...')
navigation_links = [a.get('href') for a in htm.cssselect('#navigation a')]
Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top