Как использовать Scrapy
-
04-10-2019 - |
Вопрос
Я хотел бы знать, как я могу начать гусеничное, основанное на Scrapy. Я установил инструмент через apt-get install, и я пытался запустить пример:
/ usr / share / doc / scrapy / Примеры / googledir / googledill $ Справочник Список scrape.google.com / usr / share / doc / scraphy / Примеры / googledir / googledirs $ scraphy
Я взломал код от пауков / Google_directory.py, но кажется, что он не выполнен, потому что я не вижу какие-либо печатные, которые я вставил. Я прочитал их документацию, но я не нашел ничего, связанного с этим; У тебя есть какие-либо идеи?
Кроме того, если вы думаете, что для ползания сайта я должен использовать другие инструменты, пожалуйста, дайте мне знать. Я не испытываю с помощью Python Tools, а Python - это обязательство.
Спасибо!
Решение
Вы пропустили имя паука в команде Crawl. Использовать:
$ scrapy crawl directory.google.com
Кроме того, я предлагаю вам скопировать пример проекта в ваш дом вместо того, чтобы работать в /usr/share/doc/scrapy/examples/
каталог, так что вы можете изменить его и играть с ним:
$ cp -r /usr/share/doc/scrapy/examples/googledir ~
$ cd ~/googledir
$ scrapy crawl directory.google.com
Другие советы
Everyblock.com выпустил некоторые Качественный соскоб код Используя LXML, Urllib2 и Django в качестве их стека.
Scraperwiki.com. Вдохновляет, полный примеров питонов скребников.
Простой пример с cssselect:
from lxml.html import fromstring
dom = fromstring('<html... ...')
navigation_links = [a.get('href') for a in htm.cssselect('#navigation a')]