Совместное использование посещенных URL-адресов между несколькими пауками в Scrapy?
-
21-12-2019 - |
Вопрос
Я использую Scrapyd для запуска нескольких пауков в качестве заданий в одном домене.Я предположил, что у Scrapy есть хеш-таблица посещенных URL-адресов, которую он разделяет и координирует с другими пауками при сканировании.Когда я создаю экземпляры одного и того же паука с помощью
curl http://localhost:6800/schedule.json -d project=projectname -d spider=spidername.
он скорее сканирует одни и те же URL-адреса и удаляет повторяющиеся данные.Кто-нибудь уже сталкивался с подобной проблемой?
Решение
Мой совет — попытаться разделить сайт на несколько start_urls
.Затем, вы можете передать разные значения для start_urls
каждому пауку.
Если вы хотите чего-то особенного (или если страницы, которые вы хотите сканировать, регулярно меняются), вы можете создать паука, который сканирует карту сайта и делит ссылки на n
чушь, потом начинается n
другие пауки действительно сканируют сайт...