Совместное использование посещенных URL-адресов между несколькими пауками в Scrapy?

https://stackoverflow.com//questions/23047080

21-12-2019
|

Вопрос

Я использую Scrapyd для запуска нескольких пауков в качестве заданий в одном домене.Я предположил, что у Scrapy есть хеш-таблица посещенных URL-адресов, которую он разделяет и координирует с другими пауками при сканировании.Когда я создаю экземпляры одного и того же паука с помощью

curl http://localhost:6800/schedule.json -d project=projectname -d spider=spidername.

он скорее сканирует одни и те же URL-адреса и удаляет повторяющиеся данные.Кто-нибудь уже сталкивался с подобной проблемой?

Решение

Мой совет — попытаться разделить сайт на несколько start_urls.Затем, вы можете передать разные значения для start_urls каждому пауку.

Если вы хотите чего-то особенного (или если страницы, которые вы хотите сканировать, регулярно меняются), вы можете создать паука, который сканирует карту сайта и делит ссылки на n чушь, потом начинается n другие пауки действительно сканируют сайт...

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow