Frage

Für den letzten Monat Ich habe Scrapy für ein Web-Crawling-Projekt mit mir begonnen habe.

Dieses Projekt beinhaltet nach unten zieht den vollständigen Dokumentinhalt alles Web-Seiten in einem einzigen Domain-Namen, die von der Homepage erreichbar sind. Das Schreiben dieses Scrapy mit war ziemlich einfach, aber es läuft einfach zu langsam. In 2-3 Tagen kann ich nur nach unten ziehen 100.000 Seiten.

Ich habe erkannt, dass meine erste Vorstellung, dass Scrapy nicht für diese Art von Crawl gemeint ist selbst enthüllt.

Ich habe damit begonnen, meinen Blick auf Nutch zu konzentrieren und Methabot in der Hoffnung auf eine bessere Leistung. Die einzigen Daten, die ich während der Crawl Speicher benötigen, sind der gesamte Inhalt der Web-Seite und vorzugsweise alle Links auf der Seite (aber auch, dass in der Nachbearbeitung durchgeführt werden kann).

Ich bin für einen Crawler suchen, schnell und beschäftigt viele parallele Anfragen.

War es hilfreich?

Lösung

Das ist mein Fehler von Server nicht Scrapy sein. Server möglicherweise nicht so schnell, wie Sie wollen oder können sie (oder Webmaster) erkennen kriechende und Grenzgeschwindigkeit für diese Verbindung / Cookie. Verwenden Sie Proxy? Dies kann zu kriechen verlangsamen. Dies kann Scrapy Weisheit sein, wenn Sie zu intensiv kriechen Sie Verbot auf diesem Server erhalten können. Für meine C ++ handgeschriebene Crawler I 1 Anfrage künstlich pro Sekunde Grenze gesetzt. Aber diese Geschwindigkeit reicht für 1 Faden (1 erf * 60 Sekunden * 60 Minuten * 24 Stunden = 86400 req / Tag). Wenn Sie interessiert Sie E-Mail an whalebot.helmsman schreiben kann {AT} gmail.com.

Andere Tipps

Scrapy können Sie die Anzahl der gleichzeitigen Anforderungen und die Verzögerung zwischen den Anfragen in seine Einstellungen bestimmen, .

Möchten Sie wissen, wo der Engpass ist ?. Wie whalebot.helmsman wies darauf hin, wäre die Grenze auf Scrapy nicht selbst, sondern auf dem Server, den Sie crawlen.

Sie sollten herausfinden, beginnen, ob der Engpass ist das Netzwerk oder CPU.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top