Crawler-Instanzen

https://stackoverflow.com/questions/1023563

06-07-2019
|

Frage

im Aufbau einer großen Web-Crawler, wie viele Instanzen optimal ist, wenn eine Web-Crawling, wenn es auf speziellen Web-Server im Internet-Server-Farmen ausgeführt wird.

Lösung

spare_memory_on_machine / memory_footprint_of_crawler_process * 0.95

Andere Tipps

Um eine große Skala Crawler machen Sie mit einigen Fragen wie zu tun haben

• Unmöglichkeit halten Informationen alle in einer Datenbank.

• Nicht genug RAM, um mit riesigem Index (n)

• Multi-Thread-Performance und Parallelität

• Crawler Fallen (Endlosschleife erstellt von URLs, Kalender, Sitzungen ids ... Ändern) und Duplicate Content.

• Crawl von mehr als einem Computer

• Malformed HTML-Codes

• Konstante http Fehler von Server

• Datenbanken ohne Komprimierung, weichen Ihren Platzbedarf über 8x größer machen.

• Erneut crawlen Routinen und Prioritäten.

• Verwenden Sie Anfragen mit Kompression (Deflate / gzip) (gut für jede Art von Crawler).

Und einige wichtige Dinge,

• Respekt robots.txt

• Und ein Crawler Verzögerung auf jede Anfrage nicht Webservern ersticken.

Die optimale Gewindekonfiguration wird auf dem Code abhängen .. i'am 100 Prozess mit .net ausgeführt wird. Ich empfehle Ihnen, einen Zeitplan Klasse zu verwenden unnötige offene Fäden zu vermeiden.

PS. Wenn Sie 5 Threads verwenden, werden Sie Jahre dauern, bis „in großem Maßstab“ Web-Crawling zu erreichen.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow