Frage

Ich muss ein Programm schreiben, um Foren zu kratzen.

Sollte ich das Programm mit dem Scrapy -Framework in Python schreiben oder sollte ich PHP Curl verwenden? Gibt es auch ein PHP -Äquivalent zu Scrapy?

Vielen Dank

War es hilfreich?

Lösung

Ich würde Python aufgrund überlegener libxMl2 -Bindungen wählen, insbesondere Dinge wie lxml.html und PyQuery. Scrapy hat seine eigenen LibxML2 -Bindungen, ich habe sie nicht angesehen, um sie zu testen, obwohl das Überkippen der Scrapy -Dokumentation mich nicht sehr beeindruckt hat (ich habe viel Scraping nur mit diesen Parern und manuellen Codierung gemacht). Bei jedem von diesen erhalten Sie einen wirklich überlegenen HTML -Parser, der über XPath abfragt, und mit lxml.html und pyQuery (auch auf LXML basiert) erhalten Sie CSS -Selektoren.

Wenn Sie einen kleinen Job machen, um ein Forum zu kratzen, würde ich ein Scraping -Framework überspringen und es einfach von Hand machen - es ist einfach und parallelisierend usw. wird nicht wirklich benötigt.

Andere Tipps

Ich würde PHP nicht für eine neue Anwendung verwenden, die ich schreibe. Ich mag die Sprache aus verschiedenen Gründen nicht.

Die Stärke ist auch als Server -Seiten -Skriptsprache, um dynamische Seiten über das Web zu liefern. Nicht als Programmiersprache für allgemeine Zwecke. Das ist ein weiterer Minuspunkt. Ich würde mich bei Python halten.

Was für welchen Rahmen verwendet werden soll, gibt es viele davon. Harvestman, Scrapy usw. Es gibt auch den 80LEGS Cloud -basierten Crawler, als Sie möglicherweise verwenden können.

Aktualisieren : Die Leute haben diese Antwort wahrscheinlich heruntergekommen, weil ich sagte, ich mochte PHP nicht. Hier ist eine Liste von Gründen warum. Nicht ganz genau, aber dennoch eine anständige Zusammenfassung http://wiki.python.org/moin/pythonvSphp

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top