Frage

Ich suche nach Empfehlungen für ein screenscraper ich brauche „Kontakt“ Informationen von bestimmten Websites zu extrahieren.

Irgendwelche Ideen, wo ich eine gute bekommen kann (pref frei) screenscarper?

War es hilfreich?

Lösung

Schreiben Sie Ihre eigene - es ist nicht schwer. wenn Sie nicht vertraut sind mit der Programmierung oder eine Wahl für Programmiersprachen. Verwendung Python der Bibliothek Unterstützung für tun Schaben groß

Was, wie das Problem zu attackieren ihre sind zwei beliebte Techniken: Verwendung regulären Ausdrücken , sie funktionieren am besten für ad-hoc- Screen Scraping. Wenn Ihr Ziel der Web-Seiten gut strukturiert sind - lesen: nicht ad-hoc - dann einen Rahmen verwenden, die Sie zur Arbeit mit dem DOM .

Navigation und Extraktion

Dies sind die beiden Phasen des Schreibens eine Spinne . Ihre Spinne braucht eine Website zu navigieren verschiedene Seiten zu besuchen, und es braucht Informationen von Interesse zu extrahieren. Diese beiden Phasen können entweder durch das DOM oder REs

angetrieben werden

P. S, Da Ihr Name .NET gibt. - Ich sollte erwähnen, dass ich Schaber in C-Sharp geschrieben haben - es ist ein Kinderspiel

.
Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top