Extrahieren von Daten unter Verwendung von screenscrapers [geschlossen]
-
21-09-2019 - |
Frage
Ich suche nach Empfehlungen für ein screenscraper ich brauche „Kontakt“ Informationen von bestimmten Websites zu extrahieren.
Irgendwelche Ideen, wo ich eine gute bekommen kann (pref frei) screenscarper?
Lösung
Schreiben Sie Ihre eigene - es ist nicht schwer. wenn Sie nicht vertraut sind mit der Programmierung oder eine Wahl für Programmiersprachen. Verwendung Python der Bibliothek Unterstützung für tun Schaben groß
Was, wie das Problem zu attackieren ihre sind zwei beliebte Techniken: Verwendung regulären Ausdrücken , sie funktionieren am besten für ad-hoc- Screen Scraping. Wenn Ihr Ziel der Web-Seiten gut strukturiert sind - lesen: nicht ad-hoc - dann einen Rahmen verwenden, die Sie zur Arbeit mit dem DOM .
Navigation und Extraktion
Dies sind die beiden Phasen des Schreibens eine Spinne . Ihre Spinne braucht eine Website zu navigieren verschiedene Seiten zu besuchen, und es braucht Informationen von Interesse zu extrahieren. Diese beiden Phasen können entweder durch das DOM oder REs
angetrieben werdenP. S, Da Ihr Name .NET gibt. - Ich sollte erwähnen, dass ich Schaber in C-Sharp geschrieben haben - es ist ein Kinderspiel
.