Frage

Ich bin immer noch ein Neuling von Python, also hoffe ich, dass diese Frage nicht verrückt ist.

Je mehr ich Google für Web -Scraping -Lösungen, desto verwirrter werde ich (trotz der Untersuchung vieler Bäume nicht in der Lage, einen Wald zu sehen).

Ich habe Dokumentation zu einer Reihe von Projekten gelesen, darunter (aber nicht beschränkt auf) Scrapy Mechanize Spynner

Aber ich kann nicht wirklich herausfinden, welcher Hammer ich verwenden sollte.

Es gibt eine bestimmte Seite, die ich zu krabbeln möchte (www.schooldigger.com). Es verwendet ASP und es gibt ein Java -Skript, das ich nacheifern muss.

Ich bin mir bewusst, dass diese Art von Problem nicht leicht zu behandeln ist, also würde ich jede Anleitung lieben.

Zusätzlich zu einer allgemeinen Diskussion der verfügbaren Optionen (und der Beziehungen zwischen verschiedenen Projekten) habe ich einige spezifische Fragen

  1. Gibt es bei Verwendung von Scrapy eine Möglichkeit, nicht zu definieren, dass die „Elemente“ analysiert werden, und laden Sie einfach die ersten paar hundert Seiten herunter? Ich möchte eigentlich nicht ganze Websites herunterladen, aber ich möchte sehen, welche Seiten während der Entwicklung des Schabers heruntergeladen werden.

  2. Mechanize, ASP und JavaScript. Bitte sehen Sie eine Frage, die ich gepostet habe, aber keine Antworten gesehen hat.https://stackoverflow.com/questions/4249513/emulations-js-in-mechanize

  3. Warum nicht ein Dienstprogramm (entweder eine Turbogears -Anwendung oder ein Browser -Plug -In) erstellen, mit dem ein Benutzer Links auswählen und Elemente grafisch analysieren können? Alles, was ich vorschlage, ist eine Art GUI, um in einer Parsen -API zu sitzen. Ich weiß nicht, ob ich das technische Wissen habe, um ein solches Projekt zu erstellen, aber ich verstehe nicht, warum es nicht möglich ist, es scheint ziemlich machbar, wenn man das über Python weiß. Vielleicht ein Feedback zu welchen Problemen mit dieser Art von Projekt?

  4. Am wichtigsten ist, dass alle Webcrawler "Site spezifisch" erstellt werden? Es scheint mir, dass ich das Rad in meinem Code irgendwie neu erfinde. (Aber das ist wahrscheinlich, weil ich nicht sehr gut programmieren kann)

  5. Hat jemand Beispiele für voll beeignete Schaber? Es gibt viele Beispiele in der Dokumentation (die ich studiert habe), aber sie alle scheinen sich auf Einfachheit zu konzentrieren, nur für die Darstellung der Verpackungsverwendung, ich würde vielleicht von einem detaillierteren/ komplizierteren Beispiel profitieren.

Danke für deine Gedanken.

War es hilfreich?

Lösung

Für die vollständige Browser -Interaktion können Sie am besten verwenden Selenium-RC

Dies verfügt

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top