Frage

Google Finance API ist unvollständig - viele der Figuren auf einer Seite wie zum Beispiel:

http://www.google.com/finance?fstype=ii&q = NYSE: GE

ist über die API nicht verfügbar.

Ich brauche diese Daten Unternehmen auf kanadische Börsen Rang nach der Formel von Greenblatt, erhältlich über Google-Suche nach „Greenblatt Index-Scans“.

Meine Frage: Was ist der klügste / clean / effiziente Möglichkeit, den Zugriff und die Verarbeitung der Daten auf diesen Seiten. Ist das langweilig Ansatz wirklich notwendig, in diesem Fall, und wenn ja, was ist der beste Weg zu gehen darüber? Ich lerne derzeit Python für einen Bezug zu diesen Vorhaben.

War es hilfreich?

Lösung

Sie könnten versuchen, Google fragen die fehlenden APIs zur Verfügung zu stellen. Ansonsten sind Sie mit Screen Scraping , die nie Spaß, anfällig ohne vorherige Ankündigung zu brechen und wahrscheinlich in Verletzung der Google-Nutzungsbedingungen .

Aber, wenn Sie noch einen Bildschirm Schaber schreiben wollen, dann ist es schwer, eine Kombination aus mechanize und BeautifulSoup . BeautifulSoup ist ein HTML-Parser und mechanisieren ist ein Python-basierte Web-Browser, den Sie Cookies melden Sie sich an, zu speichern lassen, und in der Regel wie jeder andere Web-Browser navigieren.

Andere Tipps

BeautifulSoup würde die bevorzugte Methode des HTML sein mit Python Parsen

Haben Sie in Optionen neben Google sah (zum Beispiel Yahoo Finance API)?

Scraping Web-Seiten immer kotzt, aber ich würde empfehlen, sie zu xml (via ordentlich oder einer anderen HTML -> XML-Programm) zu konvertieren. Und dann unter Verwendung von XPath-Knoten zu gehen, die Sie interessiert sind

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top