Ottenere dati finanziari da Google Finance che non rientra nell'ambito di applicazione dell'API

StackOverflow https://stackoverflow.com/questions/1009524

Domanda

L'API finanziaria di Google è incompleta, molte delle cifre su una pagina come:

http://www.google.com/finance?fstype=ii& ; q = NYSE: GE

non sono disponibili tramite l'API.

Ho bisogno di questi dati per classificare le società sulle borse canadesi secondo la formula di Greenblatt, disponibile tramite la ricerca di Google per "scansioni dell'indice greenblatt".

La mia domanda: qual è il modo più intelligente / pulito / efficiente per accedere ed elaborare i dati su queste pagine web. In questo caso è davvero necessario l'approccio noioso e, in tal caso, qual è il modo migliore di procedere? Attualmente sto imparando Python per progetti relativi a questo.

È stato utile?

Soluzione

Potresti provare a chiedere a Google di fornire le API mancanti. Altrimenti, sei bloccato con screen scraping , che non è mai divertente, incline alla rottura senza preavviso e probabilmente in violazione dei termini di servizio di Google .

Ma, se vuoi ancora scrivere uno screen raschietto, è difficile battere una combinazione di meccanize e BeautifulSoup . BeautifulSoup è un parser HTML e meccanizza è un browser Web basato su Python che ti consentirà di accedere, archiviare i cookie e in generale navigare come qualsiasi altro browser web.

Altri suggerimenti

BeautifulSoup sarebbe il metodo preferito di analisi HTML con Python

Hai esaminato le opzioni oltre a Google (ad es. API di Yahoo Finance)?

Scraping le pagine Web fa sempre schifo, ma consiglierei di convertirle in xml (tramite ordine o qualche altro programma HTML - > XML) e quindi usare xpath per percorrere i nodi che ti interessano.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top