Pergunta

API finanças do Google é incompleta - muitas das figuras em uma página, tais como:

http://www.google.com/finance?fstype=ii&q = NYSE: GE

não estão disponíveis por meio da API.

Eu preciso esses dados para empresas de classificação em bolsas de valores canadenses acordo com a fórmula de Greenblatt, disponível através de pesquisa no Google por "varreduras de índice Greenblatt".

A minha pergunta: qual é a maneira mais inteligente / limpa / eficiente de acessar e processar os dados sobre estas páginas. É a abordagem tediosa realmente necessário neste caso, e em caso afirmativo, qual é a melhor maneira de fazer isso? Atualmente estou aprendendo Python para projectos relacionados com este.

Foi útil?

Solução

Você poderia tentar pedindo Google para fornecer as APIs desaparecidas. Caso contrário, você está preso com tela raspagem, que nunca é divertido, propenso a quebrar sem aviso prévio e provável em violação dos termos de serviço do Google .

Mas, se você ainda quer escrever um raspador de tela, é difícil de bater uma combinação de mecanizar e BeautifulSoup . BeautifulSoup é um analisador HTML e mecanizar é um navegador baseado em Python web que permitirá que você faça o login, armazenar cookies, e ao redor geralmente navegar como qualquer outro navegador web.

Outras dicas

BeautifulSoup seria o método preferido de HTML parsing com Python

Você já olhou para opções além do Google (por exemplo, Yahoo Finance API)?

páginas da web Raspagem sempre é uma porcaria, mas eu recomendo convertendo-os em XML (via arrumado ou algum outro HTML -> programa de XML). E, em seguida, utilizando XPath para andar os nós que você está interessado em

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top