Pregunta

La API de finanzas de Google está incompleta, muchas de las cifras en una página como:

http://www.google.com/finance?fstype=ii& ; q = NYSE: GE

no están disponibles a través de la API.

Necesito estos datos para clasificar a las empresas en las bolsas de valores canadienses de acuerdo con la fórmula de Greenblatt, disponible a través de la búsqueda en Google de "escaneos de índice de greenblatt".

Mi pregunta: ¿cuál es la forma más inteligente / limpia / eficiente de acceder y procesar los datos en estas páginas web? ¿Es realmente necesario el enfoque tedioso en este caso y, de ser así, cuál es la mejor manera de hacerlo? Actualmente estoy aprendiendo Python para proyectos relacionados con este.

¿Fue útil?

Solución

Podría intentar pedirle a Google que proporcione las API faltantes. De lo contrario, está atascado con raspado de pantalla , que nunca es divertido, propenso a romperse sin previo aviso , y probablemente en violación de los términos de servicio de Google .

Pero, si aún desea escribir un raspador de pantalla, es difícil superar una combinación de mecanizar y BeautifulSoup . BeautifulSoup es un analizador de HTML y Mechanize es un navegador web basado en Python que le permitirá iniciar sesión, almacenar cookies y, en general, navegar como cualquier otro navegador web.

Otros consejos

BeautifulSoup sería el método preferido de análisis HTML con Python

¿Ha buscado opciones además de Google (por ejemplo, Yahoo Finance API)?

Eliminar páginas web siempre apesta, pero recomendaría convertirlas a xml (a través de tidy o algún otro programa HTML - > XML) y luego usar xpath para recorrer los nodos que le interesan.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top