Google的财务API不完整 - 页面上的许多数据如:

http://www.google.com/finance?fstype=ii& ; q = NYSE:GE

无法通过API提供。

我需要这些数据根据Greenblatt的公式对加拿大证券交易所的公司进行排名,可通过谷歌搜索“greenblatt index scans”获得。

我的问题:在这些网页上访问和处理数据的最智能/最干净/最有效的方法是什么。在这种情况下,这种繁琐的方法是否真的是必要的,如果是这样,那么最好的方法是什么呢?我目前正在学习与此相关的项目的Python。

有帮助吗?

解决方案

您可以尝试让Google提供缺少的API。否则,您将无法使用屏幕抓取,这绝不会很有趣,容易在没有通知的情况下破坏,可能违反了Google的服务条款

但是,如果您仍然想编写一个屏幕刮刀,那么很难击败 mechanize BeautifulSoup 。 BeautifulSoup是一个HTML解析器,mechanize是一个基于Python的Web浏览器,它允许您登录,存储cookie,并且通常像任何其他Web浏览器一样导航。

其他提示

BeautifulSoup 将成为使用Python进行HTML解析的首选方法

您是否研究过Google以外的选项(例如Yahoo Finance API)?

刮网页总是很糟糕,但我建议将它们转换为xml(通过整齐或其他HTML - > XML程序),然后使用xpath遍历您感兴趣的节点。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top