从Google财经获取超出API范围的财务数据

题

Google的财务API不完整 - 页面上的许多数据如：

无法通过API提供。

我需要这些数据根据Greenblatt的公式对加拿大证券交易所的公司进行排名，可通过谷歌搜索“greenblatt index scans”获得。

我的问题：在这些网页上访问和处理数据的最智能/最干净/最有效的方法是什么。在这种情况下，这种繁琐的方法是否真的是必要的，如果是这样，那么最好的方法是什么呢？我目前正在学习与此相关的项目的Python。

解决方案

您可以尝试让Google提供缺少的API。否则，您将无法使用屏幕抓取，这绝不会很有趣，容易在没有通知的情况下破坏，可能违反了Google的服务条款。

但是，如果您仍然想编写一个屏幕刮刀，那么很难击败 mechanize 和 BeautifulSoup 。 BeautifulSoup是一个HTML解析器，mechanize是一个基于Python的Web浏览器，它允许您登录，存储cookie，并且通常像任何其他Web浏览器一样导航。

其他提示

BeautifulSoup 将成为使用Python进行HTML解析的首选方法

您是否研究过Google以外的选项（例如Yahoo Finance API）？

刮网页总是很糟糕，但我建议将它们转换为xml（通过整齐或其他HTML - ＆gt; XML程序），然后使用xpath遍历您感兴趣的节点。

许可以下： CC-BY-SA 和归因