APIの範囲外のGoogle Financeから財務データを取得する
-
06-07-2019 - |
質問
Googleの財務APIは不完全です。ページ上の図の多くは次のようなものです。
http://www.google.com/finance?fstype=ii& ; q = NYSE:GE
API経由では利用できません。
「greenblattインデックススキャン」のグーグル検索で利用可能なGreenblattの公式に従って、カナダの証券取引所で会社をランク付けするためにこのデータが必要です。
私の質問:これらのWebページのデータにアクセスして処理する最もインテリジェント/クリーン/効率的な方法は何ですか。この場合、退屈なアプローチは本当に必要ですか?もしそうなら、それを行う最善の方法は何ですか?現在、このプロジェクトに関連するPythonを学んでいます。
解決
不足しているAPIを提供するようGoogleに依頼することができます。そうしないと、スクリーンスクレイピングで止まってしまいます。 、および Googleの利用規約に違反している可能性が高い。
ただし、スクリーンスクレーパーを作成したい場合は、 mechanize および BeautifulSoup 。 BeautifulSoupはHTMLパーサーであり、mechanizeはPythonベースのWebブラウザーであり、ログインしてCookieを保存し、通常は他のWebブラウザーと同じようにナビゲートできます。
他のヒント
BeautifulSoup は、PythonでのHTML解析の推奨される方法です
Google以外のオプション(Yahoo Finance APIなど)を検討しましたか?
Webページのスクレイピングは常に下手ですが、それらをxmlに変換し(整頓またはその他のHTML-> XMLプログラムを使用)、xpathを使用して目的のノードをウォークすることをお勧めします。