APIの範囲外のGoogle Financeから財務データを取得する

https://stackoverflow.com/questions/1009524

06-07-2019
|

質問

Googleの財務APIは不完全です。ページ上の図の多くは次のようなものです。

http://www.google.com/finance?fstype=ii& ; q = NYSE：GE

API経由では利用できません。

「greenblattインデックススキャン」のグーグル検索で利用可能なGreenblattの公式に従って、カナダの証券取引所で会社をランク付けするためにこのデータが必要です。

私の質問：これらのWebページのデータにアクセスして処理する最もインテリジェント/クリーン/効率的な方法は何ですか。この場合、退屈なアプローチは本当に必要ですか？もしそうなら、それを行う最善の方法は何ですか？現在、このプロジェクトに関連するPythonを学んでいます。

解決

不足しているAPIを提供するようGoogleに依頼することができます。そうしないと、スクリーンスクレイピングで止まってしまいます。、および Googleの利用規約に違反している可能性が高い。

ただし、スクリーンスクレーパーを作成したい場合は、 mechanize および BeautifulSoup 。 BeautifulSoupはHTMLパーサーであり、mechanizeはPythonベースのWebブラウザーであり、ログインしてCookieを保存し、通常は他のWebブラウザーと同じようにナビゲートできます。

他のヒント

BeautifulSoup は、PythonでのHTML解析の推奨される方法です

Google以外のオプション（Yahoo Finance APIなど）を検討しましたか？

Webページのスクレイピングは常に下手ですが、それらをxmlに変換し（整頓またはその他のHTML-＆gt; XMLプログラムを使用）、xpathを使用して目的のノードをウォークすることをお勧めします。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow