質問

Googleの財務APIは不完全です。ページ上の図の多くは次のようなものです。

http://www.google.com/finance?fstype=ii& ; q = NYSE:GE

API経由では利用できません。

「greenblattインデックススキャン」のグーグル検索で利用可能なGreenblattの公式に従って、カナダの証券取引所で会社をランク付けするためにこのデータが必要です。

私の質問:これらのWebページのデータにアクセスして処理する最もインテリジェント/クリーン/効率的な方法は何ですか。この場合、退屈なアプローチは本当に必要ですか?もしそうなら、それを行う最善の方法は何ですか?現在、このプロジェクトに関連するPythonを学んでいます。

役に立ちましたか?

解決

不足しているAPIを提供するようGoogleに依頼することができます。そうしないと、スクリーンスクレイピングで止まってしまいます。 、および Googleの利用規約に違反している可能性が高い

ただし、スクリーンスクレーパーを作成したい場合は、 mechanize および BeautifulSoup 。 BeautifulSoupはHTMLパーサーであり、mechanizeはPythonベースのWebブラウザーであり、ログインしてCookieを保存し、通常は他のWebブラウザーと同じようにナビゲートできます。

他のヒント

BeautifulSoup は、PythonでのHTML解析の推奨される方法です

Google以外のオプション(Yahoo Finance APIなど)を検討しましたか?

Webページのスクレイピングは常に下手ですが、それらをxmlに変換し(整頓またはその他のHTML-> XMLプログラムを使用)、xpathを使用して目的のノードをウォークすることをお勧めします。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top