取得すべてのリスト教会がある状態をPython

https://stackoverflow.com/questions/1903966

19-09-2019
|

質問

私は良いとPythonで擬似コードすれば足りるものとしますがの詳細が明した。てください私は、課題なくクローネのカタツムリのメールアドレスの教会の私た。まっていることはご理解ください．ライナー"など123旧西道路#3才ライム市MD01234"とは、その構文解析で都市の状態で、通号、apt十分な試験とエラーになります。私の問題は、-を利用した場合、白いページのオンライン、そしてどのような取り扱うすべてのHTML迷惑、HTMLのテーブル、広告などが有ります。いとは思えない自分の電話番号まで傷つかない-私は常に定められているので注意が必要でに一度の解析が続けられます。場合でもソリューションはマニュアルなどに保存し、その後予告なしに変更-保存してテキスト)-ことがございました嬉しいでください。よろしく！っちゃいますでもお受けPerl片いました。

解決

あなたは Mechanizeのを使用することができます。それはブラウザをシミュレートPythonライブラリですので、あなたは（同様に手動で何をすべきかに）白いページをクロールできます。

は、「HTMLのジャンク」のpythonに対処するためには、あまりにもそのためのライブラリがあります。 BeautifulSoup それはあなたがHTMLのうち、必要なデータを取得する素敵な方法です（もちろん、それはあなたがまだパースツリーをナビゲートする必要がありますようあなたは、HTMLについて少し知っていると仮定し）ます。

更新：複数のページをクリックする方法についてのあなたのフォローアップの質問にとして。機械化ちょうどそれを行うためのライブラリです。 ESP、彼らの例を詳しく見てみましょう。 follow_link方法。私はそれは、とても「クリック」を、ブラウザをシミュレート言ったように、Pythonで迅速に実現することができます。

他のヒント

Webページをダウンロードするlynx --dump <url>を試してみてください。すべての面倒なHTMLタグが出力から削除されます、そのページから、すべてのリンクが一緒に表示されます。

だいは きさげ web scraping.

う場合があ検索月 pythonおよび削, きのリストを表示ツールれるよう、お手伝いいたします。

してくれてありがとうございますを利用したことのないscrapy、そのサイト期待出来:)

美しいスープは非常に簡単ではありません。ここでは、 http://www.churchangel.com/するで開始される可能性がありますサイトです。彼らは巨大なリストを持っているとフォーマットは非常に規則的である - 翻訳：セットアップBSoupに簡単にこすりする

。

あなただけの地理的地域の教会のアドレスを探しているなら、Pythonのスクリプトは、この仕事に最適なツールではないかもしれません。

米国の国勢調査は、地理情報システムで使用するための教会のデータセットを提供します。空間領域内のすべてのxを見つけることが繰り返し発生する問題である場合は、GISを学習に投資します。そして、あなたは多くの地理的な作業に耐えるためにあなたのPythonのスキルをもたらすことができます。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow