構造化されていないデータ用のWebスクレイピングツールを探しています[閉じた

https://datascience.stackexchange.com/questions/1007

16-10-2019
|

質問

ウェブサイトからいくつかのデータをこすりたいです。私はimport.ioを使用しましたが、それでもあまり満足していません..誰もそれについて提案できますか.. Webから非構造化されたデータを取得するための最良のツールは何ですか

解決

BeautifulSoupを試してみてください - http://www.crummy.com/software/beautifulsoup/

Webサイト「Beautiful Soupは、スクリーンスクレープなどの迅速なターンアラウンドプロジェクト用に設計されたPythonライブラリです。」私はそれを個人的に使用していませんが、それはしばしばスクレイピングのための素敵なライブラリに関して出てきます。これがそれを使用してcraigslistをスクレイプするためのブログ投稿です http://www.gregreda.com/2014/07/27/scraping-craigslist-fortickets/

他のヒント

プログラミング中の言語については言及していません（タグとして追加することを検討してください）。そのため、一般的なヘルプは、HTMLパーサーを探して、それを使用してデータをプルすることです。一部のWebサイトでは、単にひどいHTMLコードを持つことができ、こすり落とすのが非常に難しい場合があります。

HTMLパーサーは、すべてのHTMLを解析し、それが配列、オブジェクトなどからのものであろうと、構造化された方法でアクセスできるようにします。

一緒にルビーノコギリ XPathおよびCSSセレクターを介してHTMLおよびXMLドキュメントにアクセスできます。がここにありますチュートリアル.

あなたはあなたがそれを使うことをお勧めしません。

HTMLをよく形成されたXML（XHTML）に変換します-TagSoupをお勧めします。

それを完了したら、データは別のXMLフィードであり、XSLT変換（またはXQuery）を記述して、必要な形式で必要なデータにアクセスして引き出すことができます。

これは、まだわからない場合はXSLT/XQueryを学習することを意味するかもしれませんが、（スクレーピングツールとは異なり）、1つの有用なアプリケーションではなく複数のスキルを学習することになります。

ライセンス： CC-BY-SA と帰属

所属していません datascience.stackexchange