構造化されていないデータ用のWebスクレイピングツールを探しています[閉じた

datascience.stackexchange https://datascience.stackexchange.com/questions/1007

  •  16-10-2019
  •  | 
  •  

質問

ウェブサイトからいくつかのデータをこすりたいです。私はimport.ioを使用しましたが、それでもあまり満足していません..誰もそれについて提案できますか.. Webから非構造化されたデータを取得するための最良のツールは何ですか

役に立ちましたか?

解決

BeautifulSoupを試してみてください - http://www.crummy.com/software/beautifulsoup/

Webサイト「Beautiful Soupは、スクリーンスクレープなどの迅速なターンアラウンドプロジェクト用に設計されたPythonライブラリです。」私はそれを個人的に使用していませんが、それはしばしばスクレイピングのための素敵なライブラリに関して出てきます。これがそれを使用してcraigslistをスクレイプするためのブログ投稿です http://www.gregreda.com/2014/07/27/scraping-craigslist-fortickets/

他のヒント

プログラミング中の言語については言及していません(タグとして追加することを検討してください)。そのため、一般的なヘルプは、HTMLパーサーを探して、それを使用してデータをプルすることです。一部のWebサイトでは、単にひどいHTMLコードを持つことができ、こすり落とすのが非常に難しい場合があります。

HTMLパーサーは、すべてのHTMLを解析し、それが配列、オブジェクトなどからのものであろうと、構造化された方法でアクセスできるようにします。

一緒にルビー ノコギリ XPathおよびCSSセレクターを介してHTMLおよびXMLドキュメントにアクセスできます。がここにあります チュートリアル.

あなたはあなたがそれを使うことをお勧めしません。

HTMLをよく形成されたXML(XHTML)に変換します-TagSoupをお勧めします。

それを完了したら、データは別のXMLフィードであり、XSLT変換(またはXQuery)を記述して、必要な形式で必要なデータにアクセスして引き出すことができます。

これは、まだわからない場合はXSLT/XQueryを学習することを意味するかもしれませんが、(スクレーピングツールとは異なり)、1つの有用なアプリケーションではなく複数のスキルを学習することになります。

ライセンス: CC-BY-SA帰属
所属していません datascience.stackexchange
scroll top