良いウ

https://stackoverflow.com/questions/67056

09-06-2019
|

質問

皆さんからのデータからの異なるウェブページなどのアドレスのレストランは日のイベントの指定された場所です。何が最図書館が使用できますの抽出のためのデータから与えられたのか。

解決

を使用する場合はpython、ゆっくりと燃え続ける和ろうそくで美しいスープ（http://crummy.com/software/BeautifulSoup).

非常にできる図書館、削したりする方におすすめです。

他のヒント

HTMLのアジリティパックします。純programersなどがあります。でウェブページをXML docsできる照会されるとのXPath.

HtmlDocument doc = new HtmlDocument();
doc.Load("file.htm");
foreach(HtmlNode link in doc.DocumentElement.SelectNodes("//a@href")
{
HtmlAttribute att = link"href";
att.Value = FixLink(att);
}
doc.Save("file.htm");

きます。 http://www.codeplex.com/htmlagilitypack

私の答えはこちらを使用言語+http図書館+html/xpathパーサです。その利用ruby+hpricotを与えても清潔なソリューション:

require 'rubygems'
require 'hpricot'
require 'open-uri'

sites = %w(http://www.google.com http://www.stackoverflow.com)

sites.each do |site|
  doc = Hpricot(open(site))

  # iterate over each div in the document (or use xpath to grab whatever you want)
  (doc/"div").each do |div|
    # do something with divs here
  end
end

詳Hpricot見 http://code.whytheluckystiff.net/hpricot/

私個人的には WWW::機械化 Perlモジュールはこれらの事ができます。するオブジェクトのモデルの代表的なwebブラウザ（ることができるようリンクに必要事項を記入の上、形態、または、"戻る"ボタン"によるメソッドを呼び出すたびにめくりと操作上の違いがござい.

の抽出の実際のコンテンツ、そしてフックまでとなっており HTML::TreeBuilder 変換のサイトだけを訪問し、木の HTML::素子物エキスをしたいデータの look_down() 方法 HTML::Element 特に有).

と思いwatir又はセレンの最高の選択肢です。のその他記載されているライブラリを実際にHTMLパーサは、だいたい---ま掻きれば、本ウェブサイトの所有者たま彼のデータはただけのダンプのデータベースまたはサイト上の激流はhttp要求の高ます。

基本的には必要な構文解析HTMLよりも重要なのは自動化します。この点を移動させることができること、マウスをクリックし、基本的には本当に模倣できるものとし、ユーザー利用する必要がありscreencaptureプログラムのcaptchasに送るdecaptcha.com (その解決のために満たな％）を回避す。忘れの節約についてその画像認証ファイルの構文解析することによって、htmlのなレンダリングでブラウザ"をそれが'.まscreenscrapingはhttprequestscraping.

watirかったのか私にとってと組み合わせautoitx(移動してマウスを入力するキー分野>がこのnecessery設定のjavascriptのイベントや簡単な画面キャプチャ用のための画像認証です。この方法を使用するときsuccesfullでは全く役に立たなくな書面に大htmlパーサですぐの所有者のサイトが文字の一部へのグラフィー。(が問題か--ちなみに、getト図書館、飼料、jpeg、テキストを返す。もう他に類を見ないほど見たことがうかが、中国のサイトがいっぱいのテキストグラフィー。

Xpathを保存して一日の時間までのドメイン固有言語(まぁ、私が悪い）から任意のタグのページでは、時に必要なものに戻します。

かかったので見逃したの逆のテンプレート、ロボットの枠組みのセレンがあります。PerlこのCPANモジュールテンプレート::エキス、非常に便利です。

Htmlの解析や、DOMうにブラウザでありないとして、そんな場面で大活躍しています。

またライブラリなUseragentsは無用、サイトに対する保護を掻き現在では、描画をサイト上からリアルタイムに把握画面がしばしばnecessery得を超えて"との、javascriptのイベントが必要なきっかけとなる情報を表示など。

Watirさまざまな職種でさまざまなルビー、セレンの思言うまでもない。のヒエミュレータ(またはWebエミュレータとロシアは本当にこのようなげと、それがロシアから製品の会社の出ない秘密の意図があるように思う。

るのかもこの数週間Wileyの新刊が出削り、これ面白いです。がんばって......

個人的に見 http://github.com/shuber/curl/tree/master や http://simplehtmldom.sourceforge.net/ コンドミニアの自分のPHP spidering/掻きます。

Perl WWW::機械化図書館に優れているような、ロバの交流のためのウェブサイトを取得します。

混雑して待たされることLWP(LibwwwのためのPerl).こちらも少しガイド: http://www.perl.com/pub/a/2002/08/20/perlandlwp.html

WWW::スクレーパーはdocsはこちら http://cpan.uwinnipeg.ca/htdocs/Scraper/WWW/Scraper.html 実際に研究を進めてきたベースとして、いったい自分でモジュールに最適なレストラン鉱山です。

LWPてください基本的なクローラーのために構築できます。

において回答数推薦Perlの機械化がると思いルビー機械化(非常に似てPerlのバージョン)がある場合があるとなお良い。取り扱いの一部のような形態がもたらすクリーナー way構文上.また、いくつかの図式に基づ走 トップ Rubyの機械化するものもあります。

どの言語を使用したいと思いますか?

カールとawkができます。

利用できる整理整頓に変換すXHTMLしいXML処理施設の言語の選択が可能です。

されています。 BeautifulSoup.なので最速で行うものについてはwellformednessの(X)HTMLページをパーサにチョークです。

うる、と誰かが言いました。

利用使用言語を問いません。

どんなに良いパーサの図書館http図書館は、設定を行います。

ツリーのものが遅くなり、単にそれを用い解析図書館があります。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow