抽出情報をウェブサイトからの

質問

いうわけではありませんのサイト公開データとなっており、その他のXMLフィード、Apiなど

どのようにしたら良いですか行き情報を抽出のウェブサイトからの?例えば:

...
<div>
  <div>
    <span id="important-data">information here</span>
  </div>
</div>
...

によってさらにその背景には、JavaプログラミングやコーディングApache XMLBeans.あなたが同様の解析をHTML、ピックアップしました。構造のデータが既知のタグとの組み合わせ?

感謝

解決

Java用のオープンソースHTMLパーサーがいくつかあります。

過去に JTidy を使用したことがありますが、これは幸運です。 htmlページのDOMが提供され、そこから必要なタグを取得できるはずです。

他のヒント

ここに記事があります Javaで書かれたいくつかの画面スクレイピングツール。

一般的に、正規表現を見てみたいと思われます。探しているパターンマッチング。

役立つことを願っています！

Javaのような困難な制約等の課題です。とく制限はありますか？スクリプト言語には最適のビルに本当に多くのマイルのコードです。

だが開かれるので、ruby+ hpricot と、その完全るようにします。できるcssを利用またはxpathセレクタ(または両方)を見(操作)のコンテンツのHTML.掴み、文書の構文解析し、抽出のためのテキストに例は、文字通り一コンポーネントです。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow