抽出情報をウェブサイトからの
-
11-07-2019 - |
質問
いうわけではありませんのサイト公開データとなっており、その他のXMLフィード、Apiなど
どのようにしたら良いですか行き情報を抽出のウェブサイトからの?例えば:
...
<div>
<div>
<span id="important-data">information here</span>
</div>
</div>
...
によってさらにその背景には、JavaプログラミングやコーディングApache XMLBeans.あなたが同様の解析をHTML、ピックアップしました。構造のデータが既知のタグとの組み合わせ?
感謝
解決
Java用のオープンソースHTMLパーサーがいくつかあります。
過去に JTidy を使用したことがありますが、これは幸運です。 htmlページのDOMが提供され、そこから必要なタグを取得できるはずです。
他のヒント
Javaのような困難な制約等の課題です。とく制限はありますか?スクリプト言語には最適のビルに本当に多くのマイルのコードです。
だが開かれるので、ruby+ hpricot と、その完全るようにします。できるcssを利用またはxpathセレクタ(または両方)を見(操作)のコンテンツのHTML.掴み、文書の構文解析し、抽出のためのテキストに例は、文字通り一コンポーネントです。
所属していません StackOverflow