AndroidでのHTML解析

https://stackoverflow.com/questions/4831513

27-10-2019
|

質問

私はHTMLを解析する方法を学ぼうとしていますが、JavaまたはAndroidのどちらでもあまり経験がないので、それは少し複雑です。 IBM XML解析チュートリアルを読み、RSSフィードを解析することを学びました。私の問題は、HTMLサイトからデータを取得したいということです。 HTML Cleaner、JSONなどに関する情報を読んだことがありますが、私を助けるための良いチュートリアルを見つけることができません。役立つかもしれないチュートリアルはありますか？

ありがとう。

解決

次のHTMLパーサーをご覧ください。そこにはもっとあります。多分あなたのために働くでしょう：

htmlcleaner：http://htmlcleaner.sourceforge.net/
TagSoup：http://ccil.org/~cowan/xml/tagsoup/
ジェリコ：http://jericho.htmlparser.net/docs/index.html

他のヒント

IMO HTMLを解析する2つの簡単な方法があります。

ライブラリ（htmltidyなど）を使用してHMLをXML（XHTML）に変換し、XMLパーサーを使用します
既存のHTMLパーサー（例：WebKit、Forfox、および/またはIEなどの標準Webブラウザー）を使用して、解析されたHTMLの多かれ少なかれAPIに優しい表現である「dom」を読み取ります

あるいは、あなたがあなた自身のパーサーを書きたいなら（宿題のためにあなたがすべきであるとは思わない：それを適切に/完全に実装するのは長くて複雑だろう）、 HTMLを解析するための仕様.

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow