るHTMLパーサが最良でしょうか。[定休日]

https://stackoverflow.com/questions/2168610

24-09-2019
|

質問

そのparsers.今まで使っていたHtmlUnitヘッドレス用のブラウザの構文解析およびブラウザを自動化を実現しております。

現在いく別のものです。

として80%のが私の仕事だけで、解析に利用したい光のHTMLパーサで時間がかかるHtmlUnitる初のローページのソースとして構文解析します。

いるHTMLパーサは最高です。パーサはこのあHtmlUnitパーサです。

編集：

より良い少なくとも以下の特徴:

速度
容易に検索他のHtmlElementの"id"または"名前"または"タグタイプ"。

でも大丈夫っていることを確認してくださいクリーンに汚れたHTMLコードです。かなクリーンHTMLソースです。私を必要とする動HtmlElements、収穫からのデータです。

解決

セルフプラグ： jsoup に：私はちょうどHTMLパーサ新しいJavaをリリースしています。私はそれはあなたが後にしている何をすると思うので、私はそれをここに言及しています。

そのパーティのトリックは要素、例えばを見つけるためにCSSセレクタの構文は次のとおりです。

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);
Elements links = doc.select("a");
Element head = doc.select("head").first();

詳細はセレクタのJavadocを参照してください。

この新しいプロジェクトなので、改善のための任意のアイデアは、

！非常に歓迎されています

他のヒント

私がこれまで見た中で最高である HtmlCleanerするます：

HtmlCleanerは、Javaで書かれたオープンソースのHTMLパーサです。 HTMLは病気に形成され、さらなる処理には不向き、通常は汚れているWeb上で見つけました。このような文書の任意の深刻な消費のために、最初の混乱を一掃し、タグに秩序をもたらすことが必要である属性、および通常のテキスト。与えられたHTMLドキュメントの場合は、HtmlCleanerは、個々の要素を並べ替えし、整形式XMLを生成します。デフォルトでは、Webブラウザのほとんどは、ドキュメントオブジェクトモデルを作成するために使用することと同様のルールに従います。ただし、ユーザーがタグはフィルタリングし、バランスをとるためのカスタムタグとルールセットを提供することができる。

HtmlCleanerを使用すると、XPathを使って任意の要素を見つけることができます。

他のHTMLパーサは、このSOの質問をhref="https://stackoverflow.com/questions/2129375/html-xml-parser-for-java">

私は、HTML5の構文解析アルゴリズムに基づいて、 Validator.nuのパーサを示唆しています。は2010-05-03 の

からMozillaで使用されるパーサーであります

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow