JavaからHTMLを検証する方法は?
-
10-10-2019 - |
質問
JavaからHTMLを検証する高速で簡単な方法は何ですか?次のような100-ODD HTMLタグのさまざまなプロパティを説明するオープンソース/PDクラス(またはクラスのセット)を探しています。
- タグはオプションですか?空?クロージングタグを省略することは合法ですか?
- このタグには(もしあれば)他のどのタグを含めることができますか?
- このタグの合法であり、それらのタイプは何ですか? (必須ではありませんが、持っていてうれしいです)
ありがとう!
編集
HTMLドキュメントのタグごとの分析を検討しているため、ドキュメント全体が有効かどうかにはあまり興味がありませんが、各タイプのタグについて特定の要件が何であるかです。 W3C仕様に基づいてルールをエンコードできましたが、最初にどの既製のソリューションが利用可能かを確認したかったのです。
解決
特定のタグを確認する場合、特定の仕様に従って、JavaベースのHTMLパーサーの終わりはないようです。
言い換えれば、HTMLを解析してから、探していたタグの結果のドキュメントを検査し、必要な仕様を満たしているかどうかを判断することができます。彼らがそうしないなら、あなたはただエラーを投げることができます。
主にそれらの要件が発言されておらず、おそらく少し曖昧なため、要件を正確に念頭に置いて記述されたHTML分析ツールを見つけるとは思いません。
パーサーが箱から出してやりたいことをしない場合、少なくともこのリストはオープンソースであるため、変更を公開する限りパーサーをハッキングできます。
他のヒント
jtidyを確認してください(http://jtidy.sourceforge.net/)およびvietspider htmlparser( http://sourceforge.net/projects/binhgiang/ )どちらもJava HTMLパーサーといくつかの構文チェック機能です。一部の日食ベースのHTMLエディタープラグインは、構文チェックにJTidy(またはTidyポート)を使用しています。またはとして デビッドは言った, 、ページをw3c.orgに送信します